System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲av日韩aⅴ无码色老头,久久AV无码精品人妻糸列,无码国内精品人妻少妇
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種熱點事件挖掘方法及系統技術方案

    技術編號:44031176 閱讀:22 留言:0更新日期:2025-01-15 01:11
    本發明專利技術提出了一種熱點事件挖掘方法及系統,涉及自然語言處理技術領域,包括:獲取包括多條新聞的新聞網站數據,對每條新聞的新聞標題進行向量化,得到標題向量;基于標題向量,通過聚類方法,將新聞網站數據的所有新聞分為多個簇;根據新聞內容,對每個簇內的新聞進行重要性評估,進而從每個簇中選取一條最重要的新聞標題,并從最重要的新聞標題中抽取新聞主干,組成候選事件列表;將簇內新聞數量作為事件的熱度,對候選事件列表中的事件進行排序,從而篩選出最終的熱點事件;本發明專利技術基于關鍵詞的詞頻?逆向文件頻率進行候選事件的選取,而且通過抽取新聞主干的方式,簡潔聚焦新聞標題中的信息,從而提高熱點事件挖掘的準確性和魯棒性。

    【技術實現步驟摘要】

    本專利技術屬于自然語言處理,尤其涉及一種熱點事件挖掘方法及系統


    技術介紹

    1、本部分的陳述僅僅是提供了與本專利技術相關的
    技術介紹
    信息,不必然構成在先技術。

    2、隨著信息時代的到來,需要處理的信息量呈現幾何級別的增長,人們對于熱點事件的關注程度與日俱增,同時信息量的增大也致使發現熱點事件的難度相應增加。

    3、相關技術中,熱點事件挖掘的主流方法是基于聚類算法,比如,以天為單位,對每天的語料進行向量化,然后通過聚類方法得到候選事件列表,然后利用熱度等方式對候選事件進行過濾和排序,得到最終的熱點事件;在這個過程中,存在兩個問題:1)事件列表的構建,通常是通過簇內距離選定的,沒有考慮熱點事件挖掘場景中字詞出現的次數、頻率對結果的影響,導致候選事件的選取不準確;2)最終結果是以原始的新聞標題展示的,導致提取的熱點事件不簡潔、不聚焦,對熱點事件的刻畫不準確;因此,現有的熱點事件挖掘方法準確度和魯棒性不夠。


    技術實現思路

    1、為克服上述現有技術的不足,本專利技術提供了一種熱點事件挖掘方法及系統,基于關鍵詞的詞頻-逆向文件頻率進行候選事件的選取,而且通過抽取新聞主干的方式,簡潔聚焦新聞標題中的信息,從而提高熱點事件挖掘的準確性和魯棒性。

    2、為實現上述目的,本專利技術的一個或多個實施例提供了如下技術方案:

    3、本專利技術第一方面提供了一種熱點事件挖掘方法。

    4、一種熱點事件挖掘方法,包括:

    5、獲取包括多條新聞的新聞網站數據,每條新聞由新聞標題和新聞內容組成;

    6、對每條新聞的新聞標題進行向量化,得到標題向量;

    7、基于標題向量,通過聚類方法,將新聞網站數據的所有新聞分為多個簇;

    8、根據新聞內容,對每個簇內的新聞進行重要性評估,進而從每個簇中選取一條最重要的新聞標題,并從最重要的新聞標題中抽取新聞主干,組成候選事件列表;

    9、將簇內新聞數量作為事件的熱度,對候選事件列表中的事件進行排序,從而篩選出最終的熱點事件;

    10、其中,所述重要性評估是從新聞內容中提取關鍵詞,基于關鍵詞的詞頻-逆向文件頻率進行新聞的重要性評估。

    11、進一步的,所述新聞網站數據的獲取,是收集新聞門戶網站,爬取新聞門戶網站上的新聞,組成新聞網站數據。

    12、進一步的,所述向量化,采用sentence-bert對新聞標題進行向量化。

    13、進一步的,所述聚類方法,采用singlepass聚類方法對標題向量進行聚類。

    14、進一步的,所述從新聞內容中提取關鍵詞,是使用uie從新聞內容中提取關鍵詞,包括新聞人物、機構、地點、事件。

    15、進一步的,所述關鍵詞的詞頻-逆向文件頻率,是通過tf-idf,計算關鍵詞的詞頻-逆向文件頻率。

    16、進一步的,所述抽取新聞主干,是通過句法分析,從新聞標題中抽取主謂賓三元組,合并三元組作為新聞主干。

    17、本專利技術第二方面提供了一種熱點事件挖掘系統。

    18、一種熱點事件挖掘系統,包括:

    19、獲取模塊,被配置為:獲取包括多條新聞的新聞網站數據,每條新聞由新聞標題和新聞內容組成;

    20、向量化模塊,被配置為:對每條新聞的新聞標題進行向量化,得到標題向量;

    21、聚類模塊,被配置為:基于標題向量,通過聚類方法,將新聞網站數據的所有新聞分為多個簇;

    22、選取模塊,被配置為:根據新聞內容,對每個簇內的新聞進行重要性評估,進而從每個簇中選取一條最重要的新聞標題,并從最重要的新聞標題中抽取新聞主干,組成候選事件列表;

    23、排序模塊,被配置為:將簇內新聞數量作為事件的熱度,對候選事件列表中的事件進行排序,從而篩選出最終的熱點事件;

    24、其中,所述重要性評估是從新聞內容中提取關鍵詞,基于關鍵詞的詞頻-逆向文件頻率進行新聞的重要性評估。

    25、本專利技術第三方面提供了計算機可讀存儲介質,其上存儲有程序,該程序被處理器執行時實現如本專利技術第一方面所述的一種熱點事件挖掘方法中的步驟。

    26、本專利技術第四方面提供了電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執行所述程序時實現如本專利技術第一方面所述的一種熱點事件挖掘方法中的步驟。

    27、以上一個或多個技術方案存在以下有益效果:

    28、本專利技術對新聞標題進行向量化后,對新聞標題進行聚類,能夠有效地將同一事件的新聞內容進行歸納;對新聞進行關鍵詞提取,計算詞頻-逆向文件頻率對關鍵詞進行重要性評估,作為選擇事件的依據,能夠確保事件的正確選取,提高算法的容錯;最后,利用提取句子的主干信息,使新聞熱點事件更加簡潔和準確。

    29、本專利技術附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。

    本文檔來自技高網...

    【技術保護點】

    1.一種熱點事件挖掘方法,其特征在于,包括:

    2.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述新聞網站數據的獲取,是收集新聞門戶網站,爬取新聞門戶網站上的新聞,組成新聞網站數據。

    3.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述向量化,采用Sentence-bert對新聞標題進行向量化。

    4.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述聚類方法,采用Singlepass聚類方法對標題向量進行聚類。

    5.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述從新聞內容中提取關鍵詞,是使用UIE從新聞內容中提取關鍵詞,包括新聞人物、機構、地點、事件。

    6.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述關鍵詞的詞頻-逆向文件頻率,是通過TF-IDF,計算關鍵詞的詞頻-逆向文件頻率。

    7.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述抽取新聞主干,是通過句法分析,從新聞標題中抽取主謂賓三元組,合并三元組作為新聞主干。

    8.一種熱點事件挖掘系統,其特征在于,包括:

    9.一種電子設備,其特征是,包括:

    10.一種存儲介質,其特征是,非暫時性地存儲計算機可讀指令,其中,當所述計算機可讀指令由計算機執行時,執行權利要求1-7任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種熱點事件挖掘方法,其特征在于,包括:

    2.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述新聞網站數據的獲取,是收集新聞門戶網站,爬取新聞門戶網站上的新聞,組成新聞網站數據。

    3.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述向量化,采用sentence-bert對新聞標題進行向量化。

    4.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述聚類方法,采用singlepass聚類方法對標題向量進行聚類。

    5.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述從新聞內容中提取關鍵詞,是使用uie從新聞內容中提取關鍵詞...

    【專利技術屬性】
    技術研發人員:崔兆偉彭元龍胡威袁洲李曉勐苗功勛盧騰李清波張大偉魏家輝林冰潔夏昂王子萌李慧敏劉孟奇石進李成巍劉俊文閆珺路曹耀夫趙景程李鳳來
    申請(專利權)人:國家電網有限公司信息通信分公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码精品视频一区二区三区 | 国产av无码专区亚洲av桃花庵| 毛片一区二区三区无码| 午夜成人无码福利免费视频| 无码专区久久综合久中文字幕 | 中文字幕无码一区二区三区本日 | 久久久g0g0午夜无码精品| 国产精品爆乳奶水无码视频| 日韩人妻无码精品久久免费一| 伊人久久大香线蕉无码麻豆| 中文字幕av无码一二三区电影| 亚洲中文字幕无码永久在线| 一级片无码中文字幕乱伦| 亚洲AV无码一区二区三区牲色 | 少妇无码太爽了不卡视频在线看| 人妻丰满熟妇岳AV无码区HD| 日韩成人无码中文字幕| 久久亚洲精品无码网站| 亚洲精品久久久久无码AV片软件| 亚洲AV无码一区二区乱孑伦AS| 人妻老妇乱子伦精品无码专区| 日本无码一区二区三区白峰美| 亚洲AV无码成人专区| 亚洲AV色吊丝无码| 精品高潮呻吟99av无码视频| 日韩人妻无码中文字幕视频 | 色综合AV综合无码综合网站| 中文无码熟妇人妻AV在线 | 亚洲国产成人无码av在线播放| 一本一道AV无码中文字幕| 国产亚洲美日韩AV中文字幕无码成人| 岛国av无码免费无禁网站| 国产品无码一区二区三区在线 | 亚洲一区无码中文字幕| 国产成年无码AV片在线韩国| 国产成人AV无码精品| 丝袜无码一区二区三区| 中文无码成人免费视频在线观看| 亚洲中文久久精品无码| 无码国产精品一区二区免费式芒果 | 好了av第四综合无码久久|