System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于自然語言處理,尤其涉及一種熱點事件挖掘方法及系統。
技術介紹
1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
信息,不必然構成在先技術。
2、隨著信息時代的到來,需要處理的信息量呈現幾何級別的增長,人們對于熱點事件的關注程度與日俱增,同時信息量的增大也致使發現熱點事件的難度相應增加。
3、相關技術中,熱點事件挖掘的主流方法是基于聚類算法,比如,以天為單位,對每天的語料進行向量化,然后通過聚類方法得到候選事件列表,然后利用熱度等方式對候選事件進行過濾和排序,得到最終的熱點事件;在這個過程中,存在兩個問題:1)事件列表的構建,通常是通過簇內距離選定的,沒有考慮熱點事件挖掘場景中字詞出現的次數、頻率對結果的影響,導致候選事件的選取不準確;2)最終結果是以原始的新聞標題展示的,導致提取的熱點事件不簡潔、不聚焦,對熱點事件的刻畫不準確;因此,現有的熱點事件挖掘方法準確度和魯棒性不夠。
技術實現思路
1、為克服上述現有技術的不足,本專利技術提供了一種熱點事件挖掘方法及系統,基于關鍵詞的詞頻-逆向文件頻率進行候選事件的選取,而且通過抽取新聞主干的方式,簡潔聚焦新聞標題中的信息,從而提高熱點事件挖掘的準確性和魯棒性。
2、為實現上述目的,本專利技術的一個或多個實施例提供了如下技術方案:
3、本專利技術第一方面提供了一種熱點事件挖掘方法。
4、一種熱點事件挖掘方法,包括:
5、獲取包括多條新聞的新聞網站數據,
6、對每條新聞的新聞標題進行向量化,得到標題向量;
7、基于標題向量,通過聚類方法,將新聞網站數據的所有新聞分為多個簇;
8、根據新聞內容,對每個簇內的新聞進行重要性評估,進而從每個簇中選取一條最重要的新聞標題,并從最重要的新聞標題中抽取新聞主干,組成候選事件列表;
9、將簇內新聞數量作為事件的熱度,對候選事件列表中的事件進行排序,從而篩選出最終的熱點事件;
10、其中,所述重要性評估是從新聞內容中提取關鍵詞,基于關鍵詞的詞頻-逆向文件頻率進行新聞的重要性評估。
11、進一步的,所述新聞網站數據的獲取,是收集新聞門戶網站,爬取新聞門戶網站上的新聞,組成新聞網站數據。
12、進一步的,所述向量化,采用sentence-bert對新聞標題進行向量化。
13、進一步的,所述聚類方法,采用singlepass聚類方法對標題向量進行聚類。
14、進一步的,所述從新聞內容中提取關鍵詞,是使用uie從新聞內容中提取關鍵詞,包括新聞人物、機構、地點、事件。
15、進一步的,所述關鍵詞的詞頻-逆向文件頻率,是通過tf-idf,計算關鍵詞的詞頻-逆向文件頻率。
16、進一步的,所述抽取新聞主干,是通過句法分析,從新聞標題中抽取主謂賓三元組,合并三元組作為新聞主干。
17、本專利技術第二方面提供了一種熱點事件挖掘系統。
18、一種熱點事件挖掘系統,包括:
19、獲取模塊,被配置為:獲取包括多條新聞的新聞網站數據,每條新聞由新聞標題和新聞內容組成;
20、向量化模塊,被配置為:對每條新聞的新聞標題進行向量化,得到標題向量;
21、聚類模塊,被配置為:基于標題向量,通過聚類方法,將新聞網站數據的所有新聞分為多個簇;
22、選取模塊,被配置為:根據新聞內容,對每個簇內的新聞進行重要性評估,進而從每個簇中選取一條最重要的新聞標題,并從最重要的新聞標題中抽取新聞主干,組成候選事件列表;
23、排序模塊,被配置為:將簇內新聞數量作為事件的熱度,對候選事件列表中的事件進行排序,從而篩選出最終的熱點事件;
24、其中,所述重要性評估是從新聞內容中提取關鍵詞,基于關鍵詞的詞頻-逆向文件頻率進行新聞的重要性評估。
25、本專利技術第三方面提供了計算機可讀存儲介質,其上存儲有程序,該程序被處理器執行時實現如本專利技術第一方面所述的一種熱點事件挖掘方法中的步驟。
26、本專利技術第四方面提供了電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執行所述程序時實現如本專利技術第一方面所述的一種熱點事件挖掘方法中的步驟。
27、以上一個或多個技術方案存在以下有益效果:
28、本專利技術對新聞標題進行向量化后,對新聞標題進行聚類,能夠有效地將同一事件的新聞內容進行歸納;對新聞進行關鍵詞提取,計算詞頻-逆向文件頻率對關鍵詞進行重要性評估,作為選擇事件的依據,能夠確保事件的正確選取,提高算法的容錯;最后,利用提取句子的主干信息,使新聞熱點事件更加簡潔和準確。
29、本專利技術附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。
本文檔來自技高網...【技術保護點】
1.一種熱點事件挖掘方法,其特征在于,包括:
2.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述新聞網站數據的獲取,是收集新聞門戶網站,爬取新聞門戶網站上的新聞,組成新聞網站數據。
3.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述向量化,采用Sentence-bert對新聞標題進行向量化。
4.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述聚類方法,采用Singlepass聚類方法對標題向量進行聚類。
5.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述從新聞內容中提取關鍵詞,是使用UIE從新聞內容中提取關鍵詞,包括新聞人物、機構、地點、事件。
6.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述關鍵詞的詞頻-逆向文件頻率,是通過TF-IDF,計算關鍵詞的詞頻-逆向文件頻率。
7.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述抽取新聞主干,是通過句法分析,從新聞標題中抽取主謂賓三元組,合并三元組作為新聞主干。
8.一種熱點事件挖掘系統,其特
9.一種電子設備,其特征是,包括:
10.一種存儲介質,其特征是,非暫時性地存儲計算機可讀指令,其中,當所述計算機可讀指令由計算機執行時,執行權利要求1-7任一項所述的方法。
...【技術特征摘要】
1.一種熱點事件挖掘方法,其特征在于,包括:
2.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述新聞網站數據的獲取,是收集新聞門戶網站,爬取新聞門戶網站上的新聞,組成新聞網站數據。
3.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述向量化,采用sentence-bert對新聞標題進行向量化。
4.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述聚類方法,采用singlepass聚類方法對標題向量進行聚類。
5.如權利要求1所述的一種熱點事件挖掘方法,其特征在于,所述從新聞內容中提取關鍵詞,是使用uie從新聞內容中提取關鍵詞...
【專利技術屬性】
技術研發人員:崔兆偉,彭元龍,胡威,袁洲,李曉勐,苗功勛,盧騰,李清波,張大偉,魏家輝,林冰潔,夏昂,王子萌,李慧敏,劉孟奇,石進,李成巍,劉俊文,閆珺路,曹耀夫,趙景程,李鳳來,
申請(專利權)人:國家電網有限公司信息通信分公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。