System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據挖掘,尤其涉及一種領域實體及其關聯項的挖掘方法及系統。
技術介紹
1、隨著互聯網的發展,產生的數據量越來越多,涉及的傳統行業也越來越廣,如何為每一個傳統行業建立自動化業務知識挖掘,對于下一步構建領域知識圖譜并建立為傳統領域服務的系統顯得比較重要。
2、目前,對于領域業務項知識挖掘,通常采用數據收集,文本聚類,無監督關鍵短語挖掘,在領域數據的基礎上構建領域相關性模型。通常的做法包括詞頻詞性挖掘、依存句法分析挖掘、crf標注與命名實體識別等方法。
3、然而,對于某些小語料或者復雜、易混淆領域進行業務項挖掘,傳統方法一方面需要大量已標記數據,需要不同程度的專業知識,耗費大量的人力物力,并且缺乏靈活性,不能很好的適應用戶需求的變化;未利用無標記的大數據,使得數據分析范圍小,對領域實體識別不完整;另一方面對于抽取的業務實體與領域的關聯性關系未做進一步衡量,導致無法刻畫出數據的內在信息,抽取出來的實體關聯性不強而不合適。
技術實現思路
1、鑒于上述的分析,本專利技術實施例旨在提供一種領域實體及其關聯項的挖掘方法及系統,用以解決現有對標注數據依賴性強且挖掘的實體準確率低的問題。
2、一方面,本專利技術實施例提供了一種領域實體及其關聯項的挖掘方法,包括以下步驟:
3、獲取目標領域的語料,預處理后得到領域文本集,從領域文本集中挖掘出實體及其關聯項,放入實體候選集合和關聯項候選集合;
4、基于實體候選集合和關聯項候選集合,將
5、計算每個檢索關鍵詞與對應的多個搜索文本之間的關聯度,以及多個搜索文本之間的聚合度;根據每個檢索關鍵詞中實體和關聯項的權重,以及對應的關聯度和聚合度,計算出每個檢索關鍵詞的置信度;
6、根據置信度大于置信度閾值的檢索關鍵詞的實體和關聯項得到領域實體集合和領域關聯項集合。
7、基于上述方法的進一步改進,計算每個檢索關鍵詞與對應的多個搜索文本之間的關聯度,包括:獲取領域文本集中每個文本的語句集合,將領域文本集中包含每個檢索關鍵詞的語句放入第一集合,將每個檢索關鍵詞對應的多個搜索文本放入第二集合,通過計算第一集合與第二集合之間的相似度作為關聯度。
8、基于上述方法的進一步改進,計算第一集合與第二集合之間的相似度是利用lda模型獲取第一集合的第一主題向量和第二集合的第二主題向量后,計算第一主題向量和第二主題向量之間的余弦相似度而得到。
9、基于上述方法的進一步改進,計算第一集合與第二集合之間的相似度是利用word2vec模型,以及第一集合的詞頻和第二集合的詞頻,分別獲取第一集合的第一句向量矩陣和第二集合的第二句向量矩陣,計算第一句向量矩陣和第二句向量矩陣之間的最大余弦相似度。
10、基于上述方法的進一步改進,第一集合的第一句向量矩陣和第二集合的第二句向量矩陣,通過以下步驟獲取:
11、獲取第一集合和第二集合中的詞匯表,利用訓練好的word2vec模型獲取每個詞的詞向量;
12、根據第一集合和第二集合中每個詞的詞頻,對第一集合和第二集合中每條語句中的詞向量進行加權平均得到每條語句的初始句向量;
13、將各語句的初始句向量作為列向量構建第一集合和第二集合的初始句矩陣,分別獲取第一集合和第二集合的初始句矩陣的第一主成分;
14、分別對第一集合和第二集合的初始句矩陣中每個初始句向量去除對應的第一主成分的投影向量后,得到第一句向量矩陣和第二句向量矩陣。
15、基于上述方法的進一步改進,多個搜索文本之間的聚合度是通過計算第二句向量矩陣的方差的倒數而得到。
16、基于上述方法的進一步改進,每個檢索關鍵詞中實體和關聯項的權重,是將每個檢索關鍵詞對應的多個搜索文本均填充至領域文本集,計算檢索關鍵詞中每個實體和關聯項在填充后的領域文本集中的tf-idf值而得到各自的權重。
17、基于上述方法的進一步改進,每個檢索關鍵詞的置信度是將每個檢索關鍵詞中實體和關聯項的權重,以及對應的關聯度和聚合度分別進行歸一化處理后分別相乘而得到。
18、基于上述方法的進一步改進,從領域文本集中挖掘出實體及其關聯項,放入實體候選集合和關聯項候選集合,包括:
19、獲取領域文本集中每個文本的語句集合,對語句集合中每條語句進行分詞和詞性標注;
20、利用無監督的知識挖掘算法獲取語句集合中的關鍵詞,將詞性為名詞的關鍵詞作為主體詞,在語句集合中通過滑動預置窗口獲取與每個主體詞在一個窗口內的其它主體詞,作為當前主體詞的關聯項;
21、刪除無關聯項的主體詞后,將剩下的主體詞作為實體,對各實體及其關聯項進行過濾后放入實體候選集合和關聯項候選集合中。
22、另一方面,本專利技術實施例提供了一種領域實體及其關聯項的挖掘系統,包括:
23、候選集合獲取模塊,用于獲取目標領域的語料,預處理后得到領域文本集,從領域文本集中挖掘出實體及其關聯項,放入實體候選集合和關聯項候選集合;
24、搜索文本提取模塊,用于基于實體候選集合和關聯項候選集合,將每個實體分別與其每個關聯項組成檢索關鍵詞,利用網絡爬蟲抓取搜索引擎的搜索結果;從搜索結果中提取出每個檢索關鍵詞對應的多個搜索文本;
25、置信度計算模塊,用于計算每個檢索關鍵詞與對應的多個搜索文本之間的關聯度,以及多個搜索文本之間的聚合度;根據每個檢索關鍵詞中實體和關聯項的權重,以及對應的關聯度和聚合度,計算出每個檢索關鍵詞的置信度;
26、領域集合獲取模塊,用于根據置信度大于置信度閾值的檢索關鍵詞的實體和關聯項得到領域實體集合和領域關聯項集合。
27、與現有技術相比,本專利技術至少可實現如下有益效果之一:利用網絡爬蟲技術挖掘互聯網上的豐富信息,覆蓋廣泛和最新的信息源,不需要大量的人工標注,節省了大量人工成本;通過分析檢索關鍵詞和搜索文本的關聯性,增強了實體的語義表達能力,使挖掘出來的實體更能體現出用戶的搜索意圖;通過計算搜索文本之間的聚合度來體現實體與領域的關聯性;最后融合關聯度、聚合度和權重這些多維度的信息來計算置信度,更準確地評估了實體的重要程度和與領域的相關程度,提高了實體挖掘的準確率。
28、本專利技術中,上述各技術方案之間還可以相互組合,以實現更多的優選組合方案。本專利技術的其他特征和優點將在隨后的說明書中闡述,并且,部分優點可從說明書中變得顯而易見,或者通過實施本專利技術而了解。本專利技術的目的和其他優點可通過說明書以及附圖中所特別指出的內容中來實現和獲得。
本文檔來自技高網...【技術保護點】
1.一種領域實體及其關聯項的挖掘方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的領域實體及其關聯項的挖掘方法,其特征在于,所述計算每個檢索關鍵詞與對應的多個搜索文本之間的關聯度,包括:獲取領域文本集中每個文本的語句集合,將領域文本集中包含每個檢索關鍵詞的語句放入第一集合,將每個檢索關鍵詞對應的多個搜索文本放入第二集合,通過計算第一集合與第二集合之間的相似度作為關聯度。
3.根據權利要求2所述的領域實體及其關聯項的挖掘方法,其特征在于,所述計算第一集合與第二集合之間的相似度是利用LDA模型獲取第一集合的第一主題向量和第二集合的第二主題向量后,計算第一主題向量和第二主題向量之間的余弦相似度而得到。
4.根據權利要求2所述的領域實體及其關聯項的挖掘方法,其特征在于,所述計算第一集合與第二集合之間的相似度是利用word2vec模型,以及第一集合的詞頻和第二集合的詞頻,分別獲取第一集合的第一句向量矩陣和第二集合的第二句向量矩陣,計算第一句向量矩陣和第二句向量矩陣之間的最大余弦相似度。
5.根據權利要求4所述的領域實體及其關聯項的挖掘
6.根據權利要求4所述的領域實體及其關聯項的挖掘方法,其特征在于,所述多個搜索文本之間的聚合度是通過計算第二句向量矩陣的方差的倒數而得到。
7.根據權利要求4所述的領域實體及其關聯項的挖掘方法,其特征在于,所述每個檢索關鍵詞中實體和關聯項的權重,是將每個檢索關鍵詞對應的多個搜索文本均填充至領域文本集,計算檢索關鍵詞中每個實體和關聯項在填充后的領域文本集中的TF-IDF值而得到各自的權重。
8.根據權利要求1所述的領域實體及其關聯項的挖掘方法,其特征在于,所述每個檢索關鍵詞的置信度是將每個檢索關鍵詞中實體和關聯項的權重,以及對應的關聯度和聚合度分別進行歸一化處理后分別相乘而得到。
9.根據權利要求1所述的領域實體及其關聯項的挖掘方法,其特征在于,從所述領域文本集中挖掘出實體及其關聯項,放入實體候選集合和關聯項候選集合,包括:
10.一種領域實體及其關聯項的挖掘系統,其特征在于,包括:
...【技術特征摘要】
1.一種領域實體及其關聯項的挖掘方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的領域實體及其關聯項的挖掘方法,其特征在于,所述計算每個檢索關鍵詞與對應的多個搜索文本之間的關聯度,包括:獲取領域文本集中每個文本的語句集合,將領域文本集中包含每個檢索關鍵詞的語句放入第一集合,將每個檢索關鍵詞對應的多個搜索文本放入第二集合,通過計算第一集合與第二集合之間的相似度作為關聯度。
3.根據權利要求2所述的領域實體及其關聯項的挖掘方法,其特征在于,所述計算第一集合與第二集合之間的相似度是利用lda模型獲取第一集合的第一主題向量和第二集合的第二主題向量后,計算第一主題向量和第二主題向量之間的余弦相似度而得到。
4.根據權利要求2所述的領域實體及其關聯項的挖掘方法,其特征在于,所述計算第一集合與第二集合之間的相似度是利用word2vec模型,以及第一集合的詞頻和第二集合的詞頻,分別獲取第一集合的第一句向量矩陣和第二集合的第二句向量矩陣,計算第一句向量矩陣和第二句向量矩陣之間的最大余弦相似度。
5.根據權利要求4所述的...
【專利技術屬性】
技術研發人員:張文泰,李東方,陳凱,劉敬偉,張詩杰,劉海波,
申請(專利權)人:北京大學第一醫院北京大學第一臨床醫學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。