System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理,尤其涉及一種文本聚類方法、裝置、電子設備和存儲介質。
技術介紹
1、文本聚類是自然語言處理領域的一個重要任務,其主要目的是將相似的文本歸類到同一類中,以便于信息組織、管理和檢索。而且在一些特定領域內,需要根據文本字面相似性進行文本聚類。
2、現有的文本聚類方法主要是通過將文本轉換成向量表示,再結合k-means,層次聚類等方法進行聚類。然而向量表示在捕捉語義相似性方面效果顯著,但對于字面相似性的判斷卻不夠準確;傳統的聚類方法在處理大規模文本數據時,計算成本高,效率低,難以滿足實時性要求。
技術實現思路
1、本專利技術提供一種文本聚類方法、裝置、電子設備和存儲介質,用以解決現有技術中通過將文本轉換成向量表示,再結合k-means,層次聚類等方法進行聚類,對于字面相似性的判斷不夠準確,在處理大規模文本數據時,計算成本高,效率低,難以滿足實時性要求的缺陷。
2、第一方面,本專利技術提供一種文本聚類方法,包括:
3、獲取待聚類的文本數據集,構建所述文本數據集的局部敏感哈希lsh索引;
4、利用所述lsh索引,在所述文本數據集中檢索與所述文本數據集的每一文本相似的文本,得到所述每一文本對應的多個相似文本;
5、計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,對所述每一文本對應的多個相似文本進行篩選,得到所述每一文本對應的候選文本數據集;
6、以所述候選文本數據集中的各文本為節點,
7、采用圖模型算法從所述圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇。
8、在一些實施例中,所述計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,包括:
9、計算所述每一文本對應的多個相似文本與所述每一文本的編輯距離;
10、基于所述每一文本對應的多個相似文本與所述每一文本的編輯距離,以及所述每一文本的長度,得到所述每一文本對應的多個相似文本與所述每一文本的歸一化的文本差異度。
11、在一些實施例中,所述對所述每一文本對應的多個相似文本進行篩選,包括
12、判斷所述每一文本對應的每一相似文本與所述每一文本的文本差異度是否小于預設文本差異度閾值,若是,則將所述每一文本對應的每一相似文本添加至所述每一文本對應的候選文本數據集中。
13、在一些實施例中,采用圖模型算法從所述圖模型中確定多個極大聯通子圖,包括:
14、采用圖模型算法遍歷所述圖模型;
15、從所述圖模型中找出多個極大聯通子圖。
16、在一些實施例中,所述采用圖模型算法從所述圖模型中確定多個極大聯通子圖之后,還包括:
17、將所述圖模型中未加入任一極大聯通子圖的節點劃分為一個聚類簇。
18、在一些實施例中,所述以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型,包括:
19、以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集,得到多個相似文本對,創建對應的邊連接每一相似文本對對應的兩個節點,構建圖模型;
20、根據所述每一相似文本對的文本差異度,確定所述每一相似文本對對應的邊的權重。
21、在一些實施例中,所述構建所述文本數據集的局部敏感哈希lsh索引,包括:
22、利用哈希函數計算所述文本數據集的每一文本的哈希值;
23、基于所述每一文本的哈希值,生成對應的哈希表;
24、基于所述哈希表,構建所述lsh索引。
25、第二方面,本專利技術還提供一種文本聚類裝置,包括:
26、第一構建單元,用于獲取待聚類的文本數據集,構建所述文本數據集的局部敏感哈希lsh索引;
27、檢索單元,用于利用所述lsh索引,在所述文本數據集中檢索與所述文本數據集的每一文本相似的文本,得到所述每一文本對應的多個相似文本;
28、篩選單元,用于計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,對所述每一文本對應的多個相似文本進行篩選,得到所述每一文本對應的候選文本數據集;
29、第二構建單元,以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型;
30、第一聚類單元,用于采用圖模型算法從所述圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇。
31、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述文本聚類方法。
32、第四方面,本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述文本聚類方法。
33、本專利技術提供的文本聚類方法、裝置、電子設備和存儲介質,通過構建文本數據集的lsh索引,利用lsh索引,在文本數據集中檢索,得到每一文本對應的多個相似文本,基于文本差異度對每一文本對應的多個相似文本進行篩選,得到每一文本對應的候選文本數據集,以候選文本數據集中的各文本為節點,根據每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型,采用圖模型算法從圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇,能夠準確地對字面相似性高的文本進行聚類,適用于對大規模文本數據進行聚類,降低了計算成本,提高了聚類的效率和實時性。
本文檔來自技高網...【技術保護點】
1.一種文本聚類方法,其特征在于,包括:
2.根據權利要求1所述的文本聚類方法,其特征在于,所述計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,包括:
3.根據權利要求1所述的文本聚類方法,其特征在于,所述對所述每一文本對應的多個相似文本進行篩選,包括
4.根據權利要求1所述的文本聚類方法,其特征在于,采用圖模型算法從所述圖模型中確定多個極大聯通子圖,包括:
5.根據權利要求1所述的文本聚類方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個極大聯通子圖之后,還包括:
6.根據權利要求1所述的文本聚類方法,其特征在于,所述以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型,包括:
7.根據權利要求2-6任一項所述的文本聚類方法,其特征在于,所述構建所述文本數據集的局部敏感哈希LSH索引,包括:
8.一種文本聚類裝置,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述文本聚類方法。
...【技術特征摘要】
1.一種文本聚類方法,其特征在于,包括:
2.根據權利要求1所述的文本聚類方法,其特征在于,所述計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,包括:
3.根據權利要求1所述的文本聚類方法,其特征在于,所述對所述每一文本對應的多個相似文本進行篩選,包括
4.根據權利要求1所述的文本聚類方法,其特征在于,采用圖模型算法從所述圖模型中確定多個極大聯通子圖,包括:
5.根據權利要求1所述的文本聚類方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個極大聯通子圖之后,還包括:
6.根據權利要求1所述的文本聚類方法,其特征在于,所述以所述候選文本數據集...
【專利技術屬性】
技術研發人員:鄧喬波,
申請(專利權)人:語聯網武漢信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。