System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品久久久久久无码中文野结衣,亚洲色无码专区在线观看,精品国产v无码大片在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文本聚類方法、裝置、電子設備和存儲介質制造方法及圖紙

    技術編號:43745700 閱讀:11 留言:0更新日期:2024-12-20 13:05
    本發明專利技術提供一種文本聚類方法、裝置、電子設備和存儲介質,其中方法包括:獲取待聚類的文本數據集,構建文本數據集的LSH索引;利用LSH索引,在文本數據集中檢索,得到每一文本對應的多個相似文本;計算文本差異度,對每一文本對應的多個相似文本進行篩選,得到每一文本對應的候選文本數據集;以候選文本數據集中的各文本為節點,根據每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型;采用圖模型算法從圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇。本發明專利技術能夠準確地對字面相似性高的文本進行聚類,適用于對大規模文本數據進行聚類,降低了計算成本,提高了聚類的效率和實時性。

    【技術實現步驟摘要】

    本專利技術涉及自然語言處理,尤其涉及一種文本聚類方法、裝置、電子設備和存儲介質


    技術介紹

    1、文本聚類是自然語言處理領域的一個重要任務,其主要目的是將相似的文本歸類到同一類中,以便于信息組織、管理和檢索。而且在一些特定領域內,需要根據文本字面相似性進行文本聚類。

    2、現有的文本聚類方法主要是通過將文本轉換成向量表示,再結合k-means,層次聚類等方法進行聚類。然而向量表示在捕捉語義相似性方面效果顯著,但對于字面相似性的判斷卻不夠準確;傳統的聚類方法在處理大規模文本數據時,計算成本高,效率低,難以滿足實時性要求。


    技術實現思路

    1、本專利技術提供一種文本聚類方法、裝置、電子設備和存儲介質,用以解決現有技術中通過將文本轉換成向量表示,再結合k-means,層次聚類等方法進行聚類,對于字面相似性的判斷不夠準確,在處理大規模文本數據時,計算成本高,效率低,難以滿足實時性要求的缺陷。

    2、第一方面,本專利技術提供一種文本聚類方法,包括:

    3、獲取待聚類的文本數據集,構建所述文本數據集的局部敏感哈希lsh索引;

    4、利用所述lsh索引,在所述文本數據集中檢索與所述文本數據集的每一文本相似的文本,得到所述每一文本對應的多個相似文本;

    5、計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,對所述每一文本對應的多個相似文本進行篩選,得到所述每一文本對應的候選文本數據集;

    6、以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型;

    7、采用圖模型算法從所述圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇。

    8、在一些實施例中,所述計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,包括:

    9、計算所述每一文本對應的多個相似文本與所述每一文本的編輯距離;

    10、基于所述每一文本對應的多個相似文本與所述每一文本的編輯距離,以及所述每一文本的長度,得到所述每一文本對應的多個相似文本與所述每一文本的歸一化的文本差異度。

    11、在一些實施例中,所述對所述每一文本對應的多個相似文本進行篩選,包括

    12、判斷所述每一文本對應的每一相似文本與所述每一文本的文本差異度是否小于預設文本差異度閾值,若是,則將所述每一文本對應的每一相似文本添加至所述每一文本對應的候選文本數據集中。

    13、在一些實施例中,采用圖模型算法從所述圖模型中確定多個極大聯通子圖,包括:

    14、采用圖模型算法遍歷所述圖模型;

    15、從所述圖模型中找出多個極大聯通子圖。

    16、在一些實施例中,所述采用圖模型算法從所述圖模型中確定多個極大聯通子圖之后,還包括:

    17、將所述圖模型中未加入任一極大聯通子圖的節點劃分為一個聚類簇。

    18、在一些實施例中,所述以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型,包括:

    19、以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集,得到多個相似文本對,創建對應的邊連接每一相似文本對對應的兩個節點,構建圖模型;

    20、根據所述每一相似文本對的文本差異度,確定所述每一相似文本對對應的邊的權重。

    21、在一些實施例中,所述構建所述文本數據集的局部敏感哈希lsh索引,包括:

    22、利用哈希函數計算所述文本數據集的每一文本的哈希值;

    23、基于所述每一文本的哈希值,生成對應的哈希表;

    24、基于所述哈希表,構建所述lsh索引。

    25、第二方面,本專利技術還提供一種文本聚類裝置,包括:

    26、第一構建單元,用于獲取待聚類的文本數據集,構建所述文本數據集的局部敏感哈希lsh索引;

    27、檢索單元,用于利用所述lsh索引,在所述文本數據集中檢索與所述文本數據集的每一文本相似的文本,得到所述每一文本對應的多個相似文本;

    28、篩選單元,用于計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,對所述每一文本對應的多個相似文本進行篩選,得到所述每一文本對應的候選文本數據集;

    29、第二構建單元,以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型;

    30、第一聚類單元,用于采用圖模型算法從所述圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇。

    31、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述文本聚類方法。

    32、第四方面,本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述文本聚類方法。

    33、本專利技術提供的文本聚類方法、裝置、電子設備和存儲介質,通過構建文本數據集的lsh索引,利用lsh索引,在文本數據集中檢索,得到每一文本對應的多個相似文本,基于文本差異度對每一文本對應的多個相似文本進行篩選,得到每一文本對應的候選文本數據集,以候選文本數據集中的各文本為節點,根據每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型,采用圖模型算法從圖模型中確定多個極大聯通子圖,將每一極大聯通子圖中的節點集合劃分為一個聚類簇,能夠準確地對字面相似性高的文本進行聚類,適用于對大規模文本數據進行聚類,降低了計算成本,提高了聚類的效率和實時性。

    本文檔來自技高網...

    【技術保護點】

    1.一種文本聚類方法,其特征在于,包括:

    2.根據權利要求1所述的文本聚類方法,其特征在于,所述計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,包括:

    3.根據權利要求1所述的文本聚類方法,其特征在于,所述對所述每一文本對應的多個相似文本進行篩選,包括

    4.根據權利要求1所述的文本聚類方法,其特征在于,采用圖模型算法從所述圖模型中確定多個極大聯通子圖,包括:

    5.根據權利要求1所述的文本聚類方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個極大聯通子圖之后,還包括:

    6.根據權利要求1所述的文本聚類方法,其特征在于,所述以所述候選文本數據集中的各文本為節點,根據所述每一文本對應的候選文本數據集創建邊,連接對應的節點,構建圖模型,包括:

    7.根據權利要求2-6任一項所述的文本聚類方法,其特征在于,所述構建所述文本數據集的局部敏感哈希LSH索引,包括:

    8.一種文本聚類裝置,其特征在于,包括:

    9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述文本聚類方法。

    10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述文本聚類方法。

    ...

    【技術特征摘要】

    1.一種文本聚類方法,其特征在于,包括:

    2.根據權利要求1所述的文本聚類方法,其特征在于,所述計算所述每一文本對應的多個相似文本與所述每一文本的文本差異度,包括:

    3.根據權利要求1所述的文本聚類方法,其特征在于,所述對所述每一文本對應的多個相似文本進行篩選,包括

    4.根據權利要求1所述的文本聚類方法,其特征在于,采用圖模型算法從所述圖模型中確定多個極大聯通子圖,包括:

    5.根據權利要求1所述的文本聚類方法,其特征在于,所述采用圖模型算法從所述圖模型中確定多個極大聯通子圖之后,還包括:

    6.根據權利要求1所述的文本聚類方法,其特征在于,所述以所述候選文本數據集...

    【專利技術屬性】
    技術研發人員:鄧喬波
    申請(專利權)人:語聯網武漢信息技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: av无码久久久久久不卡网站| 亚洲最大天堂无码精品区| 18禁网站免费无遮挡无码中文| 亚洲AV无码第一区二区三区| 久久久久亚洲精品无码蜜桃| 免费无码婬片aaa直播表情| 成人免费无码精品国产电影| 伊人久久精品无码麻豆一区| 亚洲综合一区无码精品| 免费无码黄网站在线看| 久久久久久久无码高潮| 人妻丰满av无码中文字幕| 精品无码人妻久久久久久| 无码熟妇人妻在线视频| 国产精品无码一区二区三区不卡| 久久国产精品无码网站| 少妇伦子伦精品无码STYLES| 亚洲精品无码成人片久久| 久久亚洲AV成人无码软件| 最新中文字幕AV无码不卡| 亚洲成无码人在线观看| 亚洲AV无码乱码精品国产| 免费人妻无码不卡中文字幕18禁| 亚洲一区AV无码少妇电影| 午夜亚洲AV日韩AV无码大全| 免费无码又爽又刺激高潮视频| 无码精品国产va在线观看dvd| 中文字幕无码第1页| 亚洲一区无码中文字幕乱码| 国产精品无码免费播放| 高h纯肉无码视频在线观看| 国产日韩AV免费无码一区二区| 少妇人妻无码精品视频app| 91嫩草国产在线无码观看| 亚洲AV综合色区无码一区爱AV| 国产福利电影一区二区三区久久老子无码午夜伦不| 亚洲成无码人在线观看| 亚洲AV无码一区二区三区电影| 亚洲性无码一区二区三区| 国产精品无码免费播放| 日韩人妻无码精品久久久不卡|