System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理,尤其是一種文本標注方法、裝置、設備及存儲介質。
技術介紹
1、隨著大規模預訓練語言模型在自然語言處理領域的廣泛應用,檢索增強生成技術逐漸成為提升文本生成和知識應用能力的關鍵手段。這種向量化知識庫依賴于高質量的標簽來提高檢索的準確性。
2、相關技術中,標簽的設定依賴于人工標注,但隨著知識庫規模的擴大和應用場景的復雜化,手動標注變得極為困難和成本高昂。針對無標簽的知識庫自動標注,是將文檔進行文本切片,并將這些切片通過向量編碼直接作為檢索標簽。然而,當處理復雜的文檔時,文本切片方法存在明顯的局限性,隨著文檔長度的增加,標簽的質量進一步下降,影響向量檢索的效率和效果。
技術實現思路
1、本申請的目的是提供一種文本標注方法、裝置、設備及存儲介質,可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。
2、本申請實施例提供一種文本標注方法,包括:
3、獲取待標注文本數據;
4、對所述待標注文本數據進行分割,得到多個文本片段數據;
5、對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;
6、對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;
7、根據所述目標文本片段數據對所述待標注文本數據進行標注。
8、在一些實施例中,所述對所述待標注文本數據進
9、對所述待標注文本數據進行分段截取,得到多個文本截取數據;相鄰兩所述文本截取數據所記錄的文本內容局部相同;
10、對所述文本截取數據進行編碼,得到文本編碼數據;
11、將所述文本編碼數據投影至目標空間,得到所述文本片段數據。
12、在一些實施例中,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:
13、對所述文本片段數據進行聚類,得到若干聚類中心;
14、計算所述文本片段數據與所述聚類中心之間的距離,得到聚類距離;
15、根據所述聚類距離,選取離所述聚類中心最近的文本片段數據,得到所述候選文本片段數據。
16、在一些實施例中,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:
17、對所述待標注文本數據和所述候選文本片段數據進行向量化處理,得到待標注文本向量數據和候選文本片段向量數據;
18、對所述待標注文本向量數據和所述候選文本片段向量數據進行相似度計算,得到文本向量相似度;
19、根據所述文本向量相似度,選取與所述候選文本片段數據最相似的待標注文本數據,得到所述目標文本片段數據。
20、在一些實施例中,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:
21、對所述目標文本片段數據進行主題信息提取,得到標注文本數據;
22、將所述標注文本數據嵌入所述待標注文本數據,以對所述待標注文本數據進行標注。
23、在一些實施例中,在所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據之前,還包括:
24、將所述文本片段數據輸入預設的文本處理模型,以對文本片段數據進行向量化處理,得到向量化的文本片段數據;所述文本處理模型為利用樣本文本片段數據和樣本文本片段向量數據對神經網絡模型訓練得到。
25、在一些實施例中,所述文本處理模型的訓練方法,包括:
26、對所述樣本文本片段數據進行隨機掩碼,得到掩碼文本片段數據;
27、將所述掩碼文本片段數據輸入所述神經網絡模型,得到預測向量數據;
28、確定模型損失信息;所述模型損失信息表征所述預測向量數據和樣本文本片段向量數據之間的偏差;
29、判斷所述模型損失信息是否處于損失閾值區間內;
30、若不處于,調節所述神經網絡模型的權重參數;返回所述將所述掩碼文本片段數據輸入所述神經網絡模型,得到預測向量數據的步驟;
31、若處于,結束訓練,得到所述文本處理模型。
32、本申請實施例還提供一種文本標注裝置,包括:
33、第一模塊,用于獲取待標注文本數據;
34、第二模塊,用于對所述待標注文本數據進行分割,得到多個文本片段數據;
35、第三模塊,用于對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;
36、第四模塊,用于對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;
37、第五模塊,用于根據所述目標文本片段數據對所述待標注文本數據進行標注。
38、本申請實施例還提供一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上述的文本標注方法。
39、本申請實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述的文本標注方法。
40、本申請的有益效果:首先對從待標注文本數據分割得到的文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到候選文本片段數據,然后對待標注文本數據和候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,最后根據目標文本片段數據對待標注文本數據進行標注。由于是首先確定若干個最接近可以代表待標注文本數據的類別的候選文本片段數據,然后從各候選文本片段數據中選取與待標注文本數據最相似的一個作為目標文本片段數據,保留了待標注文本數據的語義完整性,待標注文本數據作為一個整體參與標注生成過程,確保目標文本片段數據的提取過程中保持上下文的語義聯系,可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。
本文檔來自技高網...【技術保護點】
1.一種文本標注方法,其特征在于,包括:
2.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:
3.根據權利要求1所述的文本標注方法,其特征在于,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:
4.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:
5.根據權利要求1所述的文本標注方法,其特征在于,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:
6.根據權利要求1所述的文本標注方法,其特征在于,在所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據之前,還包括:
7.根據權利要求6所述的文本標注方法,其特征在于,所述文本處理模型的訓練方法,包括:
8.一種文本標注
9.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的文本標注方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的文本標注方法。
...【技術特征摘要】
1.一種文本標注方法,其特征在于,包括:
2.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:
3.根據權利要求1所述的文本標注方法,其特征在于,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:
4.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:
5.根據權利要求1所述的文本標注方法,其特征在于,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:
...
【專利技術屬性】
技術研發人員:胡為民,鄭喜,李戰友,謝麗慧,
申請(專利權)人:深圳市迪博企業風險管理技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。