System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文成人无码精品久久久不卡 ,免费无码一区二区,亚洲AV无码国产在丝袜线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文本標注方法、裝置、設備及存儲介質制造方法及圖紙

    技術編號:44206725 閱讀:15 留言:0更新日期:2025-02-06 18:40
    本申請涉及自然語言處理技術領域,公開一種文本標注方法、裝置、設備及存儲介質。該方法包括:獲取待標注文本數據;對待標注文本數據進行分割,得到多個文本片段數據;對文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;對待標注文本數據和候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;根據目標文本片段數據對待標注文本數據進行標注。本申請實施例可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。

    【技術實現步驟摘要】

    本申請涉及自然語言處理,尤其是一種文本標注方法、裝置、設備及存儲介質


    技術介紹

    1、隨著大規模預訓練語言模型在自然語言處理領域的廣泛應用,檢索增強生成技術逐漸成為提升文本生成和知識應用能力的關鍵手段。這種向量化知識庫依賴于高質量的標簽來提高檢索的準確性。

    2、相關技術中,標簽的設定依賴于人工標注,但隨著知識庫規模的擴大和應用場景的復雜化,手動標注變得極為困難和成本高昂。針對無標簽的知識庫自動標注,是將文檔進行文本切片,并將這些切片通過向量編碼直接作為檢索標簽。然而,當處理復雜的文檔時,文本切片方法存在明顯的局限性,隨著文檔長度的增加,標簽的質量進一步下降,影響向量檢索的效率和效果。


    技術實現思路

    1、本申請的目的是提供一種文本標注方法、裝置、設備及存儲介質,可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。

    2、本申請實施例提供一種文本標注方法,包括:

    3、獲取待標注文本數據;

    4、對所述待標注文本數據進行分割,得到多個文本片段數據;

    5、對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;

    6、對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;

    7、根據所述目標文本片段數據對所述待標注文本數據進行標注。

    8、在一些實施例中,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:

    9、對所述待標注文本數據進行分段截取,得到多個文本截取數據;相鄰兩所述文本截取數據所記錄的文本內容局部相同;

    10、對所述文本截取數據進行編碼,得到文本編碼數據;

    11、將所述文本編碼數據投影至目標空間,得到所述文本片段數據。

    12、在一些實施例中,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:

    13、對所述文本片段數據進行聚類,得到若干聚類中心;

    14、計算所述文本片段數據與所述聚類中心之間的距離,得到聚類距離;

    15、根據所述聚類距離,選取離所述聚類中心最近的文本片段數據,得到所述候選文本片段數據。

    16、在一些實施例中,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:

    17、對所述待標注文本數據和所述候選文本片段數據進行向量化處理,得到待標注文本向量數據和候選文本片段向量數據;

    18、對所述待標注文本向量數據和所述候選文本片段向量數據進行相似度計算,得到文本向量相似度;

    19、根據所述文本向量相似度,選取與所述候選文本片段數據最相似的待標注文本數據,得到所述目標文本片段數據。

    20、在一些實施例中,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:

    21、對所述目標文本片段數據進行主題信息提取,得到標注文本數據;

    22、將所述標注文本數據嵌入所述待標注文本數據,以對所述待標注文本數據進行標注。

    23、在一些實施例中,在所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據之前,還包括:

    24、將所述文本片段數據輸入預設的文本處理模型,以對文本片段數據進行向量化處理,得到向量化的文本片段數據;所述文本處理模型為利用樣本文本片段數據和樣本文本片段向量數據對神經網絡模型訓練得到。

    25、在一些實施例中,所述文本處理模型的訓練方法,包括:

    26、對所述樣本文本片段數據進行隨機掩碼,得到掩碼文本片段數據;

    27、將所述掩碼文本片段數據輸入所述神經網絡模型,得到預測向量數據;

    28、確定模型損失信息;所述模型損失信息表征所述預測向量數據和樣本文本片段向量數據之間的偏差;

    29、判斷所述模型損失信息是否處于損失閾值區間內;

    30、若不處于,調節所述神經網絡模型的權重參數;返回所述將所述掩碼文本片段數據輸入所述神經網絡模型,得到預測向量數據的步驟;

    31、若處于,結束訓練,得到所述文本處理模型。

    32、本申請實施例還提供一種文本標注裝置,包括:

    33、第一模塊,用于獲取待標注文本數據;

    34、第二模塊,用于對所述待標注文本數據進行分割,得到多個文本片段數據;

    35、第三模塊,用于對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;

    36、第四模塊,用于對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;

    37、第五模塊,用于根據所述目標文本片段數據對所述待標注文本數據進行標注。

    38、本申請實施例還提供一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上述的文本標注方法。

    39、本申請實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述的文本標注方法。

    40、本申請的有益效果:首先對從待標注文本數據分割得到的文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到候選文本片段數據,然后對待標注文本數據和候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,最后根據目標文本片段數據對待標注文本數據進行標注。由于是首先確定若干個最接近可以代表待標注文本數據的類別的候選文本片段數據,然后從各候選文本片段數據中選取與待標注文本數據最相似的一個作為目標文本片段數據,保留了待標注文本數據的語義完整性,待標注文本數據作為一個整體參與標注生成過程,確保目標文本片段數據的提取過程中保持上下文的語義聯系,可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。

    本文檔來自技高網...

    【技術保護點】

    1.一種文本標注方法,其特征在于,包括:

    2.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:

    3.根據權利要求1所述的文本標注方法,其特征在于,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:

    4.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:

    5.根據權利要求1所述的文本標注方法,其特征在于,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:

    6.根據權利要求1所述的文本標注方法,其特征在于,在所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據之前,還包括:

    7.根據權利要求6所述的文本標注方法,其特征在于,所述文本處理模型的訓練方法,包括:

    8.一種文本標注裝置,其特征在于,包括:

    9.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的文本標注方法。

    10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的文本標注方法。

    ...

    【技術特征摘要】

    1.一種文本標注方法,其特征在于,包括:

    2.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:

    3.根據權利要求1所述的文本標注方法,其特征在于,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:

    4.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:

    5.根據權利要求1所述的文本標注方法,其特征在于,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:

    ...

    【專利技術屬性】
    技術研發人員:胡為民鄭喜李戰友謝麗慧
    申請(專利權)人:深圳市迪博企業風險管理技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: a级毛片免费全部播放无码| 国产午夜无码片免费| 日韩网红少妇无码视频香港| 国产精品无码日韩欧| 亚洲综合无码一区二区| 国产AV无码专区亚洲AV琪琪| 毛片无码免费无码播放| 国产福利电影一区二区三区久久老子无码午夜伦不| 精品久久久久久无码人妻热 | 少妇人妻无码精品视频app| 亚洲熟妇无码AV| 免费无码一区二区三区| 国产亚洲精久久久久久无码77777 国产在线无码精品电影网 | 久久久久成人精品无码中文字幕 | 青青草无码免费一二三区| 超清纯白嫩大学生无码网站| 亚洲av日韩av永久无码电影 | 中文无码亚洲精品字幕| 亚洲爆乳精品无码一区二区三区 | 久久久久久亚洲AV无码专区| 亚洲V无码一区二区三区四区观看| 无码人妻丰满熟妇区毛片| 中文字幕无码免费久久99| 无码人妻精品一区二区三区东京热 | 亚洲av无码潮喷在线观看| 精品无码国产自产拍在线观看蜜| 精品久久久无码21p发布| 无码囯产精品一区二区免费 | 色窝窝无码一区二区三区色欲| 人妻少妇伦在线无码| 国产午夜激无码av毛片| 亚洲国产91精品无码专区| 岛国av无码免费无禁网站| 麻豆亚洲AV成人无码久久精品| 好爽毛片一区二区三区四无码三飞| 亚洲AV综合色区无码一二三区| 无码一区18禁3D| 亚洲精品无码99在线观看| 免费无码一区二区三区蜜桃| 亚洲AV无码成人网站久久精品大| 久久水蜜桃亚洲av无码精品麻豆 |