System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文成人无码精品久久久不卡 ,免费无码一区二区,亚洲AV无码国产在丝袜线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文本標注方法、裝置、設備及存儲介質制造方法及圖紙

    技術編號:44206725 閱讀:15 留言:0更新日期:2025-02-06 18:40
    本申請涉及自然語言處理技術領域,公開一種文本標注方法、裝置、設備及存儲介質。該方法包括:獲取待標注文本數據;對待標注文本數據進行分割,得到多個文本片段數據;對文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;對待標注文本數據和候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;根據目標文本片段數據對待標注文本數據進行標注。本申請實施例可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。

    【技術實現步驟摘要】

    本申請涉及自然語言處理,尤其是一種文本標注方法、裝置、設備及存儲介質


    技術介紹

    1、隨著大規模預訓練語言模型在自然語言處理領域的廣泛應用,檢索增強生成技術逐漸成為提升文本生成和知識應用能力的關鍵手段。這種向量化知識庫依賴于高質量的標簽來提高檢索的準確性。

    2、相關技術中,標簽的設定依賴于人工標注,但隨著知識庫規模的擴大和應用場景的復雜化,手動標注變得極為困難和成本高昂。針對無標簽的知識庫自動標注,是將文檔進行文本切片,并將這些切片通過向量編碼直接作為檢索標簽。然而,當處理復雜的文檔時,文本切片方法存在明顯的局限性,隨著文檔長度的增加,標簽的質量進一步下降,影響向量檢索的效率和效果。


    技術實現思路

    1、本申請的目的是提供一種文本標注方法、裝置、設備及存儲介質,可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。

    2、本申請實施例提供一種文本標注方法,包括:

    3、獲取待標注文本數據;

    4、對所述待標注文本數據進行分割,得到多個文本片段數據;

    5、對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;

    6、對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;

    7、根據所述目標文本片段數據對所述待標注文本數據進行標注。

    8、在一些實施例中,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:

    9、對所述待標注文本數據進行分段截取,得到多個文本截取數據;相鄰兩所述文本截取數據所記錄的文本內容局部相同;

    10、對所述文本截取數據進行編碼,得到文本編碼數據;

    11、將所述文本編碼數據投影至目標空間,得到所述文本片段數據。

    12、在一些實施例中,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:

    13、對所述文本片段數據進行聚類,得到若干聚類中心;

    14、計算所述文本片段數據與所述聚類中心之間的距離,得到聚類距離;

    15、根據所述聚類距離,選取離所述聚類中心最近的文本片段數據,得到所述候選文本片段數據。

    16、在一些實施例中,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:

    17、對所述待標注文本數據和所述候選文本片段數據進行向量化處理,得到待標注文本向量數據和候選文本片段向量數據;

    18、對所述待標注文本向量數據和所述候選文本片段向量數據進行相似度計算,得到文本向量相似度;

    19、根據所述文本向量相似度,選取與所述候選文本片段數據最相似的待標注文本數據,得到所述目標文本片段數據。

    20、在一些實施例中,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:

    21、對所述目標文本片段數據進行主題信息提取,得到標注文本數據;

    22、將所述標注文本數據嵌入所述待標注文本數據,以對所述待標注文本數據進行標注。

    23、在一些實施例中,在所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據之前,還包括:

    24、將所述文本片段數據輸入預設的文本處理模型,以對文本片段數據進行向量化處理,得到向量化的文本片段數據;所述文本處理模型為利用樣本文本片段數據和樣本文本片段向量數據對神經網絡模型訓練得到。

    25、在一些實施例中,所述文本處理模型的訓練方法,包括:

    26、對所述樣本文本片段數據進行隨機掩碼,得到掩碼文本片段數據;

    27、將所述掩碼文本片段數據輸入所述神經網絡模型,得到預測向量數據;

    28、確定模型損失信息;所述模型損失信息表征所述預測向量數據和樣本文本片段向量數據之間的偏差;

    29、判斷所述模型損失信息是否處于損失閾值區間內;

    30、若不處于,調節所述神經網絡模型的權重參數;返回所述將所述掩碼文本片段數據輸入所述神經網絡模型,得到預測向量數據的步驟;

    31、若處于,結束訓練,得到所述文本處理模型。

    32、本申請實施例還提供一種文本標注裝置,包括:

    33、第一模塊,用于獲取待標注文本數據;

    34、第二模塊,用于對所述待標注文本數據進行分割,得到多個文本片段數據;

    35、第三模塊,用于對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據;

    36、第四模塊,用于對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據;

    37、第五模塊,用于根據所述目標文本片段數據對所述待標注文本數據進行標注。

    38、本申請實施例還提供一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上述的文本標注方法。

    39、本申請實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述的文本標注方法。

    40、本申請的有益效果:首先對從待標注文本數據分割得到的文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到候選文本片段數據,然后對待標注文本數據和候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,最后根據目標文本片段數據對待標注文本數據進行標注。由于是首先確定若干個最接近可以代表待標注文本數據的類別的候選文本片段數據,然后從各候選文本片段數據中選取與待標注文本數據最相似的一個作為目標文本片段數據,保留了待標注文本數據的語義完整性,待標注文本數據作為一個整體參與標注生成過程,確保目標文本片段數據的提取過程中保持上下文的語義聯系,可以在自動標注過程中保留文本內容的完整語義,提高標簽的質量。

    本文檔來自技高網...

    【技術保護點】

    1.一種文本標注方法,其特征在于,包括:

    2.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:

    3.根據權利要求1所述的文本標注方法,其特征在于,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:

    4.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:

    5.根據權利要求1所述的文本標注方法,其特征在于,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:

    6.根據權利要求1所述的文本標注方法,其特征在于,在所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據之前,還包括:

    7.根據權利要求6所述的文本標注方法,其特征在于,所述文本處理模型的訓練方法,包括:

    8.一種文本標注裝置,其特征在于,包括:

    9.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的文本標注方法。

    10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的文本標注方法。

    ...

    【技術特征摘要】

    1.一種文本標注方法,其特征在于,包括:

    2.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據進行分割,得到多個文本片段數據,包括:

    3.根據權利要求1所述的文本標注方法,其特征在于,所述對所述文本片段數據進行分類并根據分類結果選取若干最接近相應的文本片段類別的文本片段數據,得到若干候選文本片段數據,包括:

    4.根據權利要求1所述的文本標注方法,其特征在于,所述對所述待標注文本數據和所述候選文本片段數據進行相似度分析,選取相似度最高的候選文本片段數據,得到目標文本片段數據,包括:

    5.根據權利要求1所述的文本標注方法,其特征在于,所述根據所述目標文本片段數據對所述待標注文本數據進行標注,包括:

    ...

    【專利技術屬性】
    技術研發人員:胡為民鄭喜李戰友謝麗慧
    申請(專利權)人:深圳市迪博企業風險管理技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV日韩AV永久无码下载| 亚洲AV无码一区二区三区鸳鸯影院| 特黄熟妇丰满人妻无码| 亚洲精品无码专区久久同性男| 麻豆国产精品无码视频| 日韩专区无码人妻| 无码H肉动漫在线观看| 亚洲AV无码乱码在线观看富二代 | 亚洲AV无码不卡无码| 无码被窝影院午夜看片爽爽jk | 亚洲色无码专区一区| 亚洲va无码手机在线电影| 白嫩少妇激情无码| 无码精品国产dvd在线观看9久 | 亚洲AV成人无码久久精品老人| 日韩免费a级毛片无码a∨| 免费A级毛片无码A∨中文字幕下载| 亚洲va无码专区国产乱码| 少妇人妻av无码专区| 亚洲久热无码av中文字幕| 精品一区二区三区无码免费视频| 日韩av无码免费播放| 亚洲无码日韩精品第一页| 亚洲成a人片在线观看天堂无码| 久久久久久亚洲Av无码精品专口| 中文字幕无码av激情不卡久久 | 国产成人A人亚洲精品无码| 人妻少妇伦在线无码| 日韩激情无码免费毛片| 国产精品无码永久免费888| 中文字幕丰满乱子伦无码专区| 亚洲国产精品无码久久久不卡| 亚洲成a人无码av波多野按摩| 色国产色无码色欧美色在线| 精品亚洲av无码一区二区柚蜜| 性色AV一区二区三区无码| 曰韩无码无遮挡A级毛片| 亚洲?V无码成人精品区日韩| 无码8090精品久久一区| 中文字幕无码久久人妻| 国产V亚洲V天堂无码|