一種文本數據標注方法、系統、設備、介質及產品技術方案

技術編號：44442105 閱讀：3 留言：0更新日期：2025-02-28 18:50

本申請適用于數據標注技術領域，提供了一種文本數據標注方法、系統、設備、介質及產品，所述方法包括：對輸入文本數據進行預處理，獲得待標注文本；獲取所有待匹配文本，預設評分參數，基于所述評分參數和所述待匹配文本，計算最低匹配得分；基于局部序列比對算法和所述評分參數，建立待標注文本與待匹配文本之間的相似度計算矩陣；基于所述最低匹配得分，從所述相似度計算矩陣中獲得最佳匹配路徑，所述最佳匹配路徑在所述相似度計算矩陣中的得分最高；根據所述最佳匹配路徑，在所述輸入文本的相應位置添加標注信息。本申請中，用戶可以根據自身需求調整評分參數，進而靈活定制文本數據的標注規則，提供高效、準確的文本標注。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請屬于數據標注，尤其涉及一種文本數據標注方法、系統、設備、介質及產品。

技術介紹

1、文本數據標注是人工智能領域一項關鍵的任務，數據標注的質量直接影響到人工智能模型最終的運行效果。文本數據標注廣泛應用于信息抽取、情感分析、機器翻譯、智能客服等場景。隨著大數據和人工智能技術的發展，自動標注技術逐漸成為處理和理解海量文本數據的關鍵工具。

2、現有技術中，通常采用基于規則的標注方法或者基于機器學習的標注方法進行文本數據標注。對于基于規則的標注方法，采用預定義的規則和模式對文本進行標注，其中預定義的規則是由領域專家手動編寫的，包含特定的關鍵詞、短語結構、上下文模式等，這種方法依賴于領域專家手動編寫的規則，具有高精度但擴展性和泛化能力差。對于與基于機器學習的標注方法，采用神經網絡模型(如rnn、lstm、transformer等)進行文本標注，具體方式為通過使用大量標注數據和計算資源進行訓練對選定的預訓練模型進行訓練，使模型具備自動標注的功能，然而這個方法需要大量高質量的標注數據進行訓練，數據獲取成本高，且訓練數據標注過程耗時費力。

3、綜上所述，上述兩種文本數據標注的方法，在處理新的領域或特定的文本類型時泛化能力較差，無法適應不同領域或語境下的文本數據，在一些數據量不多的垂直領域表現更為嚴重。同時，在處理大規模文本數據時，現有文本數據標注的方法尤其是深度學習模型效率較低，在推理階段可能需要大量計算資源，導致響應時間較長,難以滿足實時處理的要求。

技術實現思路

2、第一方面，本申請實施例提供了一種文本數據標注方法，包括：

3、對輸入文本數據進行預處理，獲得待標注文本；

4、獲取所有待匹配文本，預設評分參數，基于所述評分參數和所述待匹配文本，計算最低匹配得分；

5、基于局部序列比對算法和所述評分參數，建立待標注文本與待匹配文本之間的相似度計算矩陣；

6、基于所述最低匹配得分，從所述相似度計算矩陣中獲得最佳匹配路徑，所述最佳匹配路徑在所述相似度計算矩陣中的得分最高；

7、根據所述最佳匹配路徑，在所述輸入文本的相應位置添加標注信息。

8、進一步的，所述評分參數包括匹配得分、錯配罰分、空位罰分以及匹配度閾值，其中，所述匹配得分和所述錯配罰分的分數對稱設置，所述空位罰分的分數低于所述錯配罰分的分數；

9、所述計算最低匹配得分的計算公式：最低匹配得分＝匹配得分×待匹配文本長度×匹配度閾值。

10、進一步的，所述基于局部序列比對算法和所述評分參數，建立待標注文本與待匹配文本之間的相似度計算矩陣，包括：

11、基于預設的分詞規則，分別對所述待標注文本以及所述待匹配文本進行分詞操作，獲得待標注字符和待匹配字符；

12、建立i×j的初級匹配矩陣，初始化所述初級匹配矩陣中的單元格的數值為0，其中，i＝m+1，j＝n+1，m為待匹配字符的個數，n為待標注字符的個數；

13、基于局部序列比對算法，迭代計算所述初級匹配矩陣中每個單元格的數值，獲得相似度計算矩陣。

14、進一步的，所述迭代計算所述初級匹配矩陣中每個單元格的數值的計算公式如下：

15、

16、其中，matrix[i][j]表示第i行第j列的單元格在匹配過程中的最高分數，i和j均為整數，1≤i≤m+1，1≤j≤n+1，m為待匹配字符的個數，n為待標注字符的個數，match為匹配得分，mismatch為錯配罰分，gap為空位罰分。

17、進一步的，所述基于所述最低匹配得分，從所述相似度計算矩陣中獲得最佳匹配路徑，所述最佳匹配路徑在所述相似度計算矩陣中的得分最高，包括：

18、從所述相似度計算矩陣中篩選出所有數值大于所述最低匹配得分的單元格，標記為匹配單元格；

19、由所述匹配單元格回溯至起始位置，獲得多個第一匹配路徑，將存在部分重疊多個所述第一匹配路徑標記為第二匹配路徑；

20、通過比較多個第二匹配路徑的匹配單元格的數值，保留匹配單元格的數值最高的所述第二匹配路徑作為最佳匹配路徑。

21、進一步的，在所述輸入文本的相應位置添加標注信息之前，包括：

22、為每個所述待匹配文本建立相似度計算矩陣，從所述待標注文本中獲得每個所述待匹配文本的最佳匹配路徑。

23、第二方面，本申請實施例提供了一種文本數據標注系統，包括：

24、輸入文本處理模塊：用于對輸入文本數據進行預處理，獲得待標注文本；

25、最低匹配得分計算模塊：用于獲取所有待匹配文本，預設評分參數，基于所述評分參數和所述待匹配文本，計算最低匹配得分；

26、相似度計算矩陣建立模塊：用于基于局部序列比對算法和所述評分參數，建立待標注文本與待匹配文本之間的相似度計算矩陣；

27、最佳匹配路徑獲得模塊：用于基于所述最低匹配得分，從所述相似度計算矩陣中獲得最佳匹配路徑，所述最佳匹配路徑在所述相似度計算矩陣中的得分最高；

28、標注信息添加模塊：用于根據所述最佳匹配路徑，在所述輸入文本的相應位置添加標注信息。

29、第三方面，本申請實施例提供了一種終端設備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現上述文本數據標注方法。

30、第四方面，本申請實施例提供了一種計算機可讀存儲介質，包括所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序被處理器執行時實現上述文本數據標注方法。

31、第五方面，本申請實施例提供了一種計算機程序產品，當計算機程序產品在終端設備上運行時，使得終端設備執行上述文本數據標注方法。

32、本申請實施例與現有技術相比存在的有益效果是：

33、本申請公開了一種文本數據標注方法，采用局部序列比對算法，能夠高效準確地識別輸入文本中的最佳匹配路徑，提高了標注的精確度，用戶可以根據自身需求調整評分參數，進而靈活定制文本數據的標注規則，此外，通過局部序列比對算法，無需依賴大量的訓練數據和計算資源，降低了數據依賴和計算成本，對解決垂直領域中的特定文本匹配問題具有明顯優勢，尤其在處理較小規模數據集或計算資源有限的場景時，能夠提供高效、準確的文本標注。

本文檔來自技高網...

【技術保護點】

1.一種文本數據標注方法，其特征在于，包括：

2.如權利要求1所述的方法，其特征在于，所述評分參數包括匹配得分、錯配罰分、空位罰分以及匹配度閾值，其中，所述匹配得分和所述錯配罰分的分數對稱設置，所述空位罰分的分數低于所述錯配罰分的分數；

3.如權利要求2所述的方法，其特征在于，所述基于局部序列比對算法和所述評分參數，建立待標注文本與待匹配文本之間的相似度計算矩陣，包括：

4.如權利要求3所述的方法，其特征在于，所述迭代計算所述初級匹配矩陣中每個單元格的數值的計算公式如下：

5.如權利要求1所述的方法，其特征在于，所述基于所述最低匹配得分，從所述相似度計算矩陣中獲得最佳匹配路徑，所述最佳匹配路徑在所述相似度計算矩陣中的得分最高，包括：

6.如權利要求1所述的方法，其特征在于，在所述輸入文本的相應位置添加標注信息之前，包括：

7.一種文本數據標注系統，其特征在于，包括：

8.一種終端設備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程

9.一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的方法。

10.一種計算機程序產品，其特征在于：當計算機程序產品在終端設備上運行時，使得終端設備執行如權利要求1-6任一項所述的方法。

...

【技術特征摘要】

1.一種文本數據標注方法，其特征在于，包括：

3.如權利要求2所述的方法，其特征在于，所述基于局部序列比對算法和所述評分參數，建立待標注文本與待匹配文本之間的相似度計算矩陣，包括：

4.如權利要求3所述的方法，其特征在于，所述迭代計算所述初級匹配矩陣中每個單元格的數值的計算公式如下：

5.如權利要求1所述的方法，其特征在于，所述基于所述最低匹配得分，從所述相似度計算矩陣中獲得最佳匹配路徑，所述最佳匹配路徑在所述相似度計算矩陣...

【專利技術屬性】
技術研發人員：王靖聰，王思琪，吳志銘，
申請(專利權)人：廣東南方網絡信息科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術