文本提取方法、裝置、計算機設備及存儲介質制造方法及圖紙

技術編號：44253593 閱讀：11 留言：0更新日期：2025-02-11 13:51

本申請實施例提供了一種文本提取方法、裝置、計算機設備及存儲介質，屬于人工智能技術領域。包括：獲取多語言的原始文本，并通過多語言通用的預設編碼規則對原始文本進行編碼，得到編碼文本；對編碼文本進行劃分處理，得到多個子編碼文本；對每個子編碼文本進行特征編碼，生成每個子編碼文本對應的文本特征；將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別，輸出多個識別文本，訓練后的多語言文本識別模型基于預設編碼規則下的多語言訓練文本訓練得到；確定每個識別文本對應的文本類別，并根據文本類別在每個識別文本中提取出目標文本。本申請中采用預設編碼規則來統一多語言，提高了對多語言文本內容提取的效率和準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能，尤其涉及一種文本提取方法、裝置、計算機設備及存儲介質。

技術介紹

1、隨著互聯網的飛速進步和全球金融、商業的高速發展，商業信息文本呈現爆炸式增長，針對于不同的商業信息文本需要提取出其中的重要內容，然后將這些重要內容呈現給投資者。

2、由于商業信息文本涉及到的語言種類日益增多，需要構建出支持多語言的實體識別方案。相關技術中，通過商業信息對應的文本進行預處理，然后再將處理后的文本輸入到傳統的文本識別模型中進行內容提取，最后輸出相應的內容提取結果。但是，在商業信息文本是多語言的情況下，傳統的文本識別模型存在文本處理效率低，且還會出現對商業信息文本中的內容提取錯誤的情況。

技術實現思路

1、本申請實施例提出一種文本提取方法、裝置、計算機設備及存儲介質，可以提高對多語言文本內容提取的效率和準確性。

2、為實現上述目的，本申請實施例的第一方面提出了一種文本提取方法，所述方法包括：

3、獲取多語言的原始文本，并通過多語言通用的預設編碼規則對所述原始文本進行編碼，得到編碼文本；

4、對所述編碼文本進行劃分處理，得到多個子編碼文本；

5、對每個子編碼文本進行特征編碼，生成所述每個子編碼文本對應的文本特征；

6、將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別，輸出多個識別文本，所述訓練后的多語言文本識別模型基于所述預設編碼規則下的多語言訓練文本訓練得到；

7、確定每個識別文本對應的文本

8、為實現上述目的，本申請實施例的第二方面提出了一種文本提取裝置，所述裝置包括：

9、獲取模塊，用于獲取多語言的原始文本，并通過多語言通用的預設編碼規則對所述原始文本進行編碼，得到編碼文本；

10、劃分模塊，用于對所述編碼文本進行劃分處理，得到多個子編碼文本；

11、編碼模塊，用于對每個子編碼文本進行特征編碼，生成所述每個子編碼文本對應的文本特征；

12、識別模塊，用于將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別，輸出多個識別文本，所述訓練后的多語言文本識別模型基于所述預設編碼規則下的多語言訓練文本訓練得到；

13、提取模塊，用于確定每個識別文本對應的文本類別，并根據所述文本類別在所述每個識別文本中提取出目標文本。

14、在一些實施方式中，劃分模塊，用于在所述編碼文本中確定出特定字符對應的特定編碼字符；

15、根據所述特定編碼字符對所述編碼文本進行劃分處理，得到多個子編碼文本。

16、在一些實施方式中，識別模塊包括位置編碼子模塊和識別子模塊；

17、位置編碼子模塊，用于為每個文本特征確定出相應的位置編碼，并將所述每個文本特征和所述每個文本特征對應的位置編碼相結合生成所述每個文本特征對應的目標文本特征；

18、識別子模塊，用于將每個目標文本特征輸入到訓練后的多語言文本識別模型中進行文本識別，輸出多個識別文本。

19、在一些實施方式中，位置編碼子模塊，用于確定每個文本特征對應的子編碼文本在所述編碼文本中的排列順序；

20、根據所述排列順序對所述每個文本特征進行正向編碼，得到第一位置編碼；

21、根據所述排列順序對所述每個文本特征進行逆向編碼，得到第二位置編碼；

22、將所述每個文本特征、所述每個文本特征對應的第一位置編碼和第二位置編碼相結合生成所述每個文本特征對應的目標文本特征。

23、在一些實施方式中，所述訓練后的多語言文本識別模型包括訓練后的編碼模型和訓練后的解碼模型，所述訓練后的編碼模型包括多個訓練后的子編碼模型，所述訓練后的解碼模型包括多個訓練后的子解碼模型，所述子編碼模型的數量大于所述子解碼模型的數量；

24、識別子模塊，用于將每個目標文本特征輸入到所述訓練后的編碼模型中，輸出所述每個目標文本特征對應的注意力特征；

25、將所述每個目標文本特征對應的注意力特征輸入到所述訓練后的解碼模型中，輸出所述目標文本特征對應的識別文本。

26、在一些實施方式中，識別子模塊，用于將所述每個目標文本特征輸入到第一個所述子編碼模型中，得到第一個所述子編碼模型輸出的子注意力特征；

27、將第一個所述子編碼模型輸出的子注意力特征輸入到后一個所述子編碼模型中，得到后一個所述子編碼模型輸出的子注意力特征；

28、重復將前一個所述子編碼模型輸出的子注意力特征輸入到后一個所述子編碼模型中，直至最后一個所述子編碼模型輸出所述每個目標文本特征對應的注意力特征。

29、在一些實施方式中，識別子模塊，用于獲取任務文本以及所述任務文本對應的任務文本特征；

30、將所述任務文本特征和所述每個注意力特征輸入到所述訓練后的解碼模型中，輸出所述目標文本特征對應的識別文本。

31、為實現上述目的，本申請實施例的第三方面提出了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有多條指令，所述指令適于處理器進行加載，以執行本申請實施例提供的文本提取方法。

32、為實現上述目的，一種計算機設備，包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現本申請實施例的文本提取方法。

33、本申請提出的文本提取方法、裝置、計算機設備及存儲介質，通過獲取多語言的原始文本，并通過多語言通用的預設編碼規則對原始文本進行編碼，得到編碼文本；對編碼文本進行劃分處理，得到多個子編碼文本；對每個子編碼文本進行特征編碼，生成每個子編碼文本對應的文本特征；將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別，輸出多個識別文本，訓練后的多語言文本識別模型基于預設編碼規則下的多語言訓練文本訓練得到；確定每個識別文本對應的文本類別，并根據文本類別在每個識別文本中提取出目標文本。以此，將多語言的原始文本通過多語言通用的預設編碼規則進行編碼得到編碼文本，然后將編碼文本劃分為多個子編碼文本，由于編碼文本是基于預設編碼規則生成的，所以子編碼文本具備統一性，再生成每個子編碼文本的文本特征，最后輸入到訓練后的多語言識別模型中進行識別，從而輸出多個識別文本，相對于相關技術中通過傳統的文本識別模型直接來提取多語言文本中的文本內容，本申請中采用預設編碼規則來統一多語言，并且減少了對多語言文本進行文本篩選、文本過濾等步驟，這樣有利于提高訓練后的多語言文本識別模型對多語言文本內容提取的效率和準確性，之后確定每個識別文本對應的文本類別，并根據文本類別在每個識別文本中提取出目標文本，這樣根據識別文本的文本類別來進一步提取目標文本，能夠進一步提高對多語言文本內容提取的效率和準確性。

本文檔來自技高網...

【技術保護點】

1.一種文本提取方法，其特征在于，包括：

2.根據權利要求1所述的文本提取方法，其特征在于，所述對所述編碼文本進行劃分處理，得到多個子編碼文本，包括：

3.根據權利要求1所述的文本提取方法，其特征在于，所述將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別，輸出多個識別文本，包括：

4.根據權利要求3所述的文本提取方法，其特征在于，所述為每個文本特征確定出相應的位置編碼，包括：

5.根據權利要求3所述的文本提取方法，其特征在于，所述訓練后的多語言文本識別模型包括訓練后的編碼模型和訓練后的解碼模型，所述訓練后的編碼模型包括多個訓練后的子編碼模型，所述訓練后的解碼模型包括多個訓練后的子解碼模型，所述子編碼模型的數量大于所述子解碼模型的數量；

6.根據權利要求5所述的文本提取方法，其特征在于，所述將每個目標文本特征輸入到所述訓練后的編碼模型中，輸出所述每個目標文本特征對應的注意力特征，包括：

7.根據權利要求5所述的文本提取方法，其特征在于，所述將所述每個目標文本特征對應的注意力特征輸入到所述訓練后的解碼

8.一種文本提取裝置，其特征在于，包括：

9.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有多條指令，所述指令適于處理器進行加載，以執行權利要求1至7任一項所述的文本提取方法。

10.一種計算機設備，包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的文本提取方法。

...

【技術特征摘要】

1.一種文本提取方法，其特征在于，包括：

2.根據權利要求1所述的文本提取方法，其特征在于，所述對所述編碼文本進行劃分處理，得到多個子編碼文本，包括：

4.根據權利要求3所述的文本提取方法，其特征在于，所述為每個文本特征確定出相應的位置編碼，包括：

6.根據權利要求...

【專利技術屬性】
技術研發人員：李俊杰，劉智恒，陳閩川，王少軍，
申請(專利權)人：平安科技深圳有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術