System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品亚洲аv无码播放,久久精品aⅴ无码中文字字幕,无码高潮爽到爆的喷水视频app
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文本提取方法、裝置、計算機設備及存儲介質制造方法及圖紙

    技術編號:44253593 閱讀:11 留言:0更新日期:2025-02-11 13:51
    本申請實施例提供了一種文本提取方法、裝置、計算機設備及存儲介質,屬于人工智能技術領域。包括:獲取多語言的原始文本,并通過多語言通用的預設編碼規則對原始文本進行編碼,得到編碼文本;對編碼文本進行劃分處理,得到多個子編碼文本;對每個子編碼文本進行特征編碼,生成每個子編碼文本對應的文本特征;將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本,訓練后的多語言文本識別模型基于預設編碼規則下的多語言訓練文本訓練得到;確定每個識別文本對應的文本類別,并根據文本類別在每個識別文本中提取出目標文本。本申請中采用預設編碼規則來統一多語言,提高了對多語言文本內容提取的效率和準確性。

    【技術實現步驟摘要】

    本申請涉及人工智能,尤其涉及一種文本提取方法、裝置、計算機設備及存儲介質


    技術介紹

    1、隨著互聯網的飛速進步和全球金融、商業的高速發展,商業信息文本呈現爆炸式增長,針對于不同的商業信息文本需要提取出其中的重要內容,然后將這些重要內容呈現給投資者。

    2、由于商業信息文本涉及到的語言種類日益增多,需要構建出支持多語言的實體識別方案。相關技術中,通過商業信息對應的文本進行預處理,然后再將處理后的文本輸入到傳統的文本識別模型中進行內容提取,最后輸出相應的內容提取結果。但是,在商業信息文本是多語言的情況下,傳統的文本識別模型存在文本處理效率低,且還會出現對商業信息文本中的內容提取錯誤的情況。


    技術實現思路

    1、本申請實施例提出一種文本提取方法、裝置、計算機設備及存儲介質,可以提高對多語言文本內容提取的效率和準確性。

    2、為實現上述目的,本申請實施例的第一方面提出了一種文本提取方法,所述方法包括:

    3、獲取多語言的原始文本,并通過多語言通用的預設編碼規則對所述原始文本進行編碼,得到編碼文本;

    4、對所述編碼文本進行劃分處理,得到多個子編碼文本;

    5、對每個子編碼文本進行特征編碼,生成所述每個子編碼文本對應的文本特征;

    6、將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本,所述訓練后的多語言文本識別模型基于所述預設編碼規則下的多語言訓練文本訓練得到;

    7、確定每個識別文本對應的文本類別,并根據所述文本類別在所述每個識別文本中提取出目標文本。

    8、為實現上述目的,本申請實施例的第二方面提出了一種文本提取裝置,所述裝置包括:

    9、獲取模塊,用于獲取多語言的原始文本,并通過多語言通用的預設編碼規則對所述原始文本進行編碼,得到編碼文本;

    10、劃分模塊,用于對所述編碼文本進行劃分處理,得到多個子編碼文本;

    11、編碼模塊,用于對每個子編碼文本進行特征編碼,生成所述每個子編碼文本對應的文本特征;

    12、識別模塊,用于將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本,所述訓練后的多語言文本識別模型基于所述預設編碼規則下的多語言訓練文本訓練得到;

    13、提取模塊,用于確定每個識別文本對應的文本類別,并根據所述文本類別在所述每個識別文本中提取出目標文本。

    14、在一些實施方式中,劃分模塊,用于在所述編碼文本中確定出特定字符對應的特定編碼字符;

    15、根據所述特定編碼字符對所述編碼文本進行劃分處理,得到多個子編碼文本。

    16、在一些實施方式中,識別模塊包括位置編碼子模塊和識別子模塊;

    17、位置編碼子模塊,用于為每個文本特征確定出相應的位置編碼,并將所述每個文本特征和所述每個文本特征對應的位置編碼相結合生成所述每個文本特征對應的目標文本特征;

    18、識別子模塊,用于將每個目標文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本。

    19、在一些實施方式中,位置編碼子模塊,用于確定每個文本特征對應的子編碼文本在所述編碼文本中的排列順序;

    20、根據所述排列順序對所述每個文本特征進行正向編碼,得到第一位置編碼;

    21、根據所述排列順序對所述每個文本特征進行逆向編碼,得到第二位置編碼;

    22、將所述每個文本特征、所述每個文本特征對應的第一位置編碼和第二位置編碼相結合生成所述每個文本特征對應的目標文本特征。

    23、在一些實施方式中,所述訓練后的多語言文本識別模型包括訓練后的編碼模型和訓練后的解碼模型,所述訓練后的編碼模型包括多個訓練后的子編碼模型,所述訓練后的解碼模型包括多個訓練后的子解碼模型,所述子編碼模型的數量大于所述子解碼模型的數量;

    24、識別子模塊,用于將每個目標文本特征輸入到所述訓練后的編碼模型中,輸出所述每個目標文本特征對應的注意力特征;

    25、將所述每個目標文本特征對應的注意力特征輸入到所述訓練后的解碼模型中,輸出所述目標文本特征對應的識別文本。

    26、在一些實施方式中,識別子模塊,用于將所述每個目標文本特征輸入到第一個所述子編碼模型中,得到第一個所述子編碼模型輸出的子注意力特征;

    27、將第一個所述子編碼模型輸出的子注意力特征輸入到后一個所述子編碼模型中,得到后一個所述子編碼模型輸出的子注意力特征;

    28、重復將前一個所述子編碼模型輸出的子注意力特征輸入到后一個所述子編碼模型中,直至最后一個所述子編碼模型輸出所述每個目標文本特征對應的注意力特征。

    29、在一些實施方式中,識別子模塊,用于獲取任務文本以及所述任務文本對應的任務文本特征;

    30、將所述任務文本特征和所述每個注意力特征輸入到所述訓練后的解碼模型中,輸出所述目標文本特征對應的識別文本。

    31、為實現上述目的,本申請實施例的第三方面提出了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有多條指令,所述指令適于處理器進行加載,以執行本申請實施例提供的文本提取方法。

    32、為實現上述目的,一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現本申請實施例的文本提取方法。

    33、本申請提出的文本提取方法、裝置、計算機設備及存儲介質,通過獲取多語言的原始文本,并通過多語言通用的預設編碼規則對原始文本進行編碼,得到編碼文本;對編碼文本進行劃分處理,得到多個子編碼文本;對每個子編碼文本進行特征編碼,生成每個子編碼文本對應的文本特征;將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本,訓練后的多語言文本識別模型基于預設編碼規則下的多語言訓練文本訓練得到;確定每個識別文本對應的文本類別,并根據文本類別在每個識別文本中提取出目標文本。以此,將多語言的原始文本通過多語言通用的預設編碼規則進行編碼得到編碼文本,然后將編碼文本劃分為多個子編碼文本,由于編碼文本是基于預設編碼規則生成的,所以子編碼文本具備統一性,再生成每個子編碼文本的文本特征,最后輸入到訓練后的多語言識別模型中進行識別,從而輸出多個識別文本,相對于相關技術中通過傳統的文本識別模型直接來提取多語言文本中的文本內容,本申請中采用預設編碼規則來統一多語言,并且減少了對多語言文本進行文本篩選、文本過濾等步驟,這樣有利于提高訓練后的多語言文本識別模型對多語言文本內容提取的效率和準確性,之后確定每個識別文本對應的文本類別,并根據文本類別在每個識別文本中提取出目標文本,這樣根據識別文本的文本類別來進一步提取目標文本,能夠進一步提高對多語言文本內容提取的效率和準確性。

    本文檔來自技高網...

    【技術保護點】

    1.一種文本提取方法,其特征在于,包括:

    2.根據權利要求1所述的文本提取方法,其特征在于,所述對所述編碼文本進行劃分處理,得到多個子編碼文本,包括:

    3.根據權利要求1所述的文本提取方法,其特征在于,所述將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本,包括:

    4.根據權利要求3所述的文本提取方法,其特征在于,所述為每個文本特征確定出相應的位置編碼,包括:

    5.根據權利要求3所述的文本提取方法,其特征在于,所述訓練后的多語言文本識別模型包括訓練后的編碼模型和訓練后的解碼模型,所述訓練后的編碼模型包括多個訓練后的子編碼模型,所述訓練后的解碼模型包括多個訓練后的子解碼模型,所述子編碼模型的數量大于所述子解碼模型的數量;

    6.根據權利要求5所述的文本提取方法,其特征在于,所述將每個目標文本特征輸入到所述訓練后的編碼模型中,輸出所述每個目標文本特征對應的注意力特征,包括:

    7.根據權利要求5所述的文本提取方法,其特征在于,所述將所述每個目標文本特征對應的注意力特征輸入到所述訓練后的解碼模型中,輸出所述目標文本特征對應的識別文本,包括:

    8.一種文本提取裝置,其特征在于,包括:

    9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有多條指令,所述指令適于處理器進行加載,以執行權利要求1至7任一項所述的文本提取方法。

    10.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的文本提取方法。

    ...

    【技術特征摘要】

    1.一種文本提取方法,其特征在于,包括:

    2.根據權利要求1所述的文本提取方法,其特征在于,所述對所述編碼文本進行劃分處理,得到多個子編碼文本,包括:

    3.根據權利要求1所述的文本提取方法,其特征在于,所述將每個文本特征輸入到訓練后的多語言文本識別模型中進行文本識別,輸出多個識別文本,包括:

    4.根據權利要求3所述的文本提取方法,其特征在于,所述為每個文本特征確定出相應的位置編碼,包括:

    5.根據權利要求3所述的文本提取方法,其特征在于,所述訓練后的多語言文本識別模型包括訓練后的編碼模型和訓練后的解碼模型,所述訓練后的編碼模型包括多個訓練后的子編碼模型,所述訓練后的解碼模型包括多個訓練后的子解碼模型,所述子編碼模型的數量大于所述子解碼模型的數量;

    6.根據權利要求...

    【專利技術屬性】
    技術研發人員:李俊杰劉智恒陳閩川王少軍
    申請(專利權)人:平安科技深圳有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码久久久| 亚洲av无码国产精品色在线看不卡| 中文一国产一无码一日韩| 国产AV一区二区三区无码野战| 无码国产精品一区二区免费模式 | 激情无码人妻又粗又大中国人| 无码中文字幕色专区| 亚洲人成无码网站| 少妇中文无码高清| 亚洲中文无码亚洲人成影院| 国产亚洲AV无码AV男人的天堂 | 国产一区二区三区无码免费| 亚洲AV无码成人网站久久精品大| 人妻系列无码专区久久五月天| 无码人妻一区二区三区免费看| 亚洲人成无码网WWW| 丰满爆乳无码一区二区三区| 亚洲日韩精品无码专区| 日韩AV无码久久一区二区| 中日精品无码一本二本三本| 永久免费无码日韩视频| 国模无码视频一区| 无码视频免费一区二三区| 亚洲中文字幕无码久久2020 | 人妻无码中文字幕| 国产精品成人99一区无码| 久久亚洲精品无码gv| 精品人妻无码区在线视频| 日韩精品真人荷官无码| 无码137片内射在线影院| 亚洲gv猛男gv无码男同短文| 亚洲va无码手机在线电影| 亚洲精品无码久久久久| 国产精品无码久久综合| 无码专区中文字幕无码| 无码人妻AV免费一区二区三区| 亚洲av日韩av高潮潮喷无码| 久久亚洲AV成人无码电影| 亚洲国产成人精品无码区在线网站| 人妻中文字系列无码专区| 亚洲精品无码专区在线|