一種基于人工智能的資訊文本提取與分類系統及方法技術方案

技術編號：44515142 閱讀：0 留言：0更新日期：2025-03-07 13:10

本發明專利技術涉及人工智能技術領域，具體是一種利用國內人工智能框架進行海關資訊文本的基于人工智能的資訊文本信息提取和分類方法；該方法應能夠充分利用國內人工智能框架的優勢，結合專業的自然語言處理技術，實現對復雜資訊文本的高效、準確分析；同時，該方法還應具備良好的通用性和泛化能力，能夠適應不同領域和場景的需求，為資訊文本的智能化分析提供有力支持；本發明專利技術通過構建基于國內人工智能框架Ernie知識增強預訓練模型的主體架構，實現了對多領域資訊文本的高效處理和精準分析。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能，具體是一種利用國內人工智能框架進行海關資訊文本的基于人工智能的資訊文本信息提取和分類方法。

技術介紹

1、隨著信息技術的飛速發展，資訊的來源日益多樣化，包括但不限于公開的新聞報道、專業報道、內部案情資料及情報信息等。這些資訊文本往往包含豐富的信息，尤其在風險防控等特定領域，其信息價值尤為重要。然而，與傳統文本相比，資訊文本具有邏輯復雜、實體嵌套和多層次分類等特點，使得傳統算法在處理這些文本時面臨巨大挑戰。傳統算法大多采用一般的結構化識別和提取方法，難以實現智能化、精準化的分析目標，無法充分挖掘和利用資訊文本中的深層信息。

2、近年來，人工智能深度學習技術的興起為資訊文本的智能分析提供了新的思路和方法。國內外學者和企業在這一領域進行了大量研究，利用自然語言處理(nlp)模型實現了文本信息的結構化處理，顯著提高了信息抽取的效率與準確性。例如，在自然語言處理技術的支持下，生物、化學、醫療等多個領域的大規模文本實體或關系抽取取得了顯著成效。同時，基于生成式模型的方法也在寫作優化和文獻分析任務中展現了強大能力。中國海關等機構也積極引入國際先進的人工智能框架，實現了對國家、物品、數量、日期等信息的有效抽取。

3、盡管如此，當前的人工智能文本分析技術仍存在諸多不足。首先，國外的人工智能框架和模型在處理中文等特定語言時，往往存在語言和語境差異，導致適配度不高。其次，許多現有技術智能化程度有限，識別精確率難以進一步提升，尤其是在處理復雜資訊文本時表現不佳。此外，對國外技術和框架的高度依賴也限制了技術

技術實現思路

1、針對上述問題，本專利技術旨在提供一種更加智能、精準且自主可控的資訊文本信息提取和分類系統方法，該方法應能夠充分利用國內人工智能框架的優勢，結合專業的自然語言處理技術，實現對復雜資訊文本的高效、準確分析。同時，該方法還應具備良好的通用性和泛化能力，能夠適應不同領域和場景的需求，為資訊文本的智能化分析提供有力支持。

2、本專利技術采用的技術方案是：一種基于人工智能的資訊文本提取與分類系統，其特征在于：包括：

3、a.主體模型模塊，通過其多層架構實現多任務協同處理，支持廣泛的文本信息提取和分類功能；

4、b.預處理模塊，用于對待處理的海關資訊進行預處理；

5、c.文本抽取模塊，與所述主體模型模塊連接，用于執行信息抽取；

6、d.文本分類模塊，與所述主體模型模塊連接，用于執行文本分類；

7、e.整合模塊，用于將抽取的信息和分類結果進行整合。

8、一種基于人工智能的資訊文本提取與分類方法，包括以下步驟：

9、s1、收集多領域開源資訊數據作為訓練數據；

10、s2、對所述訓練數據進行預處理，以滿足語言模型的輸入輸出格式要求；

11、s3、構建一個基于國內人工智能框架的知識增強預訓練模型作為主體模型；

12、s4、使用預處理后的訓練數據對所述主體模型進行訓練，以構建具有廣泛文本處理和信息提取能力的通用文本抽取模型和具有廣泛文本分類能力的通用文本分類模型；

13、s5、將所述通用文本抽取模型和通用文本分類模型應用于待處理的資訊文本，以進行信息提取和文本分類后整合。

14、所述主體模型的多層架構包括通用表示層和特定表示層，所述通用表示層用于獲取不同任務范式中的相同底層抽象特征，所述特定表示層包含自然語言理解和自然語言生成的特定表示模塊。

15、所述預處理步驟包括去除多余的空格、標點符號、特殊字符，統一日期格式和貨幣單位，以及進行格式轉換。

16、所述主體模型采用ernie知識增強預訓練模型，其通用表示層和特定表示層均使用transformer-xl結構作為主干其中通用表示層包含48個transformer層、4096個隱藏單元和64個注意力頭，特定表示層包含12個transformer層、768個隱藏單元和12個注意力頭。

17、所述通用文本抽取模型通過多任務統一建模方式進行調優，輸入層使用基于提示機制的結構模式，輸出層采用結構化提取語言將提取結果以統一形式表示。

18、所述通用文本分類模型通過多任務統一語義匹配方式進行調優，將分類任務建模為標簽與文本之間的匹配任務，解碼層采用定向標記鏈接計算分數，輸出層輸出標簽和文本內容的關聯對。

19、還包括對所述通用文本抽取模型和通用文本分類模型進行模型評價的步驟，其中文本提取采用準確率、召回率和f1分數作為評估指標，文本分類采用macrof1和micro?f1作為評估指標。

20、還包括將特定領域的專業知識注入到通用文本抽取模型和通用文本分類模型中的步驟，以獲得具有領域特性的文本提取和分類模型。

21、所述領域知識注入步驟包括：收集特定領域的專業知識、文本提取標注數據和文本分類標注數據，使用這些數據對通用模型進行調優，以生成特定領域的文本提取和分類模型。

22、所述特定領域為海關領域，所述專業知識包括關稅政策、貿易法規、檢驗檢疫制度、海關法律和專業術語，所述標注數據包括海關資訊文本提取標注數據和文本分類標注數據。

23、本專利技術的有益效果是：本專利技術提供的一種基于人工智能的資訊文本提取與分類系統及方法，通過構建基于國內人工智能框架ernie知識增強預訓練模型的主體架構，實現了對多領域資訊文本的高效處理和精準分析；具體而言，該技術方案具有以下顯著有益效果：

24、(一)高效的信息提取能力：通過優化設計的通用表示層和特定表示層，模型能夠快速準確地從復雜的資訊文本中提取出結構化信息，包括實體、關系和事件等，極大地提高了信息提取的效率和準確性。

25、(二)強大的文本分類能力：模型具備廣泛的文本分類能力，能夠自動識別并分類不同領域的資訊文本，支持多標簽分類，有效解決了傳統分類方法中存在的類別識別不準確問題。

26、(三)良好的泛化性和適應性：通過自監督學習任務和反向傳播算法對模型進行調優，使得模型能夠快速適應新任務，具備在不同領域和場景下的廣泛應用潛力，提高了模型的泛化性和實用性。

27、(四)自主可控的安全保障：采用國內人工智能框架，減少了對外部技術的依賴，增強了模型的數據隔離和保護機制，提高了系統的安全性和自主可控性。

28、(五)顯著提升海關資訊分析效能：將優化后的模型應用于海關資訊分析領域，實現了對大量未標記海關資訊文本的自動解析和識別，提高了海關資訊處理的智能化水平和效率，為快速檢索分析、風險預警等提供了有力支持。

29、(六)行業適配性和識別準確度的提升：通過特定領域數據集對模型進行增強訓練，進一步提升了模型在行業應用中的適配性和識別準確度，為海關等特定領域的精準決策提供了可靠依據。

本文檔來自技高網...

【技術保護點】

1.一種基于人工智能的資訊文本提取與分類系統，其特征在于：其特征在于：包括：

2.一種基于人工智能的資訊文本提取與分類方法，其特征在于：包括以下步驟：

3.根據權利要求1或2所述的一種基于人工智能的資訊文本提取與分類系統方法，其特征在于：所述主體模型的多層架構包括通用表示層和特定表示層，所述通用表示層用于獲取不同任務范式中的相同底層抽象特征，所述特定表示層包含自然語言理解和自然語言生成的特定表示模塊。

4.根據權利要求1或2所述的一種基于人工智能的資訊文本提取與分類系統方法，其特征在于：所述預處理步驟包括去除多余的空格、標點符號、特殊字符，統一日期格式和貨幣單位，以及進行格式轉換。

5.根據權利要求1或2所述的一種基于人工智能的資訊文本提取與分類系統方法，其特征在于：所述主體模型采用Ernie知識增強預訓練模型，其通用表示層和特定表示層均使用Transformer-XL結構作為主干，其中通用表示層包含48個Transformer層、4096個隱藏單元和64個注意力頭，特定表示層包含12個Transformer層、768個隱藏單元和12個注意力頭。

6.根據權利要求2所述的一種基于人工智能的資訊文本提取與分類方法，其特征在于：所述通用文本抽取模型通過多任務統一建模方式進行調優，輸入層使用基于提示機制的結構模式，輸出層采用結構化提取語言將提取結果以統一形式表示。

7.根據權利要求2所述的一種基于人工智能的資訊文本提取與分類方法，其特征在于：所述通用文本分類模型通過多任務統一語義匹配方式進行調優，將分類任務建模為標簽與文本之間的匹配任務，解碼層采用定向標記鏈接計算分數，輸出層輸出標簽和文本內容的關聯對。

8.根據權利要求2所述的一種基于人工智能的資訊文本提取與分類方法，其特征在于：還包括對所述通用文本抽取模型和通用文本分類模型進行模型評價的步驟，其中文本提取采用準確率、召回率和F1分數作為評估指標，文本分類采用Macro?F1和Micro?F1作為評估指標。

9.根據權利要求2所述的一種基于人工智能的資訊文本提取與分類方法，其特征在于：還包括將特定領域的專業知識注入到通用文本抽取模型和通用文本分類模型中的步驟，以獲得具有領域特性的文本提取和分類模型。

10.根據權利要求9所述的一種基于人工智能的資訊文本智能提取與分類方法，其特征在于：所述特定領域為海關領域，所述專業知識包括關稅政策、貿易法規、檢驗檢疫制度、海關法律和專業術語，所述標注數據包括海關資訊文本提取標注數據和文本分類標注數據。

...

【技術特征摘要】

1.一種基于人工智能的資訊文本提取與分類系統，其特征在于：其特征在于：包括：

2.一種基于人工智能的資訊文本提取與分類方法，其特征在于：包括以下步驟：

5.根據權利要求1或2所述的一種基于人工智能的資訊文本提取與分類系統方法，其特征在于：所述主體模型采用ernie知識增強預訓練模型，其通用表示層和特定表示層均使用transformer-xl結構作為主干，其中通用表示層包含48個transformer層、4096個隱藏單元和64個注意力頭，特定表示層包含12個transformer層、768個隱藏單元和12個注意力頭。

6.根據權利要求2所述的一種基于人工智能的資訊文本提取與分類方法，其特征在于：所述通用文本...

【專利技術屬性】
技術研發人員：林嘉宜，張鵬，張小江，梁曉智，夏永忠，謝俊敏，王增強，李鴻昇，江彥賡，朱小清，黃娟，李國麗，龍鵬，胡友濤，霍勁，
申請(專利權)人：中華人民共和國黃埔海關，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術