當前位置: 首頁 > 專利查詢>廣州數(shù)說故事信息科技有限公司專利>正文

一種基于多任務(wù)和GlobalPointer模型的信息提取方法及系統(tǒng)技術(shù)方案

技術(shù)編號：44330043 閱讀：6 留言：0更新日期：2025-02-18 20:37

本發(fā)明專利技術(shù)涉及自然語言處理技術(shù)領(lǐng)域，公開了一種基于多任務(wù)和GlobalPointer模型的信息提取方法及系統(tǒng)，包括以下步驟：構(gòu)建包括編碼器、GlobalPointer模型、分類器的信息提取模型；使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練；將文本輸入訓(xùn)練好的信息提取模型中，通過編碼器編碼為向量表示；通過GlobalPointer模型提取向量表示中所有跨度，并將跨度轉(zhuǎn)化為實體向量；使用GlobalPointer模型提取實體向量之間的關(guān)系；通過分類器對實體向量進行分類；綜合實體向量、關(guān)系、分類結(jié)果，輸出三元組數(shù)據(jù)提取結(jié)果。本發(fā)明專利技術(shù)解決了現(xiàn)有技術(shù)推理效率低、運算消耗大的問題，且具有能夠提高標簽利用率、適用于海量數(shù)據(jù)處理的特點。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及自然語言處理，更具體的，涉及一種基于多任務(wù)和globalpointer模型的信息提取方法及系統(tǒng)。

技術(shù)介紹

1、現(xiàn)有的信息抽取方法通常將實體識別、關(guān)系抽取和三元組提取任務(wù)分開處理。這些方法通常需要分別設(shè)計不同的模型或在模型輸入中引入特殊標記，這樣不僅訓(xùn)練復(fù)雜計算量大，而且在推理時需要多次運行模型，增加了時間和計算資源的消耗。此外，許多現(xiàn)有方法在處理長序列或海量數(shù)據(jù)時表現(xiàn)欠佳，模型的準確性和效率無法得到保證。

2、另外近期也有一些統(tǒng)一信息抽取的模型被提出，例如基于統(tǒng)一結(jié)構(gòu)生成的統(tǒng)一信息抽取(uie)、基于統(tǒng)一語義匹配的通用信息抽取框架(usm)和基于跨度提取的高效統(tǒng)一信息提取框架(uniex)以及基于多任務(wù)指令微調(diào)大模型的統(tǒng)一信息抽取(instructuie)等。

3、如現(xiàn)有一種基于有序結(jié)構(gòu)編碼指針網(wǎng)絡(luò)解碼的實體關(guān)系抽取方法，該方法包括：在輸入層利用bert預(yù)訓(xùn)練模型訓(xùn)練詞向量進行word?embedding，然后加入對抗訓(xùn)練生成句子向量表示的負例，構(gòu)建句子初始向量；在編碼層使用bi-lstm捕獲文本的全局語義信息；在解碼層使用指針網(wǎng)絡(luò)的解碼思想，分別進行頭實體抽取、尾實體和關(guān)系抽取，使用sigmoid代替softmax預(yù)測輸入，完成實體關(guān)系三元組抽取任務(wù)。

4、然而現(xiàn)有技術(shù)存在推理效率低、運算消耗大的問題，因此如何專利技術(shù)一種推理效率高、運算消耗小的信息提取方法，是本
亟需解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)為了解決

2、為實現(xiàn)上述本專利技術(shù)目的，采用的技術(shù)方案如下：

3、一種基于多任務(wù)和globalpointer模型的信息提取方法，包括以下步驟：

4、構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型；

5、使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練；

6、將文本輸入訓(xùn)練好的信息提取模型中，通過編碼器編碼為向量表示；通過globalpointer模型提取向量表示中所有跨度，并將跨度轉(zhuǎn)化為實體向量；使用globalpointer模型提取實體向量之間的關(guān)系；通過分類器對實體向量進行分類；

7、綜合實體向量、關(guān)系、分類結(jié)果，輸出三元組數(shù)據(jù)提取結(jié)果。

8、優(yōu)選的，所述的編碼器采用bert類模型，具體的，采用bert、albert、roberta任一種語言模型編碼器。

9、進一步的，所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

10、更進一步的，使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練，具體步驟為：

11、將命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集輸入信息提取模型中進行實體識別、關(guān)系提取、三元組數(shù)據(jù)提取任務(wù)，得到混合批結(jié)果；

12、分別計算混合批結(jié)果的實體識別損失、關(guān)系提取損失、三元組提取損失；計算損失時，使用損失掩碼實現(xiàn)任務(wù)間的隔離。

13、更進一步的，進行實體識別任務(wù)時，將實體識別數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中，通過編碼器編碼為向量表示；通過globalpointer模型提取向量表示中所有跨度，并將跨度轉(zhuǎn)化為實體向量；通過分類器對實體向量進行分類，得到實體識別結(jié)果；

14、進行關(guān)系提取任務(wù)時，將關(guān)系提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中，通過編碼器編碼為向量表示；直接將數(shù)據(jù)集的跨度轉(zhuǎn)化為實體向量，使用globalpointer模型提取實體向量之間的關(guān)系，得到關(guān)系提取結(jié)果；

15、進行三元組數(shù)據(jù)提取任務(wù)時，將三元組提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中，通過編碼器編碼為向量表示；通過globalpointer模型提取向量表示中所有跨度，并將跨度轉(zhuǎn)化為實體向量；使用globalpointer模型提取實體向量之間的關(guān)系；通過分類器對實體向量進行分類；綜合實體向量、關(guān)系、分類結(jié)果，得到三元組數(shù)據(jù)提取結(jié)果。

16、更進一步的，使用損失掩碼實現(xiàn)任務(wù)間的隔離，具體為：計算混合批結(jié)果中數(shù)據(jù)的損失時，若該數(shù)據(jù)為實體識別任務(wù)，則損失掩碼忽略關(guān)系提取損失；若該數(shù)據(jù)為關(guān)系提取任務(wù)時，則損失掩碼忽略實體識別損失；若該數(shù)據(jù)為三元組數(shù)據(jù)提取任務(wù)，則損失掩碼不忽略任何損失。

17、更進一步的，將跨度轉(zhuǎn)化為實體向量，具體為：選取頭實體跨度，使用跨度的頭標記和尾標記的均值向量作為頭實體向量。

18、更進一步的，使用globalpointer模型提取實體跨度的關(guān)系后，得到的實體關(guān)系的輸出為：頭實體、尾實體、該頭實體和尾實體的關(guān)系。

19、更進一步的，通過分類器對實體向量進行分類后，得到的實體類別的輸出為：實體、該實體的類別。

20、一種基于多任務(wù)和globalpointer模型的信息提取系統(tǒng)，包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊；

21、所述的模型構(gòu)建模塊用于構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型；

22、所述模型訓(xùn)練模塊用于使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練；

23、所述的信息提取模塊用于將文本輸入訓(xùn)練好的信息提取模型中，通過編碼器編碼為向量表示；通過globalpointer模型提取向量表示中所有跨度，并將跨度轉(zhuǎn)化為實體向量；使用globalpointer模型提取實體向量之間的關(guān)系；通過分類器對實體向量進行分類；

24、所述的結(jié)果輸出模塊用于綜合實體向量、關(guān)系、分類結(jié)果，輸出三元組數(shù)據(jù)提取結(jié)果。

25、本專利技術(shù)的有益效果如下：

26、本專利技術(shù)提出包括編碼器、globalpointer模型、分類器的信息提取模型，采用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練；相比現(xiàn)有技術(shù)具有推理高效訓(xùn)練簡單的優(yōu)點，現(xiàn)有技術(shù)的信息抽取模型在推理不同任務(wù)時需要使用不同的提示模版多次推理且需要進行大量知識注入的預(yù)訓(xùn)練,而本專利技術(shù)的信息提取模型只需一次推理即可輸出所有任務(wù)的結(jié)果并且不需要再增加預(yù)訓(xùn)練的步驟；相比于usm和uniex不需要在輸入文本前增加特殊標記,因此本專利技術(shù)采用的信息提取模型的標記利用率更高,在處理大數(shù)據(jù)時更有優(yōu)勢。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：所述的編碼器采用BERT類模型，具體的，采用BERT、ALBERT、RoBERTa任一種語言模型編碼器。

3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練，具體步驟為：

5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：

6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：使用損失掩碼實現(xiàn)任務(wù)間的隔離，具體為：計算混合批結(jié)果中數(shù)據(jù)的損失時，若該數(shù)據(jù)為實體識

7.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：將跨度轉(zhuǎn)化為實體向量，具體為：選取頭實體跨度，使用跨度的頭標記和尾標記的均值向量作為頭實體向量。

8.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：使用GlobalPointer模型提取實體跨度的關(guān)系后，得到的實體關(guān)系的輸出為：頭實體、尾實體、該頭實體和尾實體的關(guān)系。

9.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法，其特征在于：通過分類器對實體向量進行分類后，得到的實體類別的輸出為：實體、該實體的類別。

10.一種基于多任務(wù)和GlobalPointer模型的信息提取系統(tǒng)，其特征在于：包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊；

...

【技術(shù)特征摘要】

1.一種基于多任務(wù)和globalpointer模型的信息提取方法，其特征在于：包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法，其特征在于：所述的編碼器采用bert類模型，具體的，采用bert、albert、roberta任一種語言模型編碼器。

3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法，其特征在于：所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法，其特征在于：使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練，具體步驟為：

5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和globalpointer模型的信息提取方法，其特征在于：

6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和globalpointer模型的信息提取方法，其特征在于：使用損失掩碼實現(xiàn)任務(wù)間的隔離，具體為：計算混合...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：徐亞波，李旭日，牟昊，何宇軒，楊俊波，
申請(專利權(quán))人：廣州數(shù)說故事信息科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)