System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及自然語言處理,更具體的,涉及一種基于多任務(wù)和globalpointer模型的信息提取方法及系統(tǒng)。
技術(shù)介紹
1、現(xiàn)有的信息抽取方法通常將實體識別、關(guān)系抽取和三元組提取任務(wù)分開處理。這些方法通常需要分別設(shè)計不同的模型或在模型輸入中引入特殊標記,這樣不僅訓(xùn)練復(fù)雜計算量大,而且在推理時需要多次運行模型,增加了時間和計算資源的消耗。此外,許多現(xiàn)有方法在處理長序列或海量數(shù)據(jù)時表現(xiàn)欠佳,模型的準確性和效率無法得到保證。
2、另外近期也有一些統(tǒng)一信息抽取的模型被提出,例如基于統(tǒng)一結(jié)構(gòu)生成的統(tǒng)一信息抽取(uie)、基于統(tǒng)一語義匹配的通用信息抽取框架(usm)和基于跨度提取的高效統(tǒng)一信息提取框架(uniex)以及基于多任務(wù)指令微調(diào)大模型的統(tǒng)一信息抽取(instructuie)等。
3、如現(xiàn)有一種基于有序結(jié)構(gòu)編碼指針網(wǎng)絡(luò)解碼的實體關(guān)系抽取方法,該方法包括:在輸入層利用bert預(yù)訓(xùn)練模型訓(xùn)練詞向量進行word?embedding,然后加入對抗訓(xùn)練生成句子向量表示的負例,構(gòu)建句子初始向量;在編碼層使用bi-lstm捕獲文本的全局語義信息;在解碼層使用指針網(wǎng)絡(luò)的解碼思想,分別進行頭實體抽取、尾實體和關(guān)系抽取,使用sigmoid代替softmax預(yù)測輸入,完成實體關(guān)系三元組抽取任務(wù)。
4、然而現(xiàn)有技術(shù)存在推理效率低、運算消耗大的問題,因此如何專利技術(shù)一種推理效率高、運算消耗小的信息提取方法,是本
亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)為了解決
2、為實現(xiàn)上述本專利技術(shù)目的,采用的技術(shù)方案如下:
3、一種基于多任務(wù)和globalpointer模型的信息提取方法,包括以下步驟:
4、構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型;
5、使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;
6、將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;
7、綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。
8、優(yōu)選的,所述的編碼器采用bert類模型,具體的,采用bert、albert、roberta任一種語言模型編碼器。
9、進一步的,所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。
10、更進一步的,使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:
11、將命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集輸入信息提取模型中進行實體識別、關(guān)系提取、三元組數(shù)據(jù)提取任務(wù),得到混合批結(jié)果;
12、分別計算混合批結(jié)果的實體識別損失、關(guān)系提取損失、三元組提取損失;計算損失時,使用損失掩碼實現(xiàn)任務(wù)間的隔離。
13、更進一步的,進行實體識別任務(wù)時,將實體識別數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;通過分類器對實體向量進行分類,得到實體識別結(jié)果;
14、進行關(guān)系提取任務(wù)時,將關(guān)系提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;直接將數(shù)據(jù)集的跨度轉(zhuǎn)化為實體向量,使用globalpointer模型提取實體向量之間的關(guān)系,得到關(guān)系提取結(jié)果;
15、進行三元組數(shù)據(jù)提取任務(wù)時,將三元組提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;綜合實體向量、關(guān)系、分類結(jié)果,得到三元組數(shù)據(jù)提取結(jié)果。
16、更進一步的,使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合批結(jié)果中數(shù)據(jù)的損失時,若該數(shù)據(jù)為實體識別任務(wù),則損失掩碼忽略關(guān)系提取損失;若該數(shù)據(jù)為關(guān)系提取任務(wù)時,則損失掩碼忽略實體識別損失;若該數(shù)據(jù)為三元組數(shù)據(jù)提取任務(wù),則損失掩碼不忽略任何損失。
17、更進一步的,將跨度轉(zhuǎn)化為實體向量,具體為:選取頭實體跨度,使用跨度的頭標記和尾標記的均值向量作為頭實體向量。
18、更進一步的,使用globalpointer模型提取實體跨度的關(guān)系后,得到的實體關(guān)系的輸出為:頭實體、尾實體、該頭實體和尾實體的關(guān)系。
19、更進一步的,通過分類器對實體向量進行分類后,得到的實體類別的輸出為:實體、該實體的類別。
20、一種基于多任務(wù)和globalpointer模型的信息提取系統(tǒng),包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊;
21、所述的模型構(gòu)建模塊用于構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型;
22、所述模型訓(xùn)練模塊用于使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;
23、所述的信息提取模塊用于將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;
24、所述的結(jié)果輸出模塊用于綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。
25、本專利技術(shù)的有益效果如下:
26、本專利技術(shù)提出包括編碼器、globalpointer模型、分類器的信息提取模型,采用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;相比現(xiàn)有技術(shù)具有推理高效訓(xùn)練簡單的優(yōu)點,現(xiàn)有技術(shù)的信息抽取模型在推理不同任務(wù)時需要使用不同的提示模版多次推理且需要進行大量知識注入的預(yù)訓(xùn)練,而本專利技術(shù)的信息提取模型只需一次推理即可輸出所有任務(wù)的結(jié)果并且不需要再增加預(yù)訓(xùn)練的步驟;相比于usm和uniex不需要在輸入文本前增加特殊標記,因此本專利技術(shù)采用的信息提取模型的標記利用率更高,在處理大數(shù)據(jù)時更有優(yōu)勢。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:所述的編碼器采用BERT類模型,具體的,采用BERT、ALBERT、RoBERTa任一種語言模型編碼器。
3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。
4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:
5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:
6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合批結(jié)果中數(shù)據(jù)的損失時,若該數(shù)據(jù)為實體識
7.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:將跨度轉(zhuǎn)化為實體向量,具體為:選取頭實體跨度,使用跨度的頭標記和尾標記的均值向量作為頭實體向量。
8.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用GlobalPointer模型提取實體跨度的關(guān)系后,得到的實體關(guān)系的輸出為:頭實體、尾實體、該頭實體和尾實體的關(guān)系。
9.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:通過分類器對實體向量進行分類后,得到的實體類別的輸出為:實體、該實體的類別。
10.一種基于多任務(wù)和GlobalPointer模型的信息提取系統(tǒng),其特征在于:包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊;
...【技術(shù)特征摘要】
1.一種基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:所述的編碼器采用bert類模型,具體的,采用bert、albert、roberta任一種語言模型編碼器。
3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。
4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:
5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:
6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:徐亞波,李旭日,牟昊,何宇軒,楊俊波,
申請(專利權(quán))人:廣州數(shù)說故事信息科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。