System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 丰满爆乳无码一区二区三区,亚洲私人无码综合久久网,中文字幕无码视频手机免费看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于多任務(wù)和GlobalPointer模型的信息提取方法及系統(tǒng)技術(shù)方案

    技術(shù)編號:44330043 閱讀:6 留言:0更新日期:2025-02-18 20:37
    本發(fā)明專利技術(shù)涉及自然語言處理技術(shù)領(lǐng)域,公開了一種基于多任務(wù)和GlobalPointer模型的信息提取方法及系統(tǒng),包括以下步驟:構(gòu)建包括編碼器、GlobalPointer模型、分類器的信息提取模型;使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過GlobalPointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用GlobalPointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。本發(fā)明專利技術(shù)解決了現(xiàn)有技術(shù)推理效率低、運算消耗大的問題,且具有能夠提高標簽利用率、適用于海量數(shù)據(jù)處理的特點。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及自然語言處理,更具體的,涉及一種基于多任務(wù)和globalpointer模型的信息提取方法及系統(tǒng)。


    技術(shù)介紹

    1、現(xiàn)有的信息抽取方法通常將實體識別、關(guān)系抽取和三元組提取任務(wù)分開處理。這些方法通常需要分別設(shè)計不同的模型或在模型輸入中引入特殊標記,這樣不僅訓(xùn)練復(fù)雜計算量大,而且在推理時需要多次運行模型,增加了時間和計算資源的消耗。此外,許多現(xiàn)有方法在處理長序列或海量數(shù)據(jù)時表現(xiàn)欠佳,模型的準確性和效率無法得到保證。

    2、另外近期也有一些統(tǒng)一信息抽取的模型被提出,例如基于統(tǒng)一結(jié)構(gòu)生成的統(tǒng)一信息抽取(uie)、基于統(tǒng)一語義匹配的通用信息抽取框架(usm)和基于跨度提取的高效統(tǒng)一信息提取框架(uniex)以及基于多任務(wù)指令微調(diào)大模型的統(tǒng)一信息抽取(instructuie)等。

    3、如現(xiàn)有一種基于有序結(jié)構(gòu)編碼指針網(wǎng)絡(luò)解碼的實體關(guān)系抽取方法,該方法包括:在輸入層利用bert預(yù)訓(xùn)練模型訓(xùn)練詞向量進行word?embedding,然后加入對抗訓(xùn)練生成句子向量表示的負例,構(gòu)建句子初始向量;在編碼層使用bi-lstm捕獲文本的全局語義信息;在解碼層使用指針網(wǎng)絡(luò)的解碼思想,分別進行頭實體抽取、尾實體和關(guān)系抽取,使用sigmoid代替softmax預(yù)測輸入,完成實體關(guān)系三元組抽取任務(wù)。

    4、然而現(xiàn)有技術(shù)存在推理效率低、運算消耗大的問題,因此如何專利技術(shù)一種推理效率高、運算消耗小的信息提取方法,是本
    亟需解決的技術(shù)問題。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)為了解決現(xiàn)有技術(shù)推理效率低、運算消耗大的問題,提供了一種基于多任務(wù)和globalpointer模型的信息提取方法及系統(tǒng),其具有能夠提高標簽利用率、適用于海量數(shù)據(jù)處理的特點。

    2、為實現(xiàn)上述本專利技術(shù)目的,采用的技術(shù)方案如下:

    3、一種基于多任務(wù)和globalpointer模型的信息提取方法,包括以下步驟:

    4、構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型;

    5、使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;

    6、將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;

    7、綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。

    8、優(yōu)選的,所述的編碼器采用bert類模型,具體的,采用bert、albert、roberta任一種語言模型編碼器。

    9、進一步的,所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

    10、更進一步的,使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:

    11、將命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集輸入信息提取模型中進行實體識別、關(guān)系提取、三元組數(shù)據(jù)提取任務(wù),得到混合批結(jié)果;

    12、分別計算混合批結(jié)果的實體識別損失、關(guān)系提取損失、三元組提取損失;計算損失時,使用損失掩碼實現(xiàn)任務(wù)間的隔離。

    13、更進一步的,進行實體識別任務(wù)時,將實體識別數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;通過分類器對實體向量進行分類,得到實體識別結(jié)果;

    14、進行關(guān)系提取任務(wù)時,將關(guān)系提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;直接將數(shù)據(jù)集的跨度轉(zhuǎn)化為實體向量,使用globalpointer模型提取實體向量之間的關(guān)系,得到關(guān)系提取結(jié)果;

    15、進行三元組數(shù)據(jù)提取任務(wù)時,將三元組提取數(shù)據(jù)集的數(shù)據(jù)輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;綜合實體向量、關(guān)系、分類結(jié)果,得到三元組數(shù)據(jù)提取結(jié)果。

    16、更進一步的,使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合批結(jié)果中數(shù)據(jù)的損失時,若該數(shù)據(jù)為實體識別任務(wù),則損失掩碼忽略關(guān)系提取損失;若該數(shù)據(jù)為關(guān)系提取任務(wù)時,則損失掩碼忽略實體識別損失;若該數(shù)據(jù)為三元組數(shù)據(jù)提取任務(wù),則損失掩碼不忽略任何損失。

    17、更進一步的,將跨度轉(zhuǎn)化為實體向量,具體為:選取頭實體跨度,使用跨度的頭標記和尾標記的均值向量作為頭實體向量。

    18、更進一步的,使用globalpointer模型提取實體跨度的關(guān)系后,得到的實體關(guān)系的輸出為:頭實體、尾實體、該頭實體和尾實體的關(guān)系。

    19、更進一步的,通過分類器對實體向量進行分類后,得到的實體類別的輸出為:實體、該實體的類別。

    20、一種基于多任務(wù)和globalpointer模型的信息提取系統(tǒng),包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊;

    21、所述的模型構(gòu)建模塊用于構(gòu)建包括編碼器、globalpointer模型、分類器的信息提取模型;

    22、所述模型訓(xùn)練模塊用于使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;

    23、所述的信息提取模塊用于將文本輸入訓(xùn)練好的信息提取模型中,通過編碼器編碼為向量表示;通過globalpointer模型提取向量表示中所有跨度,并將跨度轉(zhuǎn)化為實體向量;使用globalpointer模型提取實體向量之間的關(guān)系;通過分類器對實體向量進行分類;

    24、所述的結(jié)果輸出模塊用于綜合實體向量、關(guān)系、分類結(jié)果,輸出三元組數(shù)據(jù)提取結(jié)果。

    25、本專利技術(shù)的有益效果如下:

    26、本專利技術(shù)提出包括編碼器、globalpointer模型、分類器的信息提取模型,采用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練;相比現(xiàn)有技術(shù)具有推理高效訓(xùn)練簡單的優(yōu)點,現(xiàn)有技術(shù)的信息抽取模型在推理不同任務(wù)時需要使用不同的提示模版多次推理且需要進行大量知識注入的預(yù)訓(xùn)練,而本專利技術(shù)的信息提取模型只需一次推理即可輸出所有任務(wù)的結(jié)果并且不需要再增加預(yù)訓(xùn)練的步驟;相比于usm和uniex不需要在輸入文本前增加特殊標記,因此本專利技術(shù)采用的信息提取模型的標記利用率更高,在處理大數(shù)據(jù)時更有優(yōu)勢。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:所述的編碼器采用BERT類模型,具體的,采用BERT、ALBERT、RoBERTa任一種語言模型編碼器。

    3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

    4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:

    5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:

    6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合批結(jié)果中數(shù)據(jù)的損失時,若該數(shù)據(jù)為實體識別任務(wù),則損失掩碼忽略關(guān)系提取損失;若該數(shù)據(jù)為關(guān)系提取任務(wù)時,則損失掩碼忽略實體識別損失;若該數(shù)據(jù)為三元組數(shù)據(jù)提取任務(wù),則損失掩碼不忽略任何損失。

    7.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:將跨度轉(zhuǎn)化為實體向量,具體為:選取頭實體跨度,使用跨度的頭標記和尾標記的均值向量作為頭實體向量。

    8.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:使用GlobalPointer模型提取實體跨度的關(guān)系后,得到的實體關(guān)系的輸出為:頭實體、尾實體、該頭實體和尾實體的關(guān)系。

    9.根據(jù)權(quán)利要求1所述的基于多任務(wù)和GlobalPointer模型的信息提取方法,其特征在于:通過分類器對實體向量進行分類后,得到的實體類別的輸出為:實體、該實體的類別。

    10.一種基于多任務(wù)和GlobalPointer模型的信息提取系統(tǒng),其特征在于:包括模型構(gòu)建模塊、模型訓(xùn)練模塊、信息提取模塊、結(jié)果輸出模塊;

    ...

    【技術(shù)特征摘要】

    1.一種基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:所述的編碼器采用bert類模型,具體的,采用bert、albert、roberta任一種語言模型編碼器。

    3.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:所述的分類器具體為多層感知機分類器,支持單標簽和多標簽分類。

    4.根據(jù)權(quán)利要求1所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:使用包括命名實體識別數(shù)據(jù)集、關(guān)系提取數(shù)據(jù)集、三元組提取數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集對信息提取模型進行多任務(wù)訓(xùn)練,具體步驟為:

    5.根據(jù)權(quán)利要求4所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:

    6.根據(jù)權(quán)利要求5所述的基于多任務(wù)和globalpointer模型的信息提取方法,其特征在于:使用損失掩碼實現(xiàn)任務(wù)間的隔離,具體為:計算混合...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:徐亞波李旭日牟昊何宇軒楊俊波
    申請(專利權(quán))人:廣州數(shù)說故事信息科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩免费无码一区二区视频| 伊人久久精品无码av一区| 亚洲国产精品无码久久九九| 无码中文人妻在线一区| 亚洲精品无码高潮喷水在线| 西西444www无码大胆| 亚洲精品无码久久毛片| 午夜不卡久久精品无码免费| 精品久久久久久无码国产| 国产精品无码一区二区在线| 无码人妻一区二区三区免费手机| 亚洲成A∨人片天堂网无码| 亚洲av福利无码无一区二区| 日韩夜夜高潮夜夜爽无码| 精品亚洲AV无码一区二区| 久久久久久久人妻无码中文字幕爆 | 国产在线精品无码二区| 亚洲熟妇无码八V在线播放 | 亚洲中文字幕无码爆乳AV| 亚洲精品无码日韩国产不卡av| 亚洲av无码专区国产乱码在线观看| 野花在线无码视频在线播放| 日韩无码系列综合区| 国产午夜鲁丝片AV无码| 最新亚洲春色Av无码专区| 人妻av无码一区二区三区| 日韩精品无码一区二区三区不卡 | 午夜无码国产理论在线| 国产成人综合日韩精品无码不卡| 深夜a级毛片免费无码| 成人年无码AV片在线观看| 精品无码久久久久久久久水蜜桃| av无码久久久久久不卡网站| 18禁免费无码无遮挡不卡网站| 人妻丰满AV无码久久不卡| 蜜桃AV无码免费看永久| av无码久久久久久不卡网站| 亚洲AV无码一区二区三区性色 | 中文无码久久精品| 国产成人AV片无码免费| 亚洲av无码精品网站|