System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及信息抽取,尤其涉及實體關系聯合抽取方法及用于實體關系聯合抽取的聯合抽取模型。
技術介紹
1、實體關系抽取中,通常設計包含作為子任務的ner(namedentityrecognition,命名實體識別)任務與re(relationextraction,關系分類)任務,根據任務完成的先后,實體關系抽取可以分為流水線方法和聯合抽取方法。具體而言,實體關系抽取的流水線方法是在句子中的實體被識別后,再判斷實體對之間的關系類型;而實體關系抽取的聯合抽取方法具體是指:用聯合學習模型同時解決實體識別與關系分類這兩個子任務,直接輸出存在關系的三元組。流水線方法首先會經過ner任務,識別句子中名稱、位置和日期等實體。然后把ner任務的輸出傳遞到關系提取階段,提取到實體間的關系類型。
2、流水線方法通常難以捕捉ner和re這兩個子任務之間的復雜交互。這種限制是由于兩個子任務相互獨立而產生的,其中ner階段的錯誤或歧義可能會傳播到re階段,從而會極大的影響實體關系抽取效果。而聯合抽取方法雖然利用實體和關系間緊密的信息交互,同時抽取實體以及實體對之間的關系,很好地解決了流水線方法所存在的問題,但是聯合抽取方法仍然存在著一些局限性。例如ner和re這兩個子任務中使用共享特征表示,存在特征混淆的情況,最終影響實體關系抽取效果。
技術實現思路
1、針對現有技術中所存在的不足,本專利技術提供了一種實體關系聯合抽取方法及用于實體關系聯合抽取的聯合抽取模型,其緩解了現有技術的實體關系抽取中,聯
2、根據本專利技術的實施例,一種實體關系聯合抽取方法,包括:
3、通過預訓練編碼器提取原始語句的上下文信息,獲得初始上下文嵌入;
4、將所述初始上下文嵌入輸入到包括實體子任務和關系子任務的聯合抽取模型,根據所述聯合抽取模型的輸出獲得基于所述原始語句的關系三元組;
5、所述聯合抽取模型中,通過第一多層感知器獲取所述實體識別任務的第一中間特征表示,通過第二多層感知器獲取所述關系分類任務的第二中間特征表示;
6、對所述第一中間特征表示和所述第二中間特征表示進行特征交互與融合處理;其中,特征交互與融合處理使用引入條件因素的歸一化所述第一中間特征表示和所述第二中間特征表示獲得融合特征,并對所述融合特征進行特征提取,輸出特征交互與融合處理的結果;
7、將特征交互與融合處理的結果、所述第一中間特征表示和所述第二中間特征表示輸入ner分類模塊和re分類模塊,以第一二維表表示經過ner分類模塊輸出的實體標簽,以第二二維表表示經過re分類模塊輸出的關系標簽;
8、根據所述實體標簽和所述關系標簽進行多標簽分類求解,求解的結果為所述聯合抽取模型的輸出。
9、可選地,所述第一多層感知器與所述第二多層感知器為不同的多層感知器,且所述第一多層感知器和所述第二多層感知器并行編碼。
10、可選地,對所述融合特征進行特征提取之前,包括:
11、引入用于表示相對距離的位置矩陣;
12、根據所述融合特征和所述位置矩陣,構建多層感知機的輸入;
13、所述多層感知機,采用多重二維膨脹卷積進行特征提取,拼接根據多重二維膨脹卷積的l個膨脹率所獲取的l個輸出,得到共享特征;
14、使用前饋神經網絡和softmax激活函數,計算所述共享特征中第一中間特征表示對第二中間特征表示的第一注意力得分,以及所述共享特征中第二中間特征表示對第一中間特征表示的第二注意力得分。
15、可選地,對所述融合特征進行特征提取,包括:
16、基于所述融合特征進行特征提取,所述特征提取使用協同注意力機制根據第一注意力得分以及所述第二注意力得分,捕捉所述共享特征中第一中間特征表示與第二中間特征表示之間的交互作用,獲得特征提取結果。
17、可選地,使用引入條件因素的歸一化所述第一中間特征表示和所述第二中間特征表示獲得融合特征,計算公式為:
18、
19、其中,uij表示融合所述第一中間特征表示和所述第二中間特征表示獲得的融合特征,hi∈hner,hj∈hre,hner為第一中間特征表示,hre為第二中間特征表示,γij為歸一化的尺度,λij為歸一化的偏置,且γij=wαhi+bα,λij=wβhi+bβ,其中,參數wα、wβ、bα、bβ是可訓練參數,γij與λij則會根據hi進行調整,dh表示hre的維度。
20、可選地,根據所述融合特征和所述位置矩陣,構建多層感知機mlp層的輸入,公式為:
21、c=mlp([u;d]);
22、其中,u為基于融合特征的矩陣,d為位置矩陣,[;]表示拼接操作。
23、可選地,多重二維膨脹卷積的計算公式為:
24、ql=gelu(dconvl(c));
25、其中,l表示膨脹率,gelu表示激活函數,l∈[1,2,3],c=mlp([u;d]);
26、拼接根據多重二維膨脹卷積的多個膨脹率所獲取的多個輸出,得到共享特征,公式為:
27、q=[q1;q2;q3];
28、其中,q表示共享特征,q1表示基于l=1的輸出,q2表示基于l=2的輸出,q3表示基于l=3的輸出。
29、可選地,使用前饋神經網絡和softmax激活函數,計算所述共享特征中第一中間特征表示對第二中間特征表示的第一注意力得分,以及所述共享特征中第二中間特征表示對第一中間特征表示的第二注意力得分,公式為:
30、a=ffnn(q)
31、θ=softmax(a)
32、
33、其中,θ表示共享特征中第一中間特征表示對第二中間特征表示的注意力得分,表示共享特征中第二中間特征表示對第一中間特征表示的第二注意力得分,q=[q1;q2;q3]。
34、可選地,使用協同注意力機制根據第一注意力得分以及所述第二注意力得分,捕捉所述共享特征中第一中間特征表示與第二中間特征表示之間的交互作用,獲得特征提取結果,公式為:
35、
36、其中,hner為第一中間特征表示,hre為第二中間特征表示。
37、可選地,將特征交互與融合處理的結果、所述第一中間特征表示和所述第二中間特征表示輸入ner分類模塊和re分類模塊之前,包括:
38、連接所述特征交互與融合處理的結果、所述第一中間特征表示和所述第二中間特征表示,作為ner分類模塊和re分類模塊的輸入。
39、可選地,根據所述實體標簽和所述關系標簽進行多標簽分類求解,包括:
40、將任一第一中間特征表示和任一第二中間特征表示組成實體對;
41、預測所述實體對屬于實體類型的第一條件概率,以及所述實體對屬于關系類型的第二條件概率;
42、基于所述本文檔來自技高網...
【技術保護點】
1.一種實體關系聯合抽取方法,其特征在于,包括:
2.如權利要求1所述的實體關系聯合抽取方法,其特征在于,所述第一多層感知器與所述第二多層感知器為不同的多層感知器,且所述第一多層感知器和所述第二多層感知器并行編碼。
3.如權利要求1或2所述的實體關系聯合抽取方法,其特征在于,對所述融合特征進行特征提取之前,包括:
4.如權利要求3所述的實體關系聯合抽取方法,其特征在于,對所述融合特征進行特征提取,包括:
5.如權利要求4所述的實體關系聯合抽取方法,其特征在于,使用引入條件因素的歸一化所述第一中間特征表示和所述第二中間特征表示獲得融合特征,計算公式為:
6.如權利要求5所述的實體關系聯合抽取方法,其特征在于,根據所述融合特征和所述位置矩陣,構建多層感知機MLP層的輸入,公式為:
7.如權利要求6所述的實體關系聯合抽取方法,其特征在于,多重二維膨脹卷積的計算公式為:
8.如權利要求7所述的實體關系聯合抽取方法,其特征在于,使用前饋神經網絡和Softmax激活函數,計算所述共享特征中第一中間特征表示對第
9.如權利要求8所述的實體關系聯合抽取方法,其特征在于,使用協同注意力機制根據第一注意力得分以及所述第二注意力得分,捕捉所述共享特征中第一中間特征表示與第二中間特征表示之間的交互作用,獲得特征提取結果,公式為:
10.如權利要求1所述的實體關系聯合抽取方法,其特征在于,將特征交互與融合處理的結果、所述第一中間特征表示和所述第二中間特征表示輸入NER分類模塊和RE分類模塊之前,包括:
11.如權利要求10所述的實體關系聯合抽取方法,其特征在于,根據所述實體標簽和所述關系標簽進行多標簽分類求解,包括:
12.如權利要求11所述的實體關系聯合抽取方法,其特征在于,以第一二維表表示經過NER分類模塊輸出的實體標簽,以第二二維表表示經過RE分類模塊輸出的關系標簽,公式為:
13.如權利要求12所述的實體關系聯合抽取方法,其特征在于,預測所述實體對屬于實體類型的第一條件概率,以及所述實體對屬于關系類型的第二條件概率,公式為:
14.如權利要求13所述的實體關系聯合抽取方法,其特征在于,兩個交叉熵損失函數的計算公式為:
15.一種聯合抽取模型,其特征在于,包括實體子任務和關系子任務;所述聯合抽取模型還包括:
16.一種計算機設備,包括存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現權利要求1至14任一項所述的實體關系聯合抽取方法的步驟。
17.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至14任一項所述的實體關系聯合抽取方法的步驟。
18.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至14任一項所述的實體關系聯合抽取方法的步驟。
...【技術特征摘要】
1.一種實體關系聯合抽取方法,其特征在于,包括:
2.如權利要求1所述的實體關系聯合抽取方法,其特征在于,所述第一多層感知器與所述第二多層感知器為不同的多層感知器,且所述第一多層感知器和所述第二多層感知器并行編碼。
3.如權利要求1或2所述的實體關系聯合抽取方法,其特征在于,對所述融合特征進行特征提取之前,包括:
4.如權利要求3所述的實體關系聯合抽取方法,其特征在于,對所述融合特征進行特征提取,包括:
5.如權利要求4所述的實體關系聯合抽取方法,其特征在于,使用引入條件因素的歸一化所述第一中間特征表示和所述第二中間特征表示獲得融合特征,計算公式為:
6.如權利要求5所述的實體關系聯合抽取方法,其特征在于,根據所述融合特征和所述位置矩陣,構建多層感知機mlp層的輸入,公式為:
7.如權利要求6所述的實體關系聯合抽取方法,其特征在于,多重二維膨脹卷積的計算公式為:
8.如權利要求7所述的實體關系聯合抽取方法,其特征在于,使用前饋神經網絡和softmax激活函數,計算所述共享特征中第一中間特征表示對第二中間特征表示的第一注意力得分,以及所述共享特征中第二中間特征表示對第一中間特征表示的第二注意力得分,公式為:
9.如權利要求8所述的實體關系聯合抽取方法,其特征在于,使用協同注意力機制根據第一注意力得分以及所述第二注意力得分,捕捉所述共享特征中第一中間特征表示與第二中間特征表示之間的交互作用,獲得特征提取結果,公式為:
10.如權...
【專利技術屬性】
技術研發人員:許文強,
申請(專利權)人:重慶位圖信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。