System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及自然語言關(guān)系抽取,特別是涉及一種基于關(guān)系感知的實(shí)體關(guān)系提取方法。
技術(shù)介紹
1、實(shí)體關(guān)系提取是從文本中提取三元組的過程,包括主體、關(guān)系和客體,對(duì)知識(shí)圖譜構(gòu)建等下游任務(wù)具有重要意義。然而,實(shí)體關(guān)系提取面臨諸多挑戰(zhàn),例如實(shí)體和關(guān)系間缺乏信息交互,實(shí)體重疊等問題,均影響提取性能。早期,實(shí)體關(guān)系提取采用流水線方法,分為命名實(shí)體識(shí)別和關(guān)系預(yù)測(cè)兩個(gè)子任務(wù)。然而,該方法忽略了實(shí)體和關(guān)系間的聯(lián)系,導(dǎo)致錯(cuò)誤傳播問題。為解決此問題,前人提出聯(lián)合學(xué)習(xí)方法,將實(shí)體提取與關(guān)系提取結(jié)合,實(shí)現(xiàn)信息共享,有效減少錯(cuò)誤傳播。盡管取得進(jìn)展,但實(shí)體與關(guān)系間聯(lián)系尚未充分利用。例如,casrel存在冗余操作,prgc產(chǎn)生大量實(shí)體冗余且未能有效利用實(shí)體與關(guān)系間的信息。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)旨在至少解決現(xiàn)有技術(shù)中存在的提取三元組性能差的技術(shù)問題,特別創(chuàng)新地提出了一種基于關(guān)系感知的實(shí)體關(guān)系提取方法。
2、為了實(shí)現(xiàn)本專利技術(shù)的上述目的,本專利技術(shù)提供了一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,所述方法包括:
3、s100、利用編碼層對(duì)輸入文本進(jìn)行編碼,獲取輸入文本的向量表示;
4、s200、將所述輸入文本的向量表示輸入關(guān)系感知層,利用所述關(guān)系感知層獲取潛在關(guān)系;
5、s300、將所述潛在關(guān)系輸入至實(shí)體提取器中,獲取主體與客體;
6、s400、將所述主體與客體輸入至主客體對(duì)齊抽取器中,過濾出冗余實(shí)體對(duì);
7、s500、建立實(shí)體關(guān)系提取模型,并通過
8、作為本專利技術(shù)的一種可選實(shí)施例,可選地,所述利用所述關(guān)系感知層獲取潛在關(guān)系包括:
9、s201、將所述輸入文本的向量表示輸入至多頭注意力模塊中,利用所述多頭注意力模塊對(duì)輸入文本中不同的詞匯分配不同的權(quán)重,獲取輸入文本中的單詞嵌入;
10、多頭注意力模塊通過公式表示為:
11、
12、其中,attention(,,)表示多頭注意力機(jī)制,q表示查詢向量,k表示鍵向量,v表示值向量,softmax()表示激活函數(shù),t表示轉(zhuǎn)置,dk表示鍵的維度信息;
13、s202、對(duì)所述單詞嵌入進(jìn)行平均池化;
14、其公式表示為:
15、havg=avgpool(hatt)∈rd×1
16、其中,havg表示對(duì)單詞嵌入平均池化后的向量表示,avgpool()表示平均池化操作,hatt表示單詞嵌入,rd×1表示詞匯向量集;
17、s203、利用sigmoid函數(shù)獲取潛在關(guān)系;
18、其公式表示為:
19、prel=σ(wrhavg+br)
20、其中,prel表示提取潛在關(guān)系的概率,σ()表示sigmoid函數(shù),wr和br表示可訓(xùn)練權(quán)重。
21、作為本專利技術(shù)的一種可選實(shí)施例,可選地,所述將所述潛在關(guān)系輸入至實(shí)體提取器中,獲取主體與客體包括:
22、s301、利用主體解碼器獲取主體,并利用指針網(wǎng)絡(luò)標(biāo)注所述主體的開始位置和結(jié)束位置,將主體與所述潛在關(guān)系相互結(jié)合;
23、用公式表示為:
24、
25、
26、
27、其中,表示頭部實(shí)體開始位置的預(yù)測(cè)概率,σ表示sigmoid函數(shù),和均表示可訓(xùn)練參數(shù),表示頭部實(shí)體開始位置,表示頭部實(shí)體結(jié)束位置的預(yù)測(cè)概率,表示頭部實(shí)體結(jié)束位置,psub(h|r,s)表示抽取為主體的概率值,h表示頭部實(shí)體,r表示關(guān)系,s表示輸入文本,n表示文本中詞匯的總數(shù),π()表示求和運(yùn)算,表示文本中第i個(gè)詞匯是否為主體的開始位置標(biāo)簽,表示文本中第i個(gè)詞匯是否為主體的結(jié)束位置標(biāo)簽;
28、s302、通過客體解碼器獲取客體;
29、其公式表示為:
30、
31、
32、
33、其中,表示尾部實(shí)體開始位置的預(yù)測(cè)概率,t表示尾部實(shí)體;和均表示可訓(xùn)練參數(shù),表示尾部實(shí)體開始位置,表示尾部實(shí)體結(jié)束位置的預(yù)測(cè)概率,表示尾部實(shí)體結(jié)束位置,pobj(t|r,h,s)表示抽取得到客體的概率,表示文本中第i個(gè)詞匯是否為客體的開始位置標(biāo)簽,表示文本中第i個(gè)詞匯是否為客體的結(jié)束位置標(biāo)簽。
34、作為本專利技術(shù)的一種可選實(shí)施例,可選地,所述方法還包括:
35、當(dāng)所述大于等于閾值時(shí),表示詞匯i為主體的頭部;
36、當(dāng)所述大于等于閾值時(shí),表示詞匯i為主體的尾部;
37、當(dāng)所述或/和小于閾值時(shí),表示詞匯i為所述頭部和尾部之間的實(shí)體。
38、作為本專利技術(shù)的一種可選實(shí)施例,可選地,所述將所述主體與客體輸入至主客體對(duì)齊抽取器中,過濾出冗余實(shí)體對(duì)包括:
39、s401、建立實(shí)體對(duì)矩陣,并設(shè)置閾值λ2,所述閾值λ2用于區(qū)分正確的實(shí)體對(duì)和錯(cuò)誤的實(shí)體對(duì);
40、s402、當(dāng)所述主客體的概率值大于所述閾值λ2時(shí),該實(shí)體對(duì)為正確實(shí)體對(duì),反之,當(dāng)所述主客體的概率值小于所述閾值λ2時(shí),該實(shí)體對(duì)為錯(cuò)誤實(shí)體對(duì),并濾除該所述錯(cuò)誤實(shí)體對(duì);
41、其公式表示為:
42、pmatrix=σ(w[hisub;hjobj]+b)
43、其中,pmatrix表示通過所述主客體對(duì)齊抽取器得到真正的實(shí)體對(duì)的概率值,σ()表示sigmoid函數(shù),w和b均表示可訓(xùn)練參數(shù),hisub表示輸入文本中作為主體的第i個(gè)標(biāo)簽,hjobj表示輸入文本中作為客體的第j個(gè)標(biāo)簽的編碼表示。
44、作為本專利技術(shù)的一種可選實(shí)施例,可選地,所述損失函數(shù)的公式表示為:
45、
46、
47、
48、
49、其中,表示提取潛在關(guān)系的損失,nr表示關(guān)系集中的關(guān)系數(shù),yi表示第i潛在關(guān)系的概率,prel表示提取潛在關(guān)系的概率,表示實(shí)體的提取的損失,e表示期望值,psub(h|r,s)表示提取為主體的概率值,pobj(t|r,h,s)表示提取為客體的概率值,表示主客體對(duì)齊提取的損失,n表示輸入文本中詞匯的總數(shù),yi,j表示第i個(gè)詞匯向量和第j個(gè)詞匯向量為實(shí)體的概率,pmatrix表示通過主客體對(duì)齊抽取器得到真正的實(shí)體對(duì)的概率值,表示所述實(shí)體關(guān)系提取模型的整體損失。
50、本專利技術(shù)具有以下優(yōu)點(diǎn):首先,通過編碼層對(duì)輸入文本中的詞匯進(jìn)行編碼,能夠有效地將文本信息轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的格式,便于后續(xù)處理。其次,利用關(guān)系感知層的多頭注意力機(jī)制,可以有效地提取出文本中的潛在關(guān)系,從而提高了實(shí)體關(guān)系的抽取精度。此外,通過實(shí)體提取器,可以從抽取出的潛在關(guān)系中提取出相應(yīng)的主體和客體,進(jìn)一步提高了實(shí)體關(guān)系的抽取效果。最后,采用主客體對(duì)齊抽取器,能夠有效地過濾掉冗余實(shí)體對(duì)并生成最終的三元組,從而提高了三元組的質(zhì)量。
51、本專利技術(shù)的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術(shù)的實(shí)踐了解到。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述利用所述關(guān)系感知層獲取潛在關(guān)系包括:
3.如權(quán)利要求1所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述將所述潛在關(guān)系輸入至實(shí)體提取器中,獲取主體與客體包括:
4.如權(quán)利要求3所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述方法還包括:
5.如權(quán)利要求1所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述將所述主體與客體輸入至主客體對(duì)齊抽取器中,過濾出冗余實(shí)體對(duì)包括:
6.如權(quán)利要求5所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述損失函數(shù)的公式表示為:
【技術(shù)特征摘要】
1.一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述利用所述關(guān)系感知層獲取潛在關(guān)系包括:
3.如權(quán)利要求1所述的一種基于關(guān)系感知的實(shí)體關(guān)系提取方法,其特征在于,所述將所述潛在關(guān)系輸入至實(shí)體提取器中,獲取主體與客體包括:
4...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:盧玲,嚴(yán)秋陽,丁瑞冉,吳雪剛,李東遠(yuǎn),
申請(qǐng)(專利權(quán))人:重慶理工大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。