System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于文本信息抽取領域,具體為一種多粒度相似性增強的篇章級事件論元抽取方法。
技術介紹
1、目前,隨著互聯網和社交媒體的快速發展,大量的非結構化文本數據不斷涌現,人們需要準確、高效地從海量文本中獲取結構化的事件相關信息,從而進行分析研究,為決策提供支持。此外,許多下游自然語言處理任務也極度依賴結構化的事件信息作為輸入,如信息檢索、知識圖譜構建等。
2、事件論元抽取任務旨在從非結構化的文本數據中自動識別和提取出描述某一事件的事件論元,并分類它們所扮演的論元角色。這一任務是自然語言處理的一個關鍵但尚未解決的問題,特別是在處理篇章級文本時更為困難,因為論元會分散到不同的句子當中,而距離觸發詞較遠的事件論元通常因為文本距離的緣故無法很好的被識別出來;除此之外,文檔中往往存在很多事件無關但混淆度較高的噪音實體,影響某個論元角色的抽取結果。
3、針對篇章級事件論元抽取的這些難點,近期有不少技術被提出來解決上述問題。其根據范式不同可以被分為兩類:
4、1、分類范式:這一類技術的底層邏輯是通過對篇章中的實體進行分類來判斷其是否為事件論元,并識別對應的論元角色。除此之外,這類技術額外使用了圖表示學習方法進行了輔助增強,以此建模遠距離論元的長程依賴關系,從而更好的抽取遠距離論元,并使模型聚焦于有效實體。具體地說,其借助啟發式規則或者外部工具構造整個文檔的語義關聯圖,然后使用圖神經網絡建模構造的語義關聯圖得到輔助嵌入表示,最后將輔助嵌入表示融入到文本語義向量中,來增強文本嵌入的長程建模能力。
5
6、盡管如此,這些方法在抽取遠距離論元時仍然效果不佳,在rams數據集上的實驗結果表明,現有最佳方法在抽取與觸發詞同句子的論元時,可以達到53.9%的f1值,但對于其他句子的論元只能達到10.7%~24.5%的結果。另外,現有方法仍然無法擺脫同類型噪音實體的影響,將一些語義較相近的實體識別錯誤。
7、由于現有的篇章級事件論元方法仍然受困于上述難題,如何幫助篇章級事件論元抽取方法建模長程依賴并緩解噪音的影響成為了亟待解決的問題,因此本專利技術為篇章級事件論元抽取任務設計了輔助模塊,提出了一種多粒度相似性增強的篇章級事件論元抽取方法。
技術實現思路
1、為了克服現有的篇章級事件論元抽取模型對于遠距離論元和噪音實體的建模力度的不足,本專利技術提供一種從段落粒度和句子粒度分別基于相似性增強的篇章級事件論元抽取方法。
2、本專利技術解決其技術問題所采用的技術方案是:
3、一種多粒度相似性增強的篇章級事件論元抽取方法,包括以下步驟:
4、將文檔使用預訓練語言模型bert進行編碼,獲取文檔中每個單詞的嵌入表示;
5、基于文檔構建異構圖,該異構圖包含句子節點和段落節點,句子節點表示句子,段落節點表示段落中的觸發詞和事件論元,該異構圖的邊表示句子、段落、觸發詞和事件論元之間的關系;
6、計算句子和段落中單詞的嵌入表示,初始化句子節點和段落節點的表示;
7、通過多層圖卷積網絡進行多層信息傳播和節點表示更新,并使用前饋神經網絡得到節點的嵌入表示;
8、將節點的嵌入表示輸入到訓練好的多粒度相似性增強模型中,識別抽取文檔的事件論元;
9、該多粒度相似性增強模型的訓練步驟包括:
10、以事件論元作為正樣本,以隨機采樣的段落作為負樣本,基于正、負樣本的嵌入,通過對比學習拉近觸發詞和正樣本的事件論元的距離,推遠觸發詞與負樣本的距離;
11、將包含事件論元的句子作為正樣本,將不包含觸發詞和事件論元的句子作為負樣本,基于正、負樣本的嵌入,使用排序損失使正樣本的嵌入表示相似度高于負樣本。
12、進一步地,對文檔進行編碼的步驟包括:
13、將文檔中的所有句子串聯成初始單詞序列;
14、在該序列中的事件觸發詞的前后添加標識,得到完整的單詞序列;
15、將完整的單詞序列輸入到預訓練語言模型進行編碼。
16、進一步地,異構圖包括以下三類邊:
17、句子-句子邊,連接每個句子節點與觸發詞所在的句子節點;
18、段落-句子邊,連接每個段落節點與對應的句子節點;
19、段落-段落邊,連接每個論元節點和觸發詞節點。
20、進一步地,使用句子中的單詞嵌入表示進行最大池化操作,初始化句子節點的表示。
21、進一步地,使用段落中觸發詞或事件論元的單詞嵌入表示進行最大池化操作,初始化段落節點的表示。
22、進一步地,通過多層圖卷積網絡進行多層信息傳播和節點表示更新的式子為:
23、
24、其中,l是多層圖卷積網絡gcn的層數,是第i個節點在第l層的卷積嵌入表示,則是該節點的全部鄰居節點。
25、進一步地,訓練時,兩種正樣本的嵌入都是通過多層圖卷積網絡和多層圖卷積網絡得到,兩種負樣本的嵌入都是通過預訓練語言模型bert編碼得到。
26、進一步地,對比學習產生的對比損失lc為:
27、
28、其中,sim表示余弦相似度,vi表示正樣本嵌入,ta表示正樣本嵌入集合,hj表示負樣本嵌入,tr表示負樣本嵌入集合,vt表示觸發詞的卷積嵌入表示,τ表示對比損失的超參數。
29、進一步地,排比損失lr為:
30、
31、其中,sim表示余弦相似度,表示正樣本嵌入,tp表示正樣本嵌入集合,表示負樣本嵌入,tn表示負樣本嵌入集合,是觸發詞所在句子的異構圖嵌入向量表示,m是排序損失的超參數。
32、一種多粒度相似性增強的篇章級事件論元抽取系統,包括:
33、篇章文本編碼模塊,用于通過預訓練語言模型bert對輸入的文檔進行編碼,獲取文檔中每個單詞的嵌入表示;
34、異構圖融合模塊,用于構建文檔的異構圖,該異構圖包含句子節點和段落節點,句子節點表示句子,段落節點表示段落中的觸發詞和事件論元,該異構圖的邊表示句子、段落、觸發詞和事件論元之間的關系;計算句子和段落中單詞的嵌入表示,初始化句子節點和段落節點的表示;通過多層圖卷積網絡進行多層信息傳播和節點表示更新,并使用前饋神經網絡得到節點的嵌入表示;
35、多粒度相似性增強模塊,基于對比學習和排序損失訓練完成后,用于識別抽取文檔中事件論元;其中,基于對比學習的訓練步驟包括:以事件論元作為正樣本,以隨機采樣的段落作為負樣本,基于正、負樣本的嵌入,通本文檔來自技高網...
【技術保護點】
1.一種多粒度相似性增強的篇章級事件論元抽取方法,其特征在于,包括以下步驟:
2.如權利要求1所述的方法,其特征在于,對文檔進行編碼的步驟包括:
3.如權利要求1所述的方法,其特征在于,異構圖包括以下三類邊:
4.如權利要求1所述的方法,其特征在于,使用句子中的單詞嵌入表示進行最大池化操作,初始化句子節點的表示。
5.如權利要求1所述的方法,其特征在于,使用段落中觸發詞或事件論元的單詞嵌入表示進行最大池化操作,初始化段落節點的表示。
6.如權利要求1所述的方法,其特征在于,通過多層圖卷積網絡進行多層信息傳播和節點表示更新的式子為:
7.如權利要求1所述的方法,其特征在于,訓練時,兩種正樣本的嵌入都是通過多層圖卷積網絡和多層圖卷積網絡得到,兩種負樣本的嵌入都是通過預訓練語言模型BERT編碼得到。
8.如權利要求1所述的方法,其特征在于,對比學習產生的對比損失Lc為:
9.如權利要求1所述的方法,其特征在于,排比損失Lr為:
10.一種多粒度相似性增強的篇章級事件論元抽取系統,
...【技術特征摘要】
1.一種多粒度相似性增強的篇章級事件論元抽取方法,其特征在于,包括以下步驟:
2.如權利要求1所述的方法,其特征在于,對文檔進行編碼的步驟包括:
3.如權利要求1所述的方法,其特征在于,異構圖包括以下三類邊:
4.如權利要求1所述的方法,其特征在于,使用句子中的單詞嵌入表示進行最大池化操作,初始化句子節點的表示。
5.如權利要求1所述的方法,其特征在于,使用段落中觸發詞或事件論元的單詞嵌入表示進行最大池化操作,初始化段落節點的表示。
6.如權...
【專利技術屬性】
技術研發人員:王元杰,柳毅,趙淳璐,潘進,駱奕霖,李紫微,姚曉,辛永輝,
申請(專利權)人:國家計算機網絡與信息安全管理中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。