【技術實現步驟摘要】
基于多任務負采樣的跨領域實體鏈接方法、裝置及介質
[0001]本專利技術涉及自然語言處理和知識圖譜中實體鏈接領域,尤其涉及基于多任務學習和負采樣策略的跨領域實體鏈接方法、裝置及介質。
技術介紹
[0002]實體鏈接旨在將模糊的實體提及鏈接到已經構建好的知識庫中的相關實體,這種將粗略描述的實體提及對齊到知識庫中精確描述的實體本身的能力是許多自然語言處理任務,如知識問答、信息抽取、文本分析等重要基礎。為了使這種能力更加貼近真實場景中數據多源異構的特點,更有挑戰性地跨領域實體鏈接任務被提出,它在多個訓練領域利用實體提及對進行訓練,鑒別真實實體,并在多個完全不同的測試領域測試實體鏈接的領域泛化性能和鑒別實體的能力。
[0003]目前,現有的跨領域實體鏈接方法注重多任務學習互補能力和負采樣帶來的鑒別真實實體的能力,但它們面臨著諸多挑戰:1)多任務學習互補表示中,往往存在多任務融合交互不足的問題;2)負采樣方法針對鑒別真實實體的能力進行了改良,但同時引入了許多無關數據,從而帶來了巨大的計算開銷。因此,現有技術難以取得令人滿意的效果。
[0004]針對現有技術中存在的上述問題,本專利技術結合多任務學習和負采樣方法的特點,設計了一種基于多任務學習和錨定點采樣方法的跨領域實體鏈接框架,并在廣泛使用的跨領域實體鏈接數據集上進行了大量實驗,在客觀評價指標上取得了更好的效果,超過以前的最優模型。
技術實現思路
[0005]本專利技術是為了解決上述現有技術存在的不足之處,提出一種基于多任務負采樣的跨領域實體鏈接 ...
【技術保護點】
【技術特征摘要】
1.一種基于多任務負采樣的跨領域實體鏈接方法,其特征是,該跨領域實體鏈接方法分為輔助任務階段、建立多任務學習模型階段和訓練多任務學習模型參數階段,所述輔助任務階段選擇實體類型預測作為輔助任務,并生成多任務學習階段輔助任務所需的標簽;所述多任務學習模型的主體框架分為錨定點采樣模塊、底層全局共享模塊和高層局部共享模塊,錨定點采樣模塊對訓練數據進行錨定點采樣,隨機選擇實體類型相同的實體提及對,并將實體類型與該實體提及對進行綁定,得到錨定點集合后以錨定點集合為單位作為訓練數據,送入底層全局共享模塊進行訓練;所述底層全局共享模塊利用文本編碼器獲取實體和實體提及的文本表征,并將獲得的文本表征進行聚合,以分別獲得實體和實體提及在底層融合交互的全局特征;高層局部共享模塊利用底層全局共享模塊輸出的實體和實體提及的文本表征,生成更細粒度且深層次、用于不同程度任務交互共享的文本表征;所述訓練多任務學習模型參數階段采用輔助任務的訓練數據訓練類型預測模型,生成多任務的標簽,并利用訓練配對完成的實體和實體提及訓練多任務學習模型中的參數。2.根據權利要求1所述的基于多任務負采樣的跨領域實體鏈接方法,其特征是,具體包括以下步驟:S1、在輔助任務階段中,對輸入的實體類型預測的文本數據進行預處理,將實體提及和實體上下文拼接后作為輔助任務訓練的輸入,訓練實體類型預測模型,訓練后將實體鏈接的數據輸入,生成對應的實體類型作為后續多任務學習中實體類型預測任務的標簽;S2、在建立多任務學習模型階段中,以實體鏈接為主任務和實體類型預測任務作為輔助任務進行多任務學習,依次分為以下步驟:(1)錨定點采樣模塊在訓練數據進行多任務學習前,選取一個先驗條件作為標準,將相同條件下的實體劃分為一類,然后對于原本的訓練數據中實體提及對,根據選取的先驗條件隨機地選擇對應集合中的實體提及對作為負樣本對,并且將負樣本對與原實體提及對進行靜態綁定,得到最終的數據形式作為底層全局共享模塊的輸入;(2)底層全局共享模塊將給定的一個實體和實體提及對利用預訓練模型中的多層文本編碼器對文本描述進行多粒度、多層次編碼,通過注意力機制分別得到融合不同任務的文本全局特征,文本全局特征再融合多個任務對于全局共享和任務特有信息的偏好,同時作為高層局部共享模塊的輸入;(3)高層局部共享模塊利用多個細粒度信息提取器對實體和實體提及的底層特征進行深層次提取,獲得不同程度共享和特有的多任務融合交互特征,然后利用任務特性將底層全局共享模塊輸出的文本全局特征送入每個任務的門控網絡,從而獲取不同任務對不同程度共享和私有的偏好,實現底層與高層次的深度融合交互,最后將偏好與對應的細粒度信息提取器所獲得的表征進行聚合,獲得高層的細粒度任務共享交互表征;S3、在訓練多任務學習模型參數階段中,多任務學習模型的訓練利用交叉熵損失訓練實體鏈接任務、二分類交叉熵損失訓練實體類型預測任務,并使用隨機梯度下降算法以更新模型參數。3.根據權利要求2所述的基于多任務負采樣的跨領域實體鏈接方法,其特征是,所述步驟S1中,將一個實體提及和相應的上下文信息拼接后送入預訓練的編碼器,編碼器選擇預訓練模型BERT和軟提示,經過分類器后再與標簽計算損失,得到訓練完成的類型生成模型,將實體鏈接數據中的實體送入,得到所有實體的類型標簽。
4.根據權利要求3所述的基于多任務負采樣的跨領域實體鏈接方法...
【專利技術屬性】
技術研發人員:徐童,陳恩紅,陳超,吳世偉,許德容,
申請(專利權)人:中國科學技術大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。