• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于多任務負采樣的跨領域實體鏈接方法、裝置及介質制造方法及圖紙

    技術編號:38685869 閱讀:21 留言:0更新日期:2023-09-02 22:58
    發明專利技術公開了基于多任務負采樣的跨領域實體鏈接方法、裝置及介質,該跨領域實體鏈接方法分為輔助任務階段、建立多任務學習模型階段和訓練多任務學習模型參數階段,輔助任務階段選擇實體類型預測作為輔助任務,并生成多任務學習階段輔助任務所需的標簽;多任務學習模型的主體框架分為錨定點采樣模塊、底層全局共享模塊和高層局部共享模塊。本發明專利技術利用多任務學習和負采樣方式,將在訓練領域所獲得的鑒別實體的能力遷移到不同的測試領域上,從而得到跨領域實體鏈接的最佳泛化性能。領域實體鏈接的最佳泛化性能。領域實體鏈接的最佳泛化性能。

    【技術實現步驟摘要】
    基于多任務負采樣的跨領域實體鏈接方法、裝置及介質


    [0001]本專利技術涉及自然語言處理和知識圖譜中實體鏈接領域,尤其涉及基于多任務學習和負采樣策略的跨領域實體鏈接方法、裝置及介質。

    技術介紹

    [0002]實體鏈接旨在將模糊的實體提及鏈接到已經構建好的知識庫中的相關實體,這種將粗略描述的實體提及對齊到知識庫中精確描述的實體本身的能力是許多自然語言處理任務,如知識問答、信息抽取、文本分析等重要基礎。為了使這種能力更加貼近真實場景中數據多源異構的特點,更有挑戰性地跨領域實體鏈接任務被提出,它在多個訓練領域利用實體提及對進行訓練,鑒別真實實體,并在多個完全不同的測試領域測試實體鏈接的領域泛化性能和鑒別實體的能力。
    [0003]目前,現有的跨領域實體鏈接方法注重多任務學習互補能力和負采樣帶來的鑒別真實實體的能力,但它們面臨著諸多挑戰:1)多任務學習互補表示中,往往存在多任務融合交互不足的問題;2)負采樣方法針對鑒別真實實體的能力進行了改良,但同時引入了許多無關數據,從而帶來了巨大的計算開銷。因此,現有技術難以取得令人滿意的效果。
    [0004]針對現有技術中存在的上述問題,本專利技術結合多任務學習和負采樣方法的特點,設計了一種基于多任務學習和錨定點采樣方法的跨領域實體鏈接框架,并在廣泛使用的跨領域實體鏈接數據集上進行了大量實驗,在客觀評價指標上取得了更好的效果,超過以前的最優模型。

    技術實現思路

    [0005]本專利技術是為了解決上述現有技術存在的不足之處,提出一種基于多任務負采樣的跨領域實體鏈接方法、裝置及介質,利用多任務學習和負采樣方式,將在訓練領域所獲得的鑒別實體的能力遷移到不同的測試領域上,從而得到跨領域實體鏈接的最佳泛化性能。
    [0006]本專利技術為達到上述專利技術目的,采用如下技術方案:第一方面,本專利技術提供了一種基于多任務負采樣的跨領域實體鏈接方法,該跨領域實體鏈接方法分為輔助任務階段、建立多任務學習模型階段和訓練多任務學習模型參數階段,所述輔助任務階段選擇實體類型預測作為輔助任務,并生成多任務學習階段輔助任務所需的標簽;所述多任務學習模型的主體框架分為錨定點采樣模塊、底層全局共享模塊和高層局部共享模塊,錨定點采樣模塊對訓練數據進行錨定點采樣,隨機選擇實體類型相同的實體提及對,并將實體類型與該實體提及對進行綁定,得到錨定點集合后以錨定點集合為單位作為訓練數據,送入底層全局共享模塊進行訓練;所述底層全局共享模塊利用文本編碼器獲取實體和實體提及的文本表征,并將獲得的文本表征進行聚合,以分別獲得實體和實體提及在底層融合交互的全局特征;高層局部共享模塊將底層全局共享模塊輸出的實體和實體提及的文本表征,生成更細粒度且深層次、用于不同程度任務交互共享的文本表征;所述訓練多任務學習模型參數階段采用輔助任務的訓練數據訓練類型預測模型,生
    成多任務的標簽,并利用訓練配對完成的實體和實體提及訓練多任務學習模型中的參數。
    [0007]更進一步地,該基于多任務負采樣的跨領域實體鏈接方法,具體包括以下步驟:S1、在輔助任務階段中,對輸入的實體類型預測的文本數據進行預處理,將實體提及和實體上下文拼接后作為輔助任務訓練的輸入,訓練實體類型預測模型,訓練后將實體鏈接的數據輸入,生成對應的實體類型作為后續多任務學習中實體類型預測任務的標簽;S2、在建立多任務學習模型階段中,以實體鏈接為主任務和以實體類型預測為輔助任務進行多任務學習,依次分為以下步驟:(1)錨定點采樣模塊在訓練數據進行多任務學習前,選取一個先驗條件作為標準,將相同條件下的實體劃分為一類,然后對于原本的訓練數據中實體提及對,根據選取的先驗條件隨機地選擇對應集合中的實體提及對作為負樣本對,并且將負樣本對與原實體提及對進行靜態綁定,得到最終的數據形式作為底層全局共享模塊的輸入;(2)底層全局共享模塊將給定的一個實體和實體提及對利用預訓練模型中的多層文本編碼器對文本描述進行多粒度、多層次編碼,通過注意力機制分別得到融合不同任務的文本全局特征,文本全局特征再融合多個任務對于全局共享和任務特有信息的偏好,同時作為高層局部共享模塊的輸入;(3)高層局部共享模塊利用多個細粒度信息提取器對實體和實體提及的底層特征進行深層次提取,獲得不同程度共享和特有的多任務融合交互特征,然后利用任務特性將底層全局共享模塊輸出的文本全局特征送入每個任務的門控網絡,從而獲取不同任務對不同程度共享和私有的偏好,實現底層與高層次的深度融合交互,最后將偏好與對應的細粒度信息提取器所獲得的表征進行聚合,獲得高層的細粒度任務共享交互表征;S3、在訓練多任務學習模型參數階段中,多任務學習模型的訓練利用交叉熵損失訓練實體鏈接任務、二分類交叉熵損失訓練實體類型預測任務,并使用隨機梯度下降算法以更新模型參數。
    [0008]更進一步地,所述步驟S1中,將一個實體提及和相應的上下文信息拼接后送入預訓練的編碼器,編碼器選擇預訓練模型BERT和軟提示,經過分類器后再與標簽計算損失,得到訓練完成的類型生成模型,將實體鏈接數據中的實體送入,得到所有實體的類型標簽。
    [0009]更進一步地,所述錨定點集合中的每個樣本對,對于每個樣本對自身均為正樣本對,當計算損失時,同一個批次中所有樣本對互為負樣本對。
    [0010]更進一步地,所述建立多任務學習模型階段的具體實施步驟如下:(1)所述錨定點采樣模塊對于一個實體提及對,先選擇先驗標準為實體類型和實體領域,從相同實體類型或者實體領域的實體提及對集合中隨機選擇個錨定點樣本,構成錨定點集合,表示為:,再以錨定點集合為基本單位作為訓練數據送入底層全局共享模塊進行訓練;(2)所述底層全局共享模塊對于錨定點集合中的一個實體提及對,先將實體提及和實體上下文拼接,實體名稱和描述進行拼接得到輸入,分別表示為:,
    ,然后將分別送入實體和實體提及的預訓練模型BERT中提取文本語義特征,得到序列化的底層全局共享表征,分別表示為:,,作為高層局部共享模塊深度共享交互的輸入;(3)所述高層局部共享模塊對于經過底層全局共享模塊得到的共享表征,將三個單層的Transformer編碼器作為提取器,從底層共享表征中得到不同的局部細粒度信息表征,分別表示為:,建模不同任務對局部信息的共享交互,將底層共享信息送入多個由線性層和歸一化層組成的門控網絡,得到不同任務對不同的局部細粒度信息表征的權重,然后將對應的權重和特征進行點乘相加,得到不同任務的高層共享特征,將每個任務得到的高層共享特征和底層共享特征分別進行對應拼接,得到最終的高層共享特征,然后分別送入不同的優化目標,分別表示為:,其中,表示拼接操作。
    [0011]更進一步地,對于輔助任務的實體類型預測,具體是將最終的高層共享特征送入分類器得到,然后分別與標簽進行計算損失函數,得到類型的優化結果,兩個損失函數分別表示為:,,其中表示實體類別數量,表示第個標簽預測值,表示實體提及對中實體輸入文本編碼器得到的結果,表示實體提及對中提及輸入文本編碼器得到的結果;對于主任務實體鏈接,具體是將最終的高層共享特征計算評分函數,表示為:,通過交叉熵損失函數優化實體鏈接本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于多任務負采樣的跨領域實體鏈接方法,其特征是,該跨領域實體鏈接方法分為輔助任務階段、建立多任務學習模型階段和訓練多任務學習模型參數階段,所述輔助任務階段選擇實體類型預測作為輔助任務,并生成多任務學習階段輔助任務所需的標簽;所述多任務學習模型的主體框架分為錨定點采樣模塊、底層全局共享模塊和高層局部共享模塊,錨定點采樣模塊對訓練數據進行錨定點采樣,隨機選擇實體類型相同的實體提及對,并將實體類型與該實體提及對進行綁定,得到錨定點集合后以錨定點集合為單位作為訓練數據,送入底層全局共享模塊進行訓練;所述底層全局共享模塊利用文本編碼器獲取實體和實體提及的文本表征,并將獲得的文本表征進行聚合,以分別獲得實體和實體提及在底層融合交互的全局特征;高層局部共享模塊利用底層全局共享模塊輸出的實體和實體提及的文本表征,生成更細粒度且深層次、用于不同程度任務交互共享的文本表征;所述訓練多任務學習模型參數階段采用輔助任務的訓練數據訓練類型預測模型,生成多任務的標簽,并利用訓練配對完成的實體和實體提及訓練多任務學習模型中的參數。2.根據權利要求1所述的基于多任務負采樣的跨領域實體鏈接方法,其特征是,具體包括以下步驟:S1、在輔助任務階段中,對輸入的實體類型預測的文本數據進行預處理,將實體提及和實體上下文拼接后作為輔助任務訓練的輸入,訓練實體類型預測模型,訓練后將實體鏈接的數據輸入,生成對應的實體類型作為后續多任務學習中實體類型預測任務的標簽;S2、在建立多任務學習模型階段中,以實體鏈接為主任務和實體類型預測任務作為輔助任務進行多任務學習,依次分為以下步驟:(1)錨定點采樣模塊在訓練數據進行多任務學習前,選取一個先驗條件作為標準,將相同條件下的實體劃分為一類,然后對于原本的訓練數據中實體提及對,根據選取的先驗條件隨機地選擇對應集合中的實體提及對作為負樣本對,并且將負樣本對與原實體提及對進行靜態綁定,得到最終的數據形式作為底層全局共享模塊的輸入;(2)底層全局共享模塊將給定的一個實體和實體提及對利用預訓練模型中的多層文本編碼器對文本描述進行多粒度、多層次編碼,通過注意力機制分別得到融合不同任務的文本全局特征,文本全局特征再融合多個任務對于全局共享和任務特有信息的偏好,同時作為高層局部共享模塊的輸入;(3)高層局部共享模塊利用多個細粒度信息提取器對實體和實體提及的底層特征進行深層次提取,獲得不同程度共享和特有的多任務融合交互特征,然后利用任務特性將底層全局共享模塊輸出的文本全局特征送入每個任務的門控網絡,從而獲取不同任務對不同程度共享和私有的偏好,實現底層與高層次的深度融合交互,最后將偏好與對應的細粒度信息提取器所獲得的表征進行聚合,獲得高層的細粒度任務共享交互表征;S3、在訓練多任務學習模型參數階段中,多任務學習模型的訓練利用交叉熵損失訓練實體鏈接任務、二分類交叉熵損失訓練實體類型預測任務,并使用隨機梯度下降算法以更新模型參數。3.根據權利要求2所述的基于多任務負采樣的跨領域實體鏈接方法,其特征是,所述步驟S1中,將一個實體提及和相應的上下文信息拼接后送入預訓練的編碼器,編碼器選擇預訓練模型BERT和軟提示,經過分類器后再與標簽計算損失,得到訓練完成的類型生成模型,將實體鏈接數據中的實體送入,得到所有實體的類型標簽。
    4.根據權利要求3所述的基于多任務負采樣的跨領域實體鏈接方法...

    【專利技術屬性】
    技術研發人員:徐童陳恩紅陳超吳世偉許德容
    申請(專利權)人:中國科學技術大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码av最新无码av专区| 亚洲Av综合色区无码专区桃色| 亚洲 无码 在线 专区| 亚洲AV无码一区二区三区人| 久久国产亚洲精品无码| 亚洲中文字幕久久精品无码喷水| av无码人妻一区二区三区牛牛| 激情射精爆插热吻无码视频| 国产高清无码视频| 丰满少妇人妻无码| 日本无码色情三级播放| 亚洲精品无码不卡在线播HE| 亚洲熟妇无码AV不卡在线播放| 国产AV无码专区亚洲AWWW| 色欲A∨无码蜜臀AV免费播| 国产精品成人无码久久久| 永久免费AV无码网站国产| 亚洲熟妇无码久久精品| 亚洲国产精品无码中文lv| 日韩精品无码一本二本三本| 精品无码专区亚洲| 国产成A人亚洲精V品无码性色| 亚洲AV无码一区二区三区系列| 亚洲男人第一无码aⅴ网站| 精品无码久久久久久尤物| 亚洲aⅴ无码专区在线观看春色| 日韩人妻无码一区二区三区99| 亚洲av无码乱码国产精品| 中文字幕丰满乱孑伦无码专区| 亚洲中文字幕无码永久在线| 亚洲AV无码成人精品区日韩| 人妻少妇精品无码专区漫画| 无码少妇丰满熟妇一区二区| 人妻少妇乱子伦无码专区| 少妇无码一区二区二三区| 亚洲AV人无码激艳猛片| 亚洲熟妇无码一区二区三区导航| 一本一道av中文字幕无码| 精品乱码一区内射人妻无码| 久久久久久久亚洲Av无码| 国产精品无码无片在线观看3D|