System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 午夜人性色福利无码视频在线观看,日韩精品中文字幕无码专区,国产精品va在线观看无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于元學習的多模態關系抽取方法及系統技術方案

    技術編號:44281016 閱讀:9 留言:0更新日期:2025-02-14 22:18
    本發明專利技術提供一種基于元學習的多模態關系抽取方法及系統,屬于文本實體識別技術領域,獲取待預測的文本圖像對;利用預先訓練好的關系預測模型對獲取的文本圖象對進行處理,得到實體之間的多模態關系。本發明專利技術提出基于元學習的多模態關系抽取框架,適用于任何基于梯度下降的關系分類模型;通過元學習從頭部關系類中學習獲得初始參數,然后對尾項特征學習過程中的模型參數進行微調,它利用了從頭部數據中學習到的先驗知識,實現從易到難的任務學習;增強了尾部類的特征表示,彌合頭類和尾類之間的特征差距,提高了關系識別的性能;在稀有類別訓練時,動態地提高正梯度的權重并降低負梯度的權重,用于解決尾部數據稀疏問題。

    【技術實現步驟摘要】

    本專利技術涉及文本實體識別,具體涉及一種基于元學習的多模態關系抽取方法及系統


    技術介紹

    1、多模態關系抽取是多媒體和知識圖譜領域的一項關鍵任務,它旨在利用文本和視覺線索對實體之間的語義關系進行檢測和分類,可廣泛應用于視覺問答、推理等下游任務。盡管該研究領域經過多年的研究和發展,已經取得了一些進展。然而這項任務通常會受到長尾問題的困擾,即訓練數據主要集中在幾種類型的關系上,缺乏為其余類型的關系提供足夠的標簽。由于訓練數據類別分布不均衡,導致模型偏向于預測頭部那些最頻繁的標簽,而忽略尾部關系的識別。

    2、現有的多模態關系抽取方法主要是通過圖像目標對象區域和文本實體之間的有效對齊來完成關系的理解與識別。例如鄭等人嘗試一種有效的圖對齊方法,基于視覺場景圖和語法依賴樹之間的結構和語義一致性進行多模態融合,進行細粒度對象和實體信息提取。陳等人嘗試采用分層多模態融合框架來去除了不相關的圖像對象,以減少不相關圖像的噪聲干擾實現更好的多模態融合。王等人使用檢索方法從整個維基百科收集相關文本以提高mner和mre性能。后續工作進一步從newsclipping中檢索與對象、文本相關的圖像,以更好地增強檢索。現有研究的主要集中專注于研究更好地實現圖像和文本特征表示的融合對齊,彌合圖像和文本的語義鴻溝,評價標準是所有類整體的micro?f1性能,而由于訓練數據長尾,尾部某些類(如“per/per/relatives”)的識別精度卻為0%。這說明模型只是通過擬合標注數據更多的頭部關系來提升整體性能,而忽視了尾部關系的識別。目前尚未有專門針對這項任務的長尾問題提出解決方案的研究。

    3、綜上,現有的多模態關系抽取方法主要依賴大量帶注釋的樣本來進行模型優化,實現圖像目標對象區域和文本實體之間的有效對準,或者進一步結合來自外部數據庫的相關圖像以幫助關系識別。用micro?f1分數來衡量所有類的平均性能,忽略了數據集樣本不均衡(即長尾分布)現象,這導致方法傾向于擬合擁有大量注釋樣本的頭部關系數據,而忽略了尾部關系的識別精度。


    技術實現思路

    1、本專利技術的目的在于提供一種基于元學習的多模態關系抽取方法及系統,實現從圖像文本數據對中提取關系,并且解決尾項關系數據稀疏性的問題,來滿足實際場景中類不均衡現象的需求,以解決上述
    技術介紹
    中存在的至少一項技術問題。

    2、為了實現上述目的,本專利技術采取了如下技術方案:

    3、第一方面,本專利技術提供一種基于元學習的多模態關系抽取方法,包括:

    4、獲取待預測的文本圖像對;

    5、利用預先訓練好的關系預測模型對獲取的文本圖象對進行處理,得到實體之間的多模態關系;其中,訓練所述關系預測模型包括:對輸入的圖像和文本數據,利用不同的編碼器分別提取模態特定特征;在圖像特征的基礎上,提取圖像中每個對象的位置特征;將得到的視覺特征和文本特征進行多模態信息的分層交互,將視覺特征和文本特征進行拼接,得到初步的融合特征;通過計算文本token和圖像特征的相似度,執行token-wise層的跨模式交互,得到最終的融合特征;將融合后的特征輸入到主干網絡linear層進行特征學習;計算交叉熵損失;將每個樣本損失相加,得到總損失值;從最終計算的損失值出發進行反向傳播,自動計算模型中參數的梯度值;利用參數的梯度值,使用優化器對模型算法的可學習參數值進行更新操作;直至訓練輪數后停止模型的訓練過程,獲得模型訓練參數;加載模型訓練參數,利用剩下的尾部類數據進行有監督微調訓練,將交叉熵損失替換為梯度引導的重加權損失,最終獲得在所有類表現良好的模型權重參數。

    6、進一步的,使用vit的第一層作為視覺編碼器,bert的第一層作為文本編碼器,分別對圖片和文本數據進行編碼。

    7、進一步的,將每個關系ri視為一個任務,以多任務方式為所有關系訓練多類分類器,將類別根據出現頻率排列,依次從易到難學習所有類別;對于來自分布p(r)的所有關系ri,優化以下對象:

    8、

    9、其中是關系ri上的損失,fθ是關系分類模型,最終學習到對所有關系具有良好預測性能的最佳模型參數

    10、進一步的,使用vit的第一層作為視覺編碼器提取圖片特征hv,而bert的第一層作為文本編碼器;用標記<o>包裝獲得的對象標題scap,并用標記<s>標記句子中的相應實體,然后用[sep]縫合它們;上述句子將作為文本編碼器bert的輸入,來提取文本特征ht;

    11、wcap=clipcap(ok)

    12、

    13、其中ok表示要預測的對象,xi表示句子中的第i個實體,mha、ffn和ln分別表示多頭注意力、前饋網絡和layernorm算子。

    14、進一步的,使用深度估計模型s2rdepthnet來獲得整個圖片的深度圖。然后我們從每個對象對應的區域獲得單獨的深度圖像,表示為vd,將所有對象的rgb特征和深度特征被連接起來以產生視覺特征hv:

    15、

    16、進一步的,通過一個模態融合編碼器m-encoder,用于多模態信息的分層交互;其中第l層的編碼策略如下:

    17、

    18、其中和分別代表文本和視覺的特征表示;

    19、pgi模塊重新定義了文本和視覺的和的自注意力計算:

    20、

    21、第二方面,本專利技術提供一種基于元學習的多模態關系抽取系統,包括:

    22、獲取模塊,用于獲取待預測的文本圖像對;

    23、處理模塊,用于利用預先訓練好的關系預測模型對獲取的文本圖象對進行處理,得到實體之間的多模態關系;其中,訓練所述關系預測模型包括:對輸入的圖像和文本數據,利用不同的編碼器分別提取模態特定特征;在圖像特征的基礎上,提取圖像中每個對象的位置特征;將得到的視覺特征和文本特征進行多模態信息的分層交互,將視覺特征和文本特征進行拼接,得到初步的融合特征;通過計算文本token和圖像特征的相似度,執行token-wise層的跨模式交互,得到最終的融合特征;將融合后的特征輸入到主干網絡linear層進行特征學習;計算交叉熵損失;將每個樣本損失相加,得到總損失值;從最終計算的損失值出發進行反向傳播,自動計算模型中參數的梯度值;利用參數的梯度值,使用優化器對模型算法的可學習參數值進行更新操作;直至訓練輪數后停止模型的訓練過程,獲得模型訓練參數;加載模型訓練參數,利用剩下的尾部類數據進行有監督微調訓練,將交叉熵損失替換為梯度引導的重加權損失,最終獲得在所有類表現良好的模型權重參數。

    24、第三方面,本專利技術提供一種非暫態計算機可讀存儲介質,所述非暫態計算機可讀存儲介質用于存儲計算機指令,所述計算機指令被處理器執行時,實現如第一方面所述的基于元學習的多模態關系抽取方法。

    25、第四方面,本專利技術提供一種計算機設備,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程本文檔來自技高網...

    【技術保護點】

    1.一種基于元學習的多模態關系抽取方法,其特征在于,包括:

    2.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,使用ViT的第一層作為視覺編碼器,BERT的第一層作為文本編碼器,分別對圖片和文本數據進行編碼。

    3.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,將每個關系Ri視為一個任務,以多任務方式為所有關系訓練多類分類器,將類別根據出現頻率排列,依次從易到難學習所有類別;對于來自分布p(R)的所有關系Ri,優化以下對象:

    4.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,使用ViT的第一層作為視覺編碼器提取圖片特征Hv,而BERT的第一層作為文本編碼器;用標記<o>包裝獲得的對象標題Scap,并用標記<s>標記句子中的相應實體,然后用[SEP]縫合它們;上述句子將作為文本編碼器BERT的輸入,來提取文本特征HT;

    5.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,使用深度估計模型S2RDepthNet來獲得整個圖片的深度圖。然后我們從每個對象對應的區域獲得單獨的深度圖像,表示為VD,將所有對象的RGB特征和深度特征被連接起來以產生視覺特征HV:

    6.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,通過一個模態融合編碼器M-Encoder,用于多模態信息的分層交互;其中第l層的編碼策略如下:

    7.一種基于元學習的多模態關系抽取系統,其特征在于,包括:

    8.一種非暫態計算機可讀存儲介質,其特征在于,所述非暫態計算機可讀存儲介質用于存儲計算機指令,所述計算機指令被處理器執行時,實現如權利要求1-6任一項所述的基于元學習的多模態關系抽取方法。

    9.一種計算機設備,其特征在于,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程序指令執行如權利要求1-6任一項所述的基于元學習的多模態關系抽取方法。

    10.一種電子設備,其特征在于,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當電子設備運行時,所述處理器執行所述存儲器存儲的計算機程序,以使電子設備執行實現如權利要求1-6任一項所述的基于元學習的多模態關系抽取方法的指令。

    ...

    【技術特征摘要】

    1.一種基于元學習的多模態關系抽取方法,其特征在于,包括:

    2.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,使用vit的第一層作為視覺編碼器,bert的第一層作為文本編碼器,分別對圖片和文本數據進行編碼。

    3.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,將每個關系ri視為一個任務,以多任務方式為所有關系訓練多類分類器,將類別根據出現頻率排列,依次從易到難學習所有類別;對于來自分布p(r)的所有關系ri,優化以下對象:

    4.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,使用vit的第一層作為視覺編碼器提取圖片特征hv,而bert的第一層作為文本編碼器;用標記<o>包裝獲得的對象標題scap,并用標記<s>標記句子中的相應實體,然后用[sep]縫合它們;上述句子將作為文本編碼器bert的輸入,來提取文本特征ht;

    5.根據權利要求1所述的基于元學習的多模態關系抽取方法,其特征在于,使用深度估計模型s2rdepthnet來獲得整個圖片的深度圖。然后我們從每個對象對應的區域獲得單獨的深度圖像,表示為...

    【專利技術屬性】
    技術研發人員:金一蘇鑫段莉王濤李浥東
    申請(專利權)人:北京交通大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国模GOGO无码人体啪啪| 午夜无码视频一区二区三区| 免费a级毛片无码av| 精品无码一区二区三区水蜜桃| 人妻无码一区二区三区| 亚洲av中文无码字幕色不卡 | 午夜福利无码一区二区| 日韩精品无码人妻一区二区三区| 亚洲AV综合色区无码一区| 国产成人无码精品久久久小说| 久久AV高清无码| 大桥久未无码吹潮在线观看| 日韩久久无码免费毛片软件 | 无码人妻啪啪一区二区| 亚洲色偷拍另类无码专区| 成人免费无码大片A毛片抽搐色欲 成人免费无码大片a毛片 | 久久亚洲AV成人无码国产最大| 精品人妻大屁股白浆无码| 日韩精品久久无码中文字幕 | 国产精品无码v在线观看| 亚洲午夜无码AV毛片久久| 亚洲a∨无码一区二区| 免费A级毛片无码视频| 亚洲AV成人无码久久精品老人| 亚洲va无码va在线va天堂| 成在人线av无码免费高潮喷水| 国产精品无码无卡在线观看久| 亚洲另类无码专区丝袜| 国产精品白浆无码流出| 东京热一精品无码AV| 大胆日本无码裸体日本动漫| 无码少妇一区二区三区芒果| 免费无码肉片在线观看| 亚洲成a人片在线观看天堂无码| 亚洲av午夜精品无码专区 | 无码人妻丰满熟妇精品区| 中文字幕av无码一二三区电影| 无码一区二区三区爆白浆| 无码AV大香线蕉| 永久无码精品三区在线4| 国产精品无码无卡无需播放器|