System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于圖像處理,涉及一種基于雙流編碼與對比學習的多模態知識圖譜構建方法。
技術介紹
1、知識圖譜本質上是一種以實體為節點,以關系為邊的圖結構,在數據挖掘和知識工程領域都受到了廣泛的關注。目前,大型知識圖譜在多個應用領域取得了巨大的成功,包括推薦系統、信息檢索、視覺問答以及時間序列預測。隨著社交媒體平臺上多模態數據的日益普及,多模態知識圖譜在知識圖譜和多媒體社區中引起越來越多的關注。為了減少對人工管理的半結構化多模態數據的依賴,并自動從豐富的多媒體信息中發現關于實體和關系,多模態知識圖譜構建應運而生。多模態知識圖譜構建將多模態數據視為補充信息,有助于解決歧義和多義詞問題,并執行諸如多模態命名實體識別以及多模態關系提取等任務。這一方法不僅減少了對半結構化多模態數據的人工管理依賴,同時能夠自動發現實體和關系的事實,推動了多模態知識圖譜領域的進一步研究和應用。
2、多模態命名實體識別和多模態關系提取任務的核心問題在于如何學習卓越的視覺特征,并將其融入文本表示以增強命名實體識別和關系抽取的性能。早期方法[1-3]研究了如何將整個圖像的特征融入到文本表示中。后續研究[4-6]更進一步驗證了對象級視覺融合對于多模態命名實體識別和多模態關系提取任務的具體重要性。隨著時間的推移,研究人員對在多模態數據中使用共享網絡結構同時執行多模態命名實體識別和多模態關系提取的方法越來越感興趣。hvpnet[7],采用分層視覺前綴融合網絡,旨在降低對無關目標圖像的敏感性,這種方法增強了多模態知識圖譜中實體和關系提取的魯棒性。mkgformer
3、盡管最近基于transformer的多模態命名實體識別和多模態關系提取集成方法取得了進展,但由于兩個原因,它可能不是最佳的。首先,視覺特征通常包含許多與多模態命名實體識別和多模態關系提取任務無關的信息。這些基于transformer的架構通常將整個圖像編碼為視覺標記,這不僅引入了不相關的噪聲,而且由于高維圖像補丁的自關注而導致高計算消耗。此外,在基于transform的框架中,實體和關系對應的圖像數據容易被分割成不同的視覺區域,導致視覺模態中的語義信息被破壞。
4、此外,當前的方法使用單獨的編碼器來表示圖像和文本,導致不一致。具體來說,在表達相同的概念或目標時,圖像和文本的表示存在明顯的差異。這種不一致源于視覺和文本的異質性信息,以及每種模式在編碼過程中所關注的細節的差異。mega[6]提出了一種基于高效圖對齊機制的多模態神經網絡模型。通過視覺場景圖與文本依賴圖結構之間的結構對齊和語義對齊,尋求與提取的文本關系最相關的視覺關系。然而,該方法在處理多模態特征學習方面存在一定的局限性。近年來,對比學習在多模態命名實體識別和多模態關系抽取領域取得了重大進展,在模式內和模式間的特征學習中發揮了積極作用。然而,在同時處理這兩個任務的聯合方法中,同時考慮模態內和模態間對比學習的方法仍然是一個未被探索的領域。
技術實現思路
1、為了解決上述問題,本專利技術采用的技術方案是:一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,包括以下步驟:
2、獲取待處理圖像及文本;
3、對待預處理的文本進行特征提取,采用文本編碼器從特征提取后的文本中捕獲文本的詞法信息;
4、對待預處理的圖像采用slic超像素算法將其分割成多個區域;
5、利用cnn對每個超像素進行特征提取,形成每個節點的特征,并利用超像素之間的鄰接關系構建節點的鄰接矩陣;
6、利用事先構建好的鄰接矩陣a和節點特征矩陣x,輸入到雙層的gcn模型中進行編碼,從輸入的圖像中捕獲基本視覺特征;
7、基于捕獲詞法信息的文本特征及視覺特征,進行多模態對比學習,對多模態命名實體進行識別及多模態關系的抽取;
8、基于識別的多模態命名實體及抽取的多模態關系,進行多模態知識圖譜構建。
9、進一步地,所述鄰接矩陣的構建過程如下:
10、
11、在公式(3)中,aij表示鄰接矩陣a的元素,取值為1表示相鄰,0表示非相鄰。
12、進一步地,所述gcn模型層與層之間的信息傳遞方式為:
13、
14、在公式(4)中,i表示單位矩陣,表示無向圖的鄰接矩陣a加上自連接,是的度矩陣,h表示每一層的特征,對于輸入層,h就是x,σ是非線性激活函數,l·表示層數,w表示每層的權重。
15、進一步地,所述文本編碼器采用transformer編碼器,所述transformer編碼器由多層編碼器組成,每個編碼器包含兩個子層:自注意力層和前饋網絡層,對于給定的文本t,
16、首先通過自注意力層進行處理得到x.,作為前饋網絡層的輸入,該層允許編碼器在對特定詞進行編碼時,利用輸入句子中其他詞的信息,
17、所述自注意力層的完整計算過程:
18、
19、在公式(5)中,k、q、v表示通過三個權重矩陣wq、wk和wv轉換為計算注意力值所需的查詢、鍵和值向量,其中,dk是鍵向量的維度,t表示對矩陣k進行轉置;
20、接著,自注意力層的輸出將傳入前饋網絡,前饋網絡是一個全連接前饋網絡,每個位置的詞都經過相同的前饋神經網絡處理。它由兩個線性變換組成,即兩個全連接層,其中第一個全連接層采用relu激活函數,表示為:
21、ffn(x)=max(0,w1+b1)w2+b2????(6)
22、在公式(6)中,w1和w2分別表示不同層線性變換的權重,而b1和b2分別表示不同層線性變換的偏置,x是自注意力層的輸出。
23、進一步地,所述多模態對比學習包括模態內的對比學習和模態間的對比學習,所述模態內的對比學習即文本-文本之間學習及圖像-圖像之間學習;所述模態間的對比學習包括文本-圖像學習及圖像-文本學習。
24、進一步地,所述文本-文本之間學習引用simsce對比學習,對于給定的一組文本數據采用dropout作為一種數據增強的方式對每一個文本輸入ti使用不同的dropout掩碼進行編碼來構建一個正對:
25、
26、在公式(7)中,z和z′表示不同的dropout掩碼,fθ(.)是預訓練的語言編碼器transformer,而gφ1(.)是[cls]令牌頂部的投影頭;
27、從數據集中隨機選擇五個與當前文本數據類別不同的文本數據作為負樣本,其中在公式(8)中表示為文本負樣本,損失計算公式為:
28、
...【技術保護點】
1.一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述鄰接矩陣的構建過程如下:
3.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述GCN模型層與層之間的信息傳遞方式為:
4.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述文本編碼器采用Transformer編碼器,所述Transformer編碼器由多層編碼器組成,每個編碼器包含兩個子層:自注意力層和前饋網絡層,對于給定的文本T,
5.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述多模態對比學習包括模態內的對比學習和模態間的對比學習,所述模態內的對比學習即文本-文本之間學習及圖像-圖像之間學習;所述模態間的對比學習包括文本-圖像學習及圖像-文本學習。
6.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特
7.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述圖像-圖像之間的學習,對于給定的一張圖像yi,圖像進入編碼前的圖像嵌入向量作為圖像正樣本并構建成一對正樣本:
8.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,圖像-文本的對比學習方法的損失計算公式,其中τ′是溫度參數:
...【技術特征摘要】
1.一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述鄰接矩陣的構建過程如下:
3.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述gcn模型層與層之間的信息傳遞方式為:
4.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述文本編碼器采用transformer編碼器,所述transformer編碼器由多層編碼器組成,每個編碼器包含兩個子層:自注意力層和前饋網絡層,對于給定的文本t,
5.根據權利要求1所述的一種基于雙流編碼與對比學習的多模態知識圖譜構建方法,其特征在于,所述多模態對比學習包括模態內的對比學習和模態間的對比學習...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。