System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種基于語義一致性的多模態虛假信息檢測方法,屬于虛假信息檢測。
技術介紹
1、近年來,社交網絡的迅速發展使用戶表達情感和意見的方式愈加多樣化,導致信息的真實性變得愈加難以辨別。虛假新聞從傳統的純文本形式演變為多模態的呈現方式,加入了視覺圖像等多種元素。這種多模態虛假信息不僅更具吸引力,而且其傳播速度也顯著加快,給網絡生態帶來了深遠的危害,嚴重影響了社會的穩定與人們的日常生活。因此,如何自動化檢測多模態虛假新聞,成為社交網絡分析領域亟待解決的重要課題,具備重要的研究價值和現實應用意義。
2、多模態數據之間存在著復雜的關聯,模態內部及模態之間的特征關系也異常復雜。傳統的特征交互方法難以捕捉這種復雜的高維交互關系。例如,信息文本和配圖之間往往存在細粒度的局部對應關系,這種關系具有一定的相關性;與此同時,文本與圖像的整體內容又相互補充,以更詳細地表達圖文內容。
3、現有的多模態虛假新聞檢測方法大多僅聚焦于模態內部的信息交互,或者是對全局信息的融合,往往忽視了局部信息與全局信息之間的關聯。這些方法雖然在處理大量多模態虛假新聞案例時表現出一定的簡單性和有效性,但由于缺乏對不同粒度信息交互的深入考慮,難以充分融合細粒度和粗粒度的特征。在實際場景中,虛假新聞常通過對真實圖文信息進行細微的篡改,導致局部信息與整體語義產生矛盾。因此,傳統的跨模態語義關聯學習方法,面向全局或面向局部,難以有效建模圖像區域與文本單詞之間的語義交互,這使得檢測模型在異質模態間的推理判斷上面臨挑戰。
4、為了有效利用多模態
技術實現思路
1、為了克服現有多模態虛假信息檢測中模態間語義交互問題,本專利技術提供了一種基于語義一致性的多模態虛假信息檢測方法。具體包括以下步驟:首先獲取社交網絡中新聞的多模態數據,并對文本和圖像預處理。然后分別構建文本和圖像的全局與局部特征提取器。通過提取的文本局部特征與圖像局部特征進行局部語義一致性檢測,將獲取的全局特征進行全局語義一致性檢測,并生成聯合語義一致性結果。接著采用注意力機制分配權重,將文本和圖像特征進行多模態融合。最后結合融合結果與語義一致性結果建立損失函數,從而實現虛假信息的檢測。本專利技術能有效提高多模態虛假信息檢測的準確率,提高自動化檢測多模態虛假信息。
2、一種基于語義一致性的多模態虛假信息檢測方法,包括以下步驟:
3、步驟一:獲取社交網絡中的新聞多模態數據,構建訓練數據集,所述訓練數據集中的每個數據包括新聞多模態數據和是否為虛假信息的標簽,所述新聞多模態數據包括文本數據和圖像數據;對文本數據進行分詞處理;
4、步驟二:構建多模態虛假信息檢測模型,所述多模態虛假信息檢測模型包括針對文本的全局特征提取器lstm和局部特征提取器bert,針對圖像的全局特征提取器cnn和局部特征提取器swin?transformer,分別用于提取文本全局特征vg和文本局部特征vl,圖像全局特征ug和圖像局部特征ul;
5、步驟三:將提取到的文本局部特征與圖像局部特征使用改進后的余弦距離進行局部語義一致性檢測,將文本全局特征與圖像全局特征通過歐幾里得距離進行全局語義一致性檢測,結合局部語義一致性和全局語義一致性檢測結果,通過動態融合系數生成聯合語義一致性結果s;
6、步驟四:通過分配不同的權重,將文本特征與圖像特征進行有效融合,生成代表多模態信息的融合特征f;
7、步驟五:將聯合語義一致性結果s與多模態融合特征f進行拼接融合,并將融合后的結果g輸入到兩層感知機中,得到經過兩層感知機映射處理后的特征表示h2,再將特征表示h2輸入分類層中分類得到虛假信息判別結果pc,pc是預測信息為虛假的概率,利用pc構建損失函數,利用步驟一中的訓練數據集,對虛假信息檢測模型進行訓練。
8、優選的,所述步驟二中:所述提取文本全局特征具體包括:通過全局特征提取器lstm正向和反向遍歷文本,提取文本全局特征vg,所述文本全局特征包括文本中詞之間的依賴關系;所述提取圖像全局特征具體包括:采用全局特征提取器cnn通過卷積、池化、全連接層操作獲得圖像的全局特征ug;所述提取文本局部特征具體包括:通過局部特征提取器bert將文本信息逐詞編碼,將上下文中每個詞的表征提取出來,通過bert自身的注意力機制捕捉每個詞在上下文中的局部信息,得到文本局部特征vl,其中n為步驟一中分詞處理后得到的單詞的個數,通過不同大小的卷積核獲得每個單詞的短語級信息,t代表步驟一中分詞處理后得到的單詞,v代表經過bert處理后提取到的分詞后單詞的局部特征,具體公式如下:
9、vl={v1…vn}=bert({t1…tn})
10、所述提取圖像局部特征具體包括:通過局部特征提取器swin?transformer將輸入圖像劃分為固定大小的局部圖像塊,在局部圖像塊內應用swin?transformer自身的滑動窗口機制,逐塊提取局部圖像塊的特征u,將每塊局部圖像塊提取的特征組合得到圖像局部特征ul,捕捉圖像的細粒度信息,m代表局部圖像塊的塊數,swin-t代表swin?transformer模型,e代表局部圖像塊,具體公式如下:
11、ul={u1…um}=swin-t({e1…em})。
12、優選的,所述步驟三具體包括:
13、對于每一塊局部圖像塊的特征ui,將步驟二中提取到的每個單詞的局部特征vj與局部圖像塊的特征ui使用改進后的余弦定理按如下公式計算局部語義一致性分數:
14、
15、取局部語義一致性分數的最大值作為每一塊局部圖像塊的語義一致性結果si,具體表達為:
16、
17、按如下公式得到局部文本圖像語義一致性結果sl(ul,vl):
18、
19、按如下公式計算文本特征向量vg和圖像特征向量ug在空間之中的歐幾里得距離來衡量模態之間的一致性,并結合權重矩陣w來調整一致性度量結果,從而獲得全局一致性信息sg(vg,ug),使用relu激活函數確保一致性結果值為非負:
20、
21、按如下公式計算聯合語義一致性結果s,動態融合系數λ用于融合全局語義一致性結果和局部語義一致性結果,λ是根據其大小和訓練量調整模塊在整體模型中重要性的超參數,實現最大化整體模型性能的目的,
22、s=λ*sl(vl,ul)+(1-λ)*sg(vg,ug)。
23、優選的,所述步驟四具體包括:將步驟二中提取到的圖像全局特征ug和文本全局特征ag進行線性變換,分別得到ug′和vg′,實現將圖像和文本模態映射到相同維度的本文檔來自技高網...
【技術保護點】
1.一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:所述步驟二中:
3.根據權利要求2所述的一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:所述步驟三具體包括:
4.根據權利要求3所述的一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:所述步驟四具體包括:
5.根據權利要求4所述的一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:所述步驟五具體包括:
【技術特征摘要】
1.一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種基于語義一致性的多模態虛假信息檢測方法,其特征在于:所述步驟二中:
3.根據權利要求2所述的一種基于語義一致性的多模態虛假信息檢測方法...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。