System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于自然語言處理技術(shù)和自動(dòng)文本真實(shí)性驗(yàn)證領(lǐng)域,具體涉及一種結(jié)合知識(shí)圖譜與注意力機(jī)制的虛假新聞識(shí)別方法。
技術(shù)介紹
1、自動(dòng)虛假新聞識(shí)別是自然語言處理研究中的一個(gè)重要分支,對(duì)于維護(hù)信息真實(shí)性、保障社會(huì)輿論健康具有重大意義和廣泛的應(yīng)用前景。傳統(tǒng)的虛假新聞檢測(cè)方法主要依賴于文本內(nèi)容的語義特征和上下文信息,但由于忽略了新聞實(shí)體間深層的知識(shí)層級(jí)關(guān)系,使得這類方法在面對(duì)復(fù)雜和模糊的實(shí)體引用時(shí),識(shí)別精度受限。此外,現(xiàn)有的深度學(xué)習(xí)模型雖然在文本理解上有顯著的進(jìn)步,但在處理新聞內(nèi)容時(shí)并未充分調(diào)動(dòng)外部知識(shí)庫的支持,尤其是知識(shí)圖譜中蘊(yùn)含的實(shí)體關(guān)系和背景知識(shí)。
2、隨著深度學(xué)習(xí)技術(shù)的普及,自然語言處理領(lǐng)域也漸漸開始把其應(yīng)用到虛假新聞檢測(cè)中。剛開始,學(xué)術(shù)界普遍使用transformer大模型進(jìn)行文章文本內(nèi)容的文本特征提取,從而進(jìn)行虛假新聞的檢測(cè);而后又使用了變分自動(dòng)編碼器vae(variational?auto?encoder)自編碼文本信息的方式得到新聞文本的嵌入表示,并且將得到的新聞向量進(jìn)行多任務(wù)學(xué)習(xí),提升了檢測(cè)模型的效果。而后又基于內(nèi)容風(fēng)格,發(fā)現(xiàn)虛假新聞發(fā)布者通常具有惡意意圖,以傳播扭曲和誤導(dǎo)性的信息并影響群眾,因此需要特定的寫作風(fēng)格來吸引和說服廣泛的群眾,而這在真實(shí)新聞中是看不到的,因此要讓機(jī)器學(xué)習(xí)辨別虛假新聞的寫作風(fēng)格,通過對(duì)抗學(xué)習(xí)以此增強(qiáng)識(shí)別能力。接著,也有研究利用用戶的發(fā)文歷史來識(shí)別用戶的可信度,同時(shí)檢測(cè)用戶的互動(dòng)指數(shù),利用二者進(jìn)行綜合判別共同進(jìn)行虛假新聞檢測(cè)。2018年,香港中文大學(xué)馬晶博士基于新聞傳播行為將謠言的傳
3、盡管如此,現(xiàn)有的許多技術(shù)仍然存在一定的局限性,它們通常獨(dú)立處理文本片段,忽視了詞匯在上下文中的含義變化,以及兩個(gè)文本片段之間可能存在的復(fù)雜語義關(guān)聯(lián),也依然未能充分利用知識(shí)圖譜中的實(shí)體知識(shí)以及實(shí)體間的關(guān)系網(wǎng)絡(luò)來指導(dǎo)虛假新聞的識(shí)別過程。
技術(shù)實(shí)現(xiàn)思路
1、為解決以上現(xiàn)有技術(shù)存在的問題,本專利技術(shù)提出一種結(jié)合知識(shí)圖譜與注意力機(jī)制的虛假新聞識(shí)別方法,其特征在于,包括如下步驟:實(shí)時(shí)獲取新聞數(shù)據(jù),對(duì)新聞數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練好的虛假新聞檢測(cè)模型中,得到新聞為假的概率,根據(jù)概率輸出新聞?wù)婕俚呐袛嘟Y(jié)果;所述假新聞檢測(cè)模型包括知識(shí)圖譜實(shí)體對(duì)比模塊、以及多頭注意力機(jī)制模塊;
2、訓(xùn)練虛假新聞檢測(cè)模型的過程包括:
3、s1:獲取原始新聞數(shù)據(jù)集,將原始新聞數(shù)據(jù)集進(jìn)行劃分,得到訓(xùn)練集和測(cè)試集;對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行預(yù)處理;
4、s2:將預(yù)處理后的數(shù)據(jù)分別提取句子、主題、實(shí)體,并輸入到transformer編碼器中,生成新聞內(nèi)容中每個(gè)句子、主題、實(shí)體的嵌入表示數(shù)據(jù);
5、s3:設(shè)計(jì)句子-主題注意力和句子-實(shí)體注意力機(jī)制,分別計(jì)算新聞句子與主題以及實(shí)體的語義相似度,從而生成新聞的句子-主題嵌入向量和句子-實(shí)體嵌入向量;
6、s4:從知識(shí)圖譜中提取實(shí)體及其實(shí)體上下文信息,并使用門控機(jī)制得到基于知識(shí)圖譜的實(shí)體嵌入數(shù)據(jù);
7、s5:將s4得到的基于知識(shí)圖譜的實(shí)體嵌入數(shù)據(jù)和s3得到的嵌入數(shù)據(jù)進(jìn)行加權(quán)聚合。
8、s6:采用relu非線性激活函數(shù)計(jì)算聚合后特征的假新聞概率得分;設(shè)置迭代次數(shù)的初始值;
9、s7:采用交叉熵?fù)p失函數(shù)訓(xùn)練模型;
10、s8:采用adam算法優(yōu)化模型,即在訓(xùn)練過程中調(diào)整transformer編碼器和注意力機(jī)制模塊中的參數(shù);
11、s9:判斷迭代次數(shù)是否達(dá)到最大迭代次數(shù),如果達(dá)到,則完成假新聞檢測(cè)模型的訓(xùn)練,否則返回步驟s7,迭代次數(shù)加1。
12、這種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,對(duì)數(shù)據(jù)進(jìn)行處理的過程包括:
13、將文本中的實(shí)體進(jìn)行提取,獲得實(shí)體序列:
14、e={e1,e2,··,em}
15、其中,e表示實(shí)體的集合,ei表示分割出的實(shí)體,m是實(shí)體的數(shù)量。
16、使用lda從所有句子中挖掘出潛在主題:
17、t={t1,t2,··,tk}
18、其中,t表示主題的集合,ti表示提取出的主題,k是主題的數(shù)量。
19、并將新聞劃分為句子集合:
20、s={s1,s2,··,sn}
21、其中,s表示句子的集合,si表示劃分的句子,n是句子的數(shù)量。
22、進(jìn)一步的,將提取的句子、主題、實(shí)體進(jìn)行文本編碼:
23、句子內(nèi)容表示p的計(jì)算過程如下:
24、步驟1:從上述給定的句子集合s={s1,s2,··,sn}中,將每個(gè)句子si從句子嵌入矩陣m∈rv*d投影到一個(gè)固定長度的句子嵌入s′i中,其中v是句子的長度,d是嵌入維度。然后,得到句子向量集合s′={s′1,s′2,··,s′n},其中s′∈rn*d。
25、步驟2:使用位置編碼并結(jié)合句嵌入:
26、ut=w′t+post
27、其中,post是句子中第t個(gè)句子的位置編碼,本專利技術(shù)將u=u0,··,un∈rn*d表示為transformer編碼器底部的輸入編碼。
28、步驟3:使用單層transformer編碼器來處理輸入編碼u:
29、
30、其中,multiheadattention(u)表示多頭注意力機(jī)制,輸入u首先由多頭自注意力機(jī)制的子層轉(zhuǎn)換得到表示層歸一化,結(jié)果輸出a;feedforwardnetwork(a)表示將輸出a被發(fā)送到逐點(diǎn)前饋神經(jīng)網(wǎng)絡(luò)層,得到表示層歸一化,即將前饋網(wǎng)絡(luò)的輸出與經(jīng)過多頭自注意力機(jī)制和歸一化處理后的向量a相加;最終構(gòu)造出句子表示p。
31、主題表示q′的計(jì)算過程與上述步驟1、步驟2和步驟3類似,只需將輸入換成主題集合t={t1,t2,··,tk}。
32、實(shí)體表示r′的計(jì)算過程與上述步驟1、步驟2和步驟3類似,只需將輸入換成實(shí)體集合e={e1,e2,··,em}。
33、進(jìn)一步的,將提取的句子表示p、主題表示q′、實(shí)體r′表示進(jìn)行多層注意力感知:
34、本專利技術(shù)設(shè)計(jì)的基于多頭注意力的注意力網(wǎng)絡(luò),允許模型考慮不同位置的不同表示子空間的信息。計(jì)算注意力的公式如下:
35、
36、multihead(q,k,v)=concat(attn1,……,attnh)
37、其中q、k、v分別為查詢矩陣、鍵矩陣和值矩陣,dk是查詢和鍵矩陣的維度,其中,concat(attn1,……,attnh)表示將各個(gè)自注意力矩陣進(jìn)行拼接,h是注意力頭的數(shù)量。本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,包括如下步驟:實(shí)時(shí)獲取新聞數(shù)據(jù),對(duì)新聞數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練好的虛假新聞檢測(cè)模型中,得到新聞為假的概率,根據(jù)概率輸出新聞?wù)婕俚呐袛嘟Y(jié)果;所述假新聞檢測(cè)模型包括知識(shí)圖譜實(shí)體對(duì)比模塊、以及多頭注意力機(jī)制模塊以及比較聚合層;
2.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,所述對(duì)數(shù)據(jù)進(jìn)行處理的過程包括:
3.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,使用Transformer編碼器將提取的句子、主題、實(shí)體進(jìn)行文本編碼,旨在形成句子內(nèi)容表示p、主題表示q′、實(shí)體表示r′。
4.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,將提取的句子、主題、實(shí)體進(jìn)行多層注意力感知:
5.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,將實(shí)體表示進(jìn)行知識(shí)的結(jié)構(gòu)嵌入,也就是使用知識(shí)圖譜嵌入方法來獲得結(jié)構(gòu)化實(shí)體嵌入.
6.根據(jù)權(quán)利
...【技術(shù)特征摘要】
1.一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,包括如下步驟:實(shí)時(shí)獲取新聞數(shù)據(jù),對(duì)新聞數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練好的虛假新聞檢測(cè)模型中,得到新聞為假的概率,根據(jù)概率輸出新聞?wù)婕俚呐袛嘟Y(jié)果;所述假新聞檢測(cè)模型包括知識(shí)圖譜實(shí)體對(duì)比模塊、以及多頭注意力機(jī)制模塊以及比較聚合層;
2.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,所述對(duì)數(shù)據(jù)進(jìn)行處理的過程包括:
3.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,使用transformer編碼器將...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張璞,孫玉辰,田哲宇,
申請(qǐng)(專利權(quán))人:重慶郵電大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。