System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码一区二区三区免费视频,99精品国产在热久久无码,亚洲av日韩aⅴ无码色老头
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>重慶郵電大學(xué)專利>正文

    一種結(jié)合知識(shí)圖譜與注意力機(jī)制的虛假新聞識(shí)別方法技術(shù)

    技術(shù)編號(hào):44496458 閱讀:6 留言:0更新日期:2025-03-04 18:03
    本發(fā)明專利技術(shù)屬于自然語言處理技術(shù)與虛假新聞的事實(shí)核查領(lǐng)域,具體涉及到知識(shí)圖譜輔助和注意力機(jī)制的新型虛假新聞檢測(cè)的方法,該方法包括:首先從目標(biāo)新聞文本中抽取數(shù)據(jù),識(shí)別關(guān)鍵實(shí)體并將其鏈接到知識(shí)圖譜,通過門控機(jī)制得到基于知識(shí)圖譜的實(shí)體嵌入向量;接著,將目標(biāo)文本中的句子、主題和實(shí)體作為輸入向量,利用Transformer編碼器提取其高階知識(shí)表示;然后,通過多頭注意力機(jī)制獲取更深層次的文本嵌入,包括句子?實(shí)體和句子?主題的嵌入表示;最后,對(duì)比所獲取的所有高級(jí)知識(shí)表示,并將它們一同輸入模型,以預(yù)測(cè)新聞的真實(shí)度評(píng)分,從而有效甄別潛在的虛假新聞報(bào)道。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)屬于自然語言處理技術(shù)和自動(dòng)文本真實(shí)性驗(yàn)證領(lǐng)域,具體涉及一種結(jié)合知識(shí)圖譜與注意力機(jī)制的虛假新聞識(shí)別方法


    技術(shù)介紹

    1、自動(dòng)虛假新聞識(shí)別是自然語言處理研究中的一個(gè)重要分支,對(duì)于維護(hù)信息真實(shí)性、保障社會(huì)輿論健康具有重大意義和廣泛的應(yīng)用前景。傳統(tǒng)的虛假新聞檢測(cè)方法主要依賴于文本內(nèi)容的語義特征和上下文信息,但由于忽略了新聞實(shí)體間深層的知識(shí)層級(jí)關(guān)系,使得這類方法在面對(duì)復(fù)雜和模糊的實(shí)體引用時(shí),識(shí)別精度受限。此外,現(xiàn)有的深度學(xué)習(xí)模型雖然在文本理解上有顯著的進(jìn)步,但在處理新聞內(nèi)容時(shí)并未充分調(diào)動(dòng)外部知識(shí)庫的支持,尤其是知識(shí)圖譜中蘊(yùn)含的實(shí)體關(guān)系和背景知識(shí)。

    2、隨著深度學(xué)習(xí)技術(shù)的普及,自然語言處理領(lǐng)域也漸漸開始把其應(yīng)用到虛假新聞檢測(cè)中。剛開始,學(xué)術(shù)界普遍使用transformer大模型進(jìn)行文章文本內(nèi)容的文本特征提取,從而進(jìn)行虛假新聞的檢測(cè);而后又使用了變分自動(dòng)編碼器vae(variational?auto?encoder)自編碼文本信息的方式得到新聞文本的嵌入表示,并且將得到的新聞向量進(jìn)行多任務(wù)學(xué)習(xí),提升了檢測(cè)模型的效果。而后又基于內(nèi)容風(fēng)格,發(fā)現(xiàn)虛假新聞發(fā)布者通常具有惡意意圖,以傳播扭曲和誤導(dǎo)性的信息并影響群眾,因此需要特定的寫作風(fēng)格來吸引和說服廣泛的群眾,而這在真實(shí)新聞中是看不到的,因此要讓機(jī)器學(xué)習(xí)辨別虛假新聞的寫作風(fēng)格,通過對(duì)抗學(xué)習(xí)以此增強(qiáng)識(shí)別能力。接著,也有研究利用用戶的發(fā)文歷史來識(shí)別用戶的可信度,同時(shí)檢測(cè)用戶的互動(dòng)指數(shù),利用二者進(jìn)行綜合判別共同進(jìn)行虛假新聞檢測(cè)。2018年,香港中文大學(xué)馬晶博士基于新聞傳播行為將謠言的傳播過程建模為樹形結(jié)構(gòu),該工作構(gòu)建了一個(gè)自底向上傳播樹,又構(gòu)建了一個(gè)自頂向下傳播樹,并使用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)樹中的節(jié)點(diǎn)進(jìn)行建模,對(duì)虛假新聞進(jìn)行分類。后來,有學(xué)者提出了一種簡潔而有效的多領(lǐng)域虛假新聞檢測(cè)模型,通過利用社交媒體上的用戶投票和評(píng)論等信息,作為集體智慧的參考,提高虛假新聞檢測(cè)的效果,以此采用用戶集體知識(shí)的反饋來構(gòu)建的一套相應(yīng)的知識(shí)庫。

    3、盡管如此,現(xiàn)有的許多技術(shù)仍然存在一定的局限性,它們通常獨(dú)立處理文本片段,忽視了詞匯在上下文中的含義變化,以及兩個(gè)文本片段之間可能存在的復(fù)雜語義關(guān)聯(lián),也依然未能充分利用知識(shí)圖譜中的實(shí)體知識(shí)以及實(shí)體間的關(guān)系網(wǎng)絡(luò)來指導(dǎo)虛假新聞的識(shí)別過程。


    技術(shù)實(shí)現(xiàn)思路

    1、為解決以上現(xiàn)有技術(shù)存在的問題,本專利技術(shù)提出一種結(jié)合知識(shí)圖譜與注意力機(jī)制的虛假新聞識(shí)別方法,其特征在于,包括如下步驟:實(shí)時(shí)獲取新聞數(shù)據(jù),對(duì)新聞數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練好的虛假新聞檢測(cè)模型中,得到新聞為假的概率,根據(jù)概率輸出新聞?wù)婕俚呐袛嘟Y(jié)果;所述假新聞檢測(cè)模型包括知識(shí)圖譜實(shí)體對(duì)比模塊、以及多頭注意力機(jī)制模塊;

    2、訓(xùn)練虛假新聞檢測(cè)模型的過程包括:

    3、s1:獲取原始新聞數(shù)據(jù)集,將原始新聞數(shù)據(jù)集進(jìn)行劃分,得到訓(xùn)練集和測(cè)試集;對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行預(yù)處理;

    4、s2:將預(yù)處理后的數(shù)據(jù)分別提取句子、主題、實(shí)體,并輸入到transformer編碼器中,生成新聞內(nèi)容中每個(gè)句子、主題、實(shí)體的嵌入表示數(shù)據(jù);

    5、s3:設(shè)計(jì)句子-主題注意力和句子-實(shí)體注意力機(jī)制,分別計(jì)算新聞句子與主題以及實(shí)體的語義相似度,從而生成新聞的句子-主題嵌入向量和句子-實(shí)體嵌入向量;

    6、s4:從知識(shí)圖譜中提取實(shí)體及其實(shí)體上下文信息,并使用門控機(jī)制得到基于知識(shí)圖譜的實(shí)體嵌入數(shù)據(jù);

    7、s5:將s4得到的基于知識(shí)圖譜的實(shí)體嵌入數(shù)據(jù)和s3得到的嵌入數(shù)據(jù)進(jìn)行加權(quán)聚合。

    8、s6:采用relu非線性激活函數(shù)計(jì)算聚合后特征的假新聞概率得分;設(shè)置迭代次數(shù)的初始值;

    9、s7:采用交叉熵?fù)p失函數(shù)訓(xùn)練模型;

    10、s8:采用adam算法優(yōu)化模型,即在訓(xùn)練過程中調(diào)整transformer編碼器和注意力機(jī)制模塊中的參數(shù);

    11、s9:判斷迭代次數(shù)是否達(dá)到最大迭代次數(shù),如果達(dá)到,則完成假新聞檢測(cè)模型的訓(xùn)練,否則返回步驟s7,迭代次數(shù)加1。

    12、這種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,對(duì)數(shù)據(jù)進(jìn)行處理的過程包括:

    13、將文本中的實(shí)體進(jìn)行提取,獲得實(shí)體序列:

    14、e={e1,e2,··,em}

    15、其中,e表示實(shí)體的集合,ei表示分割出的實(shí)體,m是實(shí)體的數(shù)量。

    16、使用lda從所有句子中挖掘出潛在主題:

    17、t={t1,t2,··,tk}

    18、其中,t表示主題的集合,ti表示提取出的主題,k是主題的數(shù)量。

    19、并將新聞劃分為句子集合:

    20、s={s1,s2,··,sn}

    21、其中,s表示句子的集合,si表示劃分的句子,n是句子的數(shù)量。

    22、進(jìn)一步的,將提取的句子、主題、實(shí)體進(jìn)行文本編碼:

    23、句子內(nèi)容表示p的計(jì)算過程如下:

    24、步驟1:從上述給定的句子集合s={s1,s2,··,sn}中,將每個(gè)句子si從句子嵌入矩陣m∈rv*d投影到一個(gè)固定長度的句子嵌入s′i中,其中v是句子的長度,d是嵌入維度。然后,得到句子向量集合s′={s′1,s′2,··,s′n},其中s′∈rn*d。

    25、步驟2:使用位置編碼并結(jié)合句嵌入:

    26、ut=w′t+post

    27、其中,post是句子中第t個(gè)句子的位置編碼,本專利技術(shù)將u=u0,··,un∈rn*d表示為transformer編碼器底部的輸入編碼。

    28、步驟3:使用單層transformer編碼器來處理輸入編碼u:

    29、

    30、其中,multiheadattention(u)表示多頭注意力機(jī)制,輸入u首先由多頭自注意力機(jī)制的子層轉(zhuǎn)換得到表示層歸一化,結(jié)果輸出a;feedforwardnetwork(a)表示將輸出a被發(fā)送到逐點(diǎn)前饋神經(jīng)網(wǎng)絡(luò)層,得到表示層歸一化,即將前饋網(wǎng)絡(luò)的輸出與經(jīng)過多頭自注意力機(jī)制和歸一化處理后的向量a相加;最終構(gòu)造出句子表示p。

    31、主題表示q′的計(jì)算過程與上述步驟1、步驟2和步驟3類似,只需將輸入換成主題集合t={t1,t2,··,tk}。

    32、實(shí)體表示r′的計(jì)算過程與上述步驟1、步驟2和步驟3類似,只需將輸入換成實(shí)體集合e={e1,e2,··,em}。

    33、進(jìn)一步的,將提取的句子表示p、主題表示q′、實(shí)體r′表示進(jìn)行多層注意力感知:

    34、本專利技術(shù)設(shè)計(jì)的基于多頭注意力的注意力網(wǎng)絡(luò),允許模型考慮不同位置的不同表示子空間的信息。計(jì)算注意力的公式如下:

    35、

    36、multihead(q,k,v)=concat(attn1,……,attnh)

    37、其中q、k、v分別為查詢矩陣、鍵矩陣和值矩陣,dk是查詢和鍵矩陣的維度,其中,concat(attn1,……,attnh)表示將各個(gè)自注意力矩陣進(jìn)行拼接,h是注意力頭的數(shù)量。...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,包括如下步驟:實(shí)時(shí)獲取新聞數(shù)據(jù),對(duì)新聞數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練好的虛假新聞檢測(cè)模型中,得到新聞為假的概率,根據(jù)概率輸出新聞?wù)婕俚呐袛嘟Y(jié)果;所述假新聞檢測(cè)模型包括知識(shí)圖譜實(shí)體對(duì)比模塊、以及多頭注意力機(jī)制模塊以及比較聚合層;

    2.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,所述對(duì)數(shù)據(jù)進(jìn)行處理的過程包括:

    3.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,使用Transformer編碼器將提取的句子、主題、實(shí)體進(jìn)行文本編碼,旨在形成句子內(nèi)容表示p、主題表示q′、實(shí)體表示r′。

    4.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,將提取的句子、主題、實(shí)體進(jìn)行多層注意力感知:

    5.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,將實(shí)體表示進(jìn)行知識(shí)的結(jié)構(gòu)嵌入,也就是使用知識(shí)圖譜嵌入方法來獲得結(jié)構(gòu)化實(shí)體嵌入.

    6.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,將上述得到的所有嵌入表示進(jìn)行連接,得到新聞的最終表示z。

    ...

    【技術(shù)特征摘要】

    1.一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,包括如下步驟:實(shí)時(shí)獲取新聞數(shù)據(jù),對(duì)新聞數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入到訓(xùn)練好的虛假新聞檢測(cè)模型中,得到新聞為假的概率,根據(jù)概率輸出新聞?wù)婕俚呐袛嘟Y(jié)果;所述假新聞檢測(cè)模型包括知識(shí)圖譜實(shí)體對(duì)比模塊、以及多頭注意力機(jī)制模塊以及比較聚合層;

    2.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,所述對(duì)數(shù)據(jù)進(jìn)行處理的過程包括:

    3.根據(jù)權(quán)利要求1所述的一種基于知識(shí)圖譜和注意力機(jī)制的虛假新聞檢測(cè)方法,其特征在于,使用transformer編碼器將...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:張璞孫玉辰田哲宇
    申請(qǐng)(專利權(quán))人:重慶郵電大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲成a人无码亚洲成www牛牛| 久久久久久久久无码精品亚洲日韩| 狠狠爱无码一区二区三区| 18禁超污无遮挡无码免费网站| 亚洲精品久久无码av片俺去也| 麻豆人妻少妇精品无码专区| 亚洲Av无码精品色午夜| 国产成年无码AV片在线韩国| 久久久久亚洲AV无码观看| 久久精品中文字幕无码| 免费无码AV片在线观看软件| 人妻少妇精品无码专区| 亚洲精品无码久久久久sm| 亚洲AV永久无码精品水牛影视 | 久久精品无码一区二区三区日韩 | 亚洲中文无码a∨在线观看| 日韩专区无码人妻| 亚洲爆乳少妇无码激情| 日日摸日日踫夜夜爽无码| 无码中文字幕日韩专区视频| 国产精品成人无码久久久久久| 中文AV人妻AV无码中文视频| 精品无码国产一区二区三区AV| 久久亚洲AV成人无码软件| 国产av永久无码天堂影院| 亚洲无码视频在线| 国产办公室秘书无码精品99| 少妇性饥渴无码A区免费| 人妻丰满熟妇AV无码片| 亚洲AV无码成人网站久久精品大 | 日韩成人无码影院| 无码丰满熟妇浪潮一区二区AV| 无码专区人妻系列日韩精品少妇| 人妻无码一区二区不卡无码av| 无码一区二区三区在线观看 | 东京热加勒比无码视频| 永久免费无码日韩视频| 免费无码午夜福利片 | 精品深夜AV无码一区二区老年| 欧洲人妻丰满av无码久久不卡| 久久亚洲AV成人出白浆无码国产|