一種跨篇章事實驗證方法及系統(tǒng)技術方案

技術編號：44486512 閱讀：6 留言：0更新日期：2025-03-04 17:51

本發(fā)明專利技術公開了一種跨篇章事實驗證方法及系統(tǒng)，包括：采用BERT編碼器獲取數據集的第一語義嵌入特征及第二語義嵌入特征并構建句子圖，利用自注意力機制處理句子圖中的節(jié)點獲取對應的預測結果；將預測結果與實際的句子標簽進行擬合計算預測概率，并進行排序以得到最相關的句子作為證據句子；評估證據句子的重要程度，利用損失函數擬合評估結果與聲明標簽，并通過反向傳播調整參數形成目標函數優(yōu)化模型的學習結果。本發(fā)明專利技術解決了證據句子檢索效率低下、事實驗證缺乏可解釋性的問題，設計了一種注意力機制可以使模型自動學習不同證據的重要程度，并且提出使用GAT捕獲與黃金證據句子最相關的句子作為證據，捕獲文本中的有效信息，有助于模型性能的提升。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及事實驗證研究，具體為一種跨篇章事實驗證方法及系統(tǒng)。

技術介紹

1、跨篇章事實驗證任務旨在從多個文件中檢索相關證據，以驗證給定索賠的真實性，依賴于檢索證據的質量。社交媒體的顯著進步不可避免地導致了假新聞和網絡謠言的增加。為了減輕這種虛假陳述的負面影響，自動事實驗證在最近的研究中引起了相當大的關注。事實驗證旨在通過從可靠的語料庫中檢索相關證據來驗證給定主張的真實性。具體來說，需要一個事實驗證系統(tǒng)將一個主張標記為“支持”、“反駁”或“信息不足”，表明證據是否可以支持、反駁或不足以支持該主張。然而，現(xiàn)有的跨篇章事實驗證方法嚴重依賴于特定的啟發(fā)式或基于規(guī)則的策略，利用索賠和文件之間語義或表面形式的相似性度量來進行證據檢索。因此，如何檢索更可信的且更有利于驗證聲明事實性的證據句子，是跨篇章事實驗證任務中的一個難題。

2、augenstein等人提出使用google返回的摘要片段作為證據。這種方法的一個關鍵限制是摘要片段不能提供足夠的信息來驗證聲明。nie等人通過對句子的語義相似度排序，選擇前k個句子作為證據。這種方法傾向于基于高相似度對句子進行優(yōu)先排序。而忽略了表達不同觀點或呈現(xiàn)不同信息的句子的包含。因此，這種限制阻礙了證據的多樣性，使系統(tǒng)更容易受到信息過濾的挑戰(zhàn)。因此，有必要訓練事實驗證系統(tǒng)，學習如何有效地從網頁上的完整文檔中檢索證據句子。

3、zhou等人將每個索賠-證據對視為單個節(jié)點，并基于圖注意機制構建全連通圖來傳播節(jié)點信息。在此基礎上，liu等人利用句子和令牌層面的內核關注機制對節(jié)點特征聚合算

技術實現(xiàn)思路

1、鑒于上述現(xiàn)有存在的問題，提出了本專利技術。

2、因此，本專利技術提供了一種跨篇章事實驗證方法及系統(tǒng)解決現(xiàn)有事實驗證方法基于最相似句子的信息不足以提供全面的驗證依據和解釋，且在大型文本集合中容易導致信息丟失的問題。

3、為解決上述技術問題，本專利技術提供如下技術方案：

4、第一方面，本專利技術提供了一種跨篇章事實驗證方法，包括：采用bert編碼器獲取數據集的第一語義嵌入特征及第二語義嵌入特征；通過所述第一語義嵌入特征及第二語義嵌入特征構建句子圖，利用自注意力機制處理所述句子圖中的節(jié)點獲取對應的預測結果；將所述預測結果與實際的句子標簽進行擬合計算預測概率，并對所述預測概率進行排序以得到最相關的句子作為證據句子；根據所述證據句子構建聲明-證據圖，并利用自注意力機制評估所述證據句子的重要程度，利用損失函數擬合評估結果與聲明標簽，并通過反向傳播調整參數形成目標函數優(yōu)化模型的學習結果。

5、作為本專利技術所述的跨篇章事實驗證方法的一種優(yōu)選方案，其中：所述采用bert編碼器獲取數據集的第一語義嵌入特征及第二語義嵌入特征包括：

6、在開源跨篇章事實驗證數據集上對文本進行初步的特征提取，即通過將輸入文本的給定句子處理成“[cls]句子[sep]”的形式，利用bert編碼器進行編碼獲取對應的特征；

7、對于所述開源跨篇章事實驗證數據集中的每個聲明，通過聚合與聲明相對應的每個文檔中的所有句子形成一個候選證據句集，再采用bert編碼器獲取聲明和所述候選證據句集中每個句子的第一語義嵌入特征；

8、將每個聲明對應的所有黃金證據句子拼接成一個長句并添加特殊標記，采用bert編碼器獲取經過所述特殊標記的黃金證據句子的第二語義嵌入特征。

9、作為本專利技術所述的跨篇章事實驗證方法的一種優(yōu)選方案，其中：所述構建句子圖并利用自注意力機制處理所述句子圖中的節(jié)點獲取對應的預測結果包括：

10、通過所述第一語義嵌入特征及第二語義嵌入特征構建句子圖g＝(v,e)，其中節(jié)點v包括文本中的句子以及黃金證據句子，邊e連接所有節(jié)點；

11、使用所述黃金證據句子作為第一個節(jié)點依次添加文本中的句子；

12、利用注意力機制使得訓練模型學習到與所述黃金證據句子最相關的句子作為證據句子來檢索證據輔助事實驗證任務，并將所述證據句子作為注意力機制的預測結果進行輸出。

13、作為本專利技術所述的跨篇章事實驗證方法的一種優(yōu)選方案，其中：所述擬合計算預測概率包括：

14、通過對所述預測結果與實際的句子標簽進行擬合計算預測概率，表示為：其中，wl表示最終線性變換的權重矩陣，表示圖注意力神經網絡模型最后一層得到的節(jié)點i的最終表；

15、所述圖注意力神經網絡模型通過輸入數據生成每個類的預測概率，形成目標函數優(yōu)化模型的學習結果，并使用最小化損失函數作為目標函數，通過反向傳播更新所述圖注意力神經網絡模型的參數；

16、所述最小化損失函數的計算為：

17、

18、其中，yi表示第i類標簽的預測結果。

19、作為本專利技術所述的跨篇章事實驗證方法的一種優(yōu)選方案，其中：將通過對所述預測結果與實際的句子標簽進行擬合計算獲取的預測概率按照標簽為1相關的概率從大到小進行排序，選擇前k個句子作為最相關的證據句子輔助后續(xù)的事實驗證，其中已排除索引為0的節(jié)點，即黃金證據句子節(jié)點。

20、作為本專利技術所述的跨篇章事實驗證方法的一種優(yōu)選方案，其中：包括：

21、根據所述最相關的證據句子構建聲明-證據圖，將所述開源跨篇章事實驗證數據集中的聲明作為第一個節(jié)點，依次添加所述最相關的證據句子；

22、每個節(jié)點與其相鄰節(jié)點具有不同的注意權值，利用自注意力機制處理所述聲明-證據圖中的節(jié)點之間的注意權值，使模型自動學習不同證據的重要程度，并交換融合不同節(jié)點之間的信息，獲得更新之后的節(jié)點表示。

23、作為本專利技術所述的跨篇章事實驗證方法的一種優(yōu)選方案，其中：還包括：

24、通過對所述更新之后的節(jié)點表示與實際的聲明標簽進行擬合計算預測概率；

25、所述圖注意力神經網絡模型通過輸入數據生成每個類的預測概率，形成目標函數優(yōu)化模型的學習結果，并使用損失函數作為目標函數，通過反向傳播更新所述圖注意力神經網絡模型的參數，形成目標函數優(yōu)化模型的學習結果；

26、所述損失函數的計算為：

27、

28、第二方面，本專利技術提供了一種跨篇章事實驗證系統(tǒng)，包括：

29、句子編碼模塊，用于采用bert編碼器獲取數據集的第一語義嵌入特征及第二語義嵌入特征；

30、相關證據選擇模塊，用于通過所述第一語義嵌入特征及第二語義嵌入特征構建句子圖，利用自注意力機制處理所述句子圖中的節(jié)點獲取對應的預測結果，將所述預測結果與實際的句子標簽進行擬合計算預測概率，并對所述預測概率進行排序以得到最相關的句子作為證據句子；

31、聲明驗證模塊，用于根據所述證據句子構建聲明-證據圖，并利用自注意力機制評估所述證據句子的重要程度，利用損失函數擬合評估結果與聲明標簽，并通過反向傳播調整參數形成目標函數優(yōu)化模型的學習結果。

32、第三方本文檔來自技高網...

【技術保護點】

1.一種跨篇章事實驗證方法，其特征在于，包括：

2.如權利要求1所述的跨篇章事實驗證方法，其特征在于，所述采用BERT編碼器獲取數據集的第一語義嵌入特征及第二語義嵌入特征包括：

3.如權利要求2所述的跨篇章事實驗證方法，其特征在于，所述構建句子圖并利用自注意力機制處理所述句子圖中的節(jié)點獲取對應的預測結果包括：

4.如權利要求3所述的跨篇章事實驗證方法，其特征在于，所述擬合計算預測概率包括：

5.如權利要求4所述的跨篇章事實驗證方法，其特征在于，將通過對所述預測結果與實際的句子標簽進行擬合計算獲取的預測概率按照標簽為1相關的概率從大到小進行排序，選擇前k個句子作為最相關的證據句子輔助后續(xù)的事實驗證，其中已排除索引為0的節(jié)點，即黃金證據句子節(jié)點。

6.如權利要求5所述的跨篇章事實驗證方法，其特征在于，包括：

7.如權利要求6所述的跨篇章事實驗證方法，其特征在于，還包括：

8.一種應用如權利要求1～7任一所述的跨篇章事實驗證方法的系統(tǒng)，其特征在于，包括：

9.一種電子設備，包括：

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術