本發明專利技術涉及一種基于異構圖transformer的單文檔文本摘要系統,屬于自然語言處理領域。一種基于異構圖transformer的單文檔文本摘要系統,包括三部分:編碼層、圖更新層和句子選擇層;先通過編碼層對句子和詞語進行編碼,然后,異構圖層通過HGT模型來更新句子結點和詞語結點的間的語義表示,最后,句子選擇層通過句子結點的語義表示來抽取摘要。本發明專利技術在圖更新層,采用HGT方法來更新結點間的語義,可以融合更深層次的語義,進而可以提高模型對摘要抽取的準確率。在圖更新層加入可訓練的位置編碼,可以在圖模型中加入文本的順序信息,該方法可以進一步提高模型訓練過程的收斂速度。以進一步提高模型訓練過程的收斂速度。以進一步提高模型訓練過程的收斂速度。
【技術實現步驟摘要】
一種基于異構圖transformer的單文檔文本摘要系統
[0001]本專利技術屬于自然語言處理領域,涉及一種基于異構圖transformer的單文檔文本摘要系統。
技術介紹
[0002]文本摘要是自然語言處理的核心技術之一,是目前解決信息過剩問題的一種輔助手段,能夠幫助人類更加快速、準確、全面地從自然語言文本獲取關鍵信息,在工業和商業方面都具有重要的實用意義。文本摘要技術涉及到語言理解、文本分類、摘要生成等復雜技術,因而面臨著諸多挑戰。
[0003]抽取式文本摘要認為文檔的主題思想可通過文章中一句或幾句話來代替。傳統的抽取式文本摘要技術往往采用基于統計和規則的方法來得到摘要,通過計算文本中句子的相似性對句子進行排序,然后在抽取文本摘要。優點是不需要進行復雜計算,通用性較強,句子的語法錯誤較少,缺點是準確率較低,,比如LexRank和TextRank。2014年,KagebackM等人首次使用深度學習方法完成抽取式文本摘要任務,該方法通過計算不同句子間語義表示的相似度,并采用次模函數優化選擇合適的句子作為摘要。Cheng和Lapata等人于2016年提出一種基于Seq2Seq的通用自動摘要框架,采用層次文檔編碼器和注意力機制抽取文本摘要句。同年,Cao等人針對查詢式摘要任務,提出了一種融合査詢信息的注意力機制。2017年,LiP等人提出了一種基于等比序列的編碼解碼器模型DRGN,采用神經變異推理對復發性潛伏期變量進行后驗推理。在不同語言的數據集上證實,該方法表現出良好的性能。2018年,Bennani等人提出了一種使用句子嵌入的簡單無監督關鍵短語抽取模型,在單文本中采用嵌入排序抽取關鍵短語,該模型在F1得分上有了進一步提高。2019年,BouscarratL等人提出基于句子嵌入的高效抽取式摘要模型,該模型通過利用向量空間的語義信息進行信息抽取。2020年Wang等人根據圖注意力模型提出HSG模型,該方法構建提取文檔摘要異構圖網絡來建模句子之間的關系,而無需預先訓練語言模型。隨著圖模型的廣泛應用,圖模型如何和文本摘要任務相聯系,最近的工作已經做了初步的探索。
[0004]當前技術問題為:
[0005](1)當前基于圖模型的文本摘要,存在融合周圍結點的語義不足的問題。
[0006](2)文本摘要對位置信息比較敏感,但當前存在圖模型中位置信息不足的問題。
技術實現思路
[0007]有鑒于此,本專利技術的目的在于提供一種基于異構圖transformer的單文檔文本摘要系統。
[0008]為達到上述目的,本專利技術提供如下技術方案:
[0009]一種基于異構圖transformer的單文檔文本摘要系統,包括三部分:編碼層、圖更新層和句子選擇層;
[0010]先通過編碼層對句子和詞語進行編碼,然后,異構圖層通過HGT模型來更新句子結
點和詞語結點的間的語義表示,最后,句子選擇層通過句子結點的語義表示來抽取摘要。
[0011]可選的,所述編碼層:使用HSG模型中編碼層,用表示詞語結點語義表示矩陣,表示句子結點的語義表示矩陣;先對句子中包含的詞語語義表示,使用不同大小卷積核CNN捕獲其中臨近詞的語義得到融合周圍結點語義表示矩陣,通過池化層得到句子的語義表示c
j
,使用BiLSTM得到句子的語義表示b
j
,將BiLSTM和CNN得到的結果拼接,得到句子最終的語義表示S
j
=[c
j
;b
j
];直接使用Glove訓練的300維詞嵌入作為詞語結點的語義表示。
[0012]可選的,所述HGT模型包括注意力信息、傳遞信息和信息融合;
[0013]1)注意力信息:
[0014]在HGT更新結點的語義表示的過程中,為了避免結果過擬合,使用多頭注意力機制來計算源結點和更新結點間的注意力權重,計算公式為:
[0015][0016]公式中ATT
?
head
i
(s,e,t)表示多頭注意力機制中第i個更新頭,其中s為源結點,t為更新結點,e為對應的邊的特征;根據不同的邊的關系來計算源結點和目標結點間的相關性;多頭注意力中的第i頭的計算公式,計算公式為:
[0017][0018]其中,K
i
(s)表示源結點的線性變換,Q
i
(t)表示更新結點線性變換后的向量,表示可訓練的注意力權重,μ<τ(s),φ(e),τ(t)>根據不同注意力頭和不同結點對設置的可訓練參數,d表示更新結點線性變換后的維度;
[0019]2)傳遞信息:
[0020]更新信息從源結點傳遞到更新結點,為了計算更新結點的注意力,需要根據邊的類型e=(s,t)對更新結點進行語義抽取;計算公式為:
[0021][0022]對τ(s)類型的源結點在第l
?
1時刻的語義表示向量H
(l
?
1)
[s]進行線性變換后的向量;
[0023]3)信息融合:
[0024]根據不同的結點對,使用對應結點對計算出的注意力信息Attention
HGT
(s,e,t)作為權重乘以語義抽取的結果Message
HGT
(s,e,t)后求和,得到更新結點的更新向量計算公式為:
[0025][0026]這個向量是更新結點t根據不同邊特征的源結點更新后得到的特征向量;最后一步是對更新結點進行殘差連接,以防止出現梯度消失;先對τ(t)類型的更新結點的更新信息使用激活函數,在進行線性變換A
?
linear
τ(t)
,最后和τ(t)在l
?
1時刻的更新結點的語義表示進行殘差連接,計算公式為:
[0027][0028]得到更新后的句子結點的語義表示向量。
[0029]可選的,所述HGT模型改進為,由于在圖模型更新過程中結點的語義表示中缺少位置信息,故在更新過程中在結點的語義表示中加上位置編碼;分別在源結點和更新結點的輸入的語義表示中加入可訓練的位置編碼分別為p
s
和p
t
;計算公式為:
[0030][0031]可選的,所述句子選擇層為:模型需要從異構圖更新后的句子節點中抽取出摘要,使用交叉熵作為損失函數。
[0032]本專利技術的有益效果在于:
[0033](1)本專利技術在圖更新層,采用HGT方法來更新結點間的語義,可以融合更深層次的語義,進而可以提高模型對摘要抽取的準確率。
[0034](2)在圖更新層加入可訓練的位置編碼,可以在圖模型中加入文本的順序信息,該方法可以進一步提高模型訓練過程的收斂速度。
[0035]本專利技術的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本專利技術的實踐中得到教導。本專利技術的目標和其他優點可以通過下面本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于異構圖transformer的單文檔文本摘要系統,其特征在于:包括編碼層、圖更新層和句子選擇層;先通過編碼層對句子和詞語進行編碼,然后,異構圖層通過HGT模型來更新句子結點和詞語結點的間的語義表示,最后,句子選擇層通過句子結點的語義表示來抽取摘要。2.根據權利要求1所述的一種基于異構圖transformer的單文檔文本摘要系統,其特征在于:所述編碼層:使用HSG模型中編碼層,用表示詞語結點語義表示矩陣,表示句子結點的語義表示矩陣;先對句子中包含的詞語語義表示,使用不同大小卷積核CNN捕獲其中臨近詞的語義得到融合周圍結點語義表示矩陣,通過池化層得到句子的語義表示c
j
,使用BiLSTM得到句子的語義表示b
j
,將BiLSTM和CNN得到的結果拼接,得到句子最終的語義表示S
j
=[c
j
;b
j
];直接使用Glove訓練的300維詞嵌入作為詞語結點的語義表示。3.根據權利要求2所述的一種基于異構圖transformer的單文檔文本摘要系統,其特征在于:所述HGT模型包括注意力信息、傳遞信息和信息融合;1)注意力信息:在HGT更新結點的語義表示的過程中,為了避免結果過擬合,使用多頭注意力機制來計算源結點和更新結點間的注意力權重,計算公式為:公式中ATT
?
head
i
(s,e,t)表示多頭注意力機制中第i個更新頭,其中s為源結點,t為更新結點,e為對應的邊的特征;根據不同的邊的關系來計算源結點和目標結點間的相關性;多頭注意力中的第i頭的計算公式,計算公式為:其中,K
i
(s)表示源結點的線性變換,Q
i
(t)表示更新結點線性變換后的向量,表示可訓練的注意力權重,μ<τ(s),φ(e),τ(t)>根據...
【專利技術屬性】
技術研發人員:甘玲,何鵬,
申請(專利權)人:重慶郵電大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。