一種基于異構圖transformer的單文檔文本摘要系統技術方案

技術編號：30517417 閱讀：21 留言：0更新日期：2021-10-27 23:00

本發明專利技術涉及一種基于異構圖transformer的單文檔文本摘要系統，屬于自然語言處理領域。一種基于異構圖transformer的單文檔文本摘要系統，包括三部分：編碼層、圖更新層和句子選擇層；先通過編碼層對句子和詞語進行編碼，然后，異構圖層通過HGT模型來更新句子結點和詞語結點的間的語義表示，最后，句子選擇層通過句子結點的語義表示來抽取摘要。本發明專利技術在圖更新層，采用HGT方法來更新結點間的語義，可以融合更深層次的語義，進而可以提高模型對摘要抽取的準確率。在圖更新層加入可訓練的位置編碼，可以在圖模型中加入文本的順序信息，該方法可以進一步提高模型訓練過程的收斂速度。以進一步提高模型訓練過程的收斂速度。以進一步提高模型訓練過程的收斂速度。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于異構圖transformer的單文檔文本摘要系統

[0001]本專利技術屬于自然語言處理領域，涉及一種基于異構圖transformer的單文檔文本摘要系統。

技術介紹

[0002]文本摘要是自然語言處理的核心技術之一，是目前解決信息過剩問題的一種輔助手段，能夠幫助人類更加快速、準確、全面地從自然語言文本獲取關鍵信息，在工業和商業方面都具有重要的實用意義。文本摘要技術涉及到語言理解、文本分類、摘要生成等復雜技術，因而面臨著諸多挑戰。
[0003]抽取式文本摘要認為文檔的主題思想可通過文章中一句或幾句話來代替。傳統的抽取式文本摘要技術往往采用基于統計和規則的方法來得到摘要，通過計算文本中句子的相似性對句子進行排序，然后在抽取文本摘要。優點是不需要進行復雜計算，通用性較強，句子的語法錯誤較少，缺點是準確率較低，，比如LexRank和TextRank。2014年，KagebackM等人首次使用深度學習方法完成抽取式文本摘要任務，該方法通過計算不同句子間語義表示的相似度，并采用次模函數優化選擇合適的句子作為摘要。Cheng和Lapata等人于2016年提出一種基于Seq2Seq的通用自動摘要框架，采用層次文檔編碼器和注意力機制抽取文本摘要句。同年，Cao等人針對查詢式摘要任務，提出了一種融合査詢信息的注意力機制。2017年，LiP等人提出了一種基于等比序列的編碼解碼器模型DRGN，采用神經變異推理對復發性潛伏期變量進行后驗推理。在不同語言的數據集上證實，該方法表現出良好的性能。2018年，Bennani等人提出...

【技術保護點】

【技術特征摘要】
1.一種基于異構圖transformer的單文檔文本摘要系統，其特征在于：包括編碼層、圖更新層和句子選擇層；先通過編碼層對句子和詞語進行編碼，然后，異構圖層通過HGT模型來更新句子結點和詞語結點的間的語義表示，最后，句子選擇層通過句子結點的語義表示來抽取摘要。2.根據權利要求1所述的一種基于異構圖transformer的單文檔文本摘要系統，其特征在于：所述編碼層：使用HSG模型中編碼層，用表示詞語結點語義表示矩陣，表示句子結點的語義表示矩陣；先對句子中包含的詞語語義表示，使用不同大小卷積核CNN捕獲其中臨近詞的語義得到融合周圍結點語義表示矩陣，通過池化層得到句子的語義表示c
j
，使用BiLSTM得到句子的語義表示b
j
，將BiLSTM和CNN得到的結果拼接，得到句子最終的語義表示S
j
＝[c
j
；b
j
]；直接使用Glove訓練的300維詞嵌入作為詞語結點的語義表示。3.根據權利要求2所述的一種基于異構圖transformer的單文檔文本摘要系統，其特征在于：所述HGT模型包括注意力信息、傳遞信息和信息融合；1)注意力信息：在HGT更新結點的語義表示的過程中，為了避免結果過擬合，使用多頭注意力機制來計算源結點和更新結點間的注意力權重，計算公式為：公式中ATT
?
head
i
(s，e，t)表示多頭注意力機制中第i個更新頭，其中s為源結點，t為更新結點，e為對應的邊的特征；根據不同的邊的關系來計算源結點和目標結點間的相關性；多頭注意力中的第i頭的計算公式，計算公式為：其中，K
i
(s)表示源結點的線性變換，Q
i
(t)表示更新結點線性變換后的向量，表示可訓練的注意力權重，μ＜τ(s)，φ(e)，τ(t)＞根據...

【專利技術屬性】
技術研發人員：甘玲，何鵬，
申請(專利權)人：重慶郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術