本發明專利技術公開了基于Transformer模型融合關鍵信息的神經機器翻譯模型,屬于自然語言處理技術領域,所述神經機器翻譯模型包括用于關鍵信息編碼的第一編碼模塊、用于源語言文本編碼的第二編碼模塊、第一多頭注意力編碼層和解碼器,第一多頭注意力編碼層對第一編碼模塊輸出的關鍵信息編碼結果和第二編碼模塊輸出的源語言文本編碼結果進行信息融合,并將信息融合的結果與第二編碼模塊輸出的源語言文本編碼結果經拼接處理后輸入解碼器,以將關鍵信息與源語言文本進行關聯,使關鍵信息融入至Transformer模型,以此更加準確提取關鍵詞特征,進而提高關鍵詞的翻譯準確度,大大降低關鍵詞漏譯的問題。鍵詞漏譯的問題。鍵詞漏譯的問題。
【技術實現步驟摘要】
基于Transformer模型融合關鍵信息的神經機器翻譯模型
[0001]本專利技術涉及自然語言處理
,尤其涉及基于Transformer模型融合關鍵信息的神經機器翻譯模型。
技術介紹
[0002]機器翻譯任務是NLP(Natural Language Processing,自然語言處理)領域中一個重要研究熱點,它可以幫助人們完成源語言到目標語言的翻譯工作,從而逐漸代替人類完成復雜且費時費力的翻譯工作。盡管機器的翻譯結果不一定有專業人員翻譯準確,但是它的翻譯結果已足以滿足人們正常使用。
[0003]早在上個世紀三四十年代人們就開始了有關機器翻譯的研究,隨著研究的不斷突破,機器翻譯技術研究也漸漸從翻譯系統(基于詞匯、語法等規則)轉變為基于統計學的機器翻譯,再到現在研究火熱的神經機器翻譯(NMT)。神經機器翻譯的任務主要是利用神經網絡相關技術及大量的數據來訓練得到一個通用的翻譯模型。模型訓練好以后,我們只需給定模型輸入源語言句子,模型通過運行計算即可得到對應的翻譯結果。seq2seq結構在神經機器翻譯中具備一定的優勢,seq2seq模型極大地促進了神經機器翻譯模型的研究進展。因此,近幾年關于神經機器翻譯模型的研究大多都基于該結構。2017年,Vaswani等人提出了Transformer模型,該模型相較于seq2seq在NMT中擁有更好的實驗表現。
[0004]盡管當下的神經機器翻譯模型的翻譯結果都還不錯,但是對于關鍵信息的翻譯依然存在錯譯、漏譯等情況,而翻譯過程中最重要的就是對于關鍵信息的翻譯,因為只要關鍵信息翻譯準確完整,即使一些連接詞、輔助詞等信息翻譯有誤,仍然可以保證最終的翻譯質量。
技術實現思路
[0005]本專利技術的目的在于克服現有技術中對關鍵信息翻譯精準度不夠高的問題,提供了一種基于Transformer模型融合關鍵信息的神經機器翻譯模型。
[0006]本專利技術的目的是通過以下技術方案來實現的:基于Transformer模型融合關鍵信息的神經機器翻譯模型,所述神經機器翻譯模型包括用于關鍵信息編碼的第一編碼模塊、用于源語言文本編碼的第二編碼模塊、第一多頭注意力編碼層和解碼器,第一多頭注意力編碼層對第一編碼模塊輸出的關鍵信息編碼結果和第二編碼模塊輸出的源語言文本編碼結果進行信息融合,并將所述信息融合的結果與第二編碼模塊輸出的源語言文本編碼結果經拼接處理后輸入解碼器,所述解碼器輸出翻譯結果。
[0007]作為一選項,所述信息融合具體為:將源語言文本的編碼結果作為輸入矩陣Q、關鍵信息的編碼結果作為輸入矩陣K和輸入矩陣V進行多頭注意力計算。
[0008]作為一選項,所述第一編碼模塊包括順次連接的第二多頭注意力編碼層、第一前饋神經網絡,關鍵信息的詞向量矩陣輸入至第二多頭注意力編碼層,第一前饋神經網絡輸出端與第一多頭注意力編碼層連接。
[0009]作為一選項,所述第二編碼模塊包括順次連接的第三多頭注意力編碼層、第二前饋神經網絡,源語言文本的詞向量矩陣輸入至第三多頭注意力編碼層,第二前饋神經網絡輸出端與第一多頭注意力編碼層連接。
[0010]作為一選項,所述第二多頭注意力編碼與第一前饋神經網絡之間經第一殘差與歸一化層連接,和/或第一前饋神經網絡與第一多頭注意力編碼層之間經第二殘差與歸一化層連接;第一殘差與歸一化層的輸入端與第二多頭注意力編碼的輸入端、第二多頭注意力編碼的輸出端連接,第二殘差與歸一化層的輸入端與第一前饋神經網絡的輸入端、第一前饋神經網絡的輸出端連接;
[0011]第三多頭注意力編碼與第二前饋神經網絡之間經第三殘差與歸一化層連接,和/或第二前饋神經網絡與第一多頭注意力編碼層之間經第四殘差與歸一化層連接;第三殘差與歸一化層的輸入端與第三多頭注意力編碼的輸入端、第三多頭注意力編碼的輸出端連接,第四殘差與歸一化層的輸入端與第二前饋神經網絡的輸入端、第二前饋神經網絡的輸出端連接。
[0012]作為一選項,所述信息融合的結果與第二編碼模塊輸出源語言文本的編碼結果經權重拼接處理后輸入解碼器。
[0013]作為一選項,所述解碼器包括順次連接的多頭注意力解碼層、第三前饋神經網絡、線性層和分類層,第一多頭注意力編碼層輸出的信息融合計算結果與第二編碼模塊輸出源語言文本的編碼結果經權重控制后輸入至多頭注意力解碼層,分類層輸出分類結果。
[0014]作為一選項,所述解碼器還包括遮掩多頭注意力層,之前時刻解碼器輸出的分類結果以詞向量矩陣的形式作為當前待翻譯詞向量矩陣的參考輸入至遮掩多頭注意力層,遮掩多頭注意力層輸出端與多頭注意力解碼層連接。
[0015]作為一選項,所述分類層的分類計算公式為:
[0016][0017]其中,為線性層的輸出,R為實數集空間,n為輸出序列長度,d
k
為詞嵌入維度,為線性映射矩陣,V為目標語言詞表大小。
[0018]作為一選項,所述神經機器翻譯模型還包括關鍵信息提取模塊,關鍵信息提取模塊為基于TF
?
IDF或TextRank或LDA的關鍵信息提取模塊。
[0019]需要進一步說明的是,上述各選項對應的技術特征可以相互組合或替換構成新的技術方案。
[0020]與現有技術相比,本專利技術有益效果是:
[0021]本專利技術通過兩個編碼模塊分別提取關鍵信息特征以及源語言文本特征,再通過第一多頭注意編碼層將關鍵信息與源語言文本進行關聯,將關鍵信息融入至現有Transformer模型,以此更加準確提取關鍵詞特征,進而提高關鍵詞的翻譯準確度,大大降低關鍵詞漏譯、錯譯的問題。
附圖說明
[0022]下面結合附圖對本專利技術的具體實施方式作進一步詳細的說明,此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,在這些附圖中使用相同的參考標
號來表示相同或相似的部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。
[0023]圖1為本專利技術實施例1的神經機器翻譯模型框圖;
[0024]圖2為本專利技術實施例1的中
?
英數據集包含單詞量統計圖;
[0025]圖3為本專利技術實施例1的英
?
德數據集包含單詞量統計圖;
[0026]圖4為本專利技術實施例1的不同關鍵詞個數參與融合計算的模型評估得分比較示意圖。
具體實施方式
[0027]下面結合附圖對本專利技術的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。
[0028]在本專利技術的描述中,需要說明的是,屬于“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內”、“外”等指示的方向或位置關系為基于附圖所述的方向或位置關系,僅是為了便于描述本專利技術和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.基于Transformer模型融合關鍵信息的神經機器翻譯模型,其特征在于:所述神經機器翻譯模型包括用于關鍵信息編碼的第一編碼模塊、用于源語言文本編碼的第二編碼模塊、第一多頭注意力編碼層和解碼器,第一多頭注意力編碼層對第一編碼模塊輸出的關鍵信息編碼結果和第二編碼模塊輸出的源語言文本編碼結果進行信息融合,并將所述信息融合的結果與第二編碼模塊輸出的源語言文本編碼結果經拼接處理后輸入解碼器,所述解碼器輸出翻譯結果。2.根據權利要求1所述的基于Transformer模型融合關鍵信息的神經機器翻譯模型,其特征在于:所述信息融合具體為:將源語言文本的編碼結果作為輸入矩陣Q、關鍵信息的編碼結果作為輸入矩陣K和輸入矩陣V進行多頭注意力計算。3.根據權利要求1所述的基于Transformer模型融合關鍵信息的神經機器翻譯模型,其特征在于:所述第一編碼模塊包括順次連接的第二多頭注意力編碼層、第一前饋神經網絡,關鍵信息的詞向量矩陣輸入至第二多頭注意力編碼層,第一前饋神經網絡輸出端與第一多頭注意力編碼層連接。4.根據權利要求3所述的基于Transformer模型融合關鍵信息的神經機器翻譯模型,其特征在于:所述第二編碼模塊包括順次連接的第三多頭注意力編碼層、第二前饋神經網絡,源語言文本的詞向量矩陣輸入至第三多頭注意力編碼層,第二前饋神經網絡輸出端與第一多頭注意力編碼層連接。5.根據權利要求4所述的基于Transformer模型融合關鍵信息的神經機器翻譯模型,其特征在于:所述第二多頭注意力編碼與第一前饋神經網絡之間經第一殘差與歸一化層連接,和/或第一前饋神經網絡與第一多頭注意力編碼層之間經第二殘差與歸一化層連接;第一殘差與歸一化層的輸入端與第二多頭注意力編碼的輸入端、第二多頭注意力編碼的輸出端連接,第二殘差與歸一化層的輸入端與第一前饋神經網絡的輸入端、第一前饋神經網絡的輸出端連接;第三多頭注意力編碼與第...
【專利技術屬性】
技術研發人員:鄭德生,胡世杰,彭宇,胡孫強,向文嘉,張秀容,溫冬,
申請(專利權)人:西南石油大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。