System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于機器翻譯,具體地說,是涉及一種面向譯者行為學習的多語言機器翻譯大模型的訓練方法、裝置及介質。
技術介紹
1、隨著chatgpt等大語言模型的出現,通過同一個模型解決自然語言處理中的文本理解、文本生成等所有任務成為了可能。在這些大語言模型如chatgpt、llama、bloom等中,除了能完成常規的對話和文本生成任務,研究學者們也開始關注它們的翻譯能力。在這種“大一統”的框架下,機翻翻譯任務也即將迎來變革,利用大語言模型實現高質量的機器翻譯已成為研究的熱門方向。
2、但是,現有大語言模型存在三方面的問題:
3、(1)多語翻譯能力較差:如chatgpt、llama等,通常是以英語語料為核心進行訓練,存在語種偏向問題,其他語種的語料通常比較少,這也導致了其多語翻譯能力較差;
4、(2)翻譯質量較差:和專門的神經機器翻譯模型相比,已知的一些大語言模型,在標準的機器翻譯測試集上的評估結果(如bleu值等),通常難以超過神經機器翻譯模型;并且在人工評估的結果來看,大語言模型在做機器翻譯時,漏譯的情況也比神經機器翻譯模型更為嚴重一些;
5、(3)不具備ape能力(auto?post?editing,自動譯后編輯):通過prompt等方式和大語言模型進行交互,完成機器翻譯的過程中,如果期望獲得高質量的譯文,需要和大語言模型進行多次交互,讓大語言模型進行多次修改,才能獲得比較高質量的譯文。
技術實現思路
1、本專利技術的目的在于提供一種面
2、為了實現上述目的,本專利技術采取的技術方案如下:
3、一種面向譯者行為學習的多語言機器翻譯大模型的訓練方法,包括以下步驟:
4、步驟s1:多語言訓練數據集:構建一個融合多種數據的大語言模型訓練數據集,該數據集包含了三個方面的數據:(11)英語單語數據,占比在50%;(12)多語單語數據:多種語種的單語數據,數據占比40%;(13)多語言對齊數據:通過構造特定的prompt,將雙語、多語機翻數據轉化成大模型訓練數據,數據占比10%;
5、步驟s2:以transformer模型為模型基座,進行多階段的多語言大模型訓練,并輸出初步訓練后的多語言大模型:
6、(21)按照數據難易,將訓練數據進行排序,排序方式由簡至難依次為:通用知識、多語知識、跨語言知識;
7、(22)模型訓練過程:第一階段,通用知識學習階段,使用100%的英語單語數據對多語言大模型進行訓練;第二階段,多語知識學習階段,逐步加入多語單語數據,使得英語單語數據占比從100%逐步降低至55%,多語單語數據從0%逐步提升到45%;第三階段,跨語言知識學習階段,逐步加入多語言對齊數據,使得英語單語數據從55%逐步降低到50%,多語單語數據從45%逐步降低到40%,多語言對齊數據從0%逐步提升到10%;
8、(23)完成大語言模型的訓練,并輸出初步訓練后的多語言大模型;
9、步驟s3:面向譯者行為學習的模型訓練:
10、(31)構建一個react數據集;
11、(32)基于react數據集,在初步訓練后的多語言大模型的基礎上,使用lora微調對多語言大模型的部分參數進行更新,更新的方法如下:為多頭自注意力機制中的q、k、v矩陣增加旁路分支,在使用react數據訓練過程中,凍結原始多語言大模型的參數,并更新旁路分支的參數,訓練完畢后,將旁路分支的參數加載到原始多語言大模型;
12、(33)輸出多語譯者大模型。
13、優選的,其特征在于,所述(12)多語單語數據包括:基于英語、法語、俄語、西班牙語、德語、日語、韓語、泰語、葡萄牙語、柬埔寨語、印尼語、意大利語、阿拉伯語、越南語,整理開源語料和機翻單語語料,構成多語單語數據。
14、優選的,所述的逐步加入多語單語數據/逐步加入多語言對齊數據的方式是隨機按比例加入的方式是隨機按比例加入。
15、優選的,所述原始多語言大模型是指初步訓練后的多語言大模型。
16、優選的,所述react數據集通過chatgpt生成。
17、為了實現上述目的,本專利技術還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行,以實現所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法。
18、為了實現上述目的,本專利技術還提供了一種面向譯者行為學習的多語言機器翻譯大模型的訓練的裝置,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執行所述存儲器存儲的計算機程序,以使得所述面向譯者行為學習的多語言機器翻譯大模型的訓練的裝置執行所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法。
19、與現有技術相比,本專利技術具備以下有益效果:
20、本專利技術構建了一個基于多語言機翻的大模型,該模型以transformer模型為基座,并在精心構建的多語言數據集上進行訓練,然后通過chatgpt生成了一個用于模擬譯者行為的react數據集,基于react數據對模型進行訓練,以提升模型的自我反思和使用工具的能力,與現有技術相比,本專利技術具有多語翻譯能力較優、翻譯質量好、具備ape能力的優點。
本文檔來自技高網...【技術保護點】
1.一種面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述(12)多語單語數據包括:基于英語、法語、俄語、西班牙語、德語、日語、韓語、泰語、葡萄牙語、柬埔寨語、印尼語、意大利語、阿拉伯語、越南語,整理開源語料和機翻單語語料,構成多語單語數據。
3.根據權利要求2所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述的逐步加入多語單語數據/逐步加入多語言對齊數據的方式是隨機按比例加入。
4.根據權利要求3所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述原始多語言大模型是指初步訓練后的多語言大模型。
5.根據權利要求4所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述React數據集通過chatGPT生成。
6.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行,以實現如權利要求1~5中任一項所述的面向譯者行為學
7.一種面向譯者行為學習的多語言機器翻譯大模型的訓練的裝置,其特征在于,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執行所述存儲器存儲的計算機程序,以使得所述面向譯者行為學習的多語言機器翻譯大模型的訓練的裝置執行如權利要求1~5中任一項所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法。
...【技術特征摘要】
1.一種面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述(12)多語單語數據包括:基于英語、法語、俄語、西班牙語、德語、日語、韓語、泰語、葡萄牙語、柬埔寨語、印尼語、意大利語、阿拉伯語、越南語,整理開源語料和機翻單語語料,構成多語單語數據。
3.根據權利要求2所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述的逐步加入多語單語數據/逐步加入多語言對齊數據的方式是隨機按比例加入。
4.根據權利要求3所述的面向譯者行為學習的多語言機器翻譯大模型的訓練方法,其特征在于,所述原始多語言大模型是指初步訓練后的多語言...
【專利技術屬性】
技術研發人員:朱憲超,胡剛,霍展羽,李晶,
申請(專利權)人:四川語言橋信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。