本申請?zhí)峁┮环N輔助翻譯方法、裝置、電子設備及存儲介質,該方法先接收針對目標原文的輔助翻譯請求,響應于輔助翻譯請求調用文本表示模型處理目標原文,得到目標語義向量,然后獲取歷史翻譯數(shù)據(jù)的索引,歷史翻譯數(shù)據(jù)包括多個歷史文本組,每一歷史文本組均包括歷史原文、歷史譯文以及歷史原文的歷史語義向量,再根據(jù)索引匹配各歷史語義向量與目標語義向量的相似度,根據(jù)匹配結果從各歷史語義向量中確定相似度大于第一閾值的輔助語義向量,最后根據(jù)輔助語義向量和索引從各歷史原文中確定輔助原文,并返回輔助原文和對應的輔助譯文。本申請通過語義向量的相似度匹配得到輔助原文,與目標原文語義更加接近,既避免了遺漏又具有較高準確性。較高準確性。較高準確性。
【技術實現(xiàn)步驟摘要】
輔助翻譯方法、裝置、電子設備及存儲介質
[0001]本申請涉及計算機
,尤其涉及一種輔助翻譯方法、裝置、電子設備及存儲介質。
技術介紹
[0002]輔助翻譯場景是指將已經(jīng)翻譯過的原文和譯文進行存儲,當新的待翻譯文本與某些已經(jīng)翻譯過的原文相同或相似度較高時,可以返回這些已經(jīng)翻譯過的原文和譯文給譯員作為翻譯的輔助,譯員可以直接使用該譯文或者在其基礎上進行少量修改,無需全部重新翻譯,以此來避免譯員在相同或高度相似的文本上重復花費精力做翻譯任務,以及避免不同譯員對相同文本給出不同翻譯結果造成的前后譯文不一致情況。
[0003]當前在獲取相同或相似度較高的已翻譯原文時,主要依賴于詞語的精準匹配或模糊匹配來實現(xiàn),具體地,對于待翻譯文本和翻譯記憶庫中的每條已翻譯文本,尋找兩個文本是否存在共同出現(xiàn)的詞語部分,統(tǒng)計共同出現(xiàn)部分占文本的比例并轉化為匹配分數(shù),在工具的翻譯頁面會返回與待翻譯文本匹配分數(shù)最高的已翻譯文本及對應譯文和匹配分數(shù),以供譯員參考。然而,此種方式只有當待翻譯文本和已翻譯文本中的詞語重疊較多時,匹配分數(shù)才更高,這種詞語匹配方式盡管精確到詞語,但忽略了文本表達的真實語義,會受到文本分詞效果、停用詞、一詞多義和一義多詞等因素的影響,可能會使得返回的譯文不準確,或者遺漏很多與待翻譯文本相似的已翻譯文本,而實際上如果已翻譯文本和待翻譯文本的語義一致,其對應譯文也能提供很大參考。
[0004]因此,當前的輔助翻譯方法存在輔助翻譯內容不準確且存在遺漏的技術問題,需要改進。
技術實現(xiàn)思路
[0005]本申請實施例提供一種輔助翻譯方法、裝置、電子設備及存儲介質,用以緩解當前的輔助翻譯方法中輔助翻譯內容不準確且存在遺漏的技術問題。
[0006]為解決上述技術問題,本申請實施例提供以下技術方案:
[0007]本申請?zhí)峁┮环N輔助翻譯方法,包括:
[0008]接收針對目標原文的輔助翻譯請求;
[0009]響應于所述輔助翻譯請求,調用文本表示模型處理所述目標原文,得到目標語義向量;
[0010]獲取歷史翻譯數(shù)據(jù)的索引,所述歷史翻譯數(shù)據(jù)包括多個歷史文本組,每一所述歷史文本組均包括歷史原文、歷史譯文以及所述歷史原文的歷史語義向量;
[0011]根據(jù)所述索引匹配各歷史語義向量與所述目標語義向量的相似度,根據(jù)匹配結果從所述各歷史語義向量中確定相似度大于第一閾值的輔助語義向量;
[0012]根據(jù)所述輔助語義向量和所述索引,從各歷史原文中確定輔助原文,并返回所述輔助原文和對應的輔助譯文。
[0013]同時,本申請實施例還提供了一種輔助翻譯裝置,包括:
[0014]接收模塊,用于接收針對目標原文的輔助翻譯請求;
[0015]得到模塊,用于響應于所述輔助翻譯請求,調用文本表示模型處理所述目標原文,得到目標語義向量;
[0016]獲取模塊,用于獲取歷史翻譯數(shù)據(jù)的索引,所述歷史翻譯數(shù)據(jù)包括多個歷史文本組,每一所述歷史文本組均包括歷史原文、歷史譯文以及所述歷史原文的歷史語義向量;
[0017]匹配模塊,用于根據(jù)所述索引匹配各歷史語義向量與所述目標語義向量的相似度,根據(jù)匹配結果從所述各歷史語義向量中確定相似度大于第一閾值的輔助語義向量;
[0018]確定模塊,用于根據(jù)所述輔助語義向量和所述索引,從各歷史原文中確定輔助原文,并返回所述輔助原文和對應的輔助譯文。
[0019]本申請還提供一種電子設備,包括存儲器和處理器;所述存儲器存儲有應用程序,所述處理器用于運行所述存儲器內的應用程序,以執(zhí)行上述任一項所述的輔助翻譯方法中的步驟。
[0020]本申請實施例提供一種計算機可讀存儲介質,計算機可讀存儲介質存儲有多條指令,指令適于處理器進行加載,以執(zhí)行上述輔助翻譯方法中的步驟。
[0021]本申請?zhí)峁┮环N輔助翻譯方法、裝置、電子設備及存儲介質,該方法先接收針對目標原文的輔助翻譯請求,響應于輔助翻譯請求調用文本表示模型處理目標原文,得到目標語義向量,然后獲取歷史翻譯數(shù)據(jù)的索引,歷史翻譯數(shù)據(jù)包括多個歷史文本組,每一歷史文本組均包括歷史原文、歷史譯文以及歷史原文的歷史語義向量,再根據(jù)索引匹配各歷史語義向量與目標語義向量的相似度,根據(jù)匹配結果從各歷史語義向量中確定相似度大于第一閾值的輔助語義向量,最后根據(jù)輔助語義向量和索引從各歷史原文中確定輔助原文,并返回輔助原文和對應的輔助譯文。本申請通過文本表示模型來得到目標原文的目標語義向量,同時各歷史原文也基于歷史語義向量來構建索引,則基于該索引可將目標語義向量與所有歷史原文的歷史語義向量進行相似度計算和匹配,從而避免了遺漏,此外,由于語義向量充分反映了文本的整體語義表達,則基于語義向量的相似度匹配方式得到的輔助原文與目標原文的語義最接近,準確性較高,對應輔助譯文的輔助翻譯效果也更好。
附圖說明
[0022]下面結合附圖,通過對本申請的具體實施方式詳細描述,將使本申請的技術方案及其它有益效果顯而易見。
[0023]圖1是本申請實施例提供的輔助翻譯方法的應用場景示意圖。
[0024]圖2為本申請實施例中輔助翻譯方法的流程示意圖。
[0025]圖3為本申請實施例中輔助翻譯方法的整體架構圖。
[0026]圖4為本申請實施例中模型預訓練和微調過程示意圖。
[0027]圖5為本申請實施例中隨機失活策略執(zhí)行前后模型變化示意圖。
[0028]圖6為本申請實施例中相似度匹配的腳本圖。
[0029]圖7為本申請實施例提供的輔助翻譯裝置的結構示意圖。
[0030]圖8為本申請實施例提供的電子設備的結構示意圖。
具體實施方式
[0031]下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述。顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0032]本申請實施例提供一種輔助翻譯方法、裝置、電子設備和存儲介質,其中,該輔助翻譯裝置可以集成在電子設備中,該電子設備可以是服務器,也可以是終端等設備。
[0033]請參閱圖1,圖1為本申請實施例所提供的輔助翻譯方法應用的場景示意圖,該場景可以包括終端以及服務器,終端之間、服務器之間、以及終端與服務器之間通過各種網(wǎng)關組成的互聯(lián)網(wǎng)等方式連接通信,其中,該應用場景中包括用戶端11和服務器12,用戶端11為用戶進行翻譯時使用的設備,服務器12包括本地服務器和/或遠程服務器等。
[0034]用戶端11和服務器12位于無線網(wǎng)絡或有線網(wǎng)絡中,以實現(xiàn)兩者之間的數(shù)據(jù)交互,其中:
[0035]用戶端11向用戶展示輔助翻譯頁面,用戶在輔助翻譯頁面中輸入需要翻譯的目標原文并生成針對目標原文的輔助翻譯請求,服務器12接收該請求,并響應于該請求去調用文本表示模型來處理目標原文,得到目標語義向量,目標語義向量反映了目標原文的整體語義。然后,服務器本文檔來自技高網(wǎng)...
【技術保護點】
【技術特征摘要】
1.一種輔助翻譯方法,其特征在于,包括:接收針對目標原文的輔助翻譯請求;響應于所述輔助翻譯請求,調用文本表示模型處理所述目標原文,得到目標語義向量;獲取歷史翻譯數(shù)據(jù)的索引,所述歷史翻譯數(shù)據(jù)包括多個歷史文本組,每一所述歷史文本組均包括歷史原文、歷史譯文以及所述歷史原文的歷史語義向量;根據(jù)所述索引匹配各歷史語義向量與所述目標語義向量的相似度,根據(jù)匹配結果從各歷史語義向量中確定相似度大于第一閾值的輔助語義向量;根據(jù)所述輔助語義向量和所述索引,從各歷史原文中確定輔助原文,并返回所述輔助原文和對應的輔助譯文。2.如權利要求1所述的輔助翻譯方法,其特征在于,在響應于所述輔助翻譯請求,調用文本表示模型處理所述目標原文,得到目標語義向量的步驟之前,還包括:獲取預訓練文本表示模型,所述預訓練文本表示模型包括初始神經(jīng)元參數(shù);獲取游戲訓練樣本集,所述游戲訓練樣本集包括正樣本集和負樣本集,所述正樣本集包括多個正樣本對,每一所述正樣本對包括兩個語義差異度小于第二閾值的游戲文本,所述負樣本集包括多個負樣本對,每一所述負樣本對包括兩個語義差異度大于第三閾值的游戲文本;基于所述游戲訓練樣本集對所述預訓練文本表示模型進行迭代訓練,并根據(jù)訓練結果對所述初始神經(jīng)元參數(shù)進行微調,直至預設損失函數(shù)收斂至預設值,得到微調后的預訓練文本表示模型。3.如權利要求2所述的輔助翻譯方法,其特征在于,基于所述游戲訓練樣本集對所述預訓練文本表示模型進行迭代訓練的步驟,包括:將每一所述正樣本對輸入至所述預訓練文本表示模型,所述預訓練文本表示模型包括隨機失活層;基于所述隨機失活層對每一所述正樣本對進行增噪處理,以使每一所述正樣本對的兩個游戲文本的語義差異度大于所述第二閾值且小于所述第三閾值;基于增噪處理后的每一所述正樣本對繼續(xù)對所述預訓練文本表示模型進行迭代訓練。4.如權利要求1所述的輔助翻譯方法,其特征在于,在獲取歷史翻譯數(shù)據(jù)的索引的步驟之前,還包括:從翻譯記憶庫中獲取各歷史文本對,每一所述歷史文本對均包括歷史原文和對應的歷史譯文;調用所述文本表示模型分別處理各歷史原文,得到各歷史原文對應的歷史語義向量;根據(jù)每一所述歷史文本對和對應的歷史語義向量得到每一所述歷史文本組,根據(jù)所有歷史文本組得到歷史翻譯數(shù)據(jù);在目標引擎中建立所述歷史翻譯數(shù)據(jù)的索引,所述索引包括歷史原文字段、歷史譯文字段以及歷史語義向量字段,基于各字段將每一所述歷史文本組的各對象分別插入所述索引。5.如權利...
【專利技術屬性】
技術研發(fā)人員:朱星宇,
申請(專利權)人:網(wǎng)易杭州網(wǎng)絡有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。