System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及機器學習,尤其涉及一種機器翻譯方法及計算設備。
技術介紹
1、機器翻譯(machine?translation,mt)是指利用機器將一種自然語言(以下簡稱源語言)自動轉換為相同含義的另一種語言(以下簡稱目標語言)的過程。隨著全球化進程的加速,不同語言人群的經濟、文化等方面的交流與日俱增,人們對于翻譯的需求日益迫切,自動機器翻譯由于其簡便高效,對促進不同語言人群的交流起到了巨大作用。
2、當前技術中,常見的一種機器翻譯方式為基于平行語料,創建結構化的平行語料庫,為了能夠實現機器翻譯,結構化的平行語料庫需要是個大型平行語料庫,即結構化的平行語料庫中需要包括大量的平行語料,當前技術中需要遍歷結構化的大型平行語料庫中的所有源語言句子,導致查詢匹配與待翻譯句子完全相似的源語言句子消耗的時間較長,并且進行字符串100%匹配,需要每個字符逐一進行比較,進一步造成查詢匹配消耗的時間較長。由于當前技術中查詢匹配消耗的時間較長,導致機器翻譯效率低,并且存在無法實現機器翻譯的情況,導致機器翻譯效果差。
技術實現思路
1、本申請實施例提供的一種機器翻譯方法及計算設備,縮短查詢匹配消耗的時間,提高機器翻譯的效率,并且一定程度上提高了機器翻譯的效果。
2、為達到上述目的,本申請實施例采用如下技術方案:
3、本申請實施例提供了一種機器翻譯方法,該方法包括:獲取待翻譯文本;將待翻譯文本轉換為對應的待翻譯詞向量;通過目標索引模型,基于待翻譯詞向量,得到待翻譯文本對應的目
4、本申請實施例中的目標索引模型將平行語料庫對應的所有詞向量對分割成了預設數量個聚類,則基于待翻譯詞向量匹配最相似/接近的聚類,并在該聚類中的源語言詞向量匹配最相似的源語言詞向量,從而得到對應的目標語言詞向量,以實現待翻譯文本的機器翻譯,通過分割成多個聚類,減少了機器翻譯在查詢匹配時所需要比較的詞向量的數量,以縮短了查詢匹配所消耗的時間,從而提高了整體機器翻譯的效率;并且通過目標索引模型進行查詢匹配,不只是進行完全匹配,避免了無法實現機器翻譯的情況,從而提高了機器翻譯的效果。
5、在一種可能的實現方式中,方法還包括:獲取平行語料庫;將平行語料庫中的所有句對轉換為詞向量對;對所有詞向量對中的源語言詞向量進行聚類,建立預設數量個詞向量索引;利用詞向量對和預設數量個詞向量索引,訓練索引模型,以得到目標索引模型。使得目標索引模型能夠實現高效的大規模詞向量檢索,能夠快速找到與待翻譯詞向量最相似的源語言詞向量。
6、在一種可能的實現方式中,將預設數量個詞向量索引增加到索引模型中作為基點;將所有詞向量對增加到索引模型中,并計算詞向量對中的源語言詞向量與各個詞向量索引之間的距離,并將詞向量對分配給與該詞向量對中的源語言詞向量距離最近的詞向量索引。本申請實施例中目標索引模型可以將相似的源語言詞向量以及其對應的目標語言詞向量組織在一起,形成以詞向量索引為中心的局部區域,以便于當后續利用目標索引模型進行查詢時,會首先利用這些基點快速縮小搜索范圍,再在該詞向量索引下的源語言詞向量中進行查詢匹配,極大地提升了查詢效率。
7、在一種可能的實現方式中,將待翻譯詞向量輸入到目標索引模型;目標索引模型計算待翻譯詞向量到每個詞向量索引的距離,確定與待翻譯詞向量最相似的詞向量索引;并通過預設相似度算法,計算待翻譯詞向量與最相似的詞向量索引下的所有源語言詞向量之間的相似度,確定與待翻譯詞向量最相似的源語言詞向量,并基于最相似的源語言詞向量對應的詞向量對,得到待翻譯詞向量對應的目標語言詞向量并輸出;接收目標索引模型輸出的待翻譯詞向量對應的目標語言詞向量,以得到待翻譯文本對應的目標語言詞向量。目標索引模型首先基于待翻譯詞向量最近的詞向量索引,后在最近的詞向量索引下與源語言詞向量進行比較,以得到對應的目標語言詞向量,大大減少了在查詢匹配與輸入的待翻譯詞向量需要比較的詞向量數量,從而實現了查詢匹配速度的顯著提升,即縮短了查詢匹配消耗的時間,從而提高了整體機器翻譯的效率。并且通過目標索引模型實現了待翻譯詞向量的相似度查詢匹配,不只是完全(100%相似度)查詢匹配,避免了無法實現機器翻譯的情況,從而提高了機器翻譯的效果。
8、在一種可能的實現方式中,目標索引模型確定與待翻譯詞向量最相似的源語言詞向量的同時,得到待翻譯詞向量與最接近的源語言詞向量的相似度,并將相似度輸出。以便于用戶確定對該待翻譯文本進行機器翻譯的精準度。
9、在一種可能的實現方式中,首先將目標索引模型加載到計算設備的內存中,將目標索引模型加載到計算設備的內存中,而不是硬盤或其他存儲介質中,能夠顯著減少數據訪問時間,因為內存的讀寫速度遠遠超過硬盤,當目標索引模型在內存中時,響應于輸入可以直接從內存中讀取數據,避免了磁盤i/o延遲,從而大大提高了查詢速度。
10、在一種可能的實現方式中,接收待翻譯文本,解析該待翻譯文檔,并分類識別出待翻譯文檔中的待翻譯文本,以獲取待翻譯文本。
11、在一種可能的實現方式中,當分類識別出待翻譯圖片時,識別待翻譯圖片的主題;其中,待翻譯圖片為待翻譯文檔中的圖片;識別待翻譯圖片中的文本區域和/或表格區域,并構建文本區域內的待翻譯文本和/或表格區域內的待翻譯表格;當識別到待翻譯圖片中的文本區域內的待翻譯文本時,基于待翻譯文本的字符長度,確定待翻譯文本的類型;當待翻譯文本的類型為待翻譯短語時,將待翻譯短語轉換為對應的待翻譯詞向量;通過目標索引模型,基于待翻譯詞向量,得到待翻譯短語對應的目標語言詞向量;基于待翻譯短語對應的目標語言詞向量,得到待翻譯圖片的待翻譯短語對應的目標語言短語;當待翻譯文本的類型為待翻譯長句時,基于待翻譯長句和待翻譯圖片的主題,得到待翻譯長句對應的待翻譯詞向量;通過目標索引模型,基于待翻譯詞向量,得到待翻譯長句對應的目標語言詞向量;基于待翻譯長句對應的目標語言詞向量,得到待翻譯圖片的待翻譯長句對應的目標語言長句。本申請實施例實現了針對圖片類型數據(即待翻譯圖片)中的文本的針對性機器翻譯,解決了當前技術中直接利用大語言模型對待翻譯文檔進行翻譯,生成的翻譯結果與上下文關聯性較差,甚至會產生幻覺現象的問題。并且對于長文本來說,結合待翻譯長句和待翻譯圖片的主題協同得到對應的待翻譯詞向量,目標索引模型能夠獲取待翻譯圖片中的文本的上下文信息,從而使得目標索引模型更好地理解長句的目的和語境,以得到準確度較高的翻譯結果。
12、在一種可能的實現方式中,通過第二預設大小的窗口對待翻譯長句進行分詞,得到待翻譯長句對應的多個短語,并根據待翻譯圖片的主題構造前綴提示詞;基于前綴提示詞和待翻譯長句對應的多個短語,得到待翻譯長句對應的多個待翻譯短語;分別本文檔來自技高網...
【技術保護點】
1.一種機器翻譯方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,所述利用所有所述詞向量對和所述預設數量個詞向量索引,訓練索引模型,以得到目標索引模型,包括:
4.根據權利要求2所述的方法,其特征在于,所述通過目標索引模型,基于所述待翻譯詞向量,得到所述待翻譯文本對應的目標語言詞向量,包括:
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:
6.根據權利要求1所述的方法,其特征在于,在所述獲取待翻譯文本之前,所述方法還包括:
7.根據權利要求1所述的方法,其特征在于,所述獲取待翻譯文本,包括:
8.根據權利要求7所述的方法,其特征在于,所述方法還包括:
9.根據權利要求8所述的方法,其特征在于,所述基于所述待翻譯長句和所述待翻譯圖片的主題,得到所述待翻譯長句對應的待翻譯詞向量,包括:
10.一種計算設備,其特征在于,包括:處理器和存儲器;所述處理器和所述存儲器耦合;
【技術特征摘要】
1.一種機器翻譯方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,所述利用所有所述詞向量對和所述預設數量個詞向量索引,訓練索引模型,以得到目標索引模型,包括:
4.根據權利要求2所述的方法,其特征在于,所述通過目標索引模型,基于所述待翻譯詞向量,得到所述待翻譯文本對應的目標語言詞向量,包括:
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:
【專利技術屬性】
技術研發人員:吳施楷,梁永貴,曹瑞,
申請(專利權)人:超聚變數字技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。