System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及翻譯,特別是涉及一種同傳翻譯方法、電子設備和計算機可讀存儲介質。
技術介紹
1、在同傳翻譯領域,大多采用聯級翻譯方法和端到端翻譯方法。
2、在聯級翻譯方法中,決策何時拋出翻譯結果只能通過策略結合識別結果的標點和翻譯內容,穩定性太差。而在端到端翻譯方法中,目前大部分都是通過翻譯結果的標點來拋出結果,就是檢測到逗號,句號,問好,感嘆號才會拋出翻譯結果,這樣的方法不可避免的帶來翻譯延時,很難做到實時同傳翻譯,并且隨著音頻的持續流入,音頻長度加長,推理速度同樣會受到影響,也就導致同傳翻譯速度越來越慢。
技術實現思路
1、本申請主要解決的技術問題是提供一種同傳翻譯方法、電子設備和計算機可讀存儲介質,能夠提高同傳翻譯的時效性,降低同傳翻譯的時延。
2、為解決上述技術問題,本申請采用的一個技術方案是:提供一種同傳翻譯方法,該方法包括:獲取待譯音頻;利用目標分割模型確定待譯音頻對應的待譯文本的文本分割位置;其中,文本分割位置包括第一文本分割位置和第二文本分割位置,第一文本分割位置為待譯文本中的第一子待譯文本和第二子待譯文本之間的位置,第二子待譯文本對第一子待譯文本的翻譯影響度低于第一影響度閾值,第二文本分割位置為待譯文本中的目標標點所在位置;按照文本分割位置,對待譯音頻進行分段翻譯。
3、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種電子設備,該電子設備包括存儲器和處理器,存儲器存儲有程序指令,處理器用于執行程序指令以實現上述的同傳翻譯方法
4、為解決上述技術問題,本申請采用的另一個技術方案是:提供一種計算機可讀存儲介質,該計算機可讀存儲介質用于存儲程序指令,程序指令能夠被執行以實現上述的同傳翻譯方法。
5、上述技術方案,在確定了待譯音頻對應的待譯文本的文本分割位置后,后續將文本分割位置前對應的子待譯文本或待譯音頻片段拋出進行翻譯,所以,能夠更快地拋出同傳翻譯結果,提高了同傳翻譯的時效性,降低了同傳翻譯的時延;另外,由于文本分割位置后新增內容的出現,基本不會對文本分割位置前的翻譯結果存在影響,所以,對文本分割位置前對應的子待譯文本或待譯音頻片段的翻譯是準確的、可靠的,提高了同傳翻譯的準確性。
本文檔來自技高網...【技術保護點】
1.一種同傳翻譯方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在所述利用目標分割模型確定所述待譯音頻對應的待譯文本的文本分割位置之前,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,在所述利用目標分割模型確定所述待譯音頻對應的待譯文本的文本分割位置之后,所述方法還包括:
4.根據權利要求3所述的方法,其特征在于,所述音頻分割位置包括音頻分割時刻;所述利用所述文本分割位置,確定所述待譯音頻的音頻分割位置,包括:
5.根據權利要求1所述的方法,其特征在于,所述目標分割模型是利用樣本音頻以及對應的樣本音頻分割標簽訓練得到,所述樣本音頻分割標簽的獲取步驟,包括:
6.根據權利要求5所述的方法,其特征在于,
7.根據權利要求5所述的方法,其特征在于,標注所述樣本音頻文本的第一樣本分割位置是由分割大模型執行的,所述分割大模型的訓練步驟,包括:
8.根據權利要求7所述的方法,其特征在于,所述第一分割標簽和第二分割標簽為第一標簽文本,所述第一標簽文本是通過在所述參考文本中
9.根據權利要求7所述的方法,其特征在于,所述基于對應各所述第一大模型的第一分割標簽,從所述若干第一大模型中,選出標注質量滿足質量要求的至少一個第一大模型,作為第二大模型,包括:
10.根據權利要求7所述的方法,其特征在于,所述參考文本的獲取步驟,包括:
11.根據權利要求7所述的方法,其特征在于,在所述利用所述參考文本以及對應的參考分割標簽,對所述分割大模型進行訓練之后,所述方法還包括:
12.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,所述存儲器存儲有程序指令,所述處理器用于執行所述程序指令以實現如權利要求1-11任一項所述的方法。
13.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲程序指令,所述程序指令能夠被執行以實現如權利要求1-11任一項所述的方法。
...【技術特征摘要】
1.一種同傳翻譯方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在所述利用目標分割模型確定所述待譯音頻對應的待譯文本的文本分割位置之前,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,在所述利用目標分割模型確定所述待譯音頻對應的待譯文本的文本分割位置之后,所述方法還包括:
4.根據權利要求3所述的方法,其特征在于,所述音頻分割位置包括音頻分割時刻;所述利用所述文本分割位置,確定所述待譯音頻的音頻分割位置,包括:
5.根據權利要求1所述的方法,其特征在于,所述目標分割模型是利用樣本音頻以及對應的樣本音頻分割標簽訓練得到,所述樣本音頻分割標簽的獲取步驟,包括:
6.根據權利要求5所述的方法,其特征在于,
7.根據權利要求5所述的方法,其特征在于,標注所述樣本音頻文本的第一樣本分割位置是由分割大模型執行的,所述分割大模型的訓練步驟,包括:
8.根據權利要求7所述的方法,其特征...
【專利技術屬性】
技術研發人員:石彪,萬根順,李鵬程,劉譚,高建清,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。