本申請公開了一種語音翻譯方法、電子設備及計算機可讀存儲介質。其中,方法包括:獲取音頻片段;對音頻片段進行表征提取,得到音頻片段的多個初始高階語音表征,并對各初始高階語音表征進行音素分類,確定初始音素集;利用基于專有詞匯偏置列表構建得到的目標數據庫中的各專有詞匯音素集匹配初始音素集中的音素,得到音頻片段中的至少一個目標專有詞匯的目標高階語音表征;替換目標專有詞匯的初始高階語音表征為目標高階語音表征,形成音頻片段的高階語音表征集;對高階語音表征集進行翻譯,得到音頻片段的目標翻譯文本。借助音素級專有詞匯激勵可以緩解語音翻譯任務中不同應用場景下由于發音和口音差異帶來的泛化性問題。
【技術實現步驟摘要】
本申請涉及語音處理,特別是涉及一種語音翻譯方法、電子設備及計算機可讀存儲介質。
技術介紹
1、端到端語音翻譯作為自動語音識別(automatic?speech?recognition,asr)的下游任務,其性能很大程度上受語音識別的影響。在諸多場景中,待識別語音中可能會包含訓練數據中數量很少或完全沒出現的短語(bias?phrases,專有詞匯),如某些領域的專有名詞、人名和地名。這些專有詞匯識別翻譯的準確率對用戶體驗的影響很大。而語境偏置將專有領域語境知識集成,納入額外的專有詞匯信息,以提高相關領域詞匯的識別翻譯準確率,是識別個性化詞匯的主流解決方案。其中專有詞匯的生成方案主要包含在訓練階段從文本標簽中隨機采樣短語片段模擬專有詞匯、開源專有詞匯集(librispeech、aishell-1-ner)和用戶定制專有詞匯集,最終得到文本格式的專有詞匯集。
2、但是,通過在外部專業領域術語(專有詞匯)數據庫檢索相關信息依賴于語音翻譯系統的初步翻譯結果,對于訓練集外專有詞匯而言,語音翻譯系統的初步翻譯結果往往質量較差,直接用于外部數據庫檢索難以檢索到相關信息。并且專業領域術語數據庫構建成本較高且難以擴展,難以在日常使用場景下增加專有詞匯的偏置列表。而現有的語境偏置方案中無論是基于規則的專有詞匯激勵還是基于神經網絡的專有詞匯激勵均生成文本級的專有詞匯偏置列表,在不同應用場景下不同用戶群體對相同詞匯存在一定的發音和口音差異性,例如方言場景。文本級的專有詞匯激勵無法滿足音頻信號中存在發音和口音差異的泛化性要求。
技術實現思路
1、本申請主要解決的技術問題是提供一種語音翻譯方法、電子設備及計算機可讀存儲介質,能夠解決端到端語音翻譯系統在不同使用場景下,發音和口音差異的泛化性低的技術問題。
2、為解決上述技術問題,本申請采用的一個技術方案是:所述語音翻譯方法包括:
3、獲取音頻片段;
4、對所述音頻片段進行表征提取,得到所述音頻片段的多個初始高階語音表征,并對各所述初始高階語音表征進行音素分類,確定所述音頻片段的初始音素集;
5、利用基于專有詞匯偏置列表構建得到的目標數據庫中的各專有詞匯音素集,匹配所述初始音素集中的音素,得到所述音頻片段中的至少一個目標專有詞匯的目標高階語音表征;
6、替換所述目標專有詞匯的初始高階語音表征為所述目標高階語音表征,形成所述音頻片段對應的高階語音表征集;
7、對所述高階語音表征集進行翻譯,得到所述音頻片段的目標翻譯文本。
8、可選地,所述對所述音頻片段進行表征提取,得到所述音頻片段的多個初始高階語音表征,并對各所述初始高階語音表征進行音素分類,確定所述音頻片段的初始音素集,包括:
9、通過目標語音編碼器,提取所述音頻片段的初始高階語音表征,并通過適配器對所述初始高階語音表征進行下采樣;
10、通過分類器,根據預設的音素表對下采樣后的各所述初始高階語音表征進行音素分類,確定所述音頻片段的初始音素集;
11、所述對所述高階語音表征集進行翻譯,得到所述音頻片段的目標翻譯文本,包括:
12、將所述高階語音表征集輸入目標語言模型中進行自回歸生成,得到所述音頻片段的目標翻譯文本。
13、可選地,所述利用基于專有詞匯偏置列表構建得到的目標數據庫中的各專有詞匯音素集,匹配所述初始音素集中的音素,得到所述音頻片段中的至少一個目標專有詞匯的目標高階語音表征之前,包括:
14、獲取所述專有詞匯偏置列表;其中,所述專有詞匯偏置列表包括多個專有詞匯的三元組;
15、將各所述三元組輸入目標偏置編碼器中進行表征提取,得到各所述專有詞匯的高階語音表征,并對所述高階語音表征進行下采樣;
16、根據所述音素表,對下采樣后的各所述專有詞匯的高階語音表征進行音素分類,得到各所述專有詞匯的專有詞匯音素集;
17、基于各所述專有詞匯的高階語音表征及其專有詞匯音素集,構建得到所述目標數據庫。
18、可選地,所述獲取所述專有詞匯偏置列表;其中,所述專有詞匯偏置列表包括多個專有詞匯的三元組之前,包括:
19、獲取包含多個原文標簽的翻譯數據集;
20、對各所述原文標簽進行分詞和詞性標注,得到對應的名詞序列;
21、從所述名詞序列中進行采樣以輸入至所述目標語言模型中進行語音合成,得到各所述專有詞匯對應的專有詞匯音素集;
22、從所述翻譯數據集中獲取各所述專有詞匯的源文本和翻譯文本;
23、分別結合各所述專有詞匯的所述源文本、所述專有詞匯音素集和所述翻譯文本,得到所述專有詞匯偏置列表。
24、可選地,所述將各所述三元組輸入目標偏置編碼器中進行表征提取,得到各所述專有詞匯的高階語音表征,并對所述高階語音表征進行下采樣之前,包括:
25、獲取所述翻譯數據集;
26、基于所述翻譯數據集,對第一語音編碼器進行訓練,得到第二語音編碼器;以及,對第一偏置編碼器進行訓練,得到第二偏置編碼器;
27、基于所述專有詞匯偏置列表對第一語言模型進行訓練,得到第二語言模型;
28、基于所述翻譯數據集,對所述第二語音編碼器、所述第二偏置編碼器和所述第二語言模型進行協同訓練,得到所述目標語音編碼器、所述目標偏置編碼器和所述目標語言模型。
29、可選地,所述翻譯數據集包括多個樣本音頻以及對應的音素類別;所述基于所述翻譯數據集,對第一語音編碼器進行訓練,得到第二語音編碼器,包括:
30、對所述樣本音頻進行切分并根據所述音素類別進行標記,得到第一真實音素標簽;
31、將所述樣本音頻輸入到所述第一語音編碼器中進行表征提取,并利用所述分類器進行音素分類,得到第一預測音素標簽;
32、計算所述第一真實音素標簽和所述第一預測音素標簽的第一音素分類損失,并利用所述第一音素分類損失訓練所述第一語音編碼器;
33、以此循環,直到所述第一音素分類損失達到收斂時停止訓練,得到所述第二語音編碼器;
34、可選地,所述對第一偏置編碼器進行訓練,得到第二偏置編碼器,包括:
35、對所述樣本音頻中的專有詞匯音頻進行切分并根據所述音素類別進行標記,得到第二真實音素標簽;
36、將所述專有詞匯音頻輸入到所述第一偏置編碼器中進行表征提取,并利用所述分類器進行音素分類,得到第二預測音素標簽;
37、計算所述第二真實音素標簽和所述第二預測音素標簽的第二音素分類損失,并利用所述第二音素分類損失訓練所述第一偏置編碼器;
38、以此循環,直到所述第二音素分類損失達到收斂時停止訓練,得到所述第二偏置編碼器。
39、可選地,所述翻譯數據集還包括原文標簽、翻譯文本標簽、翻譯文本專有詞匯位置;
40、所述基于所述翻譯數據集,對所述第二語音編碼器、所述第二偏置編本文檔來自技高網
...
【技術保護點】
1.一種語音翻譯方法,其特征在于,所述語音翻譯方法包括:
2.根據權利要求1所述語音翻譯方法,其特征在于,所述對所述音頻片段進行表征提取,得到所述音頻片段的多個初始高階語音表征,并對各所述初始高階語音表征進行音素分類,確定所述音頻片段的初始音素集,包括:
3.根據權利要求1所述語音翻譯方法,其特征在于,所述利用基于專有詞匯偏置列表構建得到的目標數據庫中的各專有詞匯音素集,匹配所述初始音素集中的音素,得到所述音頻片段中的至少一個目標專有詞匯的目標高階語音表征之前,包括:
4.根據權利要求3所述語音翻譯方法,其特征在于,所述獲取所述專有詞匯偏置列表之前,包括:
5.根據權利要求2~4任一項所述語音翻譯方法,其特征在于,所述將各所述三元組輸入目標偏置編碼器中進行表征提取,得到各所述專有詞匯的高階語音表征,并對所述高階語音表征進行下采樣之前,包括:
6.根據權利要求5所述語音翻譯方法,其特征在于,所述翻譯數據集包括多個樣本音頻以及對應的音素類別;所述基于所述翻譯數據集,對第一語音編碼器進行訓練,得到第二語音編碼器,包括:
7.根據權利要求6所述語音翻譯方法,其特征在于,所述翻譯數據集還包括原文標簽、翻譯文本標簽、翻譯文本專有詞匯位置;
8.根據權利要求4所述語音翻譯方法,其特征在于,所述利用基于專有詞匯偏置列表構建得到的目標數據庫中的各專有詞匯音素集,匹配所述初始音素集中的音素,得到所述音頻片段中的至少一個目標專有詞匯的目標高階語音表征,包括:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執行時,實現如權利要求1至8中任意一項所述的語音翻譯方法。
...
【技術特征摘要】
1.一種語音翻譯方法,其特征在于,所述語音翻譯方法包括:
2.根據權利要求1所述語音翻譯方法,其特征在于,所述對所述音頻片段進行表征提取,得到所述音頻片段的多個初始高階語音表征,并對各所述初始高階語音表征進行音素分類,確定所述音頻片段的初始音素集,包括:
3.根據權利要求1所述語音翻譯方法,其特征在于,所述利用基于專有詞匯偏置列表構建得到的目標數據庫中的各專有詞匯音素集,匹配所述初始音素集中的音素,得到所述音頻片段中的至少一個目標專有詞匯的目標高階語音表征之前,包括:
4.根據權利要求3所述語音翻譯方法,其特征在于,所述獲取所述專有詞匯偏置列表之前,包括:
5.根據權利要求2~4任一項所述語音翻譯方法,其特征在于,所述將各所述三元組輸入目標偏置編碼器中進行表征提取,得到各所述專有詞匯的高階語音表征,并對所述高階語音表征進行下采樣之前...
【專利技術屬性】
技術研發人員:陳瀟鈺,宋亞楠,孔常青,熊世富,高建清,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。