System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及語音翻譯,應用于實時語音同聲傳譯場景中,尤其涉及一種傳譯方法、裝置、設備及其存儲介質(zhì)。
技術(shù)介紹
1、同聲傳譯,簡稱“同傳”,又稱“同聲翻譯”、“同步口譯”,是指譯員在不打斷講話者講話的情況下,不間斷地將內(nèi)容口譯給聽眾的一種翻譯方式,同聲傳譯員通過專用的設備提供即時的翻譯,這種方式適用于大型的研討會和國際會議。
2、現(xiàn)有業(yè)內(nèi)的同聲傳譯方案,有基于級聯(lián)模型的傳譯,即將輸入語音通過對應語種的asr語音識別系統(tǒng)首先識別出文字,再通過機器翻譯系統(tǒng)將文字進行機器翻譯的工作,最后再將目標語種合成為指定聲音;還有端到端的語音翻譯模型,通過類似語音合成模型tacotron的方案來完成直接端到端的語音翻譯。但是,以上方案在同聲傳譯場景下,還存在流式推理的過程中存在難度,無法傳譯為原說話者音色的語音的問題。
技術(shù)實現(xiàn)思路
1、本申請實施例的目的在于提出一種傳譯方法、裝置、設備及其存儲介質(zhì),以解決現(xiàn)有技術(shù)在同聲傳譯場景下,還存在流式推理的過程中存在難度,無法傳譯為原說話者音色的語音的問題。
2、為了解決上述技術(shù)問題,本申請實施例提供傳譯方法,采用了如下所述的技術(shù)方案:
3、一種傳譯方法,包括下述步驟:
4、向傳譯終端發(fā)送連接請求,其中,所述傳譯終端包括同聲翻譯傳輸終端;
5、在接收到所述傳譯終端的連接成功反饋后,獲取發(fā)言用戶的實時語音;
6、采用語音預訓練解耦技術(shù)對所述實時語音進行特征解耦,提取出語言特征和聲學特征;
>7、根據(jù)所述傳譯終端預期傳譯的目標語種信息對所述語言特征中待翻譯文本進行翻譯,得到預期文本;
8、將所述語言特征、所述聲學特征、所述預期文本發(fā)送到預設的語音合成模型,進行語音合成,并向目標用戶實時播放語音合成結(jié)果。
9、進一步的,在執(zhí)行所述在接收到所述傳譯終端的連接成功反饋后的步驟之后,所述方法還包括:
10、解析所述傳譯終端發(fā)送的連接成功反饋信息,獲得所述傳譯終端預期傳譯的目標語種信息。
11、進一步的,所述獲取發(fā)言用戶的實時語音的步驟,包括:
12、通過預設的第一實時監(jiān)測組件,監(jiān)測對所述實時語音進行獲取過程中,獲取是否一直處于在線狀態(tài);
13、若獲取一直處于在線狀態(tài),則對所述實時語音進行降噪、濾波處理;
14、若獲取過程中存在非在線狀態(tài),則對已經(jīng)獲取的實時語音片段進行語言特征提取,并根據(jù)語言特征提取結(jié)果和預訓練的預測模型從歷史語音緩存庫中篩選出所述非在線狀態(tài)所對應的最優(yōu)語音片段,拼接所述實時語音片段和所述最優(yōu)語音片段,獲得目標語音片段,對所述目標語音片段進行降噪、濾波處理。
15、進一步的,所述獲取發(fā)言用戶的實時語音的步驟,還包括:
16、通過預設的第二實時監(jiān)測組件,監(jiān)測所述傳譯終端是否一直處于連接成功狀態(tài);
17、若所述傳譯終端一直處于連接成功狀態(tài),則繼續(xù)對所述傳譯終端進行連接狀態(tài)監(jiān)測;
18、若所述傳譯終端發(fā)生了連接失敗,則切換預設的備用播放組件向所述目標用戶實時播放語音合成結(jié)果,其中,所述備用播放組件指能對發(fā)言用戶的實時語音實現(xiàn)傳譯功能的備用設備。
19、進一步的,在執(zhí)行所述根據(jù)語言特征提取結(jié)果和預訓練的預測模型從歷史語音緩存庫中篩選出所述非在線狀態(tài)所對應的最優(yōu)語音片段,拼接所述實時語音片段和所述最優(yōu)語音片段,獲得目標語音片段的步驟之前,所述方法還包括:
20、從所述歷史語音緩存庫中獲取所述發(fā)言用戶的所有歷史發(fā)言語音,構(gòu)建語音訓練集;
21、將所述語音訓練集輸入到待訓練的預測模型,進行預測模型訓練,以學習所有歷史發(fā)言語音中的上下文語言序列關(guān)系,獲得預訓練完成的預測模型;
22、所述語言特征提取結(jié)果中包括所述實時語音片段對應的語音文本序列,所述根據(jù)語言特征提取結(jié)果和預訓練的預測模型從歷史語音緩存庫中篩選出所述非在線狀態(tài)所對應的最優(yōu)語音片段,拼接所述實時語音片段和所述最優(yōu)語音片段,獲得目標語音片段的步驟,具體包括:
23、將所述實時語音片段對應的語音文本序列輸入到所述預訓練完成的預測模型中;
24、根據(jù)所述上下文語言序列關(guān)系,從所述發(fā)言用戶的所有歷史發(fā)言語音中篩選出所述非在線狀態(tài)所對應的最優(yōu)語音片段;
25、將所述最優(yōu)語音片段拼接到所述實時語音片段的末尾位置處,獲得本次拼接后的目標語音片段。
26、進一步的,所述待訓練的預測模型包括基于transformer的bert語言模型,所述將所述語音訓練集輸入到待訓練的預測模型,進行預測模型訓練,以學習所有歷史發(fā)言語音中的上下文語言序列關(guān)系,獲得預訓練完成的預測模型的步驟,具體包括:
27、采用asr語音識別技術(shù)將所述語音訓練集中語音數(shù)據(jù)轉(zhuǎn)化為文本內(nèi)容;
28、根據(jù)所述發(fā)言用戶每次發(fā)言時的語音先后順序分別對相應的文本內(nèi)容進行序列化整理,獲得序列化的文本內(nèi)容;
29、將所述序列化的文本內(nèi)容輸入到所述bert語言模型,并通過所述bert語言模型學習所述序列化的文本內(nèi)容中的語義信息和上下文依賴關(guān)系,獲得初步學習完成的bert語言模型;
30、從所有序列化的文本內(nèi)容中篩選出目標數(shù)量的序列化文本內(nèi)容作為對比序列,對所有對比序列的文本內(nèi)容進行打亂重組處理,獲得測試數(shù)據(jù)集;
31、將所述測試數(shù)據(jù)集輸入到初步學習完成的bert語言模型,根據(jù)所述bert語言模型學習的語義信息和上下文依賴關(guān)系,輸出糾正重排后的序列化文本內(nèi)容;
32、采用平方差損失函數(shù),計算所述糾正重排后的序列化文本內(nèi)容相較于所有對比序列的損失值;
33、若所述損失值超過預設的損失閾值,則對所述bert語言模型進行超參數(shù)調(diào)整,直到所述損失值未超過所述損失閾值,所述預測模型預訓練完成。
34、進一步的,所述采用語音預訓練解耦技術(shù)對所述實時語音進行特征解耦,提取出語言特征和聲學特征的步驟,具體包括:
35、標記降噪、濾波處理后的所述實時語音或所述目標語音片段,作為待特征解耦語音;
36、將所述待特征解耦語音輸入到基于recx?i框架的語音解耦模型,提取所述待特征解耦語音中的語言特征和聲學特征。
37、為了解決上述技術(shù)問題,本申請實施例還提供傳譯裝置,采用了如下所述的技術(shù)方案:
38、一種傳譯裝置,包括:
39、傳譯連接請求模塊,用于向傳譯終端發(fā)送連接請求,其中,所述傳譯終端包括同聲翻譯傳輸終端;
40、實時語音獲取模塊,用于在接收到所述傳譯終端的連接成功反饋后,獲取發(fā)言用戶的實時語音;
41、語音特征解耦模塊,用于采用語音預訓練解耦技術(shù)對所述實時語音進行特征解耦,提取出語言特征和聲學特征;
42、文本翻譯模塊,用于根據(jù)所述傳譯終端預期傳譯的目標語種信息對所述語言特征中待翻譯文本進行翻譯,得到預期文本;
43、傳本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種傳譯方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的傳譯方法,其特征在于,在執(zhí)行所述在接收到所述傳譯終端的連接成功反饋后的步驟之后,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的傳譯方法,其特征在于,所述獲取發(fā)言用戶的實時語音的步驟,包括:
4.根據(jù)權(quán)利要求1所述的傳譯方法,其特征在于,所述獲取發(fā)言用戶的實時語音的步驟,還包括:
5.根據(jù)權(quán)利要求3所述的傳譯方法,其特征在于,在執(zhí)行所述根據(jù)語言特征提取結(jié)果和預訓練的預測模型從歷史語音緩存庫中篩選出所述非在線狀態(tài)所對應的最優(yōu)語音片段,拼接所述實時語音片段和所述最優(yōu)語音片段,獲得目標語音片段的步驟之前,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的傳譯方法,其特征在于,所述待訓練的預測模型包括基于Transformer的BERT語言模型,所述將所述語音訓練集輸入到待訓練的預測模型,進行預測模型訓練,以學習所有歷史發(fā)言語音中的上下文語言序列關(guān)系,獲得預訓練完成的預測模型的步驟,具體包括:
7.根據(jù)權(quán)利要求3所述的傳譯方法,其特征在于,所述采用語音預訓練解耦
8.一種傳譯裝置,其特征在于,包括:
9.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權(quán)利要求1至7中任一項所述的傳譯方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的傳譯方法的步驟。
...【技術(shù)特征摘要】
1.一種傳譯方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的傳譯方法,其特征在于,在執(zhí)行所述在接收到所述傳譯終端的連接成功反饋后的步驟之后,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的傳譯方法,其特征在于,所述獲取發(fā)言用戶的實時語音的步驟,包括:
4.根據(jù)權(quán)利要求1所述的傳譯方法,其特征在于,所述獲取發(fā)言用戶的實時語音的步驟,還包括:
5.根據(jù)權(quán)利要求3所述的傳譯方法,其特征在于,在執(zhí)行所述根據(jù)語言特征提取結(jié)果和預訓練的預測模型從歷史語音緩存庫中篩選出所述非在線狀態(tài)所對應的最優(yōu)語音片段,拼接所述實時語音片段和所述最優(yōu)語音片段,獲得目標語音片段的步驟之前,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的傳譯方法,其特征在于,所述待訓練的預測模型包括基于transformer的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:孫奧蘭,王健宗,程寧,
申請(專利權(quán))人:平安科技深圳有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。