System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及智能語音,特別涉及一種語音合成模型構建方法、系統、存儲介質和程序產品。
技術介紹
1、傳統的語音合成模型,往往是經由文字、音素、中間特征、梅爾頻譜,合成聲音波形文件,音素可以通俗理解為拼音,以音素作為最小的發音單元,通過預測音節的發音時長和發音高低,來控制音頻的合成情況。
2、近年來的語音合成模型,開始逐漸通過大語言模型(llm,large?languagemodel),根據輸入的文字和音頻信息,生成特殊的語義token(semantic?token),然后再用預訓練的解碼器將這些語義token解碼成聲音波形,從而完成語音合成。由于不再顯式地使用音素來作為輸入,而是采取與大語言模型更合適的token化方式,如bpe等。這樣的模型設計雖然能獲得更好的語音自然度,但也一定程度喪失了對語音合成中讀音精準控制的能力。
3、由于漢語中多音字是時常出現的,而且考慮到方言等情況,顧客往往有自己定義某個字讀音的需求。所以亟需專利技術一種能夠精準控制單字讀音的語音合成模型,解決現有語音合成模型中對語音合成中讀音精準控制的能力差的問題。
技術實現思路
1、針對現有技術存在的不足,本專利技術提供一種語音合成模型構建方法、系統、存儲介質和程序產品,旨在通過引入拼音編碼模塊,并通過特定訓練方式,使模型訓練后能夠具有精準控制單字讀音能力。
2、第一方面,本專利技術提供一種語音合成模型構建方法,包括以下步驟:
3、獲取音頻、文字、拼音;
5、設置特征融合模塊,將所述音頻編碼和所述文字編碼或所述拼音編碼進行融合,得到融合后的特征;
6、將所述融合后的特征通過大語言模型,得到最終的音頻向量;
7、采用聲學解碼器,對所述最終的音頻向量進行解碼,得到最終的音頻;
8、根據損失對語音合成模型進行反向迭代。
9、作為本專利技術的進一步改進,所述獲取音頻、文字、拼音,包括:
10、獲取音頻;
11、將所述音頻按不同說話人進行分類,得到分類音頻;
12、將所述分類音頻切割為若干短句音頻;
13、采用asr自動語音識別模型獲取所述短句音頻對應的文字;
14、采用g2p模型獲取所述文字對應的拼音。
15、作為本專利技術的進一步改進,所述特征融合模塊有50%的幾率將所述音頻編碼和所述文字編碼進行融合,有50%的幾率將所述音頻編碼和所述拼音編碼進行融合。
16、作為本專利技術的進一步改進,所述根據損失對語音合成模型進行反向迭代,包括:采用kl散度損失約束拼音編碼和文字編碼在隱藏空間上的分布,使拼音編碼和文字編碼分布更相近,每次迭代時的損失函數loss_new為:
17、loss_new=loss_old+kl(p1(phone1),t1(text1)),
18、其中,loss_old為原有模型損失函數,kl()為kl散度損失,p1(phone1)為拼音編碼,t1(text1)為文字編碼。
19、作為本專利技術的進一步改進,所述kl散度損失計算方式為:
20、kl(y_pred,y_true)=y_true*log(y_true/y_pred),
21、其中,kl()為kl散度損失,y_true=t1(text1),y_pred=p1(phone1),p1(phone1)為拼音編碼,t1(text1)為文字編碼。
22、第二方面,本專利技術提供一種計算機系統,包括存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執行所述計算機程序以實現第一方面所述方法的步驟。
23、第三方面,本專利技術提供一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現第一方面所述方法的步驟。
24、第四方面,本專利技術提供一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現第一方面所述方法的步驟。
25、與現有技術相比,本專利技術的有益效果在于:
26、本專利技術提供一種語音合成模型構建方法、系統、存儲介質和程序產品,能夠精準控制單字讀音的語音合成模型,解決現有語音合成模型中對語音合成中讀音精準控制的能力差的問題。
本文檔來自技高網...【技術保護點】
1.一種語音合成模型構建方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的語音合成模型構建方法,其特征在于,所述獲取音頻、文字、拼音,包括:
3.根據權利要求1所述的語音合成模型構建方法,其特征在于,所述特征融合模塊有50%的幾率將所述音頻編碼和所述文字編碼進行融合,有50%的幾率將所述音頻編碼和所述拼音編碼進行融合。
4.根據權利要求1所述的語音合成模型構建方法,其特征在于,所述根據損失對語音合成模型進行反向迭代,包括:采用KL散度損失約束拼音編碼和文字編碼在隱藏空間上的分布,使拼音編碼和文字編碼分布更相近,每次迭代時的損失函數Loss_new為:
5.根據權利要求4所述的語音合成模型構建方法,其特征在于,所述KL散度損失計算方式為:
6.一種計算機系統,包括存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現權利要求1-5中的任一項所述方法的步驟。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1-5中的任
8.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1-5中的任一項所述方法的步驟。
...【技術特征摘要】
1.一種語音合成模型構建方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的語音合成模型構建方法,其特征在于,所述獲取音頻、文字、拼音,包括:
3.根據權利要求1所述的語音合成模型構建方法,其特征在于,所述特征融合模塊有50%的幾率將所述音頻編碼和所述文字編碼進行融合,有50%的幾率將所述音頻編碼和所述拼音編碼進行融合。
4.根據權利要求1所述的語音合成模型構建方法,其特征在于,所述根據損失對語音合成模型進行反向迭代,包括:采用kl散度損失約束拼音編碼和文字編碼在隱藏空間上的分布,使拼音編碼和文字編碼分布更相近,每次迭代時的損失...
【專利技術屬性】
技術研發人員:周邦鍵,沈偉林,
申請(專利權)人:華院計算技術上海股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。