【技術實現步驟摘要】
一種語音合成方法和裝置
[0001]本申請涉及數據處理、深度學習及語音合成
,尤其涉及一種語音合成方法和裝置。
技術介紹
[0002]目前根據文本合成歌曲的方法有兩種。一種是利用隱馬爾科夫模型合成歌曲,由于隱馬爾科夫模型未考慮音高特征,導致合成的歌曲的聲音缺乏情感。另一種是利用現有的神經網絡模型合成歌曲,但是由于考慮的特征的維度過少,導致模型出現過擬合,合成的歌曲不夠穩定和真實。
技術實現思路
[0003]本申請提供一種語音合成方法和裝置,以解決上述的技術問題。
[0004]為此,本申請實施例一方面提供一種語音合成方法,所述方法包括:
[0005]獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;
[0006]對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;
[0007]對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;
[0008]將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;
[0009]利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;
[0010]對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。
[0011]其中,所述將所述文本特征數據和音高特征數據進行合并,包括:
[0012]從所述文本特征數據和音高特征數 ...
【技術保護點】
【技術特征摘要】
1.一種語音合成方法,其特征在于,所述方法包括:獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。2.根據權利要求1所述語音合成方法,其特征在于,所述將所述文本特征數據和音高特征數據進行合并,包括:從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。3.根據權利要求1所述語音合成方法,其特征在于,所述利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據,包括:從所述第一特征數據中確定出每個文本對應的第一子特征數據;按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。4.根據權利要求1所述語音合成方法,其特征在于,所述得到第二特征數據之后,還包括:從所述第二特征數據中確定出每個文本對應的第二子特征數據;對所有第二子特征數據進行遍歷;確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。5.一種語音合成模型訓練方法,其特征在于,包括:獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。6.一種語音合成裝置,其特征在于,所述裝置包括:第一采集模塊,用于獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;編碼...
【專利技術屬性】
技術研發人員:江明奇,王瑞,陳云琳,葉順平,
申請(專利權)人:問問智能信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。