• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音合成方法和裝置制造方法及圖紙

    技術編號:36030104 閱讀:20 留言:0更新日期:2022-12-21 10:30
    本申請實施例公開了一種語音合成方法及裝置,包括:獲取文本數據和文本數據對應的音高數據,文本數據中包含多個文本,音高數據表征每個文本對應的音高;對文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;對多個文本進行時長預測,得到每個文本的預測時長,預測時長表征該文本對應的幀數;將文本特征數據和音高特征數據進行合并,得到第一特征數據;利用每個文本的預測時長對第一特征數據進行時長擴充,得到第二特征數據;對第二特征數據進行解碼,得到語音譜參數,并將語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。目標語音。目標語音。

    【技術實現步驟摘要】
    一種語音合成方法和裝置


    [0001]本申請涉及數據處理、深度學習及語音合成
    ,尤其涉及一種語音合成方法和裝置。

    技術介紹

    [0002]目前根據文本合成歌曲的方法有兩種。一種是利用隱馬爾科夫模型合成歌曲,由于隱馬爾科夫模型未考慮音高特征,導致合成的歌曲的聲音缺乏情感。另一種是利用現有的神經網絡模型合成歌曲,但是由于考慮的特征的維度過少,導致模型出現過擬合,合成的歌曲不夠穩定和真實。

    技術實現思路

    [0003]本申請提供一種語音合成方法和裝置,以解決上述的技術問題。
    [0004]為此,本申請實施例一方面提供一種語音合成方法,所述方法包括:
    [0005]獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;
    [0006]對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;
    [0007]對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;
    [0008]將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;
    [0009]利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;
    [0010]對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。
    [0011]其中,所述將所述文本特征數據和音高特征數據進行合并,包括:
    [0012]從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;
    [0013]根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;
    [0014]將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。
    [0015]其中,所述利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據,包括:
    [0016]從所述第一特征數據中確定出每個文本對應的第一子特征數據;
    [0017]按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;
    [0018]將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到
    第二特征數據。
    [0019]其中,所述得到第二特征數據之后,還包括:
    [0020]從所述第二特征數據中確定出每個文本對應的第二子特征數據;
    [0021]對所有第二子特征數據進行遍歷;
    [0022]確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;
    [0023]根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;
    [0024]在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。
    [0025]本申請實施例另一方面提供一種語音合成模型訓練方法,所述方法包括:
    [0026]獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;
    [0027]將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
    [0028]根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;
    [0029]根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。
    [0030]本申請實施例另一方面提供一種語音合成裝置,所述裝置包括:
    [0031]第一采集模塊,用于獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;
    [0032]編碼模塊,用于對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;
    [0033]第一深度學習模塊,用于對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;
    [0034]計算模塊,用于將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;
    [0035]所述第一深度學習模塊,還用于利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;
    [0036]解碼模塊,用于對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。
    [0037]其中,所述計算模塊,還用于從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;
    [0038]所述計算模塊,還用于根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;
    [0039]所述計算模塊,還用于將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。
    [0040]其中,所述第一深度學習模塊,還用于從所述第一特征數據中確定出每個文本對應的第一子特征數據;
    [0041]所述第一深度學習模塊,還用于按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;
    [0042]所述第一深度學習模塊,還用于將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。
    [0043]其中,所述第一深度學習模塊,還用于從所述第二特征數據中確定出每個文本對應的第二子特征數據;
    [0044]所述第一深度學習模塊,還用于對所有第二子特征數據進行遍歷;
    [0045]所述第一深度學習模塊,還用于確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;
    [0046]所述第一深度學習模塊,還用于根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;
    [0047]所述第一深度學習模塊,還用于在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。
    [0048]本申請實施例另一方面提供一種語音合成模型訓練裝置,所述裝置包括:
    [0049]第二采集模塊,用于獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;
    [0050]第二深度學習模塊,用于將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
    [0051]所述第二深度學習模塊,還用于根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;
    [0052]所述第二深度學習模塊,還用于根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。
    [0053]在上述的方案中,通過本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種語音合成方法,其特征在于,所述方法包括:獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。2.根據權利要求1所述語音合成方法,其特征在于,所述將所述文本特征數據和音高特征數據進行合并,包括:從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。3.根據權利要求1所述語音合成方法,其特征在于,所述利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據,包括:從所述第一特征數據中確定出每個文本對應的第一子特征數據;按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。4.根據權利要求1所述語音合成方法,其特征在于,所述得到第二特征數據之后,還包括:從所述第二特征數據中確定出每個文本對應的第二子特征數據;對所有第二子特征數據進行遍歷;確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。5.一種語音合成模型訓練方法,其特征在于,包括:獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
    根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。6.一種語音合成裝置,其特征在于,所述裝置包括:第一采集模塊,用于獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;編碼...

    【專利技術屬性】
    技術研發人員:江明奇王瑞陳云琳葉順平
    申請(專利權)人:問問智能信息科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品久久无码| 亚洲国产成人无码AV在线影院| 亚洲爆乳大丰满无码专区| 人妻无码久久一区二区三区免费| 亚洲av永久无码精品古装片| 亚洲精品无码成人AAA片| 精品国产一区二区三区无码| av无码a在线观看| 中文字幕无码乱码人妻系列蜜桃 | 欧洲人妻丰满av无码久久不卡| 无码人妻精品一区二区| 无码一区二区三区亚洲人妻| 久久无码人妻精品一区二区三区| 孕妇特级毛片WW无码内射| 日韩精品无码免费专区网站| av中文无码乱人伦在线观看| 91久久精品无码一区二区毛片| 无码国模国产在线无码精品国产自在久国产 | 午夜亚洲AV日韩AV无码大全| 亚洲av无码专区在线观看下载| 玖玖资源站无码专区| 波多野结衣AV无码| 无码av不卡一区二区三区| 精品无码成人片一区二区98| 久久久久亚洲AV无码专区首| 亚洲中文字幕久久精品无码APP| 亚洲高清无码专区视频| 成人年无码AV片在线观看| 无码少妇一区二区| 无码专区—VA亚洲V天堂| 无码精品久久久天天影视| 亚洲欧洲精品无码AV| 国产亚洲AV无码AV男人的天堂| 亚洲AV无码乱码国产麻豆穿越| 中文字幕在线无码一区| 狠狠久久精品中文字幕无码 | 日韩精品无码免费专区午夜不卡| 免费A级毛片无码A| 亚洲av中文无码| 成年无码av片完整版| 伊人久久无码中文字幕|