• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    語音合成方法、裝置、設備及存儲介質制造方法及圖紙

    技術編號:29875742 閱讀:23 留言:0更新日期:2021-08-31 23:51
    本發明專利技術提供了一種語音合成方法、裝置、設備及存儲介質,該方法包括:將待處理的文本數據的每個字轉成相應的音素;根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。本發明專利技術能有效提高語音合成的效果,使得合成的音頻更加自然、真實,同時能提高語音合成的推理速度。

    【技術實現步驟摘要】
    語音合成方法、裝置、設備及存儲介質
    本專利技術涉及語音合成
    ,尤其涉及一種語音合成方法、裝置、設備及存儲介質。
    技術介紹
    語音合成,又稱文語轉換(TexttoSpeech)技術,通過將任意文字信息實時轉化為語音,其在語音交互、實時新聞語音播報、語音翻譯等語音合成應用場景具有很好的應用前景。目前,常規的語音合成方法是:先儲存每個音素的波形,然后先把文字轉成音素,再查找音素對應的波形,通過預設的規則拼接波形,輸出語音。但是通過波形拼接方法合成語音效果不夠自然,與真人語音有較大的差距。
    技術實現思路
    針對上述問題,本專利技術的目的在于提供一種語音合成方法、裝置、設備及存儲介質,其能有效提高語音合成的效果,使得合成的音頻更加自然、真實。第一方面,本專利技術實施例提供了一種語音合成方法,包括:將待處理的文本數據的每個字轉成相應的音素;根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。作為上述方案的改進,所述方法還包括以下所述聲學模型訓練步驟:將預先采集的文本樣本的每個字轉成相應的音素;根據所述音素與數值映射字典,將所述文本樣本的每個音素轉換成音素數值;獲取所述文本樣本的每個音素的音頻特征;根據所述文本樣本的每個音素的音頻特征,得到所述文本樣本的音素向量;以所述文本樣本的音素向量和音素數值為訓練集,對神經網絡模型進行訓練,得到所述聲學模型。作為上述方案的改進,所述將待處理的文本數據的每個字轉成相應的音素,包括:將所述文本數據的每個字轉成拼音;根據預先構建的拼音與音素字典文件,將每個拼音映射成音素。作為上述方案的改進,所述獲取所述文本樣本的每個音素的音頻特征,包括:對預存的音頻數據進行歸一化處理;獲取所述音頻數據對應的文本樣本中每個字對應的拼音;根據歸一化后的音頻數據、所述文本樣本對應的拼音及預先構建的拼音與音素字典文件,通過預先預先訓練好的對齊模型,獲得音頻與音素的對齊結果;根據所述對齊結果,讀取所述文本樣本中每個音素的音頻范圍;根據每個音素的音頻范圍切分出每個音素在所述文本樣本中音頻特征。作為上述方案的改進,所述根據所述對齊結果,讀取所述文本樣本中每個音素的音頻范圍,包括:讀取所述對齊結果對應的TextGrid文件,并根據所述TextGrid文件,獲取所述文本樣本中每個音素的起始時間和終止時間;將任一音素的起始時間至終止時間對應范圍,作為任一音素對應的音頻范圍。作為上述方案的改進,所述根據所述文本樣本的每個音素的音頻特征,得到所述文本樣本的音素向量,包括:獲取屬于第i種音素的所有音頻特征,并計算第i種音素的所有音頻特征中的最大音頻長度;根據所述最大音頻長度,對第i種音素的所有音頻特征進行插值處理;其中,插值后的音頻特征的長度等于所述最大音頻長度;根據每個音素插值后的音頻特征,得到音素向量。作為上述方案的改進,所述根據每個音素插值后的音頻特征,得到音素向量,包括:將每個音素插值后的音頻特征轉換為梅爾頻譜;計算每個音素對應的梅爾頻譜的幀數量,作為對應音素的時長值;根據屬于第i種音素的所有時長值,計算第i種音素的時長平均值;根據各種音素的時長平均值構建一維矩陣,作為音素向量。第二方面,本專利技術實施例提供了一種語音合成裝置,包括:音素轉換模塊,用于將待處理的文本數據的每個字轉成相應的音素;數值轉換模塊,用于根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;頻譜獲取模塊,用于根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;音頻轉換模塊,用于將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。第三方面,本專利技術實施例提供了一種語音合成設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序,所述處理器執行所述計算機程序時實現如第一方面中任意一項所述的語音合成方法。第四方面,本專利技術實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如第一方面任一項所述的語音合成方法。相對于現有技術,本專利技術實施例的有有益效果在于:通過將待處理的文本數據的每個字轉成相應的音素;根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。本專利技術通過先將文字轉成音頻特征,然后將音頻特征轉成音素向量,并基于嵌入了音素向量與音素數值映射的聲學模型,推理梅爾頻譜,最終通過聲碼器將所述梅爾頻譜轉換成音頻,能有效提高語音合成的效果,使得合成的音頻更加自然、真實,同時能提高語音合成的推理速度。附圖說明為了更清楚地說明本專利技術的技術方案,下面將對實施方式中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施方式,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1是本專利技術第一實施例提供的一種語音合成方法的流程圖;圖2是本專利技術第二實施例提供的一種語音合成裝置的示意圖;圖3是本專利技術第三實施例提供的一種語音合成設備的示意圖。具體實施方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。請參閱圖1,本專利技術實施例提供的一種語音合成方法,包括:S1:將待處理的文本數據的每個字轉成相應的音素;S2:根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;S3:根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;S4:將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。本專利技術通過先將文字轉成音頻特征,然后將音頻特征轉成音素向量,并基于嵌入了音素向量與音素數值映射的聲學模型,推理梅爾頻譜,最終通過聲碼器將所述梅爾頻本文檔來自技高網...

    【技術保護點】
    1.一種語音合成方法,其特征在于,包括:/n將待處理的文本數據的每個字轉成相應的音素;/n根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;/n根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;/n將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。/n

    【技術特征摘要】
    1.一種語音合成方法,其特征在于,包括:
    將待處理的文本數據的每個字轉成相應的音素;
    根據預先構建的音素與數值映射字典,將所述文本數據的每個音素轉成相應的音素數值;
    根據所述音素數值,通過預先訓練的聲學模型,獲得所述文本數據對應的梅爾頻譜;其中,所述聲學模型根據音素向量與音素數值映射基于神經網絡模型訓練得到;
    將所述梅爾頻譜輸入到聲碼器中以將所述梅爾頻譜轉換成音頻。


    2.如權利要求1所述的語音合成方法,其特征在于,所述方法還包括以下所述聲學模型訓練步驟:
    將預先采集的文本樣本的每個字轉成相應的音素;
    根據所述音素與數值映射字典,將所述文本樣本的每個音素轉換成音素數值;
    獲取所述文本樣本的每個音素的音頻特征;
    根據所述文本樣本的每個音素的音頻特征,得到所述文本樣本的音素向量;
    以所述文本樣本的音素向量和音素數值為訓練集,對神經網絡模型進行訓練,得到所述聲學模型。


    3.如權利要求1所述的語音合成方法,其特征在于,所述將待處理的文本數據的每個字轉成相應的音素,包括:
    將所述文本數據的每個字轉成拼音;
    根據預先構建的拼音與音素字典文件,將每個拼音映射成音素。


    4.如權利要求2所述的語音合成方法,其特征在于,所述獲取所述文本樣本的每個音素的音頻特征,包括:
    對預存的音頻數據進行歸一化處理;
    獲取所述音頻數據對應的文本樣本中每個字對應的拼音;
    根據歸一化后的音頻數據、所述文本樣本對應的拼音及預先構建的拼音與音素字典文件,通過預先預先訓練好的對齊模型,獲得音頻與音素的對齊結果;
    根據所述對齊結果,讀取所述文本樣本中每個音素的音頻范圍;
    根據每個音素的音頻范圍切分出每個音素在所述文本樣本中音頻特征。


    5.如權利要求4所述的語音合成方法,其特征在于,所述根據所述對齊結果,讀取所述文本樣本中每個音素的音頻范圍,包括:
    讀取所述對齊結果對應的TextGrid文件,并根據所述TextGrid文件,獲取所述文本樣本中...

    【專利技術屬性】
    技術研發人員:徐波
    申請(專利權)人:多益網絡有限公司廣州多益網絡股份有限公司廣東利為網絡科技有限公司
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产爆乳无码一区二区麻豆| 国产精品午夜无码av体验区| 国产亚洲AV无码AV男人的天堂 | 亚洲男人在线无码视频| 惠民福利中文字幕人妻无码乱精品| 免费无码专区毛片高潮喷水| 在线播放无码高潮的视频| 999久久久无码国产精品| heyzo专区无码综合| 免费看成人AA片无码视频羞羞网 | 无码日韩人妻精品久久蜜桃| 无码少妇A片一区二区三区| 亚洲VA成无码人在线观看天堂| 免费无码又爽又刺激聊天APP| 国产AV一区二区三区无码野战| 精品一区二区三区无码免费直播 | 无码毛片视频一区二区本码| 精品久久久无码人妻字幂| 久久精品九九热无码免贵| yy111111电影院少妇影院无码| 亚洲AV无码一区二区一二区| 无码日韩精品一区二区三区免费| 亚洲男人第一无码aⅴ网站| 激情无码亚洲一区二区三区| 亚洲av永久无码精品天堂久久| 国产成人精品无码播放| 国产成人无码av片在线观看不卡| 成人免费无码视频在线网站| 亚洲中文无码a∨在线观看| 亚洲色中文字幕无码AV| 中文字幕丰满乱孑伦无码专区| 亚洲AV无码成人精品区大在线| 无码国产精成人午夜视频不卡 | 国产乱子伦精品无码码专区| 国产成人无码精品久久二区三区| 孕妇特级毛片WW无码内射| 亚洲成av人片不卡无码| 久久久久久精品无码人妻| 少妇无码一区二区二三区| 无码H肉动漫在线观看| 久久久久久国产精品无码超碰|