• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于語義信息自動預測停頓的語音合成方法、系統(tǒng)技術(shù)方案

    技術(shù)編號:38151754 閱讀:22 留言:0更新日期:2023-07-13 09:16
    本發(fā)明專利技術(shù)提供一種基于融合語義信息的語音合成的方法,包括如下步驟:搜集對應(yīng)的語音數(shù)據(jù),生成真實語音的能量、音高、音素持續(xù)時長、字停頓等級標簽以及梅爾頻譜數(shù)據(jù),然后進行模型的構(gòu)建與訓練,再進行模型的測試與評估。本發(fā)明專利技術(shù)在模型中增加了停頓預測器,進行大量的數(shù)據(jù)來訓練模型去更好地預測句子中的停頓。采用本申請的技術(shù)方案能模擬人說話的停頓,提升韻律自然度。律自然度。律自然度。

    【技術(shù)實現(xiàn)步驟摘要】
    一種基于語義信息自動預測停頓的語音合成方法、系統(tǒng)


    [0001]本申請涉及語音合成領(lǐng)域,尤其涉及一種基于語義信息自動預測停頓的語音合成方法、系統(tǒng)。

    技術(shù)介紹

    [0002]語音合成(Speech Synthesis),又叫做文本到語音(Text
    ?
    to
    ?
    Speech,TTS),是一種將文本轉(zhuǎn)換為語音的技術(shù)。它的任務(wù)是使機器發(fā)出類似人的聲音,在智能語音交互、有聲讀物中應(yīng)用廣泛。近年來,基于深度學習(Deep Learning)和神經(jīng)網(wǎng)絡(luò)(Neural Network)的建模方法在機器學習領(lǐng)域各個任務(wù)上都取得了快速的發(fā)展,語音合成技術(shù)也在此基礎(chǔ)上得到了顯著的提升。隨著信息技術(shù)及人工智能技術(shù)的發(fā)展,各種應(yīng)用場景對語音合成的效果的要求也越來越高。
    [0003]傳統(tǒng)的基于深度學習的語音合成方法,一般分為三個階段。第一個階段為文字經(jīng)過文本正則化,進一步得到音素(Phoneme)序列、韻律標注等信息。第二階段將上一階段得到的信息輸入聲學模型中,預測出信息對應(yīng)的聲學特征。最后階段將聲學特征通過聲碼器,還原成我們可以聽懂的語音。一般第二階段的聲學模型的輸入只有音素序列這單一信息,雖然已經(jīng)可以合成出與人類發(fā)音相近的語音。但是其合成的語音還是存在一些機械感,在自然度和韻律方面與人類真實的錄音還是存在不小的差距。

    技術(shù)實現(xiàn)思路

    [0004]本申請實施例提供一種基于融合語義信息的語音合成的方法及裝置的相關(guān)技術(shù)方案,用以解決現(xiàn)有技術(shù)中顯式的韻律表征提取容易出現(xiàn)誤差,無法將不同的韻律表征進行聯(lián)系的問題,韻律自然度低的技術(shù)問題。
    [0005]本申請實施例提供一種基于語義信息自動預測停頓的語音合成方法,包括如下步驟:
    [0006]獲取訓練數(shù)據(jù)集并處理;
    [0007]構(gòu)建語音合成模型;
    [0008]將音素序列輸入到合成模型中的音素編碼器,生成音素隱藏特征;
    [0009]將字序列輸入到合成模型中的字編碼器,生成字隱藏特征;
    [0010]將生成的字隱藏特征輸入到停頓預測器中,再投影到N類停頓等級上,取每個位置最大概率的停頓等級,得到每個字后的停頓等級標簽序列;
    [0011]將得到的停頓等級標簽序列經(jīng)過嵌入層,得到停頓等級的嵌入序列,再把嵌入序列和字隱藏特征拼接并投影到與原來字隱藏特征相同的維度上,得到新的字隱藏特征;
    [0012]根據(jù)音素與字的對應(yīng)關(guān)系,將字隱藏特征擴展到與音素隱藏特征相同長度,將兩者相加,得到總的語義隱藏特征;
    [0013]將語義隱藏特征分別送入音高預測器和能量預測器,持續(xù)時長預測器得到音高嵌入,能量嵌入和每個音素持續(xù)的時間,將語義隱藏特征與音高嵌入,能量嵌入相加,再根據(jù)
    預測出的音素持續(xù)時間將語義隱藏特征擴充到對應(yīng)的長度,得到最終的隱藏特征;
    [0014]將上述隱藏特征輸入到聲學特征解碼器,最終得到預測的聲學特征;
    [0015]利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,用此損失更新模型參數(shù),對模型進行訓練直至收斂;
    [0016]將預測的聲學特征輸入到預訓練好的聲碼器,輸出最終的語音數(shù)據(jù)。
    [0017]進一步的,所述獲取訓練數(shù)據(jù)集并處理的步驟包括:利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,使用該損失更新模型參數(shù),對模型進行訓練直至收斂;
    [0018]準備有文本標注的語音數(shù)據(jù),使用pypinyin工具包將每條語音的文本轉(zhuǎn)化為拼音文本,并記錄拼音文本中每個音素與文本中每個字的對應(yīng)關(guān)系;
    [0019]將文本、拼音文本、語音放在相同的目錄下,利用Montreal Forced Aligner工具將拼音文本與語音信號對齊,得到文本與語音的對齊結(jié)果;
    [0020]利用所述結(jié)果,得到每個音素的持續(xù)時間;
    [0021]根據(jù)每個音素的持續(xù)時間,從語音中提取每個音素對應(yīng)的音高和能量信息;
    [0022]將停頓劃分為多個等級,根據(jù)文本與語音的對齊結(jié)果,獲得每個字的停頓等級信息。
    [0023]進一步的,所述聲學特征采用的是梅爾譜,是從真實訓練數(shù)據(jù)集的語音中提取,作為模型的生成目標。
    [0024]進一步的,經(jīng)過自注意結(jié)構(gòu)提取音素與音素之間的全局依賴信息,再經(jīng)過1維卷積進一步提取信息,重復四次以上步驟,得到音素隱藏特征。
    [0025]進一步的,經(jīng)過自注意結(jié)構(gòu)提取字與字之間的全局依賴信息,再經(jīng)過1維卷積進一步提取信息,重復四次以上步驟,得到字隱藏特征。
    [0026]本申請實施例還提供一種基于語義信息自動預測停頓的語音合成裝置,包括:
    [0027]數(shù)據(jù)收集模塊,獲取訓練數(shù)據(jù)集并處理;
    [0028]模型構(gòu)建模塊,構(gòu)建語音合成模型;
    [0029]合成模型中的音素編碼器接收音素序列輸入,生成音素隱藏特征;
    [0030]合成模型中的字編碼器接收字序列輸入,生成字隱藏特征;將生成的字隱藏狀態(tài)輸入到停頓預測器中,再投影到N類停頓等級上,取每個位置最大概率的停頓等級,得到每個字后的停頓等級標簽序列;將得到的停頓等級標簽序列經(jīng)過嵌入層,得到停頓等級的嵌入序列,再把嵌入序列和字隱藏特征拼接并投影到與原來字隱藏特征相同的維度上,得到新的字隱藏特征;
    [0031]根據(jù)音素與字的對應(yīng)關(guān)系,將字隱藏特征擴展到與音素隱藏特征相同長度,將兩者相加,得到總的語義隱藏特征;
    [0032]音高預測器,能量預測器和持續(xù)時長預測器分別接收語義隱藏特征,得到音高嵌入,能量嵌入和每個音素持續(xù)的時間,將語義隱藏特征與音高嵌入,能量嵌入相加,再根據(jù)預測出的音素持續(xù)時間將語義隱藏特征擴充到對應(yīng)的長度,得到最終的隱藏特征;
    [0033]將上述隱藏特征輸入到聲學特征解碼器,最終得到預測的聲學特征;
    [0034]利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,用此損失更新模型參數(shù),對模型進行訓練直至收斂;
    [0035]預訓練好的聲碼器接收預測的聲學特征輸入,輸出最終的語音數(shù)據(jù)。
    [0036]進一步的,所述獲取訓練數(shù)據(jù)集并處理的步驟包括:利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,使用該損失更新模型參數(shù),對模型進行訓練直至收斂;
    [0037]準備有文本標注的語音數(shù)據(jù),使用pypinyin工具包將每條語音的文本轉(zhuǎn)化為拼音文本,并記錄拼音文本中每個音素與文本中每個字的對應(yīng)關(guān)系;
    [0038]將文本、拼音文本、語音放在相同的目錄下,利用Montreal Forced Aligner工具將拼音文本與語音信號對齊,得到文本與語音的對齊結(jié)果;
    [0039]利用所述結(jié)果,得到每個音素的持續(xù)時間;
    [0040]根據(jù)每個音素的持續(xù)時間,從語音中提取每個音素對應(yīng)的音高和能量信息;
    [0041]文本與語音的本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】

    【技術(shù)特征摘要】
    1.一種基于語義信息自動預測停頓的語音合成方法,其特征在于,包括如下步驟:獲取訓練數(shù)據(jù)集并處理;構(gòu)建語音合成模型;將音素序列輸入到合成模型中的音素編碼器,生成音素隱藏特征;將字序列輸入到合成模型中的字編碼器,生成字隱藏特征;將生成的字隱藏特征輸入到停頓預測器中,再投影到N類停頓等級上,取每個位置最大概率的停頓等級,得到每個字后的停頓等級標簽序列;將得到的停頓等級標簽序列經(jīng)過嵌入層,得到停頓等級的嵌入序列,再把嵌入序列和字隱藏特征拼接并投影到與原來字隱藏特征相同的維度上,得到新的字隱藏特征;根據(jù)音素與字的對應(yīng)關(guān)系,將字隱藏特征擴展到與音素隱藏特征相同長度,將兩者相加,得到總的語義隱藏特征;將語義隱藏特征分別送入音高預測器和能量預測器,持續(xù)時長預測器得到音高嵌入,能量嵌入和每個音素持續(xù)的時間,將語義隱藏特征與音高嵌入,能量嵌入相加,再根據(jù)預測出的音素持續(xù)時間將語義隱藏特征擴充到對應(yīng)的長度,得到最終的隱藏特征;將上述隱藏特征輸入到聲學特征解碼器,最終得到預測的聲學特征;利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,用此損失更新模型參數(shù),對模型進行訓練直至收斂;將預測的聲學特征輸入到預訓練好的聲碼器,輸出最終的語音數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,所述獲取訓練數(shù)據(jù)集并處理的步驟包括:利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,使用該損失更新模型參數(shù),對模型進行訓練直至收斂;準備有文本標注的語音數(shù)據(jù),使用pypinyin工具包將每條語音的文本轉(zhuǎn)化為拼音文本,并記錄拼音文本中每個音素與文本中每個字的對應(yīng)關(guān)系;將文本、拼音文本、語音放在相同的目錄下,利用MontrealForced Aligner工具將拼音文本與語音信號對齊,得到文本與語音的對齊結(jié)果;利用所述結(jié)果,得到每個音素的持續(xù)時間;根據(jù)每個音素的持續(xù)時間,從語音中提取每個音素對應(yīng)的音高和能量信息;將停頓劃分為多個等級,根據(jù)文本與語音的對齊結(jié)果,獲得每個字的停頓等級信息。3.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,所述聲學特征采用的是梅爾譜,是從真實訓練數(shù)據(jù)集的語音中提取,作為模型的生成目標。4.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,經(jīng)過自注意結(jié)構(gòu)提取音素與音素之間的全局依賴信息,再經(jīng)過1維卷積進一步提取信息,重復四次以上步驟,得到音素隱藏特征。5.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,經(jīng)過自注意結(jié)構(gòu)提取字與字之間的全局依賴信息,再經(jīng)過1維卷積進一步提取信息,重復四次以上步驟,得到字隱藏特征。6.一種基于語義信息自動預測...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:柯登峰劉嗣平張順杜寶樂徐艷艷
    申請(專利權(quán))人:廣州九四智能科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻精品一区二区蜜桃网站| 久久青青草原亚洲av无码app| 国产久热精品无码激情| 精品人妻无码一区二区色欲产成人| 黑人无码精品又粗又大又长 | 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 无码av中文一二三区| 无码人妻久久一区二区三区| 日韩AV片无码一区二区不卡| 色欲AV永久无码精品无码| 成在人线av无码免费高潮水| 亚洲av无码专区在线观看下载 | 精品人妻无码一区二区三区蜜桃一 | 国产精品无码素人福利不卡| 无码精品A∨在线观看免费| 人妻系列AV无码专区| 人妻无码久久久久久久久久久| 亚洲av片不卡无码久久| 亚洲中文久久精品无码ww16| heyzo高无码国产精品| 精品无码久久久久久久久 | 熟妇人妻中文字幕无码老熟妇| 久久国产精品无码网站| 免费无码婬片aaa直播表情| 人妻丰满熟妇AV无码区免| 无码区日韩特区永久免费系列| 亚洲AV无码久久精品狠狠爱浪潮| 精品无码久久久久久久久久| 精品无码av无码专区| 本道久久综合无码中文字幕 | yy111111少妇无码影院| 免费无码又爽又黄又刺激网站| 国产精品无码AV不卡| 无码日韩AV一区二区三区| 深夜a级毛片免费无码| 国产成人无码精品久久久久免费 | 最新高清无码专区| 亚洲精品无码不卡在线播HE| 亚洲欧洲日产国码无码久久99 | 无码精品久久久久久人妻中字| 亚洲国产精品无码AAA片|