【技術(shù)實現(xiàn)步驟摘要】
一種基于語義信息自動預測停頓的語音合成方法、系統(tǒng)
[0001]本申請涉及語音合成領(lǐng)域,尤其涉及一種基于語義信息自動預測停頓的語音合成方法、系統(tǒng)。
技術(shù)介紹
[0002]語音合成(Speech Synthesis),又叫做文本到語音(Text
?
to
?
Speech,TTS),是一種將文本轉(zhuǎn)換為語音的技術(shù)。它的任務(wù)是使機器發(fā)出類似人的聲音,在智能語音交互、有聲讀物中應(yīng)用廣泛。近年來,基于深度學習(Deep Learning)和神經(jīng)網(wǎng)絡(luò)(Neural Network)的建模方法在機器學習領(lǐng)域各個任務(wù)上都取得了快速的發(fā)展,語音合成技術(shù)也在此基礎(chǔ)上得到了顯著的提升。隨著信息技術(shù)及人工智能技術(shù)的發(fā)展,各種應(yīng)用場景對語音合成的效果的要求也越來越高。
[0003]傳統(tǒng)的基于深度學習的語音合成方法,一般分為三個階段。第一個階段為文字經(jīng)過文本正則化,進一步得到音素(Phoneme)序列、韻律標注等信息。第二階段將上一階段得到的信息輸入聲學模型中,預測出信息對應(yīng)的聲學特征。最后階段將聲學特征通過聲碼器,還原成我們可以聽懂的語音。一般第二階段的聲學模型的輸入只有音素序列這單一信息,雖然已經(jīng)可以合成出與人類發(fā)音相近的語音。但是其合成的語音還是存在一些機械感,在自然度和韻律方面與人類真實的錄音還是存在不小的差距。
技術(shù)實現(xiàn)思路
[0004]本申請實施例提供一種基于融合語義信息的語音合成的方法及裝置的相關(guān)技術(shù)方案,用以解決現(xiàn)有技術(shù)中顯式的韻律表征提取容易出現(xiàn)誤差,無法將不同的韻律表征進 ...
【技術(shù)保護點】
【技術(shù)特征摘要】
1.一種基于語義信息自動預測停頓的語音合成方法,其特征在于,包括如下步驟:獲取訓練數(shù)據(jù)集并處理;構(gòu)建語音合成模型;將音素序列輸入到合成模型中的音素編碼器,生成音素隱藏特征;將字序列輸入到合成模型中的字編碼器,生成字隱藏特征;將生成的字隱藏特征輸入到停頓預測器中,再投影到N類停頓等級上,取每個位置最大概率的停頓等級,得到每個字后的停頓等級標簽序列;將得到的停頓等級標簽序列經(jīng)過嵌入層,得到停頓等級的嵌入序列,再把嵌入序列和字隱藏特征拼接并投影到與原來字隱藏特征相同的維度上,得到新的字隱藏特征;根據(jù)音素與字的對應(yīng)關(guān)系,將字隱藏特征擴展到與音素隱藏特征相同長度,將兩者相加,得到總的語義隱藏特征;將語義隱藏特征分別送入音高預測器和能量預測器,持續(xù)時長預測器得到音高嵌入,能量嵌入和每個音素持續(xù)的時間,將語義隱藏特征與音高嵌入,能量嵌入相加,再根據(jù)預測出的音素持續(xù)時間將語義隱藏特征擴充到對應(yīng)的長度,得到最終的隱藏特征;將上述隱藏特征輸入到聲學特征解碼器,最終得到預測的聲學特征;利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,用此損失更新模型參數(shù),對模型進行訓練直至收斂;將預測的聲學特征輸入到預訓練好的聲碼器,輸出最終的語音數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,所述獲取訓練數(shù)據(jù)集并處理的步驟包括:利用預測的聲學特征、音高、能量、持續(xù)時間和真實語音提取的聲學特征、音高、能量、持續(xù)時間計算模型損失,使用該損失更新模型參數(shù),對模型進行訓練直至收斂;準備有文本標注的語音數(shù)據(jù),使用pypinyin工具包將每條語音的文本轉(zhuǎn)化為拼音文本,并記錄拼音文本中每個音素與文本中每個字的對應(yīng)關(guān)系;將文本、拼音文本、語音放在相同的目錄下,利用MontrealForced Aligner工具將拼音文本與語音信號對齊,得到文本與語音的對齊結(jié)果;利用所述結(jié)果,得到每個音素的持續(xù)時間;根據(jù)每個音素的持續(xù)時間,從語音中提取每個音素對應(yīng)的音高和能量信息;將停頓劃分為多個等級,根據(jù)文本與語音的對齊結(jié)果,獲得每個字的停頓等級信息。3.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,所述聲學特征采用的是梅爾譜,是從真實訓練數(shù)據(jù)集的語音中提取,作為模型的生成目標。4.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,經(jīng)過自注意結(jié)構(gòu)提取音素與音素之間的全局依賴信息,再經(jīng)過1維卷積進一步提取信息,重復四次以上步驟,得到音素隱藏特征。5.根據(jù)權(quán)利要求1所述的基于語義信息自動預測停頓的語音合成方法,其特征在于,經(jīng)過自注意結(jié)構(gòu)提取字與字之間的全局依賴信息,再經(jīng)過1維卷積進一步提取信息,重復四次以上步驟,得到字隱藏特征。6.一種基于語義信息自動預測...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:柯登峰,劉嗣平,張順,杜寶樂,徐艷艷,
申請(專利權(quán))人:廣州九四智能科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。