音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法技術(shù)

技術(shù)編號：44367022 閱讀：4 留言：0更新日期：2025-02-25 09:46

本發(fā)明專利技術(shù)涉及語音技術(shù)領(lǐng)域，公開了音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法，包括：獲取樣本音頻、樣本音頻的樣本文本和樣本音頻特征；采用風(fēng)格編碼層，基于樣本音頻特征，確定樣本風(fēng)格向量；采用說話人分類器進(jìn)行分類得到樣本分類結(jié)果；采用語音合成模型，基于樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成，得到合成音頻；確定合成損失和分類損失；基于合成損失和分類損失進(jìn)行訓(xùn)練，將訓(xùn)練好的風(fēng)格編碼層集成到訓(xùn)練好的語音合成模型中，得到目標(biāo)語音合成模型。本發(fā)明專利技術(shù)無需依賴說話人信息的情況下，也能夠準(zhǔn)確提取音頻中的風(fēng)格向量，從而基于該風(fēng)格向量進(jìn)行訓(xùn)練，使得訓(xùn)練出的語音合成模型能夠準(zhǔn)確提取音頻的風(fēng)格向量，并且準(zhǔn)確地進(jìn)行語音合成。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及語音，具體涉及音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法。

技術(shù)介紹

1、隨著人工智能技術(shù)的快速發(fā)展，語音合成(text-to-speech，tts)模型在人機(jī)交互、虛擬助手、有聲讀物、聲紋識別、語音分類等領(lǐng)域得到了廣泛應(yīng)用。高質(zhì)量的語音合成不僅需要自然流暢的聲音，還需要能夠準(zhǔn)確表達(dá)說話人的風(fēng)格。目前，通常是采用tts模型中的自回歸模型，例如tacotron模型，通過tacotron模型中的參考編碼器，根據(jù)說話人提取對應(yīng)的音頻風(fēng)格向量。

2、然而，上述的tacotron模型在進(jìn)行音頻風(fēng)格向量的提取時，依賴說話人信息，在說話人信息不明確或有誤的情況下，提取出的音頻風(fēng)格向量可能會有所偏差，影響音頻風(fēng)格向量的準(zhǔn)確性，進(jìn)而基于該音頻風(fēng)格向量訓(xùn)練出的模型的合成效果差，并且模型的靈活性和泛化能力差。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本專利技術(shù)提供了一種音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法，以解決現(xiàn)有模型在提取音頻風(fēng)格向量時存在偏差，基于該音頻風(fēng)格向量訓(xùn)練出的模型的合成效果差，且模型的靈活性和泛化能力差的問題。

2、第一方面，本專利技術(shù)提供了一種音頻風(fēng)格向量訓(xùn)練方法，該方法包括：

3、獲取多個樣本音頻、多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征，任一樣本音頻攜帶說話人標(biāo)簽，樣本文本用于描述樣本音頻的風(fēng)格；

4、對于任一樣本音頻，采用風(fēng)格編碼層，基于樣本音頻的樣本音頻特征，確定樣本音頻的樣本風(fēng)格向量；

5、采用說話人分類器，

6、采用第一語音合成模型和第二語音合成模型，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成，分別得到第一合成音頻和第二合成音頻，第一語音合成模型為條件變分自動編碼結(jié)構(gòu)的無監(jiān)督模型，第二語音合成模型為條件變分自動編碼結(jié)構(gòu)的有監(jiān)督模型；

7、基于第一合成音頻和樣本音頻確定第一合成損失，基于第二合成音頻和樣本音頻確定第二合成損失，基于樣本音頻的樣本分類結(jié)果和說話人標(biāo)簽確定分類損失；

8、基于第一合成損失、第二合成損失和分類損失，對第一語音合成模型、第二語音合成模型和風(fēng)格編碼層進(jìn)行訓(xùn)練，將訓(xùn)練好的風(fēng)格編碼層集成到訓(xùn)練好的第一語音合成模型和訓(xùn)練好的第二語音合成模型中，得到第一目標(biāo)語音合成模型和第二目標(biāo)語音合成模型。

9、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法，通過使用多個樣本音頻，可以覆蓋多種不同的風(fēng)格和說話人，提高模型的泛化能力，樣本文本提供了額外的上下文信息，有助于模型更好地理解音頻內(nèi)容和風(fēng)格，采用風(fēng)格編碼層能夠在不依賴說話人信息的情況下，從音頻特征中提取出與風(fēng)格相關(guān)的信息，采用說話人分類器進(jìn)行分類，有助于模型學(xué)習(xí)不同說話人的特征，分別使用條件變分自動編碼結(jié)構(gòu)的無監(jiān)督模型和有監(jiān)督模型進(jìn)行語音合成，得到第一合成音頻和第二合成音頻，提供了兩種不同的合成路徑，增強(qiáng)了模型的魯棒性和靈活性。無需依賴說話人信息的情況下，也能夠準(zhǔn)確提取音頻中的風(fēng)格向量，從而基于該風(fēng)格向量進(jìn)行訓(xùn)練，通過同時考慮合成損失和分類損失，可以從多個角度優(yōu)化模型，最終將訓(xùn)練好的風(fēng)格編碼層分別集成到的訓(xùn)練好的兩個語音合成模型中，以使兩個語音合成模型能夠準(zhǔn)確提取音頻中的風(fēng)格向量，并且能夠根據(jù)音頻的風(fēng)格向量，更準(zhǔn)確地進(jìn)行語音合成。

10、在一種可選的實(shí)施方式中，獲取多個樣本音頻、多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前，該方法還包括：

11、獲取多個初始音頻和多個初始音頻對應(yīng)的初始文本；

12、對于任一初始音頻，調(diào)整初始音頻的采樣率，得到初始音頻對應(yīng)的樣本音頻；

13、將初始音頻對應(yīng)的初始文本進(jìn)行正則化，得到初始文本對應(yīng)的樣本文本。

14、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法，通過對初始音頻和初始文本進(jìn)行預(yù)處理，確保了所有輸入數(shù)據(jù)的一致性，減少了由于數(shù)據(jù)格式不一致導(dǎo)致的誤差，統(tǒng)一的采樣率和標(biāo)準(zhǔn)化的文本提高了模型的輸入質(zhì)量，從而提升了模型的整體性能和魯棒性，提高了整體的計(jì)算效率。

15、在一種可選的實(shí)施方式中，樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖，獲取多個樣本音頻對應(yīng)的樣本音頻特征，包括：

16、對樣本音頻的樣本文本進(jìn)行音素化，得到樣本文本的音素；

17、提取樣本音頻的音高特征、直譜圖和梅爾譜圖。

18、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法，通過將樣本文本轉(zhuǎn)換為對應(yīng)的音素序列，有助于更好地理解音頻的發(fā)音細(xì)節(jié)，并提取樣本音頻的音頻特征，得到與音頻風(fēng)格相關(guān)的特征，有助于后續(xù)的語音合成。

19、在一種可選的實(shí)施方式中，采用第一語音合成模型，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成，得到第一合成音頻，包括：

20、采用第一語音合成模型的音高后驗(yàn)編碼層，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的音高特征進(jìn)行特征提取，得到第一樣本隱向量；

21、采用第一語音合成模型的傅里葉編碼層，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的直譜圖進(jìn)行特征提取，得到第二樣本隱向量；

22、采用第一語音合成模型的聲碼器，基于樣本音頻的樣本風(fēng)格向量、第一樣本隱向量和第二樣本隱向量，合成第一合成音頻。

23、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法，通過第一語音合成模型中的音高后驗(yàn)編碼層更好地捕捉情感信息，使合成音頻更具表現(xiàn)力，然后通過傅里葉編碼層更精細(xì)地捕捉頻域特性，有助于模型學(xué)習(xí)音頻的細(xì)微變化，最后通過聲碼器合成最終的音頻，通過融合音高特征和頻域特征，并引入了表示音頻風(fēng)格的風(fēng)格向量，能夠生成更加自然和連貫的合成音頻，確保了合成音頻與原始音頻的風(fēng)格一致，增強(qiáng)了語音合成的準(zhǔn)確性。

24、在一種可選的實(shí)施方式中，采用第二語音合成模型，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成，得到第二合成音頻，包括：

25、采用第二語音合成模型的音高后驗(yàn)編碼層，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的音高特征進(jìn)行特征提取，得到第三樣本隱向量；

26、采用第二語音合成模型的傅里葉編碼層，基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的直譜圖進(jìn)行特征提取，得到第四樣本隱向量；

27、采用第二語音合成模型的流編碼層，基于第三樣本隱向量和第四樣本隱向量進(jìn)行特征提取，得到第五樣本隱向量；

28、采用第二語音合成模型的樣本文本編碼層和保護(hù)層，基于樣本音頻的樣本音頻特征中的音素，生成樣本文本編碼；

29、采用韻律單向搜索算法，基于第五樣本隱向量和樣本文本編碼，提取得到樣本韻律信息；

30、采用第二語音合成模型的預(yù)測層，基于樣本音頻的樣本風(fēng)格向量、樣本文本編碼和樣本韻律信息，合成第二合成音頻。

31、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法，通過采用第二語音合成模型的音高后驗(yàn)編碼層更好地捕捉情感信息，使合成語音更具表現(xiàn)力，然后通過傅里葉編碼層更精細(xì)地捕捉頻域特性，有助于模型學(xué)習(xí)本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種音頻風(fēng)格向量訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取多個樣本音頻、所述多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前，所述方法還包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖，所述獲取所述多個樣本音頻對應(yīng)的樣本音頻特征，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述采用第一語音合成模型，基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成，得到第一合成音頻，包括：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述采用第二語音合成模型，基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成，得到第二合成音頻，包括：

6.一種音頻風(fēng)格向量生成方法，其特征在于，所述方法包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述判斷所述說話人音頻是否攜帶對應(yīng)的文本信息之后，所述方法還包括：

8.一種音頻風(fēng)格向量訓(xùn)練裝置，其特征在于，所述裝置包括：

9.一種音頻風(fēng)格向量生成裝置，

10.一種計(jì)算機(jī)設(shè)備，其特征在于，包括：

...

【技術(shù)特征摘要】

1.一種音頻風(fēng)格向量訓(xùn)練方法，其特征在于，所述方法包括：

...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：孟慶梁，
申請(專利權(quán))人：鎂佳北京科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)