System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及語音,具體涉及音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法。
技術(shù)介紹
1、隨著人工智能技術(shù)的快速發(fā)展,語音合成(text-to-speech,tts)模型在人機(jī)交互、虛擬助手、有聲讀物、聲紋識別、語音分類等領(lǐng)域得到了廣泛應(yīng)用。高質(zhì)量的語音合成不僅需要自然流暢的聲音,還需要能夠準(zhǔn)確表達(dá)說話人的風(fēng)格。目前,通常是采用tts模型中的自回歸模型,例如tacotron模型,通過tacotron模型中的參考編碼器,根據(jù)說話人提取對應(yīng)的音頻風(fēng)格向量。
2、然而,上述的tacotron模型在進(jìn)行音頻風(fēng)格向量的提取時,依賴說話人信息,在說話人信息不明確或有誤的情況下,提取出的音頻風(fēng)格向量可能會有所偏差,影響音頻風(fēng)格向量的準(zhǔn)確性,進(jìn)而基于該音頻風(fēng)格向量訓(xùn)練出的模型的合成效果差,并且模型的靈活性和泛化能力差。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本專利技術(shù)提供了一種音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法,以解決現(xiàn)有模型在提取音頻風(fēng)格向量時存在偏差,基于該音頻風(fēng)格向量訓(xùn)練出的模型的合成效果差,且模型的靈活性和泛化能力差的問題。
2、第一方面,本專利技術(shù)提供了一種音頻風(fēng)格向量訓(xùn)練方法,該方法包括:
3、獲取多個樣本音頻、多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征,任一樣本音頻攜帶說話人標(biāo)簽,樣本文本用于描述樣本音頻的風(fēng)格;
4、對于任一樣本音頻,采用風(fēng)格編碼層,基于樣本音頻的樣本音頻特征,確定樣本音頻的樣本風(fēng)格向量;
5、采用說話人分類器,
6、采用第一語音合成模型和第二語音合成模型,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,分別得到第一合成音頻和第二合成音頻,第一語音合成模型為條件變分自動編碼結(jié)構(gòu)的無監(jiān)督模型,第二語音合成模型為條件變分自動編碼結(jié)構(gòu)的有監(jiān)督模型;
7、基于第一合成音頻和樣本音頻確定第一合成損失,基于第二合成音頻和樣本音頻確定第二合成損失,基于樣本音頻的樣本分類結(jié)果和說話人標(biāo)簽確定分類損失;
8、基于第一合成損失、第二合成損失和分類損失,對第一語音合成模型、第二語音合成模型和風(fēng)格編碼層進(jìn)行訓(xùn)練,將訓(xùn)練好的風(fēng)格編碼層集成到訓(xùn)練好的第一語音合成模型和訓(xùn)練好的第二語音合成模型中,得到第一目標(biāo)語音合成模型和第二目標(biāo)語音合成模型。
9、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過使用多個樣本音頻,可以覆蓋多種不同的風(fēng)格和說話人,提高模型的泛化能力,樣本文本提供了額外的上下文信息,有助于模型更好地理解音頻內(nèi)容和風(fēng)格,采用風(fēng)格編碼層能夠在不依賴說話人信息的情況下,從音頻特征中提取出與風(fēng)格相關(guān)的信息,采用說話人分類器進(jìn)行分類,有助于模型學(xué)習(xí)不同說話人的特征,分別使用條件變分自動編碼結(jié)構(gòu)的無監(jiān)督模型和有監(jiān)督模型進(jìn)行語音合成,得到第一合成音頻和第二合成音頻,提供了兩種不同的合成路徑,增強(qiáng)了模型的魯棒性和靈活性。無需依賴說話人信息的情況下,也能夠準(zhǔn)確提取音頻中的風(fēng)格向量,從而基于該風(fēng)格向量進(jìn)行訓(xùn)練,通過同時考慮合成損失和分類損失,可以從多個角度優(yōu)化模型,最終將訓(xùn)練好的風(fēng)格編碼層分別集成到的訓(xùn)練好的兩個語音合成模型中,以使兩個語音合成模型能夠準(zhǔn)確提取音頻中的風(fēng)格向量,并且能夠根據(jù)音頻的風(fēng)格向量,更準(zhǔn)確地進(jìn)行語音合成。
10、在一種可選的實(shí)施方式中,獲取多個樣本音頻、多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前,該方法還包括:
11、獲取多個初始音頻和多個初始音頻對應(yīng)的初始文本;
12、對于任一初始音頻,調(diào)整初始音頻的采樣率,得到初始音頻對應(yīng)的樣本音頻;
13、將初始音頻對應(yīng)的初始文本進(jìn)行正則化,得到初始文本對應(yīng)的樣本文本。
14、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過對初始音頻和初始文本進(jìn)行預(yù)處理,確保了所有輸入數(shù)據(jù)的一致性,減少了由于數(shù)據(jù)格式不一致導(dǎo)致的誤差,統(tǒng)一的采樣率和標(biāo)準(zhǔn)化的文本提高了模型的輸入質(zhì)量,從而提升了模型的整體性能和魯棒性,提高了整體的計(jì)算效率。
15、在一種可選的實(shí)施方式中,樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖,獲取多個樣本音頻對應(yīng)的樣本音頻特征,包括:
16、對樣本音頻的樣本文本進(jìn)行音素化,得到樣本文本的音素;
17、提取樣本音頻的音高特征、直譜圖和梅爾譜圖。
18、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過將樣本文本轉(zhuǎn)換為對應(yīng)的音素序列,有助于更好地理解音頻的發(fā)音細(xì)節(jié),并提取樣本音頻的音頻特征,得到與音頻風(fēng)格相關(guān)的特征,有助于后續(xù)的語音合成。
19、在一種可選的實(shí)施方式中,采用第一語音合成模型,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第一合成音頻,包括:
20、采用第一語音合成模型的音高后驗(yàn)編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的音高特征進(jìn)行特征提取,得到第一樣本隱向量;
21、采用第一語音合成模型的傅里葉編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的直譜圖進(jìn)行特征提取,得到第二樣本隱向量;
22、采用第一語音合成模型的聲碼器,基于樣本音頻的樣本風(fēng)格向量、第一樣本隱向量和第二樣本隱向量,合成第一合成音頻。
23、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過第一語音合成模型中的音高后驗(yàn)編碼層更好地捕捉情感信息,使合成音頻更具表現(xiàn)力,然后通過傅里葉編碼層更精細(xì)地捕捉頻域特性,有助于模型學(xué)習(xí)音頻的細(xì)微變化,最后通過聲碼器合成最終的音頻,通過融合音高特征和頻域特征,并引入了表示音頻風(fēng)格的風(fēng)格向量,能夠生成更加自然和連貫的合成音頻,確保了合成音頻與原始音頻的風(fēng)格一致,增強(qiáng)了語音合成的準(zhǔn)確性。
24、在一種可選的實(shí)施方式中,采用第二語音合成模型,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第二合成音頻,包括:
25、采用第二語音合成模型的音高后驗(yàn)編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的音高特征進(jìn)行特征提取,得到第三樣本隱向量;
26、采用第二語音合成模型的傅里葉編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的直譜圖進(jìn)行特征提取,得到第四樣本隱向量;
27、采用第二語音合成模型的流編碼層,基于第三樣本隱向量和第四樣本隱向量進(jìn)行特征提取,得到第五樣本隱向量;
28、采用第二語音合成模型的樣本文本編碼層和保護(hù)層,基于樣本音頻的樣本音頻特征中的音素,生成樣本文本編碼;
29、采用韻律單向搜索算法,基于第五樣本隱向量和樣本文本編碼,提取得到樣本韻律信息;
30、采用第二語音合成模型的預(yù)測層,基于樣本音頻的樣本風(fēng)格向量、樣本文本編碼和樣本韻律信息,合成第二合成音頻。
31、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過采用第二語音合成模型的音高后驗(yàn)編碼層更好地捕捉情感信息,使合成語音更具表現(xiàn)力,然后通過傅里葉編碼層更精細(xì)地捕捉頻域特性,有助于模型學(xué)習(xí)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種音頻風(fēng)格向量訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個樣本音頻、所述多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖,所述獲取所述多個樣本音頻對應(yīng)的樣本音頻特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用第一語音合成模型,基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第一合成音頻,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用第二語音合成模型,基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第二合成音頻,包括:
6.一種音頻風(fēng)格向量生成方法,其特征在于,所述方法包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述判斷所述說話人音頻是否攜帶對應(yīng)的文本信息之后,所述方法還包括:
8.一種音頻風(fēng)格向量訓(xùn)練裝置,其特征在于,所述裝置包括:
9.一種音頻風(fēng)格向量生成裝置,
10.一種計(jì)算機(jī)設(shè)備,其特征在于,包括:
...【技術(shù)特征摘要】
1.一種音頻風(fēng)格向量訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個樣本音頻、所述多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖,所述獲取所述多個樣本音頻對應(yīng)的樣本音頻特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用第一語音合成模型,基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第一合成音頻,包括:
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:孟慶梁,
申請(專利權(quán))人:鎂佳北京科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。