System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品亚洲专区无码唯爱网,日韩精品久久无码中文字幕,在线观看无码AV网址
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法技術(shù)

    技術(shù)編號:44367022 閱讀:4 留言:0更新日期:2025-02-25 09:46
    本發(fā)明專利技術(shù)涉及語音技術(shù)領(lǐng)域,公開了音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法,包括:獲取樣本音頻、樣本音頻的樣本文本和樣本音頻特征;采用風(fēng)格編碼層,基于樣本音頻特征,確定樣本風(fēng)格向量;采用說話人分類器進(jìn)行分類得到樣本分類結(jié)果;采用語音合成模型,基于樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到合成音頻;確定合成損失和分類損失;基于合成損失和分類損失進(jìn)行訓(xùn)練,將訓(xùn)練好的風(fēng)格編碼層集成到訓(xùn)練好的語音合成模型中,得到目標(biāo)語音合成模型。本發(fā)明專利技術(shù)無需依賴說話人信息的情況下,也能夠準(zhǔn)確提取音頻中的風(fēng)格向量,從而基于該風(fēng)格向量進(jìn)行訓(xùn)練,使得訓(xùn)練出的語音合成模型能夠準(zhǔn)確提取音頻的風(fēng)格向量,并且準(zhǔn)確地進(jìn)行語音合成。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及語音,具體涉及音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法


    技術(shù)介紹

    1、隨著人工智能技術(shù)的快速發(fā)展,語音合成(text-to-speech,tts)模型在人機(jī)交互、虛擬助手、有聲讀物、聲紋識別、語音分類等領(lǐng)域得到了廣泛應(yīng)用。高質(zhì)量的語音合成不僅需要自然流暢的聲音,還需要能夠準(zhǔn)確表達(dá)說話人的風(fēng)格。目前,通常是采用tts模型中的自回歸模型,例如tacotron模型,通過tacotron模型中的參考編碼器,根據(jù)說話人提取對應(yīng)的音頻風(fēng)格向量。

    2、然而,上述的tacotron模型在進(jìn)行音頻風(fēng)格向量的提取時,依賴說話人信息,在說話人信息不明確或有誤的情況下,提取出的音頻風(fēng)格向量可能會有所偏差,影響音頻風(fēng)格向量的準(zhǔn)確性,進(jìn)而基于該音頻風(fēng)格向量訓(xùn)練出的模型的合成效果差,并且模型的靈活性和泛化能力差。


    技術(shù)實(shí)現(xiàn)思路

    1、有鑒于此,本專利技術(shù)提供了一種音頻風(fēng)格向量訓(xùn)練方法及音頻風(fēng)格向量生成方法,以解決現(xiàn)有模型在提取音頻風(fēng)格向量時存在偏差,基于該音頻風(fēng)格向量訓(xùn)練出的模型的合成效果差,且模型的靈活性和泛化能力差的問題。

    2、第一方面,本專利技術(shù)提供了一種音頻風(fēng)格向量訓(xùn)練方法,該方法包括:

    3、獲取多個樣本音頻、多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征,任一樣本音頻攜帶說話人標(biāo)簽,樣本文本用于描述樣本音頻的風(fēng)格;

    4、對于任一樣本音頻,采用風(fēng)格編碼層,基于樣本音頻的樣本音頻特征,確定樣本音頻的樣本風(fēng)格向量;

    5、采用說話人分類器,對樣本音頻進(jìn)行分類,得到樣本分類結(jié)果;

    6、采用第一語音合成模型和第二語音合成模型,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,分別得到第一合成音頻和第二合成音頻,第一語音合成模型為條件變分自動編碼結(jié)構(gòu)的無監(jiān)督模型,第二語音合成模型為條件變分自動編碼結(jié)構(gòu)的有監(jiān)督模型;

    7、基于第一合成音頻和樣本音頻確定第一合成損失,基于第二合成音頻和樣本音頻確定第二合成損失,基于樣本音頻的樣本分類結(jié)果和說話人標(biāo)簽確定分類損失;

    8、基于第一合成損失、第二合成損失和分類損失,對第一語音合成模型、第二語音合成模型和風(fēng)格編碼層進(jìn)行訓(xùn)練,將訓(xùn)練好的風(fēng)格編碼層集成到訓(xùn)練好的第一語音合成模型和訓(xùn)練好的第二語音合成模型中,得到第一目標(biāo)語音合成模型和第二目標(biāo)語音合成模型。

    9、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過使用多個樣本音頻,可以覆蓋多種不同的風(fēng)格和說話人,提高模型的泛化能力,樣本文本提供了額外的上下文信息,有助于模型更好地理解音頻內(nèi)容和風(fēng)格,采用風(fēng)格編碼層能夠在不依賴說話人信息的情況下,從音頻特征中提取出與風(fēng)格相關(guān)的信息,采用說話人分類器進(jìn)行分類,有助于模型學(xué)習(xí)不同說話人的特征,分別使用條件變分自動編碼結(jié)構(gòu)的無監(jiān)督模型和有監(jiān)督模型進(jìn)行語音合成,得到第一合成音頻和第二合成音頻,提供了兩種不同的合成路徑,增強(qiáng)了模型的魯棒性和靈活性。無需依賴說話人信息的情況下,也能夠準(zhǔn)確提取音頻中的風(fēng)格向量,從而基于該風(fēng)格向量進(jìn)行訓(xùn)練,通過同時考慮合成損失和分類損失,可以從多個角度優(yōu)化模型,最終將訓(xùn)練好的風(fēng)格編碼層分別集成到的訓(xùn)練好的兩個語音合成模型中,以使兩個語音合成模型能夠準(zhǔn)確提取音頻中的風(fēng)格向量,并且能夠根據(jù)音頻的風(fēng)格向量,更準(zhǔn)確地進(jìn)行語音合成。

    10、在一種可選的實(shí)施方式中,獲取多個樣本音頻、多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前,該方法還包括:

    11、獲取多個初始音頻和多個初始音頻對應(yīng)的初始文本;

    12、對于任一初始音頻,調(diào)整初始音頻的采樣率,得到初始音頻對應(yīng)的樣本音頻;

    13、將初始音頻對應(yīng)的初始文本進(jìn)行正則化,得到初始文本對應(yīng)的樣本文本。

    14、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過對初始音頻和初始文本進(jìn)行預(yù)處理,確保了所有輸入數(shù)據(jù)的一致性,減少了由于數(shù)據(jù)格式不一致導(dǎo)致的誤差,統(tǒng)一的采樣率和標(biāo)準(zhǔn)化的文本提高了模型的輸入質(zhì)量,從而提升了模型的整體性能和魯棒性,提高了整體的計(jì)算效率。

    15、在一種可選的實(shí)施方式中,樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖,獲取多個樣本音頻對應(yīng)的樣本音頻特征,包括:

    16、對樣本音頻的樣本文本進(jìn)行音素化,得到樣本文本的音素;

    17、提取樣本音頻的音高特征、直譜圖和梅爾譜圖。

    18、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過將樣本文本轉(zhuǎn)換為對應(yīng)的音素序列,有助于更好地理解音頻的發(fā)音細(xì)節(jié),并提取樣本音頻的音頻特征,得到與音頻風(fēng)格相關(guān)的特征,有助于后續(xù)的語音合成。

    19、在一種可選的實(shí)施方式中,采用第一語音合成模型,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第一合成音頻,包括:

    20、采用第一語音合成模型的音高后驗(yàn)編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的音高特征進(jìn)行特征提取,得到第一樣本隱向量;

    21、采用第一語音合成模型的傅里葉編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的直譜圖進(jìn)行特征提取,得到第二樣本隱向量;

    22、采用第一語音合成模型的聲碼器,基于樣本音頻的樣本風(fēng)格向量、第一樣本隱向量和第二樣本隱向量,合成第一合成音頻。

    23、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過第一語音合成模型中的音高后驗(yàn)編碼層更好地捕捉情感信息,使合成音頻更具表現(xiàn)力,然后通過傅里葉編碼層更精細(xì)地捕捉頻域特性,有助于模型學(xué)習(xí)音頻的細(xì)微變化,最后通過聲碼器合成最終的音頻,通過融合音高特征和頻域特征,并引入了表示音頻風(fēng)格的風(fēng)格向量,能夠生成更加自然和連貫的合成音頻,確保了合成音頻與原始音頻的風(fēng)格一致,增強(qiáng)了語音合成的準(zhǔn)確性。

    24、在一種可選的實(shí)施方式中,采用第二語音合成模型,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第二合成音頻,包括:

    25、采用第二語音合成模型的音高后驗(yàn)編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的音高特征進(jìn)行特征提取,得到第三樣本隱向量;

    26、采用第二語音合成模型的傅里葉編碼層,基于樣本音頻的樣本風(fēng)格向量和樣本音頻特征中的直譜圖進(jìn)行特征提取,得到第四樣本隱向量;

    27、采用第二語音合成模型的流編碼層,基于第三樣本隱向量和第四樣本隱向量進(jìn)行特征提取,得到第五樣本隱向量;

    28、采用第二語音合成模型的樣本文本編碼層和保護(hù)層,基于樣本音頻的樣本音頻特征中的音素,生成樣本文本編碼;

    29、采用韻律單向搜索算法,基于第五樣本隱向量和樣本文本編碼,提取得到樣本韻律信息;

    30、采用第二語音合成模型的預(yù)測層,基于樣本音頻的樣本風(fēng)格向量、樣本文本編碼和樣本韻律信息,合成第二合成音頻。

    31、本專利技術(shù)實(shí)施例提供的音頻風(fēng)格向量訓(xùn)練方法,通過采用第二語音合成模型的音高后驗(yàn)編碼層更好地捕捉情感信息,使合成語音更具表現(xiàn)力,然后通過傅里葉編碼層更精細(xì)地捕捉頻域特性,有助于模型學(xué)習(xí)本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種音頻風(fēng)格向量訓(xùn)練方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個樣本音頻、所述多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前,所述方法還包括:

    3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖,所述獲取所述多個樣本音頻對應(yīng)的樣本音頻特征,包括:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用第一語音合成模型,基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第一合成音頻,包括:

    5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用第二語音合成模型,基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第二合成音頻,包括:

    6.一種音頻風(fēng)格向量生成方法,其特征在于,所述方法包括:

    7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述判斷所述說話人音頻是否攜帶對應(yīng)的文本信息之后,所述方法還包括:

    8.一種音頻風(fēng)格向量訓(xùn)練裝置,其特征在于,所述裝置包括:

    9.一種音頻風(fēng)格向量生成裝置,其特征在于,所述裝置包括:

    10.一種計(jì)算機(jī)設(shè)備,其特征在于,包括:

    ...

    【技術(shù)特征摘要】

    1.一種音頻風(fēng)格向量訓(xùn)練方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個樣本音頻、所述多個樣本音頻對應(yīng)的樣本文本和樣本音頻特征之前,所述方法還包括:

    3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本音頻特征包括音素、音高特征、直譜圖和梅爾譜圖,所述獲取所述多個樣本音頻對應(yīng)的樣本音頻特征,包括:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用第一語音合成模型,基于所述樣本音頻的樣本風(fēng)格向量和樣本音頻特征進(jìn)行語音合成,得到第一合成音頻,包括:

    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:孟慶梁,
    申請(專利權(quán))人:鎂佳北京科技有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩av无码一区二区三区| 亚洲AV永久无码区成人网站| 无码人妻丰满熟妇区BBBBXXXX| 日韩AV无码中文无码不卡电影| 乱人伦人妻中文字幕无码| 成人无码网WWW在线观看| 中文有码无码人妻在线| 免费a级毛片无码a∨免费软件| 亚洲中文字幕无码爆乳| 亚洲AV无码一区二区二三区入口| 亚洲AV无码之国产精品| 人妻无码一区二区三区免费| 久久青青草原亚洲av无码| 人妻少妇精品无码专区动漫| 97久久精品无码一区二区天美| 中文字幕无码乱人伦| 国产精品毛片无码| 曰韩无码二三区中文字幕| 无码高潮爽到爆的喷水视频app| 久久成人无码国产免费播放| 亚洲?V无码乱码国产精品 | 国产精品午夜福利在线无码| 亚洲真人无码永久在线观看| 精品欧洲av无码一区二区| 国产亚洲3p无码一区二区| 中文无码喷潮在线播放| 久久无码一区二区三区少妇| 亚洲成a人无码av波多野按摩 | 白嫩少妇激情无码| 日韩精品无码一区二区三区免费| 亚洲va中文字幕无码久久不卡| 亚洲熟妇无码八AV在线播放| 中文字幕无码日韩专区免费| 亚洲精品中文字幕无码蜜桃 | 国产在线无码不卡影视影院| 精品久久久久久无码人妻热| 久久精品无码一区二区app| 宅男在线国产精品无码| 亚洲精品无码高潮喷水在线| 无码专区—VA亚洲V天堂| 亚洲av无码片区一区二区三区|