System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 蜜臀AV无码精品人妻色欲,中文字幕丰满乱子伦无码专区,亚洲va中文字幕无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種模型訓練方法、音頻生成方法、電子設備及存儲介質技術

    技術編號:44488139 閱讀:3 留言:0更新日期:2025-03-04 17:52
    本發明專利技術公開了一種模型訓練方法、音頻生成方法、電子設備及存儲介質。該方法包括:從當前訓練數據集中獲取一組訓練數據,訓練數據包括源音頻數據及其對應的文本數據,源音頻數據包括原始聲學特征;將原始聲學特征和文本數據輸入生成網絡,生成目標音頻數據;將目標音頻數據和源音頻數據輸入鑒別網絡,確定損失函數;若滿足訓練結束條件,則將生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型;若不滿足訓練結束條件,則根據損失函數,調節生成網絡和鑒別網絡的參數,并從當前訓練數據集中重新獲取一組訓練數據,返回執行將原始聲學特征和文本數據輸入生成網絡,生成目標音頻數據的步驟。本方案能夠生成多種音色且貼近自然語言的音頻。

    【技術實現步驟摘要】

    本專利技術涉及音頻處理,尤其涉及一種模型訓練方法、音頻生成方法、電子設備及存儲介質


    技術介紹

    1、文本轉語音(text?to?speech,tts)技術是一種將文本信息轉換為口語輸出的人工智能技術,廣泛應用于語音助手、有聲電子書、導航系統、電話客服、語音合成應用等領域。

    2、現有的tts技術通常通過兩個模型來實現:一個是文本轉換模型,一個是音頻合成模型。文本轉換模型主要是將文本轉換為中間表示(如梅爾譜),音頻合成模型主要是將中間表示轉換為最終的語音波形。然而,現有的tts技術只能合成固定音色的語音,并且在語音合成的過程中存在特征處理不足的問題,導致合成的語音缺乏自然流暢性。


    技術實現思路

    1、本專利技術提供了一種模型訓練方法、音頻生成方法、電子設備及存儲介質,只需訓練一次模型就能夠生成多種音色且貼近自然語言的音頻,提升了音頻的合成效率和質量。

    2、根據本專利技術的一方面,提供了一種模型訓練方法,包括:從當前訓練數據集中獲取一組訓練數據,其中,當前訓練數據集為當前聲源對應的訓練數據集,訓練數據包括源音頻數據及其對應的文本數據,源音頻數據包括原始聲學特征;將原始聲學特征和文本數據輸入生成網絡,生成目標音頻數據;將目標音頻數據和源音頻數據輸入鑒別網絡,確定損失函數;若滿足訓練結束條件,則將生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型,其中,子模型用于生成模擬當前聲源的音頻數據;若不滿足訓練結束條件,則根據損失函數,調節生成網絡和鑒別網絡的參數,并從當前訓練數據集中重新獲取一組訓練數據,返回執行將原始聲學特征和文本數據輸入生成網絡,生成目標音頻數據的步驟。

    3、可選的,生成網絡包括矢量量化層和全連接層;將原始聲學特征和文本數據輸入生成網絡,生成目標音頻數據,包括:從文本數據中提取文本特征;將原始聲學特征輸入矢量量化層,得到目標聲學特征,其中,矢量量化層為殘差矢量量化層,或者加法矢量量化層,或者乘積矢量量化層;將目標聲學特征和文本特征輸入全連接層,生成目標音頻數據。

    4、可選的,當矢量量化層為殘差矢量量化層時,殘差矢量量化層包括若干個依次連接的量化器,一個量化器對應一個編碼字典;將原始聲學特征輸入矢量量化層,得到目標聲學特征,包括:確定當前量化器的輸入矢量,其中,若當前量化器是殘差矢量量化層的第一個量化器,則當前量化器的輸入矢量為原始聲學特征;若當前量化器不是殘差矢量量化層的第一個量化器,則當前量化器的輸入矢量為當前量化器的前一個量化器的輸出矢量,前一個量化器的輸出矢量是根據前一個量化器的輸入矢量和前一個量化器的碼字確定的;根據當前量化器的輸入矢量和當前量化器對應的編碼字典,確定當前量化器的碼字;根據所有量化器的碼字,確定目標聲學特征。

    5、可選的,在確定當前量化器的碼字后,還包括;根據預設算法,更新當前量化器對應的編碼字典,其中,預設算法為k均值聚類算法和/或隨機優化算法。

    6、可選的,殘差矢量量化層包括的量化器的數量為8個。

    7、可選的,將目標音頻數據和源音頻數據輸入鑒別網絡,確定損失函數,包括:將目標音頻數據和源音頻數據輸入鑒別網絡,得到第一鑒別信息和第二鑒別信息,其中,第一鑒別信息用于表征目標音頻數據和源音頻數據之間差異最大的特征,第二鑒別信息用于表征目標音頻數據和源音頻數據之間除了差異最大的特征以外的特征的映射;根據第一鑒別信息和第二鑒別信息,構建損失函數。

    8、可選的,在將生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型后,還包括:獲取一組驗證數據,其中,驗證數據包括驗證音頻數據及其對應的驗證文本數據;將驗證文本數據輸入子模型,生成模擬音頻數據,并計算驗證音頻數據和模擬音頻數據之間的差異度參數;若差異度參數小于或者等于預設閾值,則確定子模型通過驗證;若差異度參數大于預設閾值,則在對子模型的參數進行微調后,重新獲取一組驗證數據,并返回執行將驗證文本數據輸入子模型,生成模擬音頻數據的步驟。

    9、根據本專利技術的另一方面,提供了一種音頻生成方法,包括:根據用戶選擇的目標聲源,從音頻生成模型中確定目標聲源匹配的目標子模型,其中,音頻生成模型包括若干個子模型,一個聲源匹配一個子模型,音頻生成模型采用本專利技術任一實施例的模型訓練方法得到;獲取目標文本數據,并將目標文本數據輸入目標子模型,生成模擬目標聲源的音頻數據。

    10、根據本專利技術的另一方面,提供了一種電子設備,電子設備包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執行的計算機程序,計算機程序被至少一個處理器執行,以使至少一個處理器能夠執行本專利技術任一實施例的模型訓練方法,或者能夠執行本專利技術任一實施例的音頻生成方法。

    11、根據本專利技術的另一方面,提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機指令,計算機指令用于使處理器執行時實現本專利技術任一實施例的模型訓練方法,或者能夠執行本專利技術任一實施例的音頻生成方法。

    12、本專利技術實施例的技術方案,通過從當前訓練數據集中獲取一組訓練數據,并將訓練數據中包括的源音頻數據的原始聲學特征和源音頻數據對應的文本數據輸入生成網絡,生成目標音頻數據,進而將目標音頻數據和源音頻數據輸入鑒別網絡,確定損失函數,從而以損失函數為基礎調節生成網絡和鑒別網絡的參數,不斷訓練生成網絡和鑒別網絡,最終將訓練好的生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型,以生成模擬當前聲源的音頻數據。該模型訓練方法,一方面,利用生成對抗網絡的思想訓練生成網絡和鑒別網絡,從而使生成網絡的輸出結果逼近真實的源音頻數據。與傳統的通過兩個模型來實現tts技術的方法相比,本專利技術只需訓練一次模型就可以生成貼近自然語言的音頻,提升了模型的訓練效率。另一方面,由于音頻生成模型包括若干個子模型,一個聲源匹配一個子模型,因此音頻生成模型可以適配各種各樣的聲源,為用戶提供了更多的聲源選擇,提升了音頻的合成效率和質量。

    13、應當理解,本部分所描述的內容并非旨在標識本專利技術的實施例的關鍵或重要特征,也不用于限制本專利技術的范圍。本專利技術的其它特征將通過以下的說明書而變得容易理解。

    本文檔來自技高網...

    【技術保護點】

    1.一種模型訓練方法,其特征在于,包括:

    2.根據權利要求1所述的模型訓練方法,其特征在于,所述生成網絡包括矢量量化層和全連接層;

    3.根據權利要求2所述的模型訓練方法,其特征在于,當所述矢量量化層為殘差矢量量化層時,所述殘差矢量量化層包括若干個依次連接的量化器,一個所述量化器對應一個編碼字典;

    4.根據權利要求3所述的模型訓練方法,其特征在于,在確定當前量化器的碼字后,還包括;

    5.根據權利要求3所述的模型訓練方法,其特征在于,所述殘差矢量量化層包括的量化器的數量為8個。

    6.根據權利要求1所述的模型訓練方法,其特征在于,所述將所述目標音頻數據和所述源音頻數據輸入鑒別網絡,確定損失函數,包括:

    7.根據權利要求1所述的模型訓練方法,其特征在于,在將所述生成網絡作為音頻生成模型的一個與所述當前聲源匹配的子模型后,還包括:

    8.一種音頻生成方法,其特征在于,包括:

    9.一種電子設備,其特征在于,所述電子設備包括:

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現權利要求1-7中任意一項所述的模型訓練方法,或者實現權利要求8所述的音頻生成方法。

    ...

    【技術特征摘要】

    1.一種模型訓練方法,其特征在于,包括:

    2.根據權利要求1所述的模型訓練方法,其特征在于,所述生成網絡包括矢量量化層和全連接層;

    3.根據權利要求2所述的模型訓練方法,其特征在于,當所述矢量量化層為殘差矢量量化層時,所述殘差矢量量化層包括若干個依次連接的量化器,一個所述量化器對應一個編碼字典;

    4.根據權利要求3所述的模型訓練方法,其特征在于,在確定當前量化器的碼字后,還包括;

    5.根據權利要求3所述的模型訓練方法,其特征在于,所述殘差矢量量化層包括的量化器的數量為8個。

    6.根據權利要求1所述的模...

    【專利技術屬性】
    技術研發人員:吳季林羅小華江亮
    申請(專利權)人:廣州萬孚生物技術股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲美日韩Av中文字幕无码久久久妻妇| 少妇无码AV无码专区线| 无码无套少妇毛多18PXXXX| 亚洲精品中文字幕无码AV| 亚洲AV无码专区在线电影成人| 精品少妇人妻av无码专区| 国产免费无码一区二区| 精品久久久无码中文字幕边打电话| 精品久久久久久无码人妻蜜桃| 亚洲AV综合色区无码二区偷拍 | 国产精品亚洲а∨无码播放不卡 | 无码精油按摩潮喷在播放| 国产色无码专区在线观看| 人妻丰满熟妇AV无码区免| 无码人妻精品一区二区三区99仓本| 国产免费AV片无码永久免费| 精品成在人线AV无码免费看| 中文无码人妻有码人妻中文字幕| 最新无码人妻在线不卡| 久久青草亚洲AV无码麻豆| 久久亚洲精品无码观看不卡| 国产怡春院无码一区二区| 伊人久久精品无码麻豆一区| 无码一区二区三区视频| 亚洲av无码专区国产乱码在线观看| yy111111少妇无码影院| 夜夜精品无码一区二区三区| 无码人妻一区二区三区兔费| 亚洲国产精品无码久久九九大片| 久久AV高潮AV无码AV| 人妻丰满AV无码久久不卡| 无码AV中文一区二区三区| 国产精品亚洲а∨无码播放 | 亚洲中文字幕无码久久| 精品无码无人网站免费视频| 亚洲日韩乱码中文无码蜜桃| 久久精品无码一区二区WWW| 亚洲AV日韩AV永久无码色欲| 无码中文人妻在线一区| 粉嫩大学生无套内射无码卡视频 | 精品少妇人妻av无码久久|