一種模型訓練方法、音頻生成方法、電子設備及存儲介質技術

技術編號：44488139 閱讀：3 留言：0更新日期：2025-03-04 17:52

本發明專利技術公開了一種模型訓練方法、音頻生成方法、電子設備及存儲介質。該方法包括：從當前訓練數據集中獲取一組訓練數據，訓練數據包括源音頻數據及其對應的文本數據，源音頻數據包括原始聲學特征；將原始聲學特征和文本數據輸入生成網絡，生成目標音頻數據；將目標音頻數據和源音頻數據輸入鑒別網絡，確定損失函數；若滿足訓練結束條件，則將生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型；若不滿足訓練結束條件，則根據損失函數，調節生成網絡和鑒別網絡的參數，并從當前訓練數據集中重新獲取一組訓練數據，返回執行將原始聲學特征和文本數據輸入生成網絡，生成目標音頻數據的步驟。本方案能夠生成多種音色且貼近自然語言的音頻。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及音頻處理，尤其涉及一種模型訓練方法、音頻生成方法、電子設備及存儲介質。

技術介紹

1、文本轉語音(text?to?speech，tts)技術是一種將文本信息轉換為口語輸出的人工智能技術，廣泛應用于語音助手、有聲電子書、導航系統、電話客服、語音合成應用等領域。

2、現有的tts技術通常通過兩個模型來實現：一個是文本轉換模型，一個是音頻合成模型。文本轉換模型主要是將文本轉換為中間表示(如梅爾譜)，音頻合成模型主要是將中間表示轉換為最終的語音波形。然而，現有的tts技術只能合成固定音色的語音，并且在語音合成的過程中存在特征處理不足的問題，導致合成的語音缺乏自然流暢性。

技術實現思路

1、本專利技術提供了一種模型訓練方法、音頻生成方法、電子設備及存儲介質，只需訓練一次模型就能夠生成多種音色且貼近自然語言的音頻，提升了音頻的合成效率和質量。

2、根據本專利技術的一方面，提供了一種模型訓練方法，包括：從當前訓練數據集中獲取一組訓練數據，其中，當前訓練數據集為當前聲源對應的訓練數據集，訓練數據包括源音頻數據及其對應的文本數據，源音頻數據包括原始聲學特征；將原始聲學特征和文本數據輸入生成網絡，生成目標音頻數據；將目標音頻數據和源音頻數據輸入鑒別網絡，確定損失函數；若滿足訓練結束條件，則將生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型，其中，子模型用于生成模擬當前聲源的音頻數據；若不滿足訓練結束條件，則根據損失函數，調節生成網絡和鑒別網絡的參數，并從當前訓

3、可選的，生成網絡包括矢量量化層和全連接層；將原始聲學特征和文本數據輸入生成網絡，生成目標音頻數據，包括：從文本數據中提取文本特征；將原始聲學特征輸入矢量量化層，得到目標聲學特征，其中，矢量量化層為殘差矢量量化層，或者加法矢量量化層，或者乘積矢量量化層；將目標聲學特征和文本特征輸入全連接層，生成目標音頻數據。

4、可選的，當矢量量化層為殘差矢量量化層時，殘差矢量量化層包括若干個依次連接的量化器，一個量化器對應一個編碼字典；將原始聲學特征輸入矢量量化層，得到目標聲學特征，包括：確定當前量化器的輸入矢量，其中，若當前量化器是殘差矢量量化層的第一個量化器，則當前量化器的輸入矢量為原始聲學特征；若當前量化器不是殘差矢量量化層的第一個量化器，則當前量化器的輸入矢量為當前量化器的前一個量化器的輸出矢量，前一個量化器的輸出矢量是根據前一個量化器的輸入矢量和前一個量化器的碼字確定的；根據當前量化器的輸入矢量和當前量化器對應的編碼字典，確定當前量化器的碼字；根據所有量化器的碼字，確定目標聲學特征。

5、可選的，在確定當前量化器的碼字后，還包括；根據預設算法，更新當前量化器對應的編碼字典，其中，預設算法為k均值聚類算法和/或隨機優化算法。

6、可選的，殘差矢量量化層包括的量化器的數量為8個。

7、可選的，將目標音頻數據和源音頻數據輸入鑒別網絡，確定損失函數，包括：將目標音頻數據和源音頻數據輸入鑒別網絡，得到第一鑒別信息和第二鑒別信息，其中，第一鑒別信息用于表征目標音頻數據和源音頻數據之間差異最大的特征，第二鑒別信息用于表征目標音頻數據和源音頻數據之間除了差異最大的特征以外的特征的映射；根據第一鑒別信息和第二鑒別信息，構建損失函數。

8、可選的，在將生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型后，還包括：獲取一組驗證數據，其中，驗證數據包括驗證音頻數據及其對應的驗證文本數據；將驗證文本數據輸入子模型，生成模擬音頻數據，并計算驗證音頻數據和模擬音頻數據之間的差異度參數；若差異度參數小于或者等于預設閾值，則確定子模型通過驗證；若差異度參數大于預設閾值，則在對子模型的參數進行微調后，重新獲取一組驗證數據，并返回執行將驗證文本數據輸入子模型，生成模擬音頻數據的步驟。

9、根據本專利技術的另一方面，提供了一種音頻生成方法，包括：根據用戶選擇的目標聲源，從音頻生成模型中確定目標聲源匹配的目標子模型，其中，音頻生成模型包括若干個子模型，一個聲源匹配一個子模型，音頻生成模型采用本專利技術任一實施例的模型訓練方法得到；獲取目標文本數據，并將目標文本數據輸入目標子模型，生成模擬目標聲源的音頻數據。

10、根據本專利技術的另一方面，提供了一種電子設備，電子設備包括：至少一個處理器；以及與至少一個處理器通信連接的存儲器；其中，存儲器存儲有可被至少一個處理器執行的計算機程序，計算機程序被至少一個處理器執行，以使至少一個處理器能夠執行本專利技術任一實施例的模型訓練方法，或者能夠執行本專利技術任一實施例的音頻生成方法。

11、根據本專利技術的另一方面，提供了一種計算機可讀存儲介質，計算機可讀存儲介質存儲有計算機指令，計算機指令用于使處理器執行時實現本專利技術任一實施例的模型訓練方法，或者能夠執行本專利技術任一實施例的音頻生成方法。

12、本專利技術實施例的技術方案，通過從當前訓練數據集中獲取一組訓練數據，并將訓練數據中包括的源音頻數據的原始聲學特征和源音頻數據對應的文本數據輸入生成網絡，生成目標音頻數據，進而將目標音頻數據和源音頻數據輸入鑒別網絡，確定損失函數，從而以損失函數為基礎調節生成網絡和鑒別網絡的參數，不斷訓練生成網絡和鑒別網絡，最終將訓練好的生成網絡作為音頻生成模型的一個與當前聲源匹配的子模型，以生成模擬當前聲源的音頻數據。該模型訓練方法，一方面，利用生成對抗網絡的思想訓練生成網絡和鑒別網絡，從而使生成網絡的輸出結果逼近真實的源音頻數據。與傳統的通過兩個模型來實現tts技術的方法相比，本專利技術只需訓練一次模型就可以生成貼近自然語言的音頻，提升了模型的訓練效率。另一方面，由于音頻生成模型包括若干個子模型，一個聲源匹配一個子模型，因此音頻生成模型可以適配各種各樣的聲源，為用戶提供了更多的聲源選擇，提升了音頻的合成效率和質量。

13、應當理解，本部分所描述的內容并非旨在標識本專利技術的實施例的關鍵或重要特征，也不用于限制本專利技術的范圍。本專利技術的其它特征將通過以下的說明書而變得容易理解。

本文檔來自技高網...

【技術保護點】

1.一種模型訓練方法，其特征在于，包括：

2.根據權利要求1所述的模型訓練方法，其特征在于，所述生成網絡包括矢量量化層和全連接層；

3.根據權利要求2所述的模型訓練方法，其特征在于，當所述矢量量化層為殘差矢量量化層時，所述殘差矢量量化層包括若干個依次連接的量化器，一個所述量化器對應一個編碼字典；

4.根據權利要求3所述的模型訓練方法，其特征在于，在確定當前量化器的碼字后，還包括；

5.根據權利要求3所述的模型訓練方法，其特征在于，所述殘差矢量量化層包括的量化器的數量為8個。

6.根據權利要求1所述的模型訓練方法，其特征在于，所述將所述目標音頻數據和所述源音頻數據輸入鑒別網絡，確定損失函數，包括：

7.根據權利要求1所述的模型訓練方法，其特征在于，在將所述生成網絡作為音頻生成模型的一個與所述當前聲源匹配的子模型后，還包括：

8.一種音頻生成方法，其特征在于，包括：

9.一種電子設備，其特征在于，所述電子設備包括：

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介

...

【技術特征摘要】

1.一種模型訓練方法，其特征在于，包括：

2.根據權利要求1所述的模型訓練方法，其特征在于，所述生成網絡包括矢量量化層和全連接層；

4.根據權利要求3所述的模型訓練方法，其特征在于，在確定當前量化器的碼字后，還包括；

5.根據權利要求3所述的模型訓練方法，其特征在于，所述殘差矢量量化層包括的量化器的數量為8個。

6.根據權利要求1所述的模...

【專利技術屬性】
技術研發人員：吳季林，羅小華，江亮，
申請(專利權)人：廣州萬孚生物技術股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術