基于條件嵌入的表達性語音合成增強方法及系統技術方案

技術編號：44340593 閱讀：10 留言：0更新日期：2025-02-18 20:52

本發明專利技術屬于語音合成技術領域。提供了一種基于條件嵌入的表達性語音合成增強方法及系統，通過韻律預測器將音素級參數擴展到幀級參數，并結合全局條件變量生成自然的韻律特征，使得合成語音在韻律上更加豐富和自然；使用條件編碼器將情感和說話人標簽轉化為嵌入向量，通過特征融合生成全局條件嵌入，確保生成的語音符合說話人特征并準確傳達預期情感；通過使用預訓練的RoBERTa模型提取和預測情感信息，將其融入到語音合成過程，實現對情感的精確控制和細膩表達。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音合成，具體涉及一種基于條件嵌入的表達性語音合成增強方法、一種基于條件嵌入的表達性語音合成增強系統、一種計算機設備、一種計算機可讀存儲介質及一種計算機程序產品。

技術介紹

1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
，并不必然構成現有技術。

2、語音合成技術，也被廣泛稱作文本到語音(text-to-speech，tts)技術，是一門將文本信息轉化為口頭語言的人工智能技術。近些年來，得益于深度學習與人工智能領域的突飛猛進，語音合成技術經歷了一場質的革新。在這一
中，情感語音合成技術尤為引人注目，它旨在不僅僅實現文本內容到語音的精準轉換，還努力在合成語音中融入豐富的情感色彩，讓語音聽起來更加自然、飽滿且富有感染力。

3、專利技術人在研究中發現，盡管情感語音合成技術展現出巨大的潛力，但在處理帶有情感屬性的數據集時，現有技術仍然存在一些局限性，這些局限性主要表現在合成音頻的情感表達不夠自然，有時難以與文本所要傳達的情感氛圍相匹配

技術實現思路

1、為了解決現有技術的不足，本專利技術提供了一種基于條件嵌入的表達性語音合成增強方法及系統，能夠實現對合成語音情感表達的精確控制，生成更加細膩和真實的情感語音。

2、為了實現上述目的，本專利技術采用如下技術方案：

3、第一方面，本專利技術提供了一種基于條件嵌入的表達性語音合成增強方法。

4、一種基于條件嵌入的表達性語音合成增強方法，包括以下過程：

6、將文本處理并轉換成音素序列，將所述的音素序列通過文本編碼器進行編碼，將編碼結果傳給韻律預測器，與全局條件變量一起生成幀級潛在特征；

7、所述幀級潛在特征經過線性投影層映射成一組高斯分布μ和σ，隨機時長預測期根據全局條件向量以及所述編碼結果生成預測時長，利用預測的時長擴展文本的分布；

8、根據擴展后的文本分布，采樣出歸一化流，經過flow逆變換生成隱變量，最后經解碼器生成具有相應情感特征的語音輸出。

9、第二方面，本專利技術提供了一種基于條件嵌入的表達性語音合成增強系統，包括以下過程：

10、全局條件向量生成單元，被配置為：情感預測器根據文本生成相應的情感標簽，所述情感標簽與說話人標簽一起輸入到條件編碼器，進行特征融合生成全局條件向量；

11、幀級潛在特征生成單元，被配置為：將文本處理并轉換成音素序列，將所述的音素序列通過文本編碼器進行編碼，將編碼結果傳給韻律預測器，與全局條件變量一起生成幀級潛在特征；

12、預測時長生成單元，被配置為：所述幀級潛在特征經過線性投影層映射成一組高斯分布μ和σ，隨機時長預測期根據全局條件向量以及所述編碼結果生成預測時長，利用預測的時長擴展文本的分布；

13、語音輸出單元，被配置為：根據擴展后的文本分布，采樣出歸一化流，經過flow逆變換生成隱變量，最后經解碼器生成具有相應情感特征的語音輸出。

14、第三方面，本專利技術提供了一種計算機設備，包括：處理器和計算機可讀存儲介質；

15、處理器，適于執行計算機程序；

16、計算機可讀存儲介質，所述計算機可讀存儲介質中存儲有計算機程序，所述計算機程序被所述處理器執行時，實現如本專利技術第一方面所述的基于條件嵌入的表達性語音合成增強方法。

17、第四方面，本專利技術提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序適于被處理器加載并執行如本專利技術第一方面所述的基于條件嵌入的表達性語音合成增強方法。

18、第五方面，本專利技術提供了一種計算機程序產品，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時，實現如本專利技術第一方面所述的基于條件嵌入的表達性語音合成增強方法。

19、與現有技術相比，本專利技術的有益效果是：

20、1、本專利技術通過韻律預測器將音素級參數擴展到幀級參數，并結合全局條件變量生成自然的韻律特征，使得合成語音在韻律上更加豐富和自然。

21、2、本專利技術使用條件編碼器將情感和說話人標簽轉化為嵌入向量，通過特征融合生成全局條件嵌入，確保生成的語音符合說話人特征并準確傳達預期情感。

22、3、本專利技術通過使用預訓練的roberta模型提取和預測情感信息，將其融入到語音合成過程，實現對情感的精確控制和細膩表達。

23、本專利技術附加方面的優點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本專利技術的實踐了解到。

本文檔來自技高網...

【技術保護點】

1.一種基于條件嵌入的表達性語音合成增強方法，其特征在于，包括以下過程：

2.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

3.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

4.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

5.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

6.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

7.一種基于條件嵌入的表達性語音合成增強系統，其特征在于，包括以下過程：

8.一種計算機設備，其特征在于，包括：處理器和計算機可讀存儲介質；

9.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序適于被處理器加載并執行如權利要求1至6任一項所述的基于條件嵌入的表達性語音合成增強方法。

10.一種計算機程序產品，其特征在于，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時，實現如權利要求

...

【技術特征摘要】

1.一種基于條件嵌入的表達性語音合成增強方法，其特征在于，包括以下過程：

2.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

3.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

4.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

5.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

6.如權利要求1所述的基于條件嵌入的表達性語音合成增強方法，其特征在于，

7.一種基...

【專利技術屬性】
技術研發人員：郭猛，閆凡凡，張茂宇，徐海，丁浩然，
申請(專利權)人：山東省計算中心國家超級計算濟南中心，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術