語音合成方法、裝置、設備及計算機介質制造方法及圖紙

技術編號：44477243 閱讀：4 留言：0更新日期：2025-03-04 17:45

本申請?zhí)峁┝艘环N語音合成方法、裝置、設備及計算機可讀介質，該申請通過獲取輸入數(shù)據(jù)，所述輸入數(shù)據(jù)包括參考音頻和目標合成文本，然后根據(jù)所述參考音頻，確定目標音色特征和參考語音內容特征序列，其中，所述參考語音內容特征序列中的參考語音內容特征用于表征所述參考語音的音頻內容、語調、韻律和說話習慣中的至少一項，再將所述參考語音內容特征序列和所述目標合成文本輸入預先訓練的語音內容特征生成模型，生成目標語音內容特征序列，然后根據(jù)所述目標音色特征和所述目標語音內容特征序列生成目標合成音頻，從而能夠將目標合成文本轉換成與參考音頻的音色、語調、韻律和說話習慣等相符的目標合成音頻，提高語音合成的真實性。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本申請涉及計算機，尤其涉及一種語音合成方法、裝置、設備及計算機可讀介質。

技術介紹

1、本部分旨在為權利要求書中陳述的本申請的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就被認為是現(xiàn)有技術。

2、隨著人工智能技術的發(fā)展，文本轉語音(text-to-speech,tts)系統(tǒng)已經成為人們日常生活中的一部分。tts是一種能夠將文本信息轉換成可聽聲音的技術，這種技術可以將任何書面文字轉換成口頭表述，在人機交互、虛擬助手、智能客服等領域得到了廣泛應用。

3、傳統(tǒng)的文本轉語音技術，輸出的是單一的機器合成音，這種聲音往往較為機械和單調，缺乏自然語言的情感色彩，難以模仿特定個體的音色和說話風格，也就無法生成個性化的、類人化的語音。

4、鑒于上述問題，需要提供一種能夠模仿特定個體的音色和說話風格的、更加逼真的語音合成方案。

技術實現(xiàn)思路

1、本申請的多個方面提供一種語音合成方法、裝置、設備及計算機可讀存儲介質，用以對特定個體的音色和說話風格進行全面的模仿，提高語音合成的真實性。

2、本申請的一方面，提供一種語音合成方法，其中，所述方法包括：

3、獲取輸入數(shù)據(jù)，所述輸入數(shù)據(jù)包括參考音頻和目標合成文本；

4、根據(jù)所述參考音頻，確定目標音色特征和參考語音內容特征序列，其中，所述參考語音內容特征序列中的參考語音內容特征用于表征所述參考語音的音頻內容、語調、韻律和說話習慣中的至少一項；

5、將所述參考語音內容特征

6、根據(jù)所述目標音色特征和所述目標語音內容特征序列生成目標合成音頻。

7、本申請的另一方面，提供一種語音合成裝置，其中，所述裝置包括：

8、輸入數(shù)據(jù)獲取模塊，用于獲取輸入數(shù)據(jù)，所述輸入數(shù)據(jù)包括參考音頻和目標合成文本；

9、參考音頻處理模塊，用于根據(jù)所述參考音頻，確定目標音色特征和參考語音內容特征序列，其中，所述參考語音內容特征序列中的參考語音內容特征用于表征所述參考語音的音頻內容、語調、韻律和說話習慣中的至少一項；

10、內容特征序列生成模塊，用于將所述參考語音內容特征序列和所述目標合成文本輸入預先訓練的語音內容特征生成模型，生成目標語音內容特征序列；

11、音頻合成模塊，用于根據(jù)所述目標音色特征和所述目標語音內容特征序列生成目標合成音頻。

12、本申請的另一方面，提供一種電子設備，所述電子設備包括：

13、至少一個處理器；以及

14、與所述至少一個處理器通信連接的存儲器；其中，

15、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行如上所述的語音合成方法。

16、本申請的另一方面，提供一種計算機可讀存儲介質，其上存儲有計算機程序指令，所述計算機程序指令可被處理器執(zhí)行以實現(xiàn)如上所述的語音合成方法。

17、本申請實施例提供的方案中，通過獲取輸入數(shù)據(jù)，所述輸入數(shù)據(jù)包括參考音頻和目標合成文本，然后根據(jù)所述參考音頻，確定目標音色特征和參考語音內容特征序列，其中，所述參考語音內容特征序列中的參考語音內容特征用于表征所述參考語音的音頻內容、語調、韻律和說話習慣中的至少一項，再將所述參考語音內容特征序列和所述目標合成文本輸入預先訓練的語音內容特征生成模型，生成目標語音內容特征序列，然后根據(jù)所述目標音色特征和所述目標語音內容特征序列生成目標合成音頻，從而能夠將目標合成文本轉換成與參考音頻相符的目標合成音頻，其中，由于目標合成音頻的合成元素包括了從參考音頻提取的目標音色特征，因此，目標合成音頻能夠繼承參考音頻的音色，又由于目標語音內容特征序列是根據(jù)參考音頻的參考語音內容特征序列和目標合成文本融合生成的，因此，目標合成語音還能夠繼承參考音頻的語音內容特征，包括語調、韻律和說話習慣等，確保生成的目標合成語音能夠有效繼承參考音頻的音色、語調、韻律和說話習慣，從而能夠實現(xiàn)對特定個體音色和說話風格的全面模仿，提高語音合成的真實性。

本文檔來自技高網...

【技術保護點】

1.一種語音合成方法，其中，所述方法包括：

2.根據(jù)權利要求1所述的語音合成方法，其中，所述根據(jù)所述參考音頻，確定目標音色特征和參考語音內容特征序列，包括：

3.根據(jù)權利要求2所述的語音合成方法，其中，所述音頻編解碼模型包括音色編碼器和語音內容表示模型；

4.根據(jù)權利要求3所述的語音合成方法，其中，所述語音內容表示模型包括HuBERT模型，相應的，所述內容特征提取結果包括HuBERT特征。

5.根據(jù)權利要求2所述的語音合成方法，其中，所述根據(jù)所述音色特征提取結果確定目標音色特征，以及根據(jù)所述內容特征提取結果確定參考語音內容特征序列，包括：

6.根據(jù)權利要求2所述的語音合成方法，其中，所述輸入數(shù)據(jù)還包括所述參考音頻對應的參考文本；

7.根據(jù)權利要求2的語音合成方法，其中，所述方法還包括：

8.一種語音合成裝置，其中，所述裝置包括：

9.一種電子設備，所述電子設備包括：

10.一種計算機可讀介質，其上存儲有計算機程序指令，所述計算機程序指令可被處理器執(zhí)行以實現(xiàn)如權利要求1至7中任一項所述的方法。

...

【技術特征摘要】

1.一種語音合成方法，其中，所述方法包括：

2.根據(jù)權利要求1所述的語音合成方法，其中，所述根據(jù)所述參考音頻，確定目標音色特征和參考語音內容特征序列，包括：

3.根據(jù)權利要求2所述的語音合成方法，其中，所述音頻編解碼模型包括音色編碼器和語音內容表示模型；

4.根據(jù)權利要求3所述的語音合成方法，其中，所述語音內容表示模型包括hubert模型，相應的，所述內容特征提取結果包括hubert特征。

5.根據(jù)權利要求2所述的語音合成方法，其中，所述根據(jù)所述音色特征...

【專利技術屬性】
技術研發(fā)人員：劉璟，侯金龍，
申請(專利權)人：上海幻電信息科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術