當(dāng)前位置: 首頁 > 專利查詢>網(wǎng)易杭州網(wǎng)絡(luò)有限公司專利>正文

一種語音合成方法、裝置、電子設(shè)備及存儲介質(zhì)制造方法及圖紙

技術(shù)編號：44456862 閱讀：4 留言：0更新日期：2025-02-28 19:03

本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域，尤其涉及一種語音合成方法、裝置、電子設(shè)備及存儲介質(zhì)。本申請通過基于獲取的目標(biāo)音色標(biāo)簽和訓(xùn)練好的音色表征生成模型確定目標(biāo)音色特征，以及基于獲取的目標(biāo)文本和訓(xùn)練好的語音合成模型確定預(yù)設(shè)音色的第一目標(biāo)語音；其中，預(yù)設(shè)音色為訓(xùn)練語音合成模型的任一第一樣本語音的音色；進(jìn)而，可以基于目標(biāo)音色特征、第一目標(biāo)語音以及訓(xùn)練好的語音轉(zhuǎn)換模型，確定目標(biāo)音色的第二目標(biāo)語音。這樣，本申請通過將音色表征生成模型和語音合成模型進(jìn)行解耦，并使用語音轉(zhuǎn)換模型進(jìn)行音色轉(zhuǎn)換，可以生成新的音色，可以滿足用戶在不同場景下對合成語音的音色的個(gè)性化需求。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請涉及計(jì)算機(jī)，尤其涉及一種語音合成方法、裝置、電子設(shè)備及存儲介質(zhì)。

技術(shù)介紹

1、近些年，人工智能被應(yīng)用在語音合成(text?to?speech，tts)技術(shù)中，語音合成是一種從文本生成具有自然和表現(xiàn)力語音的技術(shù)，在語音助手、游戲npc、聊天機(jī)器人、有聲書、虛擬人、虛擬主播等場景有廣泛的應(yīng)用。在tts技術(shù)中，一般需要合成特定音色的語音。

2、通常，相關(guān)技術(shù)使用基于多個(gè)說話人的數(shù)據(jù)訓(xùn)練而成語音模型進(jìn)行語音合成，具體地，通過說話人id來選擇對應(yīng)的說話人音色特征嵌入，根據(jù)對應(yīng)的說話人音色特征嵌入控制生成語音的音色。在這種背景下，生成出的語音的音色通常僅限于訓(xùn)練數(shù)據(jù)內(nèi)的音色或者是只能是已經(jīng)存在的真實(shí)人類的音色，這就導(dǎo)致合成的語音缺乏個(gè)性化、不符合用戶對合成語音的音色需求。但是，音色生成技術(shù)的目標(biāo)是生成新的音色，因此，目前急需要一種生成新音色的語音合成方案，來滿足用戶在不同場景下對合成語音的音色的個(gè)性化需求。

3、需要說明的是，在上述
技術(shù)介紹
部分公開的信息僅用于加強(qiáng)對本申請的背景的理解，因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本申請實(shí)施例至少提供一種語音合成方法、裝置、電子設(shè)備及存儲介質(zhì)，可以生成新的音色，可以滿足用戶在不同場景下對合成語音的音色的個(gè)性化需求。

2、本申請主要包括以下幾個(gè)方面：

3、第一方面，本申請實(shí)施例提供一種語音合成方法，所述方法包括：獲取待合成語音的目標(biāo)音色標(biāo)簽和目標(biāo)文

4、第二方面，本申請實(shí)施例還提供一種語音合成裝置，所述裝置包括：獲取模塊，用于獲取待合成語音的目標(biāo)音色標(biāo)簽和目標(biāo)文本；第一確定模塊，用于基于所述目標(biāo)音色標(biāo)簽和訓(xùn)練好的音色表征生成模型確定目標(biāo)音色特征，以及基于所述目標(biāo)文本和訓(xùn)練好的語音合成模型確定預(yù)設(shè)音色的第一目標(biāo)語音；所述預(yù)設(shè)音色為訓(xùn)練所述語音合成模型的任一第一樣本語音的音色；第二確定模塊，用于基于所述目標(biāo)音色特征、所述第一目標(biāo)語音以及訓(xùn)練好的語音轉(zhuǎn)換模型，確定目標(biāo)音色的第二目標(biāo)語音。

5、第三方面，本申請實(shí)施例還提供一種電子設(shè)備，包括：處理器、存儲器和總線，所述存儲器存儲有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲器之間通過所述總線進(jìn)行通信，所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行上述第一方面或第一方面中任一種可能的實(shí)施方式中所述的語音合成方法的步驟。

6、第四方面，本申請實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面或第一方面中任一種可能的實(shí)施方式中所述的語音合成方法的步驟。

7、本申請實(shí)施例提供的語音合成方法、裝置、電子設(shè)備及存儲介質(zhì)，通過基于獲取的目標(biāo)音色標(biāo)簽和訓(xùn)練好的音色表征生成模型確定目標(biāo)音色特征，以及基于獲取的目標(biāo)文本和訓(xùn)練好的語音合成模型確定預(yù)設(shè)音色的第一目標(biāo)語音；其中，預(yù)設(shè)音色為訓(xùn)練語音合成模型的任一第一樣本語音的音色；進(jìn)而，可以基于目標(biāo)音色特征、第一目標(biāo)語音以及訓(xùn)練好的語音轉(zhuǎn)換模型，確定目標(biāo)音色的第二目標(biāo)語音，與相關(guān)技術(shù)中通過說話人id來選擇對應(yīng)的說話人音色特征嵌入，根據(jù)對應(yīng)的說話人音色特征嵌入控制生成語音的音色，在這種背景下，生成出的語音的音色通常僅限于訓(xùn)練數(shù)據(jù)內(nèi)的音色或者是只能是已經(jīng)存在的真實(shí)人類的音色，這就導(dǎo)致合成的語音缺乏個(gè)性化、不符合用戶對合成語音的音色需求相比，本申請通過將音色表征生成模型和語音合成模型進(jìn)行解耦，并使用語音轉(zhuǎn)換模型進(jìn)行音色轉(zhuǎn)換，可以生成新的音色，可以滿足用戶在不同場景下對合成語音的音色的個(gè)性化需求。

8、為使本申請的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉較佳實(shí)施例，并配合所附附圖，作詳細(xì)說明如下。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種語音合成方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標(biāo)音色標(biāo)簽包括從以下至少一個(gè)音色維度對所述待合成語音的目標(biāo)音色的描述信息：性別、年齡、嗓音、音調(diào)、語言、口語、性格、職業(yè)。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標(biāo)音色特征為音色特征矩陣；所述基于所述目標(biāo)音色標(biāo)簽和訓(xùn)練好的音色表征生成模型確定目標(biāo)音色特征，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述音色表征生成模型為以下模型中的一種：擴(kuò)散模型、卷積神經(jīng)網(wǎng)絡(luò)模型、深度學(xué)習(xí)模型、生成對抗網(wǎng)絡(luò)模型、變分自編碼器、高斯混合模型。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)以下步驟對所述音色表征生成模型進(jìn)行訓(xùn)練：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，根據(jù)以下步驟確定所述第二樣本語音對應(yīng)的真實(shí)樣本音色特征：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述目標(biāo)文本和訓(xùn)練好的語音合成模型確定預(yù)設(shè)音色的第一目標(biāo)語音，包括：

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)以下步驟對所

9.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述第一樣本語音和所述第二樣本語音不同。

10.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標(biāo)音色特征為音色特征矩陣；所述基于所述目標(biāo)音色特征、所述第一目標(biāo)語音以及訓(xùn)練好的語音轉(zhuǎn)換模型，確定目標(biāo)音色的第二目標(biāo)語音，包括：

11.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)以下步驟對所述語音轉(zhuǎn)換模型進(jìn)行訓(xùn)練：

12.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)以下步驟對所述語音轉(zhuǎn)換模型進(jìn)行訓(xùn)練：

13.一種語音合成裝置，其特征在于，所述裝置包括：

14.一種電子設(shè)備，其特征在于，包括：處理器、存儲器和總線，所述存儲器存儲有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲器之間通過所述總線進(jìn)行通信，所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至12中任一所述的語音合成方法的步驟。

15.一種計(jì)算機(jī)可讀存儲介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至12中任一所述的語音合成方法的步驟。

...

【技術(shù)特征摘要】

1.一種語音合成方法，其特征在于，所述方法包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)以下步驟對所述音色表征生成模型進(jìn)行訓(xùn)練：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，根據(jù)以下步驟確定所述第二樣本語音對應(yīng)的真實(shí)樣本音色特征：

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)以下步驟對所述語音合成模型進(jìn)行...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：薛鶴洋，畢夢霄，朱鵬程，郭帥，張晴，呂唐杰，范長杰，胡志鵬，
申請(專利權(quán))人：網(wǎng)易杭州網(wǎng)絡(luò)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)