語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)制造方法及圖紙

技術(shù)編號：44530255 閱讀：5 留言：0更新日期：2025-03-07 13:19

本申請?zhí)峁┮环N語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)，包括：獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息；對源語音數(shù)據(jù)進(jìn)行特征提取，得到包含源語音數(shù)據(jù)中語音幀屬于K個語音單元的后驗(yàn)概率向量；根據(jù)語義詞典中K個語音單元對應(yīng)的內(nèi)容表達(dá)和后驗(yàn)概率向量，確定源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)，語義詞典中包含K個語音單元對應(yīng)的內(nèi)容表達(dá)，內(nèi)容表達(dá)是根據(jù)來自至少兩個發(fā)音者的語音數(shù)據(jù)中語義表達(dá)和后驗(yàn)概率進(jìn)行統(tǒng)計(jì)計(jì)算后得到的；根據(jù)源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和發(fā)音者信息進(jìn)行語音轉(zhuǎn)換，得到目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。該方法能夠減少轉(zhuǎn)換后音頻中的音色泄露，提高轉(zhuǎn)換后音頻的聲音相似性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請涉及計(jì)算機(jī)，尤其涉及一種語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)。

技術(shù)介紹

1、隨著計(jì)算機(jī)技術(shù)的發(fā)展，語音轉(zhuǎn)換技術(shù)快速發(fā)展。語音轉(zhuǎn)換(voice?conversion，vc)的任務(wù)包括將源語音的語義表示轉(zhuǎn)換為目標(biāo)發(fā)音者的語音，同時保留語言內(nèi)容。

2、在相關(guān)技術(shù)中，語音轉(zhuǎn)換服務(wù)會從訓(xùn)練好的模型中提取出訓(xùn)練語音中語義的內(nèi)容表示，從而基于該內(nèi)容表示轉(zhuǎn)換出目標(biāo)發(fā)聲者的語音音頻。

3、然而，此類方案中，由于訓(xùn)練模型的訓(xùn)練數(shù)據(jù)中會同時包含語義、音色和節(jié)奏等信息，語義的內(nèi)容表示中也會包含音色信息，造成語義的內(nèi)容表示中的音色信息使得轉(zhuǎn)換后的語音音頻中保留了部分源發(fā)聲者的音色，從而影響了轉(zhuǎn)換后音頻的聲音與目標(biāo)發(fā)聲者聲音的相似性。

技術(shù)實(shí)現(xiàn)思路

1、基于上述技術(shù)問題，本申請?zhí)峁┮环N語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)，以減少泄露到最終生成的目標(biāo)語音數(shù)據(jù)中的音色，提高轉(zhuǎn)換后音頻的聲音與目標(biāo)發(fā)聲者聲音的相似性。

2、本申請的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然，或部分地通過本申請的實(shí)踐而習(xí)得。

3、根據(jù)本申請實(shí)施例的一個方面，提供一種語音數(shù)據(jù)的處理方法，包括：

4、獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息；

5、對所述源語音數(shù)據(jù)進(jìn)行特征提取，得到包含所述源語音數(shù)據(jù)中語音幀屬于k個語音單元的后驗(yàn)概率向量，其中，所述語音單元包含音素和軟語音單元中的至少一種，所述k為大于1的整數(shù)；

6、根據(jù)語義

7、根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換，得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

8、根據(jù)本申請實(shí)施例的一個方面，提供一種語音數(shù)據(jù)的處理裝置，包括：

9、信息獲取模塊，配置成獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息；

10、特征提取模塊，配置成對所述源語音數(shù)據(jù)進(jìn)行特征提取，得到包含所述源語音數(shù)據(jù)中語音幀屬于k個語音單元的后驗(yàn)概率向量，其中，所述語音單元包含音素和軟語音單元中的至少一種，所述k為大于1的整數(shù)；

11、表達(dá)轉(zhuǎn)化模塊，配置成根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量，確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)，其中，所述語義詞典中包含所述k個語音單元對應(yīng)的內(nèi)容表達(dá)，所述語義詞典中每個語音單元的內(nèi)容表達(dá)是根據(jù)來自至少兩個發(fā)音者的語音數(shù)據(jù)中語義表達(dá)和后驗(yàn)概率進(jìn)行統(tǒng)計(jì)計(jì)算后得到的；

12、語音轉(zhuǎn)換模塊，配置成根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換，得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

13、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，所述語義詞典包含全局詞典，所述語音轉(zhuǎn)換模塊還配置成：獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率，所述詞典音頻集中包含來自至少兩個發(fā)音者的語音數(shù)據(jù)；對所提取的語音幀屬于所述第k個語音單元的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)，得到所述第k個語音單元的第一統(tǒng)計(jì)量；根據(jù)每個語音幀的語義表達(dá)與每個語音幀屬于所述第k個語音單元的后驗(yàn)概率的乘積的統(tǒng)計(jì)結(jié)果和所述第一統(tǒng)計(jì)量，得到所述第k個語音單元的語義表達(dá)；根據(jù)所述第k個語音單元的語義表達(dá)和所述k個語音單元中其他k－1個語音單元的語義表達(dá)，確定所述全局詞典。

14、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，所述語義詞典包含全局詞典，所述語音轉(zhuǎn)換模塊具體配置成：將所述源語音數(shù)據(jù)輸入到預(yù)訓(xùn)練的第一特征提取模型中，所述第一特征提取模型用于計(jì)算所述源語音數(shù)據(jù)中各個語音幀分別屬于所述k個音素的后驗(yàn)概率；獲取所述第一特征提取模型中瓶頸層的輸出結(jié)果，作為所述源語音數(shù)據(jù)的后驗(yàn)概率向量。

15、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，語音轉(zhuǎn)換模塊具體配置成：將所述源語音數(shù)據(jù)輸入到預(yù)訓(xùn)練的第二特征提取模型中，所述第二特征提取模型用于計(jì)算所述源語音數(shù)據(jù)中各個語音幀分別屬于所述k個軟語音單元的后驗(yàn)概率；通過所述第二特征提取模型中指定轉(zhuǎn)換器層的輸出結(jié)果，作為所述源語音數(shù)據(jù)的后驗(yàn)概率向量。

16、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的，并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù)；語音轉(zhuǎn)換模塊具體配置成：基于所述全局語義詞典，獲取所述提示語音數(shù)據(jù)的內(nèi)容再表達(dá)；將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)、所述提示語音數(shù)據(jù)的內(nèi)容再表達(dá)以及所述源語音數(shù)據(jù)和所述提示語音的編碼令牌輸入到第一語音生成模型中，生成目標(biāo)解碼器令牌；根據(jù)所述目標(biāo)解碼器令牌進(jìn)行音頻解碼，得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

17、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，所述語義詞典還包含發(fā)音者詞典，語音轉(zhuǎn)換模塊還配置成：分別對每個發(fā)音者的語音數(shù)據(jù)中語音幀屬于所述第k個語音單元的后驗(yàn)概率進(jìn)行統(tǒng)計(jì)，得到所述第k個語音單元對應(yīng)于每個發(fā)音者的第二統(tǒng)計(jì)量；對于每個發(fā)音者，根據(jù)每個語音幀的語義表達(dá)與每個語音幀屬于所述第k個語音單元的后驗(yàn)概率的乘積的統(tǒng)計(jì)結(jié)果和所述第二統(tǒng)計(jì)量，得到對應(yīng)于所述第k個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá)；根據(jù)第k個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá)和所述k個語音單元中其他k－1個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá)，確定對應(yīng)于每個發(fā)音者的發(fā)音者詞典。

18、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，表達(dá)轉(zhuǎn)化模塊具體配置成：分別將所述全局語義詞典和所述發(fā)音者詞典所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量相乘，得到全局內(nèi)容再表達(dá)和發(fā)言者內(nèi)容再表達(dá)；計(jì)算所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和，得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)；

19、語音轉(zhuǎn)換模塊具體配置成：將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息中所述目標(biāo)發(fā)音者的發(fā)音者標(biāo)識輸入到第二語音生成模型中進(jìn)行語音轉(zhuǎn)換，得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

20、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，表達(dá)轉(zhuǎn)化模塊具體配置成：獲取所述源語音數(shù)據(jù)的源內(nèi)容表達(dá)；計(jì)算所述源內(nèi)容表達(dá)、所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和，得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)。

21、在本申請的一些實(shí)施例中，基于以上技術(shù)方案，語音轉(zhuǎn)換模塊具體配置成：將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息的嵌入表達(dá)作為條件，與包含噪聲的指定頻譜圖一起輸入第三語音生成模型進(jìn)行頻譜預(yù)測，得到結(jié)果頻譜圖，其中，所述第三語音生成模型中包含時間步長信息和發(fā)言者信息的嵌入信息；通過預(yù)訓(xùn)練的聲碼器對所述結(jié)果頻譜圖進(jìn)行語音轉(zhuǎn)換，得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

2本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種語音數(shù)據(jù)的處理方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的處理方法，其特征在于，所述語義詞典包含全局詞典，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第K個語音單元的后驗(yàn)概率，包括：

4.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第K個語音單元的后驗(yàn)概率，包括：

5.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的，并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù)；

6.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述語義詞典還包含發(fā)音者詞典，所述方法還包括：

7.根據(jù)權(quán)利要求6所述的處理方法，其特征在于，所述根據(jù)語義詞典中所述K個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量，確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)，包括：

8.根據(jù)權(quán)利要求7所述的處理方法，其特征在于，計(jì)

9.根據(jù)權(quán)利要求6所述的處理方法，其特征在于，所述根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換，得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)，包括：

10.根據(jù)權(quán)利要求9所述的處理方法，其特征在于，所述方法還包括：

11.一種語音數(shù)據(jù)的處理裝置，其特征在于，包括：

12.一種電子設(shè)備，其特征在于，包括：

13.一種計(jì)算機(jī)可讀介質(zhì)，其上存儲有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至10中任一項(xiàng)所述的語音數(shù)據(jù)的處理方法。

14.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令存儲在計(jì)算機(jī)可讀存儲介質(zhì)中，計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲介質(zhì)讀取所述計(jì)算機(jī)指令，所述處理器執(zhí)行所述計(jì)算機(jī)指令，使得所述計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至10中任一項(xiàng)所述的語音數(shù)據(jù)的處理方法。

...

【技術(shù)特征摘要】

1.一種語音數(shù)據(jù)的處理方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的處理方法，其特征在于，所述語義詞典包含全局詞典，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率，包括：

4.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率，包括：

6.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，所述語義詞典還包含發(fā)音者詞典，所述方法還包括：

7.根據(jù)權(quán)利要求6所述的處理方法，其特征在于，所述根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量，確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)，包括：

8.根據(jù)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李娜，
申請(專利權(quán))人：騰訊科技深圳有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)