System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請涉及計(jì)算機(jī),尤其涉及一種語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)。
技術(shù)介紹
1、隨著計(jì)算機(jī)技術(shù)的發(fā)展,語音轉(zhuǎn)換技術(shù)快速發(fā)展。語音轉(zhuǎn)換(voice?conversion,vc)的任務(wù)包括將源語音的語義表示轉(zhuǎn)換為目標(biāo)發(fā)音者的語音,同時保留語言內(nèi)容。
2、在相關(guān)技術(shù)中,語音轉(zhuǎn)換服務(wù)會從訓(xùn)練好的模型中提取出訓(xùn)練語音中語義的內(nèi)容表示,從而基于該內(nèi)容表示轉(zhuǎn)換出目標(biāo)發(fā)聲者的語音音頻。
3、然而,此類方案中,由于訓(xùn)練模型的訓(xùn)練數(shù)據(jù)中會同時包含語義、音色和節(jié)奏等信息,語義的內(nèi)容表示中也會包含音色信息,造成語義的內(nèi)容表示中的音色信息使得轉(zhuǎn)換后的語音音頻中保留了部分源發(fā)聲者的音色,從而影響了轉(zhuǎn)換后音頻的聲音與目標(biāo)發(fā)聲者聲音的相似性。
技術(shù)實(shí)現(xiàn)思路
1、基于上述技術(shù)問題,本申請?zhí)峁┮环N語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì),以減少泄露到最終生成的目標(biāo)語音數(shù)據(jù)中的音色,提高轉(zhuǎn)換后音頻的聲音與目標(biāo)發(fā)聲者聲音的相似性。
2、本申請的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本申請的實(shí)踐而習(xí)得。
3、根據(jù)本申請實(shí)施例的一個方面,提供一種語音數(shù)據(jù)的處理方法,包括:
4、獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息;
5、對所述源語音數(shù)據(jù)進(jìn)行特征提取,得到包含所述源語音數(shù)據(jù)中語音幀屬于k個語音單元的后驗(yàn)概率向量,其中,所述語音單元包含音素和軟語音單元中的至少一種,所述k為大于1的整數(shù);
6、根據(jù)語義
7、根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。
8、根據(jù)本申請實(shí)施例的一個方面,提供一種語音數(shù)據(jù)的處理裝置,包括:
9、信息獲取模塊,配置成獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息;
10、特征提取模塊,配置成對所述源語音數(shù)據(jù)進(jìn)行特征提取,得到包含所述源語音數(shù)據(jù)中語音幀屬于k個語音單元的后驗(yàn)概率向量,其中,所述語音單元包含音素和軟語音單元中的至少一種,所述k為大于1的整數(shù);
11、表達(dá)轉(zhuǎn)化模塊,配置成根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),其中,所述語義詞典中包含所述k個語音單元對應(yīng)的內(nèi)容表達(dá),所述語義詞典中每個語音單元的內(nèi)容表達(dá)是根據(jù)來自至少兩個發(fā)音者的語音數(shù)據(jù)中語義表達(dá)和后驗(yàn)概率進(jìn)行統(tǒng)計(jì)計(jì)算后得到的;
12、語音轉(zhuǎn)換模塊,配置成根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。
13、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述語義詞典包含全局詞典,所述語音轉(zhuǎn)換模塊還配置成:獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率,所述詞典音頻集中包含來自至少兩個發(fā)音者的語音數(shù)據(jù);對所提取的語音幀屬于所述第k個語音單元的后驗(yàn)概率進(jìn)行統(tǒng)計(jì),得到所述第k個語音單元的第一統(tǒng)計(jì)量;根據(jù)每個語音幀的語義表達(dá)與每個語音幀屬于所述第k個語音單元的后驗(yàn)概率的乘積的統(tǒng)計(jì)結(jié)果和所述第一統(tǒng)計(jì)量,得到所述第k個語音單元的語義表達(dá);根據(jù)所述第k個語音單元的語義表達(dá)和所述k個語音單元中其他k-1個語音單元的語義表達(dá),確定所述全局詞典。
14、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述語義詞典包含全局詞典,所述語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)輸入到預(yù)訓(xùn)練的第一特征提取模型中,所述第一特征提取模型用于計(jì)算所述源語音數(shù)據(jù)中各個語音幀分別屬于所述k個音素的后驗(yàn)概率;獲取所述第一特征提取模型中瓶頸層的輸出結(jié)果,作為所述源語音數(shù)據(jù)的后驗(yàn)概率向量。
15、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)輸入到預(yù)訓(xùn)練的第二特征提取模型中,所述第二特征提取模型用于計(jì)算所述源語音數(shù)據(jù)中各個語音幀分別屬于所述k個軟語音單元的后驗(yàn)概率;通過所述第二特征提取模型中指定轉(zhuǎn)換器層的輸出結(jié)果,作為所述源語音數(shù)據(jù)的后驗(yàn)概率向量。
16、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的,并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù);語音轉(zhuǎn)換模塊具體配置成:基于所述全局語義詞典,獲取所述提示語音數(shù)據(jù)的內(nèi)容再表達(dá);將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)、所述提示語音數(shù)據(jù)的內(nèi)容再表達(dá)以及所述源語音數(shù)據(jù)和所述提示語音的編碼令牌輸入到第一語音生成模型中,生成目標(biāo)解碼器令牌;根據(jù)所述目標(biāo)解碼器令牌進(jìn)行音頻解碼,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。
17、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述語義詞典還包含發(fā)音者詞典,語音轉(zhuǎn)換模塊還配置成:分別對每個發(fā)音者的語音數(shù)據(jù)中語音幀屬于所述第k個語音單元的后驗(yàn)概率進(jìn)行統(tǒng)計(jì),得到所述第k個語音單元對應(yīng)于每個發(fā)音者的第二統(tǒng)計(jì)量;對于每個發(fā)音者,根據(jù)每個語音幀的語義表達(dá)與每個語音幀屬于所述第k個語音單元的后驗(yàn)概率的乘積的統(tǒng)計(jì)結(jié)果和所述第二統(tǒng)計(jì)量,得到對應(yīng)于所述第k個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá);根據(jù)第k個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá)和所述k個語音單元中其他k-1個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá),確定對應(yīng)于每個發(fā)音者的發(fā)音者詞典。
18、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,表達(dá)轉(zhuǎn)化模塊具體配置成:分別將所述全局語義詞典和所述發(fā)音者詞典所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量相乘,得到全局內(nèi)容再表達(dá)和發(fā)言者內(nèi)容再表達(dá);計(jì)算所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和,得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá);
19、語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息中所述目標(biāo)發(fā)音者的發(fā)音者標(biāo)識輸入到第二語音生成模型中進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。
20、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,表達(dá)轉(zhuǎn)化模塊具體配置成:獲取所述源語音數(shù)據(jù)的源內(nèi)容表達(dá);計(jì)算所述源內(nèi)容表達(dá)、所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和,得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)。
21、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息的嵌入表達(dá)作為條件,與包含噪聲的指定頻譜圖一起輸入第三語音生成模型進(jìn)行頻譜預(yù)測,得到結(jié)果頻譜圖,其中,所述第三語音生成模型中包含時間步長信息和發(fā)言者信息的嵌入信息;通過預(yù)訓(xùn)練的聲碼器對所述結(jié)果頻譜圖進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。
2本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種語音數(shù)據(jù)的處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,所述語義詞典包含全局詞典,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第K個語音單元的后驗(yàn)概率,包括:
4.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第K個語音單元的后驗(yàn)概率,包括:
5.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的,并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù);
6.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述語義詞典還包含發(fā)音者詞典,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的處理方法,其特征在于,所述根據(jù)語義詞典中所述K個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),包括:
8.根據(jù)權(quán)利要求7所述的處理方法,其特征在于,計(jì)
9.根據(jù)權(quán)利要求6所述的處理方法,其特征在于,所述根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù),包括:
10.根據(jù)權(quán)利要求9所述的處理方法,其特征在于,所述方法還包括:
11.一種語音數(shù)據(jù)的處理裝置,其特征在于,包括:
12.一種電子設(shè)備,其特征在于,包括:
13.一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至10中任一項(xiàng)所述的語音數(shù)據(jù)的處理方法。
14.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令存儲在計(jì)算機(jī)可讀存儲介質(zhì)中,計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲介質(zhì)讀取所述計(jì)算機(jī)指令,所述處理器執(zhí)行所述計(jì)算機(jī)指令,使得所述計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至10中任一項(xiàng)所述的語音數(shù)據(jù)的處理方法。
...【技術(shù)特征摘要】
1.一種語音數(shù)據(jù)的處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,所述語義詞典包含全局詞典,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率,包括:
4.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率,包括:
5.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的,并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù);
6.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述語義詞典還包含發(fā)音者詞典,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的處理方法,其特征在于,所述根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),包括:
8.根據(jù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李娜,
申請(專利權(quán))人:騰訊科技深圳有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。