System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲a∨无码一区二区,免费无遮挡无码视频在线观看,亚洲AV无码乱码精品国产
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)制造方法及圖紙

    技術(shù)編號:44530255 閱讀:5 留言:0更新日期:2025-03-07 13:19
    本申請?zhí)峁┮环N語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì),包括:獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息;對源語音數(shù)據(jù)進(jìn)行特征提取,得到包含源語音數(shù)據(jù)中語音幀屬于K個語音單元的后驗(yàn)概率向量;根據(jù)語義詞典中K個語音單元對應(yīng)的內(nèi)容表達(dá)和后驗(yàn)概率向量,確定源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),語義詞典中包含K個語音單元對應(yīng)的內(nèi)容表達(dá),內(nèi)容表達(dá)是根據(jù)來自至少兩個發(fā)音者的語音數(shù)據(jù)中語義表達(dá)和后驗(yàn)概率進(jìn)行統(tǒng)計(jì)計(jì)算后得到的;根據(jù)源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。該方法能夠減少轉(zhuǎn)換后音頻中的音色泄露,提高轉(zhuǎn)換后音頻的聲音相似性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請涉及計(jì)算機(jī),尤其涉及一種語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì)


    技術(shù)介紹

    1、隨著計(jì)算機(jī)技術(shù)的發(fā)展,語音轉(zhuǎn)換技術(shù)快速發(fā)展。語音轉(zhuǎn)換(voice?conversion,vc)的任務(wù)包括將源語音的語義表示轉(zhuǎn)換為目標(biāo)發(fā)音者的語音,同時保留語言內(nèi)容。

    2、在相關(guān)技術(shù)中,語音轉(zhuǎn)換服務(wù)會從訓(xùn)練好的模型中提取出訓(xùn)練語音中語義的內(nèi)容表示,從而基于該內(nèi)容表示轉(zhuǎn)換出目標(biāo)發(fā)聲者的語音音頻。

    3、然而,此類方案中,由于訓(xùn)練模型的訓(xùn)練數(shù)據(jù)中會同時包含語義、音色和節(jié)奏等信息,語義的內(nèi)容表示中也會包含音色信息,造成語義的內(nèi)容表示中的音色信息使得轉(zhuǎn)換后的語音音頻中保留了部分源發(fā)聲者的音色,從而影響了轉(zhuǎn)換后音頻的聲音與目標(biāo)發(fā)聲者聲音的相似性。


    技術(shù)實(shí)現(xiàn)思路

    1、基于上述技術(shù)問題,本申請?zhí)峁┮环N語音數(shù)據(jù)的處理方法、裝置、電子設(shè)備和可讀介質(zhì),以減少泄露到最終生成的目標(biāo)語音數(shù)據(jù)中的音色,提高轉(zhuǎn)換后音頻的聲音與目標(biāo)發(fā)聲者聲音的相似性。

    2、本申請的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本申請的實(shí)踐而習(xí)得。

    3、根據(jù)本申請實(shí)施例的一個方面,提供一種語音數(shù)據(jù)的處理方法,包括:

    4、獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息;

    5、對所述源語音數(shù)據(jù)進(jìn)行特征提取,得到包含所述源語音數(shù)據(jù)中語音幀屬于k個語音單元的后驗(yàn)概率向量,其中,所述語音單元包含音素和軟語音單元中的至少一種,所述k為大于1的整數(shù);

    6、根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),其中,所述語義詞典中包含所述k個語音單元對應(yīng)的內(nèi)容表達(dá),所述語義詞典中每個語音單元的內(nèi)容表達(dá)是根據(jù)來自至少兩個發(fā)音者的語音數(shù)據(jù)中語義表達(dá)和后驗(yàn)概率進(jìn)行統(tǒng)計(jì)計(jì)算后得到的;

    7、根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

    8、根據(jù)本申請實(shí)施例的一個方面,提供一種語音數(shù)據(jù)的處理裝置,包括:

    9、信息獲取模塊,配置成獲取源發(fā)音者的源語音數(shù)據(jù)和目標(biāo)發(fā)音者的發(fā)音者信息;

    10、特征提取模塊,配置成對所述源語音數(shù)據(jù)進(jìn)行特征提取,得到包含所述源語音數(shù)據(jù)中語音幀屬于k個語音單元的后驗(yàn)概率向量,其中,所述語音單元包含音素和軟語音單元中的至少一種,所述k為大于1的整數(shù);

    11、表達(dá)轉(zhuǎn)化模塊,配置成根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),其中,所述語義詞典中包含所述k個語音單元對應(yīng)的內(nèi)容表達(dá),所述語義詞典中每個語音單元的內(nèi)容表達(dá)是根據(jù)來自至少兩個發(fā)音者的語音數(shù)據(jù)中語義表達(dá)和后驗(yàn)概率進(jìn)行統(tǒng)計(jì)計(jì)算后得到的;

    12、語音轉(zhuǎn)換模塊,配置成根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

    13、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述語義詞典包含全局詞典,所述語音轉(zhuǎn)換模塊還配置成:獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率,所述詞典音頻集中包含來自至少兩個發(fā)音者的語音數(shù)據(jù);對所提取的語音幀屬于所述第k個語音單元的后驗(yàn)概率進(jìn)行統(tǒng)計(jì),得到所述第k個語音單元的第一統(tǒng)計(jì)量;根據(jù)每個語音幀的語義表達(dá)與每個語音幀屬于所述第k個語音單元的后驗(yàn)概率的乘積的統(tǒng)計(jì)結(jié)果和所述第一統(tǒng)計(jì)量,得到所述第k個語音單元的語義表達(dá);根據(jù)所述第k個語音單元的語義表達(dá)和所述k個語音單元中其他k-1個語音單元的語義表達(dá),確定所述全局詞典。

    14、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述語義詞典包含全局詞典,所述語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)輸入到預(yù)訓(xùn)練的第一特征提取模型中,所述第一特征提取模型用于計(jì)算所述源語音數(shù)據(jù)中各個語音幀分別屬于所述k個音素的后驗(yàn)概率;獲取所述第一特征提取模型中瓶頸層的輸出結(jié)果,作為所述源語音數(shù)據(jù)的后驗(yàn)概率向量。

    15、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)輸入到預(yù)訓(xùn)練的第二特征提取模型中,所述第二特征提取模型用于計(jì)算所述源語音數(shù)據(jù)中各個語音幀分別屬于所述k個軟語音單元的后驗(yàn)概率;通過所述第二特征提取模型中指定轉(zhuǎn)換器層的輸出結(jié)果,作為所述源語音數(shù)據(jù)的后驗(yàn)概率向量。

    16、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的,并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù);語音轉(zhuǎn)換模塊具體配置成:基于所述全局語義詞典,獲取所述提示語音數(shù)據(jù)的內(nèi)容再表達(dá);將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)、所述提示語音數(shù)據(jù)的內(nèi)容再表達(dá)以及所述源語音數(shù)據(jù)和所述提示語音的編碼令牌輸入到第一語音生成模型中,生成目標(biāo)解碼器令牌;根據(jù)所述目標(biāo)解碼器令牌進(jìn)行音頻解碼,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

    17、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,所述語義詞典還包含發(fā)音者詞典,語音轉(zhuǎn)換模塊還配置成:分別對每個發(fā)音者的語音數(shù)據(jù)中語音幀屬于所述第k個語音單元的后驗(yàn)概率進(jìn)行統(tǒng)計(jì),得到所述第k個語音單元對應(yīng)于每個發(fā)音者的第二統(tǒng)計(jì)量;對于每個發(fā)音者,根據(jù)每個語音幀的語義表達(dá)與每個語音幀屬于所述第k個語音單元的后驗(yàn)概率的乘積的統(tǒng)計(jì)結(jié)果和所述第二統(tǒng)計(jì)量,得到對應(yīng)于所述第k個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá);根據(jù)第k個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá)和所述k個語音單元中其他k-1個語音單元對應(yīng)于每個發(fā)音者的語義表達(dá),確定對應(yīng)于每個發(fā)音者的發(fā)音者詞典。

    18、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,表達(dá)轉(zhuǎn)化模塊具體配置成:分別將所述全局語義詞典和所述發(fā)音者詞典所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量相乘,得到全局內(nèi)容再表達(dá)和發(fā)言者內(nèi)容再表達(dá);計(jì)算所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和,得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá);

    19、語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息中所述目標(biāo)發(fā)音者的發(fā)音者標(biāo)識輸入到第二語音生成模型中進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

    20、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,表達(dá)轉(zhuǎn)化模塊具體配置成:獲取所述源語音數(shù)據(jù)的源內(nèi)容表達(dá);計(jì)算所述源內(nèi)容表達(dá)、所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和,得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)。

    21、在本申請的一些實(shí)施例中,基于以上技術(shù)方案,語音轉(zhuǎn)換模塊具體配置成:將所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息的嵌入表達(dá)作為條件,與包含噪聲的指定頻譜圖一起輸入第三語音生成模型進(jìn)行頻譜預(yù)測,得到結(jié)果頻譜圖,其中,所述第三語音生成模型中包含時間步長信息和發(fā)言者信息的嵌入信息;通過預(yù)訓(xùn)練的聲碼器對所述結(jié)果頻譜圖進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù)。

    2本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種語音數(shù)據(jù)的處理方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,所述語義詞典包含全局詞典,所述方法還包括:

    3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第K個語音單元的后驗(yàn)概率,包括:

    4.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第K個語音單元的后驗(yàn)概率,包括:

    5.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的,并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù);

    6.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述語義詞典還包含發(fā)音者詞典,所述方法還包括:

    7.根據(jù)權(quán)利要求6所述的處理方法,其特征在于,所述根據(jù)語義詞典中所述K個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),包括:

    8.根據(jù)權(quán)利要求7所述的處理方法,其特征在于,計(jì)算所述全局內(nèi)容再表達(dá)和所述發(fā)言者內(nèi)容再表達(dá)的加權(quán)和,得到所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),包括:

    9.根據(jù)權(quán)利要求6所述的處理方法,其特征在于,所述根據(jù)所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá)和所述發(fā)音者信息進(jìn)行語音轉(zhuǎn)換,得到所述目標(biāo)發(fā)音者的目標(biāo)語音數(shù)據(jù),包括:

    10.根據(jù)權(quán)利要求9所述的處理方法,其特征在于,所述方法還包括:

    11.一種語音數(shù)據(jù)的處理裝置,其特征在于,包括:

    12.一種電子設(shè)備,其特征在于,包括:

    13.一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至10中任一項(xiàng)所述的語音數(shù)據(jù)的處理方法。

    14.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令存儲在計(jì)算機(jī)可讀存儲介質(zhì)中,計(jì)算機(jī)設(shè)備的處理器從所述計(jì)算機(jī)可讀存儲介質(zhì)讀取所述計(jì)算機(jī)指令,所述處理器執(zhí)行所述計(jì)算機(jī)指令,使得所述計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至10中任一項(xiàng)所述的語音數(shù)據(jù)的處理方法。

    ...

    【技術(shù)特征摘要】

    1.一種語音數(shù)據(jù)的處理方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,所述語義詞典包含全局詞典,所述方法還包括:

    3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率,包括:

    4.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述獲取詞典音頻集的每個詞典語音數(shù)據(jù)中每個語音幀的語義表達(dá)以及每個語音幀屬于第k個語音單元的后驗(yàn)概率,包括:

    5.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述源語音數(shù)據(jù)的內(nèi)容再表達(dá)是基于所述全局語義詞典生成的,并且所述發(fā)音者信息包含所述目標(biāo)發(fā)音者的提示語音數(shù)據(jù);

    6.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,所述語義詞典還包含發(fā)音者詞典,所述方法還包括:

    7.根據(jù)權(quán)利要求6所述的處理方法,其特征在于,所述根據(jù)語義詞典中所述k個語音單元對應(yīng)的內(nèi)容表達(dá)和所述后驗(yàn)概率向量,確定所述源語音數(shù)據(jù)中語音幀的內(nèi)容再表達(dá),包括:

    8.根據(jù)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李娜
    申請(專利權(quán))人:騰訊科技深圳有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码色AV一二区在线播放| 亚洲heyzo专区无码综合| 久久久久久国产精品无码下载| 人妻丝袜无码专区视频网站| 国产成人无码av| 性色AV蜜臀AV人妻无码| 国产精品亚洲аv无码播放| 国产精品无码亚洲一区二区三区| 亚洲成AV人片天堂网无码| 国产精品无码亚洲一区二区三区 | 亚洲av无码一区二区三区观看| 熟妇人妻无码xxx视频| 免费无码又爽又刺激高潮视频| 亚洲精品无码成人片在线观看| 亚洲中文字幕无码中文| 无码无遮挡又大又爽又黄的视频| 国产亚洲情侣一区二区无码AV| 毛片一区二区三区无码| 亚洲最大天堂无码精品区| 久久久无码精品亚洲日韩蜜臀浪潮 | 亚洲中文无码永久免费| 亚洲AV综合色区无码一区 | 无码人妻aⅴ一区二区三区| 久久国产精品无码HDAV| 无码成A毛片免费| 亚洲AV无码国产丝袜在线观看 | 一本一道AV无码中文字幕| 国产成人无码精品久久久露脸| 啊灬啊别停灬用力啊无码视频| 久久精品aⅴ无码中文字字幕重口 久久精品国产亚洲AV无码娇色 | a级毛片无码免费真人| 亚洲午夜无码久久久久软件 | 精品久久久无码中文字幕天天| 67194成是人免费无码| 一本久道中文无码字幕av| 国产乱子伦精品免费无码专区| 国产成人无码aa精品一区| 粉嫩大学生无套内射无码卡视频| 无码人妻视频一区二区三区| 亚洲av永久无码精品漫画 | 日韩精品无码人妻免费视频|