System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)主要涉及音色轉(zhuǎn)換領(lǐng)域,尤其涉及一種語音音色轉(zhuǎn)換中的節(jié)奏控制方法、電子設(shè)備和存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、對(duì)于零樣本語音轉(zhuǎn)換任務(wù),通常直接使用一句目標(biāo)人的語音作為參考,來生成關(guān)于這個(gè)人音色的語音。然而,很多語音轉(zhuǎn)換任務(wù)只關(guān)注音色的轉(zhuǎn)換是否夠好,并沒有考慮到轉(zhuǎn)換后的語音是否保持了原來的節(jié)奏。保持語音原來的節(jié)奏在很多場景是非常重要的。比如在線直播或者是視頻場景,我們是需要保持轉(zhuǎn)換后的語音與說話人嘴部的動(dòng)作和身體的動(dòng)作是要同步的。也就是要保持原本說話人的節(jié)奏。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于現(xiàn)有技術(shù)不關(guān)注轉(zhuǎn)換后的語音是否保持了原來的節(jié)奏,本專利技術(shù)所要解決的技術(shù)問題包括:
2、如何設(shè)計(jì)一種語音音色轉(zhuǎn)換中的節(jié)奏控制方法,從而保持原本說話人的節(jié)奏。
3、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供了一種語音音色轉(zhuǎn)換中的節(jié)奏控制方法,包括,獲取源語音的源語音語義向量和源語音梅爾譜;
4、對(duì)源語音進(jìn)行擾動(dòng)后,獲取源語音的源語音節(jié)奏向量;
5、獲取參考語音的參考語音語義向量、參考語音節(jié)奏向量和參考語音梅爾譜;
6、掩蓋部分語音的梅爾譜;
7、建立輸出語音梅爾譜,將源語音語義向量和源語音節(jié)奏向量補(bǔ)充到輸出語音梅爾譜中,通過參考語音的梅爾譜獲取音色信息;
8、輸出輸出語音梅爾譜,完成音色轉(zhuǎn)換。
9、進(jìn)一步地,所述獲取源語音的源語音語義向量,具體為:
10、將源語音輸入hubert模型或wav2vec模型,hub
11、進(jìn)一步地,所述對(duì)源語音進(jìn)行擾動(dòng),具體為:
12、使用sox工具,對(duì)源語音的音調(diào)進(jìn)行升高或者降低。
13、進(jìn)一步地,所述獲取擾動(dòng)后的源語音的節(jié)奏向量,具體為:
14、通過emotion2vec模型提取源語音中的源語音節(jié)奏向量。
15、進(jìn)一步地,所述獲取源語音的源語音梅爾譜,具體為:
16、使用vocos工具,將源語音輸入得到,源語音梅爾譜。
17、進(jìn)一步地,所述獲取參考語音的源語音梅爾譜,具體為:
18、使用vocos工具,將參考語音輸入得到,參考語音梅爾譜。
19、進(jìn)一步地,所述掩蓋部分源語音梅爾譜,具體為:隨機(jī)掩蓋連續(xù)的源語音梅爾譜一部分,并使得剩余的源語音梅爾譜在2-3s之間。
20、進(jìn)一步地,所述掩蓋部分源語音梅爾譜,還包括,將掩蓋部分的源語音梅爾譜替換成隨機(jī)噪聲。
21、一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中的程序,所述程序被配置成由處理器執(zhí)行,處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如前述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法。
22、一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法。
23、與現(xiàn)有技術(shù)方案相比,本專利技術(shù)的技術(shù)效果在于:
24、本專利技術(shù)使用情感識(shí)別相關(guān)的預(yù)訓(xùn)練模型即emotion2vec提取語音節(jié)奏信息。同時(shí),在將語音輸入到預(yù)訓(xùn)練模型之前,對(duì)語音的音調(diào)進(jìn)行擾動(dòng),以防止音色相關(guān)的信息泄露。
25、本專利技術(shù)使用掩碼并重建的方式進(jìn)行訓(xùn)練,可以避免對(duì)配對(duì)數(shù)據(jù)和干凈數(shù)據(jù)的需求。同時(shí)可以使用很簡單的方式實(shí)現(xiàn)音色轉(zhuǎn)換。
26、以下將結(jié)合附圖對(duì)本專利技術(shù)的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說明,以充分地了解本專利技術(shù)的目的、特征和效果。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于:包括,
2.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于:所述獲取源語音的源語音語義向量,具體為:
3.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述對(duì)源語音進(jìn)行擾動(dòng),具體為:
4.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述獲取擾動(dòng)后的源語音的節(jié)奏向量,具體為:
5.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述獲取源語音的源語音梅爾譜,具體為:
6.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述獲取參考語音的源語音梅爾譜,具體為:
7.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述掩蓋部分源語音梅爾譜,具體為:隨機(jī)掩蓋連續(xù)的源語音梅爾譜一部分,并使得剩余的源語音梅爾譜在2-3s之間。
8.根據(jù)權(quán)利要求7所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述掩蓋部分源語音梅爾譜,還包括,將掩蓋部分的源語音梅爾譜替換成隨機(jī)噪聲。
>9.一種電子設(shè)備,其特征在于:包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中的程序,所述程序被配置成由處理器執(zhí)行,處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-8所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法。
10.一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法。
...【技術(shù)特征摘要】
1.一種語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于:包括,
2.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于:所述獲取源語音的源語音語義向量,具體為:
3.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述對(duì)源語音進(jìn)行擾動(dòng),具體為:
4.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述獲取擾動(dòng)后的源語音的節(jié)奏向量,具體為:
5.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述獲取源語音的源語音梅爾譜,具體為:
6.根據(jù)權(quán)利要求1所述的語音音色轉(zhuǎn)換中的節(jié)奏控制方法,其特征在于,所述獲取參考語音的源語音梅爾譜,具體為:
7.根據(jù)權(quán)利...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:錢彥旻,陳正陽,
申請(qǐng)(專利權(quán))人:上海交通大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。