System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計(jì)算機(jī)信息處理,更具體的說是涉及一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法。
技術(shù)介紹
1、數(shù)字人是指以數(shù)字形式存在于數(shù)字空間中,具有擬人或真人的外貌、行為和特點(diǎn)的虛擬人物,涉及到建模、物理仿真、渲染、動(dòng)作捕捉、面部捕捉和人工智能等多種技術(shù)。隨著人工智能技術(shù)和計(jì)算機(jī)技術(shù)的不斷完善,數(shù)字人的應(yīng)用和需求不斷增長,已經(jīng)在元宇宙、直播、綜藝、游戲、金融、傳媒、文旅、科教、泛娛樂、康養(yǎng)等諸多領(lǐng)域有了大范圍的落地應(yīng)用,具體呈現(xiàn)形式包括虛擬主持人、虛擬主播、時(shí)裝秀模特、虛擬偶像、虛擬教師、短視頻虛擬形象等。
2、數(shù)字人可以降低人類的重復(fù)性勞動(dòng),保持24小時(shí)不間斷在線,大大提高所在行業(yè)的生產(chǎn)效率。高質(zhì)量數(shù)字人與真人類似,需要做到“形神兼?zhèn)洹??!靶巍敝傅氖蔷哂蟹浅1普娴念^發(fā)、皮膚等外觀視覺效果,“神”指的是具有生動(dòng)靈活的動(dòng)作、表情、唇形動(dòng)畫細(xì)節(jié)。
3、隨著渲染技術(shù)的進(jìn)步,數(shù)字人的外觀已經(jīng)可以實(shí)現(xiàn)非常逼真的效果,例如unreal,unity,adobe等公司都推出了自己的數(shù)字人渲染系統(tǒng),可以實(shí)現(xiàn)次世代的高精度渲染。但是很多數(shù)字人只是形似而神不似,不夠生動(dòng)靈活,比較呆板,沒有豐富的表情、動(dòng)作和唇形動(dòng)畫,并且有的時(shí)候唇形動(dòng)畫和聲音難以做到精確匹配,這會(huì)導(dǎo)致數(shù)字人仿佛一具沒有靈魂的精致模型,降低數(shù)字人的體驗(yàn)感,極大影響了數(shù)字人的推廣,有時(shí)候甚至?xí)怼翱植拦刃?yīng)”。
4、只有具備擬人化的思想和行為,具備生動(dòng)靈活的動(dòng)畫細(xì)節(jié),數(shù)字人才能給用戶帶來親切感、參與感、互動(dòng)感和沉浸感。數(shù)字人要想做到與真人神似需要至
5、相關(guān)技術(shù)中:
6、1、隨機(jī)唇動(dòng),這是最簡單的唇動(dòng)方案。這些方法隨機(jī)播放唇動(dòng)動(dòng)畫,以此產(chǎn)生似乎在說話的感覺,但是這種隨機(jī)播放精度很低,大大降低了數(shù)字人的觀感和真實(shí)度。只適合模型很粗糙或者某些2d圖片場(chǎng)景。
7、2、音頻驅(qū)動(dòng)唇動(dòng)技術(shù),例如wav2lip、lipsync等技術(shù),這些技術(shù)需要輸入音頻,比輸入文本來說代價(jià)更高;由于缺乏精確的音素信息,常見的音頻驅(qū)動(dòng)唇動(dòng)方法在處理動(dòng)態(tài)和無約束的說話情況下,通常無法準(zhǔn)確合成口型,導(dǎo)致生成的唇形動(dòng)畫與音頻不同步,精度比較差,從而讓用戶產(chǎn)生不真實(shí)的感覺和割裂感。
8、3、視頻驅(qū)動(dòng)技術(shù),例如蘋果的面捕技術(shù)。基于面捕的方法在精確度上可以實(shí)現(xiàn)比較準(zhǔn)確的效果,但是有兩個(gè)巨大缺點(diǎn)使其目前難以大規(guī)模應(yīng)用:
9、1)每次都需要真人在專業(yè)設(shè)備前進(jìn)行錄制,需要消耗較大的人力,不適合快速高效部署和日常使用。
10、2)設(shè)備相對(duì)昂貴,需要比較好的面捕硬件支持,一般用戶不會(huì)愿意購買,操作成本也比較高。
11、因此,上述缺陷限制了數(shù)字人技術(shù)在提升用戶參與感、互動(dòng)感和沉浸感方面的能力,尤其是在需要高度擬真的場(chǎng)景中,現(xiàn)有技術(shù)手段難以全面滿足市場(chǎng)需求。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本專利技術(shù)提供了一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法,本專利技術(shù)致力于解決數(shù)字人的音唇同步問題,改善現(xiàn)有數(shù)字人唇形動(dòng)畫不準(zhǔn)確、音頻不自然、細(xì)節(jié)不豐富以及音唇不同步的問題。
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)采用如下技術(shù)方案:
3、第一方面,本專利技術(shù)提供一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),包括:
4、文本模塊,用于將輸入的文本轉(zhuǎn)化為語言學(xué)特征,包括音素和韻律;
5、聲學(xué)模塊,用于將所述語言學(xué)特征轉(zhuǎn)化為聲學(xué)特征和音素動(dòng)畫數(shù)據(jù);
6、音頻模塊,用于將所述聲學(xué)特征采樣生成音頻片段;
7、數(shù)字人接口模塊,用于接收所述音素動(dòng)畫數(shù)據(jù)和音頻片段并同步播放,以實(shí)現(xiàn)數(shù)字人音唇同步。
8、進(jìn)一步地,所述文本模塊,包括:
9、文本規(guī)范化單元,用于將輸入的文本作為書面文本詞轉(zhuǎn)換成口語詞;
10、生成音素單元,用于對(duì)所述口語詞利用bert模型和softmax分類器實(shí)現(xiàn)多音字的消歧處理,生成對(duì)應(yīng)的音素;
11、韻律預(yù)測(cè)單元,用于對(duì)所述口語詞基于bert模型和softmax分類器進(jìn)行韻律分析,輸出對(duì)應(yīng)的韻律等級(jí)。
12、進(jìn)一步地,所述聲學(xué)模塊,包括:
13、向量化單元,用于將文本模塊生成的音素和韻律信息通過嵌入技術(shù)轉(zhuǎn)化為嵌入向量形式;
14、編碼器單元,使用前饋transformer塊來分析和理解音素及其關(guān)聯(lián)的韻律特征,提取音素和韻律信息的上下文語義關(guān)聯(lián);
15、語音轉(zhuǎn)換器單元,用于提取與音素相關(guān)的語音特征,包括:音調(diào)、能量和權(quán)重、時(shí)間信息和頻譜級(jí)序列;
16、自回歸解碼器單元,采用依次相連的prenet、gru模塊以及全連接層結(jié)構(gòu),根據(jù)輸入的頻譜級(jí)序列,生成最終的梅爾頻譜,用于音頻合成。
17、進(jìn)一步地,所述編碼器單元,由4個(gè)前饋transformer塊組成,輸入是304維度的嵌入向量,并加入位置編碼,經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列;所述transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。
18、進(jìn)一步地,所述位置編碼用于向模型提供序列中各個(gè)音素位置信息,使用正弦和余弦函數(shù)的固定位置編碼:
19、對(duì)于音素序列位置pos處的第2i維度,為偶數(shù)維度:
20、
21、對(duì)于音素序列中位置pos處的第2i+1維度,為奇數(shù)維度:
22、
23、其中,pos是位置索引,i是維度索引,dmodel是模型隱藏層的維度。
24、進(jìn)一步地,所述語音轉(zhuǎn)換器單元,包括:
25、特征提取器,用于從編碼器單元輸出的隱狀態(tài)序列中,基于預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)模型提取聲學(xué)特征;
26、音調(diào)預(yù)測(cè)器,用于基于預(yù)訓(xùn)練的音調(diào)預(yù)測(cè)模型,從所述聲學(xué)特征中獲得音調(diào)信息;
27、能量預(yù)測(cè)器,用于基于預(yù)訓(xùn)練的能量預(yù)測(cè)模型,從所述聲學(xué)特征中獲得能量信息;
28、權(quán)重預(yù)測(cè)器,用于基于預(yù)訓(xùn)練的權(quán)重預(yù)測(cè)模型,從所述聲學(xué)特征中獲得權(quán)重信息;
29、自回歸長度預(yù)測(cè)器,將預(yù)測(cè)獲得的音調(diào)、能量、權(quán)重信息和編碼器單元提取的音律、韻律一起編碼拼接,輸入預(yù)訓(xùn)練的自回歸長度預(yù)測(cè)模型,輸出音素的時(shí)間信息,以及所述時(shí)間信息經(jīng)過長度調(diào)節(jié)器,輸出頻譜級(jí)序列。
30、進(jìn)一步地,所述音調(diào)預(yù)測(cè)模型、能量預(yù)測(cè)模型和權(quán)重預(yù)測(cè)模型,為相同的網(wǎng)絡(luò)模型結(jié)構(gòu),均由兩個(gè)卷積層和一個(gè)全連接層組成,分別單獨(dú)建模,均采用均方誤差損失進(jìn)行優(yōu)化;
31、其中,所述音調(diào)預(yù)測(cè)模型使用連續(xù)小波變換將連續(xù)音調(diào)序列分解為音調(diào)譜圖,并將音調(diào)譜圖作為訓(xùn)練目標(biāo);
32、所述能量預(yù)測(cè)模型,將計(jì)算每個(gè)短時(shí)傅里葉變化幀的幅度的l2范數(shù)作為能量;所述能量作為訓(xùn)練目標(biāo);
33、所述權(quán)重預(yù)測(cè)模型直接將音素對(duì)應(yīng)發(fā)音的動(dòng)畫權(quán)重作為訓(xùn)練目標(biāo)。
34、進(jìn)一步地,所述音頻模塊具體采用hifi-gan網(wǎng)絡(luò),對(duì)作為聲學(xué)特征的梅爾頻譜本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述文本模塊,包括:
3.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述聲學(xué)模塊,包括:
4.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述編碼器單元,由4個(gè)前饋Transformer塊組成,輸入是304維度的嵌入向量,并加入位置編碼,經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列;所述Transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。
5.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述位置編碼用于向模型提供序列中各個(gè)音素位置信息,使用正弦和余弦函數(shù)的固定位置編碼:
6.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述語音轉(zhuǎn)換器單元,包括:
7.根據(jù)權(quán)利要求6所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述音調(diào)
8.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述音頻模塊具體采用HiFi-GAN網(wǎng)絡(luò),對(duì)作為聲學(xué)特征的梅爾頻譜進(jìn)行上采樣以生成高質(zhì)量音頻;所述HiFi-GAN網(wǎng)絡(luò)使用對(duì)抗損失、梅爾頻譜損失和特征匹配損失,進(jìn)行訓(xùn)練。
9.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述數(shù)字人接口模塊,包括:
10.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步方法,其特征在于,使用如權(quán)利要求1-9任一項(xiàng)所述的文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),包括如下步驟:
...【技術(shù)特征摘要】
1.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述文本模塊,包括:
3.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述聲學(xué)模塊,包括:
4.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述編碼器單元,由4個(gè)前饋transformer塊組成,輸入是304維度的嵌入向量,并加入位置編碼,經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列;所述transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。
5.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述位置編碼用于向模型提供序列中各個(gè)音素位置信息,使用正弦和余弦函數(shù)的固定位置編碼:
6.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:翟升富,
申請(qǐng)(專利權(quán))人:暗物智能科技廣州有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。