一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法技術(shù)方案

技術(shù)編號(hào)：43890974 閱讀：9 留言：0更新日期：2025-01-03 13:06

本發(fā)明專利技術(shù)公開了一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法，該系統(tǒng)，包括：文本模塊，用于將輸入的文本轉(zhuǎn)化為語言學(xué)特征，包括音素和韻律；聲學(xué)模塊，用于將語言學(xué)特征轉(zhuǎn)化為聲學(xué)特征和音素動(dòng)畫數(shù)據(jù)；音頻模塊，用于將聲學(xué)特征采樣生成音頻片段；數(shù)字人接口模塊，用于接收音素動(dòng)畫數(shù)據(jù)和音頻片段并同步播放，以實(shí)現(xiàn)數(shù)字人音唇同步。該系統(tǒng)實(shí)現(xiàn)以文本驅(qū)動(dòng)數(shù)字人高精度音唇同步,可以同時(shí)生成高質(zhì)量音頻和音唇動(dòng)畫數(shù)據(jù)，極大提高數(shù)字人的語音交互流暢度、自然感和真實(shí)度,提升用戶體驗(yàn)。同時(shí)也降低生成的成本，提高生成效率。另外，利用神經(jīng)網(wǎng)絡(luò)從文本生成音頻和音素動(dòng)畫數(shù)據(jù)的統(tǒng)一模型，可以保證聲音頻譜和動(dòng)畫數(shù)據(jù)的同步學(xué)習(xí)，精度更高。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計(jì)算機(jī)信息處理，更具體的說是涉及一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法。

技術(shù)介紹

1、數(shù)字人是指以數(shù)字形式存在于數(shù)字空間中，具有擬人或真人的外貌、行為和特點(diǎn)的虛擬人物，涉及到建模、物理仿真、渲染、動(dòng)作捕捉、面部捕捉和人工智能等多種技術(shù)。隨著人工智能技術(shù)和計(jì)算機(jī)技術(shù)的不斷完善，數(shù)字人的應(yīng)用和需求不斷增長，已經(jīng)在元宇宙、直播、綜藝、游戲、金融、傳媒、文旅、科教、泛娛樂、康養(yǎng)等諸多領(lǐng)域有了大范圍的落地應(yīng)用，具體呈現(xiàn)形式包括虛擬主持人、虛擬主播、時(shí)裝秀模特、虛擬偶像、虛擬教師、短視頻虛擬形象等。

2、數(shù)字人可以降低人類的重復(fù)性勞動(dòng)，保持24小時(shí)不間斷在線，大大提高所在行業(yè)的生產(chǎn)效率。高質(zhì)量數(shù)字人與真人類似，需要做到“形神兼?zhèn)洹??！靶巍敝傅氖蔷哂蟹浅１普娴念^發(fā)、皮膚等外觀視覺效果，“神”指的是具有生動(dòng)靈活的動(dòng)作、表情、唇形動(dòng)畫細(xì)節(jié)。

3、隨著渲染技術(shù)的進(jìn)步，數(shù)字人的外觀已經(jīng)可以實(shí)現(xiàn)非常逼真的效果，例如unreal，unity，adobe等公司都推出了自己的數(shù)字人渲染系統(tǒng)，可以實(shí)現(xiàn)次世代的高精度渲染。但是很多數(shù)字人只是形似而神不似，不夠生動(dòng)靈活，比較呆板,沒有豐富的表情、動(dòng)作和唇形動(dòng)畫，并且有的時(shí)候唇形動(dòng)畫和聲音難以做到精確匹配，這會(huì)導(dǎo)致數(shù)字人仿佛一具沒有靈魂的精致模型，降低數(shù)字人的體驗(yàn)感，極大影響了數(shù)字人的推廣,有時(shí)候甚至?xí)怼翱植拦刃?yīng)”。

4、只有具備擬人化的思想和行為,具備生動(dòng)靈活的動(dòng)畫細(xì)節(jié),數(shù)字人才能給用戶帶來親切感、參與感、互動(dòng)感和沉浸感。數(shù)字人要想做到與真人神似需要至

5、相關(guān)技術(shù)中：

6、1、隨機(jī)唇動(dòng),這是最簡單的唇動(dòng)方案。這些方法隨機(jī)播放唇動(dòng)動(dòng)畫，以此產(chǎn)生似乎在說話的感覺,但是這種隨機(jī)播放精度很低，大大降低了數(shù)字人的觀感和真實(shí)度。只適合模型很粗糙或者某些2d圖片場(chǎng)景。

7、2、音頻驅(qū)動(dòng)唇動(dòng)技術(shù)，例如wav2lip、lipsync等技術(shù)，這些技術(shù)需要輸入音頻，比輸入文本來說代價(jià)更高；由于缺乏精確的音素信息，常見的音頻驅(qū)動(dòng)唇動(dòng)方法在處理動(dòng)態(tài)和無約束的說話情況下，通常無法準(zhǔn)確合成口型，導(dǎo)致生成的唇形動(dòng)畫與音頻不同步，精度比較差，從而讓用戶產(chǎn)生不真實(shí)的感覺和割裂感。

8、3、視頻驅(qū)動(dòng)技術(shù)，例如蘋果的面捕技術(shù)。基于面捕的方法在精確度上可以實(shí)現(xiàn)比較準(zhǔn)確的效果,但是有兩個(gè)巨大缺點(diǎn)使其目前難以大規(guī)模應(yīng)用:

9、1)每次都需要真人在專業(yè)設(shè)備前進(jìn)行錄制,需要消耗較大的人力,不適合快速高效部署和日常使用。

10、2)設(shè)備相對(duì)昂貴,需要比較好的面捕硬件支持,一般用戶不會(huì)愿意購買，操作成本也比較高。

11、因此，上述缺陷限制了數(shù)字人技術(shù)在提升用戶參與感、互動(dòng)感和沉浸感方面的能力，尤其是在需要高度擬真的場(chǎng)景中，現(xiàn)有技術(shù)手段難以全面滿足市場(chǎng)需求。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本專利技術(shù)提供了一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法，本專利技術(shù)致力于解決數(shù)字人的音唇同步問題，改善現(xiàn)有數(shù)字人唇形動(dòng)畫不準(zhǔn)確、音頻不自然、細(xì)節(jié)不豐富以及音唇不同步的問題。

2、為了實(shí)現(xiàn)上述目的，本專利技術(shù)采用如下技術(shù)方案：

3、第一方面，本專利技術(shù)提供一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，包括：

4、文本模塊，用于將輸入的文本轉(zhuǎn)化為語言學(xué)特征，包括音素和韻律；

5、聲學(xué)模塊，用于將所述語言學(xué)特征轉(zhuǎn)化為聲學(xué)特征和音素動(dòng)畫數(shù)據(jù)；

6、音頻模塊，用于將所述聲學(xué)特征采樣生成音頻片段；

7、數(shù)字人接口模塊，用于接收所述音素動(dòng)畫數(shù)據(jù)和音頻片段并同步播放，以實(shí)現(xiàn)數(shù)字人音唇同步。

8、進(jìn)一步地，所述文本模塊，包括：

9、文本規(guī)范化單元，用于將輸入的文本作為書面文本詞轉(zhuǎn)換成口語詞；

10、生成音素單元，用于對(duì)所述口語詞利用bert模型和softmax分類器實(shí)現(xiàn)多音字的消歧處理，生成對(duì)應(yīng)的音素；

11、韻律預(yù)測(cè)單元，用于對(duì)所述口語詞基于bert模型和softmax分類器進(jìn)行韻律分析，輸出對(duì)應(yīng)的韻律等級(jí)。

12、進(jìn)一步地，所述聲學(xué)模塊，包括：

13、向量化單元，用于將文本模塊生成的音素和韻律信息通過嵌入技術(shù)轉(zhuǎn)化為嵌入向量形式；

14、編碼器單元，使用前饋transformer塊來分析和理解音素及其關(guān)聯(lián)的韻律特征，提取音素和韻律信息的上下文語義關(guān)聯(lián)；

15、語音轉(zhuǎn)換器單元，用于提取與音素相關(guān)的語音特征，包括：音調(diào)、能量和權(quán)重、時(shí)間信息和頻譜級(jí)序列；

16、自回歸解碼器單元，采用依次相連的prenet、gru模塊以及全連接層結(jié)構(gòu)，根據(jù)輸入的頻譜級(jí)序列，生成最終的梅爾頻譜，用于音頻合成。

17、進(jìn)一步地，所述編碼器單元，由4個(gè)前饋transformer塊組成，輸入是304維度的嵌入向量，并加入位置編碼，經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列；所述transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。

18、進(jìn)一步地，所述位置編碼用于向模型提供序列中各個(gè)音素位置信息，使用正弦和余弦函數(shù)的固定位置編碼：

19、對(duì)于音素序列位置pos處的第2i維度，為偶數(shù)維度：

20、

21、對(duì)于音素序列中位置pos處的第2i+1維度，為奇數(shù)維度：

22、

23、其中，pos是位置索引，i是維度索引，dmodel是模型隱藏層的維度。

24、進(jìn)一步地，所述語音轉(zhuǎn)換器單元，包括：

25、特征提取器，用于從編碼器單元輸出的隱狀態(tài)序列中，基于預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)模型提取聲學(xué)特征；

26、音調(diào)預(yù)測(cè)器，用于基于預(yù)訓(xùn)練的音調(diào)預(yù)測(cè)模型，從所述聲學(xué)特征中獲得音調(diào)信息；

27、能量預(yù)測(cè)器，用于基于預(yù)訓(xùn)練的能量預(yù)測(cè)模型，從所述聲學(xué)特征中獲得能量信息；

28、權(quán)重預(yù)測(cè)器，用于基于預(yù)訓(xùn)練的權(quán)重預(yù)測(cè)模型，從所述聲學(xué)特征中獲得權(quán)重信息；

29、自回歸長度預(yù)測(cè)器，將預(yù)測(cè)獲得的音調(diào)、能量、權(quán)重信息和編碼器單元提取的音律、韻律一起編碼拼接，輸入預(yù)訓(xùn)練的自回歸長度預(yù)測(cè)模型，輸出音素的時(shí)間信息，以及所述時(shí)間信息經(jīng)過長度調(diào)節(jié)器，輸出頻譜級(jí)序列。

30、進(jìn)一步地，所述音調(diào)預(yù)測(cè)模型、能量預(yù)測(cè)模型和權(quán)重預(yù)測(cè)模型，為相同的網(wǎng)絡(luò)模型結(jié)構(gòu)，均由兩個(gè)卷積層和一個(gè)全連接層組成，分別單獨(dú)建模，均采用均方誤差損失進(jìn)行優(yōu)化；

31、其中，所述音調(diào)預(yù)測(cè)模型使用連續(xù)小波變換將連續(xù)音調(diào)序列分解為音調(diào)譜圖，并將音調(diào)譜圖作為訓(xùn)練目標(biāo)；

32、所述能量預(yù)測(cè)模型，將計(jì)算每個(gè)短時(shí)傅里葉變化幀的幅度的l2范數(shù)作為能量；所述能量作為訓(xùn)練目標(biāo)；

33、所述權(quán)重預(yù)測(cè)模型直接將音素對(duì)應(yīng)發(fā)音的動(dòng)畫權(quán)重作為訓(xùn)練目標(biāo)。

34、進(jìn)一步地，所述音頻模塊具體采用hifi-gan網(wǎng)絡(luò)，對(duì)作為聲學(xué)特征的梅爾頻譜本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述文本模塊，包括：

3.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述聲學(xué)模塊，包括：

4.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述編碼器單元，由4個(gè)前饋Transformer塊組成，輸入是304維度的嵌入向量，并加入位置編碼，經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列；所述Transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。

5.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述位置編碼用于向模型提供序列中各個(gè)音素位置信息，使用正弦和余弦函數(shù)的固定位置編碼：

6.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述語音轉(zhuǎn)換器單元，包括：

7.根據(jù)權(quán)利要求6所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述音調(diào)

8.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述音頻模塊具體采用HiFi-GAN網(wǎng)絡(luò)，對(duì)作為聲學(xué)特征的梅爾頻譜進(jìn)行上采樣以生成高質(zhì)量音頻；所述HiFi-GAN網(wǎng)絡(luò)使用對(duì)抗損失、梅爾頻譜損失和特征匹配損失，進(jìn)行訓(xùn)練。

9.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述數(shù)字人接口模塊，包括：

10.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步方法，其特征在于，使用如權(quán)利要求1-9任一項(xiàng)所述的文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，包括如下步驟：

...

【技術(shù)特征摘要】

1.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述文本模塊，包括：

3.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述聲學(xué)模塊，包括：

4.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)，其特征在于，所述編碼器單元，由4個(gè)前饋transformer塊組成，輸入是304維度的嵌入向量，并加入位置編碼，經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列；所述transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。

6.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：翟升富，
申請(qǐng)(專利權(quán))人：暗物智能科技廣州有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)