System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲日韩一区二区一无码,亚洲人成国产精品无码,亚洲一区二区无码偷拍
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法技術(shù)方案

    技術(shù)編號(hào):43890974 閱讀:9 留言:0更新日期:2025-01-03 13:06
    本發(fā)明專利技術(shù)公開了一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法,該系統(tǒng),包括:文本模塊,用于將輸入的文本轉(zhuǎn)化為語言學(xué)特征,包括音素和韻律;聲學(xué)模塊,用于將語言學(xué)特征轉(zhuǎn)化為聲學(xué)特征和音素動(dòng)畫數(shù)據(jù);音頻模塊,用于將聲學(xué)特征采樣生成音頻片段;數(shù)字人接口模塊,用于接收音素動(dòng)畫數(shù)據(jù)和音頻片段并同步播放,以實(shí)現(xiàn)數(shù)字人音唇同步。該系統(tǒng)實(shí)現(xiàn)以文本驅(qū)動(dòng)數(shù)字人高精度音唇同步,可以同時(shí)生成高質(zhì)量音頻和音唇動(dòng)畫數(shù)據(jù),極大提高數(shù)字人的語音交互流暢度、自然感和真實(shí)度,提升用戶體驗(yàn)。同時(shí)也降低生成的成本,提高生成效率。另外,利用神經(jīng)網(wǎng)絡(luò)從文本生成音頻和音素動(dòng)畫數(shù)據(jù)的統(tǒng)一模型,可以保證聲音頻譜和動(dòng)畫數(shù)據(jù)的同步學(xué)習(xí),精度更高。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及計(jì)算機(jī)信息處理,更具體的說是涉及一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法。


    技術(shù)介紹

    1、數(shù)字人是指以數(shù)字形式存在于數(shù)字空間中,具有擬人或真人的外貌、行為和特點(diǎn)的虛擬人物,涉及到建模、物理仿真、渲染、動(dòng)作捕捉、面部捕捉和人工智能等多種技術(shù)。隨著人工智能技術(shù)和計(jì)算機(jī)技術(shù)的不斷完善,數(shù)字人的應(yīng)用和需求不斷增長,已經(jīng)在元宇宙、直播、綜藝、游戲、金融、傳媒、文旅、科教、泛娛樂、康養(yǎng)等諸多領(lǐng)域有了大范圍的落地應(yīng)用,具體呈現(xiàn)形式包括虛擬主持人、虛擬主播、時(shí)裝秀模特、虛擬偶像、虛擬教師、短視頻虛擬形象等。

    2、數(shù)字人可以降低人類的重復(fù)性勞動(dòng),保持24小時(shí)不間斷在線,大大提高所在行業(yè)的生產(chǎn)效率。高質(zhì)量數(shù)字人與真人類似,需要做到“形神兼?zhèn)洹??!靶巍敝傅氖蔷哂蟹浅1普娴念^發(fā)、皮膚等外觀視覺效果,“神”指的是具有生動(dòng)靈活的動(dòng)作、表情、唇形動(dòng)畫細(xì)節(jié)。

    3、隨著渲染技術(shù)的進(jìn)步,數(shù)字人的外觀已經(jīng)可以實(shí)現(xiàn)非常逼真的效果,例如unreal,unity,adobe等公司都推出了自己的數(shù)字人渲染系統(tǒng),可以實(shí)現(xiàn)次世代的高精度渲染。但是很多數(shù)字人只是形似而神不似,不夠生動(dòng)靈活,比較呆板,沒有豐富的表情、動(dòng)作和唇形動(dòng)畫,并且有的時(shí)候唇形動(dòng)畫和聲音難以做到精確匹配,這會(huì)導(dǎo)致數(shù)字人仿佛一具沒有靈魂的精致模型,降低數(shù)字人的體驗(yàn)感,極大影響了數(shù)字人的推廣,有時(shí)候甚至?xí)怼翱植拦刃?yīng)”。

    4、只有具備擬人化的思想和行為,具備生動(dòng)靈活的動(dòng)畫細(xì)節(jié),數(shù)字人才能給用戶帶來親切感、參與感、互動(dòng)感和沉浸感。數(shù)字人要想做到與真人神似需要至少做到:肢體動(dòng)作自然流暢、面部表情自然、音唇同步。

    5、相關(guān)技術(shù)中:

    6、1、隨機(jī)唇動(dòng),這是最簡單的唇動(dòng)方案。這些方法隨機(jī)播放唇動(dòng)動(dòng)畫,以此產(chǎn)生似乎在說話的感覺,但是這種隨機(jī)播放精度很低,大大降低了數(shù)字人的觀感和真實(shí)度。只適合模型很粗糙或者某些2d圖片場(chǎng)景。

    7、2、音頻驅(qū)動(dòng)唇動(dòng)技術(shù),例如wav2lip、lipsync等技術(shù),這些技術(shù)需要輸入音頻,比輸入文本來說代價(jià)更高;由于缺乏精確的音素信息,常見的音頻驅(qū)動(dòng)唇動(dòng)方法在處理動(dòng)態(tài)和無約束的說話情況下,通常無法準(zhǔn)確合成口型,導(dǎo)致生成的唇形動(dòng)畫與音頻不同步,精度比較差,從而讓用戶產(chǎn)生不真實(shí)的感覺和割裂感。

    8、3、視頻驅(qū)動(dòng)技術(shù),例如蘋果的面捕技術(shù)。基于面捕的方法在精確度上可以實(shí)現(xiàn)比較準(zhǔn)確的效果,但是有兩個(gè)巨大缺點(diǎn)使其目前難以大規(guī)模應(yīng)用:

    9、1)每次都需要真人在專業(yè)設(shè)備前進(jìn)行錄制,需要消耗較大的人力,不適合快速高效部署和日常使用。

    10、2)設(shè)備相對(duì)昂貴,需要比較好的面捕硬件支持,一般用戶不會(huì)愿意購買,操作成本也比較高。

    11、因此,上述缺陷限制了數(shù)字人技術(shù)在提升用戶參與感、互動(dòng)感和沉浸感方面的能力,尤其是在需要高度擬真的場(chǎng)景中,現(xiàn)有技術(shù)手段難以全面滿足市場(chǎng)需求。


    技術(shù)實(shí)現(xiàn)思路

    1、有鑒于此,本專利技術(shù)提供了一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng)及方法,本專利技術(shù)致力于解決數(shù)字人的音唇同步問題,改善現(xiàn)有數(shù)字人唇形動(dòng)畫不準(zhǔn)確、音頻不自然、細(xì)節(jié)不豐富以及音唇不同步的問題。

    2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)采用如下技術(shù)方案:

    3、第一方面,本專利技術(shù)提供一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),包括:

    4、文本模塊,用于將輸入的文本轉(zhuǎn)化為語言學(xué)特征,包括音素和韻律;

    5、聲學(xué)模塊,用于將所述語言學(xué)特征轉(zhuǎn)化為聲學(xué)特征和音素動(dòng)畫數(shù)據(jù);

    6、音頻模塊,用于將所述聲學(xué)特征采樣生成音頻片段;

    7、數(shù)字人接口模塊,用于接收所述音素動(dòng)畫數(shù)據(jù)和音頻片段并同步播放,以實(shí)現(xiàn)數(shù)字人音唇同步。

    8、進(jìn)一步地,所述文本模塊,包括:

    9、文本規(guī)范化單元,用于將輸入的文本作為書面文本詞轉(zhuǎn)換成口語詞;

    10、生成音素單元,用于對(duì)所述口語詞利用bert模型和softmax分類器實(shí)現(xiàn)多音字的消歧處理,生成對(duì)應(yīng)的音素;

    11、韻律預(yù)測(cè)單元,用于對(duì)所述口語詞基于bert模型和softmax分類器進(jìn)行韻律分析,輸出對(duì)應(yīng)的韻律等級(jí)。

    12、進(jìn)一步地,所述聲學(xué)模塊,包括:

    13、向量化單元,用于將文本模塊生成的音素和韻律信息通過嵌入技術(shù)轉(zhuǎn)化為嵌入向量形式;

    14、編碼器單元,使用前饋transformer塊來分析和理解音素及其關(guān)聯(lián)的韻律特征,提取音素和韻律信息的上下文語義關(guān)聯(lián);

    15、語音轉(zhuǎn)換器單元,用于提取與音素相關(guān)的語音特征,包括:音調(diào)、能量和權(quán)重、時(shí)間信息和頻譜級(jí)序列;

    16、自回歸解碼器單元,采用依次相連的prenet、gru模塊以及全連接層結(jié)構(gòu),根據(jù)輸入的頻譜級(jí)序列,生成最終的梅爾頻譜,用于音頻合成。

    17、進(jìn)一步地,所述編碼器單元,由4個(gè)前饋transformer塊組成,輸入是304維度的嵌入向量,并加入位置編碼,經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列;所述transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。

    18、進(jìn)一步地,所述位置編碼用于向模型提供序列中各個(gè)音素位置信息,使用正弦和余弦函數(shù)的固定位置編碼:

    19、對(duì)于音素序列位置pos處的第2i維度,為偶數(shù)維度:

    20、

    21、對(duì)于音素序列中位置pos處的第2i+1維度,為奇數(shù)維度:

    22、

    23、其中,pos是位置索引,i是維度索引,dmodel是模型隱藏層的維度。

    24、進(jìn)一步地,所述語音轉(zhuǎn)換器單元,包括:

    25、特征提取器,用于從編碼器單元輸出的隱狀態(tài)序列中,基于預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)模型提取聲學(xué)特征;

    26、音調(diào)預(yù)測(cè)器,用于基于預(yù)訓(xùn)練的音調(diào)預(yù)測(cè)模型,從所述聲學(xué)特征中獲得音調(diào)信息;

    27、能量預(yù)測(cè)器,用于基于預(yù)訓(xùn)練的能量預(yù)測(cè)模型,從所述聲學(xué)特征中獲得能量信息;

    28、權(quán)重預(yù)測(cè)器,用于基于預(yù)訓(xùn)練的權(quán)重預(yù)測(cè)模型,從所述聲學(xué)特征中獲得權(quán)重信息;

    29、自回歸長度預(yù)測(cè)器,將預(yù)測(cè)獲得的音調(diào)、能量、權(quán)重信息和編碼器單元提取的音律、韻律一起編碼拼接,輸入預(yù)訓(xùn)練的自回歸長度預(yù)測(cè)模型,輸出音素的時(shí)間信息,以及所述時(shí)間信息經(jīng)過長度調(diào)節(jié)器,輸出頻譜級(jí)序列。

    30、進(jìn)一步地,所述音調(diào)預(yù)測(cè)模型、能量預(yù)測(cè)模型和權(quán)重預(yù)測(cè)模型,為相同的網(wǎng)絡(luò)模型結(jié)構(gòu),均由兩個(gè)卷積層和一個(gè)全連接層組成,分別單獨(dú)建模,均采用均方誤差損失進(jìn)行優(yōu)化;

    31、其中,所述音調(diào)預(yù)測(cè)模型使用連續(xù)小波變換將連續(xù)音調(diào)序列分解為音調(diào)譜圖,并將音調(diào)譜圖作為訓(xùn)練目標(biāo);

    32、所述能量預(yù)測(cè)模型,將計(jì)算每個(gè)短時(shí)傅里葉變化幀的幅度的l2范數(shù)作為能量;所述能量作為訓(xùn)練目標(biāo);

    33、所述權(quán)重預(yù)測(cè)模型直接將音素對(duì)應(yīng)發(fā)音的動(dòng)畫權(quán)重作為訓(xùn)練目標(biāo)。

    34、進(jìn)一步地,所述音頻模塊具體采用hifi-gan網(wǎng)絡(luò),對(duì)作為聲學(xué)特征的梅爾頻譜本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述文本模塊,包括:

    3.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述聲學(xué)模塊,包括:

    4.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述編碼器單元,由4個(gè)前饋Transformer塊組成,輸入是304維度的嵌入向量,并加入位置編碼,經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列;所述Transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。

    5.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述位置編碼用于向模型提供序列中各個(gè)音素位置信息,使用正弦和余弦函數(shù)的固定位置編碼:

    6.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述語音轉(zhuǎn)換器單元,包括:

    7.根據(jù)權(quán)利要求6所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述音調(diào)預(yù)測(cè)模型、能量預(yù)測(cè)模型和權(quán)重預(yù)測(cè)模型,為相同的網(wǎng)絡(luò)模型結(jié)構(gòu),均由兩個(gè)卷積層和一個(gè)全連接層組成,分別單獨(dú)建模,均采用均方誤差損失進(jìn)行優(yōu)化;

    8.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述音頻模塊具體采用HiFi-GAN網(wǎng)絡(luò),對(duì)作為聲學(xué)特征的梅爾頻譜進(jìn)行上采樣以生成高質(zhì)量音頻;所述HiFi-GAN網(wǎng)絡(luò)使用對(duì)抗損失、梅爾頻譜損失和特征匹配損失,進(jìn)行訓(xùn)練。

    9.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述數(shù)字人接口模塊,包括:

    10.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步方法,其特征在于,使用如權(quán)利要求1-9任一項(xiàng)所述的文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),包括如下步驟:

    ...

    【技術(shù)特征摘要】

    1.一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述文本模塊,包括:

    3.根據(jù)權(quán)利要求1所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述聲學(xué)模塊,包括:

    4.根據(jù)權(quán)利要求3所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述編碼器單元,由4個(gè)前饋transformer塊組成,輸入是304維度的嵌入向量,并加入位置編碼,經(jīng)過編碼器內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)變成隱狀態(tài)序列;所述transformer結(jié)構(gòu)包括多頭自注意力層以及一維卷積,提取到音素和韻律的上下文語義關(guān)聯(lián)。

    5.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)的數(shù)字人高精度音唇同步系統(tǒng),其特征在于,所述位置編碼用于向模型提供序列中各個(gè)音素位置信息,使用正弦和余弦函數(shù)的固定位置編碼:

    6.根據(jù)權(quán)利要求4所述的一種文本驅(qū)動(dòng)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:翟升富,
    申請(qǐng)(專利權(quán))人:暗物智能科技廣州有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻一区二区三区免费看| 成年午夜无码av片在线观看| 无码成A毛片免费| 亚洲AV无码国产在丝袜线观看| 特级毛片内射www无码| 国产成人AV片无码免费| 人妻无码久久精品| 精品无码免费专区毛片| 亚洲级αV无码毛片久久精品| 日本精品无码一区二区三区久久久| 国产成人麻豆亚洲综合无码精品 | 亚洲人av高清无码| 国产午夜精品无码| 成人无码区免费A∨直播| 亚洲a无码综合a国产av中文| 无码精品视频一区二区三区| 久久久久亚洲AV无码专区桃色| 色国产色无码色欧美色在线| 人妻丰满熟妇岳AV无码区HD| 亚洲中文字幕无码久久精品1| 亚洲一本大道无码av天堂| 无码A级毛片日韩精品| 亚洲av无码兔费综合| 无码一区18禁3D| 无码日本电影一区二区网站| 无码一区18禁3D| 亚洲av无码专区在线电影| 在线观看无码AV网站永久免费| 亚洲熟妇无码久久精品| 无码人妻一区二区三区在线视频| 中文无码久久精品| 亚洲av永久无码精品网站| 亚洲日韩精品无码专区网址| 国产精品无码午夜福利| 亚洲AV日韩AV高潮无码专区| 无码国产午夜福利片在线观看| 无码人妻久久一区二区三区免费 | 亚洲av无码无在线观看红杏| 日韩精品无码免费专区午夜| 亚洲va中文字幕无码久久| 无码人妻视频一区二区三区|