System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩欧精品无码视频无删节,国产亚洲精品无码成人,无码熟妇人妻AV影音先锋
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數字人表情驅動方法、裝置、存儲介質及計算機設備制造方法及圖紙

    技術編號:44468752 閱讀:2 留言:0更新日期:2025-03-04 17:40
    本申請提供的數字人表情驅動方法、裝置、存儲介質及計算機設備,在對數字人進行表情驅動時,先獲取目標音頻及其目標文本,并采用目標情緒特征提取模型對目標音頻和目標文本進行特征提取,得到多模態特征及其對應的情緒類別,以通過多模態信息來提高表情驅動的準確性;然后確定與情緒類別對應的人物表情數據以及目標表情參數預測模型,由于該模型引入了跨時空注意力機制,使得該模型對多模態特征、情緒類別和人物表情數據進行表情參數預測后生成的表情參數序列包含時空層面的特征關聯運算,因此,在獲取目標人物圖像后,可以采用目標人臉生成模型基于表情參數序列對目標人物圖像進行表情驅動,生成具有時間和空間連續性的數字人表情驅動視頻。

    【技術實現步驟摘要】

    本申請涉及人工智能,尤其涉及一種數字人表情驅動方法、裝置、存儲介質及計算機設備。


    技術介紹

    1、隨著數字人技術的迅速進步,其應用范圍也在不斷拓寬,其以一種前所未有的交互形式拉近人與機器的距離。在日常交流中,人臉作為重要的社交媒介,其表情與情緒的精準傳達對于數字人技術至關重要,而表情與情緒的傳達過程主要依賴于動作捕捉設備或面部重建技術來獲取表情參數,進而通過驅動算法實現表情的動態變化。

    2、目前,數字人表情驅動方法多依賴于深度神經網絡,結合文本或音頻數據提取表情特征,再通過圖像生成技術來塑造表情。然而,這些方法局限于圖像層面的特征處理,缺乏在時空維度上的深入關聯運算,因此無法實現高質量的視頻級別的數字人表情。


    技術實現思路

    1、本申請的目的旨在至少能解決上述的技術缺陷之一,特別是現有技術中數字人表情驅動方法局限于圖像層面的特征處理,缺乏在時空維度上的深入關聯運算,因此無法實現高質量的視頻級別的數字人表情的技術缺陷。

    2、本申請提供了一種數字人表情驅動方法,所述方法包括:

    3、獲取目標音頻以及所述目標音頻對應的目標文本,并采用目標情緒特征提取模型對所述目標音頻和所述目標文本進行特征提取,得到多模態特征以及所述多模態特征對應的情緒類別;

    4、確定與所述情緒類別對應的人物表情數據,以及確定目標表情參數預測模型;所述目標表情參數預測模型采用跨時空注意力機制訓練得到;

    5、將所述多模態特征、所述情緒類別和所述人物表情數據輸入至所述目標表情參數預測模型中,得到所述目標表情參數預測模型輸出的表情參數序列;

    6、獲取目標人物圖像,并采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻。

    7、可選地,所述目標情緒特征提取模型包括音頻特征提取層、文本特征提取層、多模態特征融合層和分類層;

    8、所述采用目標情緒特征提取模型對所述目標音頻和所述目標文本進行特征提取,得到多模態特征以及所述多模態特征對應的情緒類別,包括:

    9、通過所述音頻特征提取層對所述目標音頻進行特征提取,得到音頻特征,以及,通過所述文本特征提取層對所述目標文本進行特征提取,得到文本特征;

    10、利用所述多模態特征融合層對所述音頻特征和所述文本特征進行拼接融合,并輸出得到多模態特征;

    11、將所述多模態特征輸入至所述分類層中,以使所述分類層對所述多模態特征進行情緒分類,并輸出得到情緒類別。

    12、可選地,所述確定與所述情緒類別對應的人物表情數據,包括:

    13、在表情數據庫中對所述情緒類別進行檢索,得到與所述情緒類別對應的人物表情參數;

    14、其中,所述表情數據庫中預先建立有多個人物表情參數的索引結構。

    15、可選地,所述表情數據庫的構建過程,包括:

    16、從多個數據源中采集得到人物數據集,并在所述人物數據集中標注每一人物數據對應的情緒類別;

    17、針對每一情緒類別,采用人臉重建技術對該情緒類別下的多個人臉數據進行三維識別,得到每一人臉數據的人臉關鍵點,并基于各個人臉關鍵點確定該情緒類別對應的人物表情參數;

    18、建立每一情緒類別與對應的人物表情參數之間的索引結構,并根據各個索引結構構建得到表情數據庫。

    19、可選地,所述確定目標表情參數預測模型,包括:

    20、將預先獲取的樣本人物情緒數據輸入至預設的初始表情參數預測模型中,得到所述初始表情參數預測模型輸出的預測表情參數序列;其中,所述樣本人物情緒數據包括多模態特征、情緒類別和人物表情數據;

    21、以所述預測表情參數序列趨近于所述樣本人物情緒數據對應的真實表情參數序列為目標,并采用跨時空注意力機制對所述初始表情參數預測模型進行訓練;

    22、當所述初始表情參數預測模型滿足預設的訓練結束條件時,將訓練完成的初始表情參數預測模型作為目標表情參數預測模型。

    23、可選地,所述目標表情參數預測模型包括文本分支網絡、視頻分支網絡和crossattention網絡和全連接層;

    24、所述將所述多模態特征、所述情緒類別和所述人物表情數據輸入至所述目標表情參數預測模型中,得到所述目標表情參數預測模型輸出的表情參數序列,包括:

    25、通過所述文本分支網絡對所述多模態特征和所述情緒類別進行高維映射,得到文本分支特征,以及,通過所述視頻分支網絡對所述人物表情數據進行高維映射,得到視頻分支特征;

    26、采用所述cross?attention網絡計算所述文本分支特征、所述視頻分支特征、所述多模態特征和所述人物表情數據的跨模態注意力權重,并輸出得到跨模態注意力特征;

    27、將所述跨模態注意力特征和所述人物表情數據輸入至所述全連接層中,得到所述全連接層輸出的表情參數序列。

    28、可選地,所述采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻,包括:

    29、將所述表情參數序列和所述目標人物圖像輸入目標人臉生成模型中,以使所述目標人臉生成模型提取得到所述表情參數序列的參數序列特征和所述目標人物圖像的圖像特征,并采用跨時空注意力機制對所述參數序列特征和所述圖像特征進行權重調整,以及,根據調整結果對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻。

    30、本申請還提供了一種數字人表情驅動裝置,包括:

    31、特征提取模塊,用于獲取目標音頻以及所述目標音頻對應的目標文本,并采用目標情緒特征提取模型對所述目標音頻和所述目標文本進行特征提取,得到多模態特征以及所述多模態特征對應的情緒類別;

    32、模型確定模塊,用于確定與所述情緒類別對應的人物表情數據,以及確定目標表情參數預測模型;所述目標表情參數預測模型采用跨時空注意力機制訓練得到;

    33、參數預測模塊,用于將所述多模態特征、所述情緒類別和所述人物表情數據輸入至所述目標表情參數預測模型中,得到所述目標表情參數預測模型輸出的表情參數序列;

    34、表情驅動模塊,用于獲取目標人物圖像,并采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻。

    35、本申請還提供了一種存儲介質,所述存儲介質中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執行時,使得一個或多個處理器執行如上述實施例中任一項所述數字人表情驅動方法的步驟。

    36、本申請還提供了一種計算機設備,包括:一個或多個處理器,以及存儲器;

    37、所述存儲器中存儲有計算機可讀指令,所述計算機可讀指令被所述一個或多個處理器執行時,執行如上述實施例中任一項所述數字人表情驅動方法的步驟。

    38、從以上技術方案可以看出,本申請實施例具有以下優點:

    39、本申請提供的數字人表情驅動方法本文檔來自技高網...

    【技術保護點】

    1.一種數字人表情驅動方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標情緒特征提取模型包括音頻特征提取層、文本特征提取層、多模態特征融合層和分類層;

    3.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定與所述情緒類別對應的人物表情數據,包括:

    4.根據權利要求3所述的數字人表情驅動方法,其特征在于,所述表情數據庫的構建過程,包括:

    5.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定目標表情參數預測模型,包括:

    6.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標表情參數預測模型包括文本分支網絡、視頻分支網絡和Cross?Attention網絡和全連接層;

    7.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻,包括:

    8.一種數字人表情驅動裝置,其特征在于,包括:

    9.一種存儲介質,其特征在于:所述存儲介質中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執行時,使得一個或多個處理器執行如權利要求1至7中任一項所述數字人表情驅動方法的步驟。

    10.一種計算機設備,其特征在于,包括:一個或多個處理器,以及存儲器;

    ...

    【技術特征摘要】

    1.一種數字人表情驅動方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標情緒特征提取模型包括音頻特征提取層、文本特征提取層、多模態特征融合層和分類層;

    3.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定與所述情緒類別對應的人物表情數據,包括:

    4.根據權利要求3所述的數字人表情驅動方法,其特征在于,所述表情數據庫的構建過程,包括:

    5.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定目標表情參數預測模型,包括:

    6.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標表...

    【專利技術屬性】
    技術研發人員:張順四蔡佳然,
    申請(專利權)人:廣州趣丸網絡科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩欧国产精品一区综合无码| 无码人妻精品一区二区三区不卡| 日韩A无码AV一区二区三区| 亚洲AV无码一区二区一二区| 精品无码中出一区二区| 久久国产加勒比精品无码| 久久久无码精品人妻一区| 亚洲av中文无码乱人伦在线r▽| 亚洲精品无码少妇30P| 中文字幕无码人妻AAA片| 亚无码乱人伦一区二区| 久久亚洲AV无码西西人体| 在线看片福利无码网址| 亚洲AV无码国产精品麻豆天美 | 无码成人精品区在线观看| 国产网红主播无码精品| 无码无需播放器在线观看| 久久国产精品无码一区二区三区| 热の无码热の有码热の综合| 亚洲日韩精品无码专区| 亚洲va成无码人在线观看| 亚洲中文字幕无码一区二区三区 | 无码国产精成人午夜视频不卡| 免费无码一区二区三区蜜桃| 无码av大香线蕉伊人久久| 亚洲精品无码久久久久秋霞 | 亚洲AV无码一区二区三区在线| 国产成人无码AV一区二区在线观看 | 69久久精品无码一区二区| 无码精品久久久天天影视| 亚洲AV无码精品色午夜果冻不卡 | 精品久久无码中文字幕| 亚洲综合无码一区二区| 亚洲成A人片在线观看无码不卡| 超清无码熟妇人妻AV在线电影| gogo少妇无码肉肉视频| 综合无码一区二区三区| av无码人妻一区二区三区牛牛| 中文字幕精品无码久久久久久3D日动漫| 内射中出无码护士在线| 中文字幕无码免费久久9一区9 |