System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,尤其涉及一種數字人表情驅動方法、裝置、存儲介質及計算機設備。
技術介紹
1、隨著數字人技術的迅速進步,其應用范圍也在不斷拓寬,其以一種前所未有的交互形式拉近人與機器的距離。在日常交流中,人臉作為重要的社交媒介,其表情與情緒的精準傳達對于數字人技術至關重要,而表情與情緒的傳達過程主要依賴于動作捕捉設備或面部重建技術來獲取表情參數,進而通過驅動算法實現表情的動態變化。
2、目前,數字人表情驅動方法多依賴于深度神經網絡,結合文本或音頻數據提取表情特征,再通過圖像生成技術來塑造表情。然而,這些方法局限于圖像層面的特征處理,缺乏在時空維度上的深入關聯運算,因此無法實現高質量的視頻級別的數字人表情。
技術實現思路
1、本申請的目的旨在至少能解決上述的技術缺陷之一,特別是現有技術中數字人表情驅動方法局限于圖像層面的特征處理,缺乏在時空維度上的深入關聯運算,因此無法實現高質量的視頻級別的數字人表情的技術缺陷。
2、本申請提供了一種數字人表情驅動方法,所述方法包括:
3、獲取目標音頻以及所述目標音頻對應的目標文本,并采用目標情緒特征提取模型對所述目標音頻和所述目標文本進行特征提取,得到多模態特征以及所述多模態特征對應的情緒類別;
4、確定與所述情緒類別對應的人物表情數據,以及確定目標表情參數預測模型;所述目標表情參數預測模型采用跨時空注意力機制訓練得到;
5、將所述多模態特征、所述情緒類別和所述人物表情數據輸入至所述目標
6、獲取目標人物圖像,并采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻。
7、可選地,所述目標情緒特征提取模型包括音頻特征提取層、文本特征提取層、多模態特征融合層和分類層;
8、所述采用目標情緒特征提取模型對所述目標音頻和所述目標文本進行特征提取,得到多模態特征以及所述多模態特征對應的情緒類別,包括:
9、通過所述音頻特征提取層對所述目標音頻進行特征提取,得到音頻特征,以及,通過所述文本特征提取層對所述目標文本進行特征提取,得到文本特征;
10、利用所述多模態特征融合層對所述音頻特征和所述文本特征進行拼接融合,并輸出得到多模態特征;
11、將所述多模態特征輸入至所述分類層中,以使所述分類層對所述多模態特征進行情緒分類,并輸出得到情緒類別。
12、可選地,所述確定與所述情緒類別對應的人物表情數據,包括:
13、在表情數據庫中對所述情緒類別進行檢索,得到與所述情緒類別對應的人物表情參數;
14、其中,所述表情數據庫中預先建立有多個人物表情參數的索引結構。
15、可選地,所述表情數據庫的構建過程,包括:
16、從多個數據源中采集得到人物數據集,并在所述人物數據集中標注每一人物數據對應的情緒類別;
17、針對每一情緒類別,采用人臉重建技術對該情緒類別下的多個人臉數據進行三維識別,得到每一人臉數據的人臉關鍵點,并基于各個人臉關鍵點確定該情緒類別對應的人物表情參數;
18、建立每一情緒類別與對應的人物表情參數之間的索引結構,并根據各個索引結構構建得到表情數據庫。
19、可選地,所述確定目標表情參數預測模型,包括:
20、將預先獲取的樣本人物情緒數據輸入至預設的初始表情參數預測模型中,得到所述初始表情參數預測模型輸出的預測表情參數序列;其中,所述樣本人物情緒數據包括多模態特征、情緒類別和人物表情數據;
21、以所述預測表情參數序列趨近于所述樣本人物情緒數據對應的真實表情參數序列為目標,并采用跨時空注意力機制對所述初始表情參數預測模型進行訓練;
22、當所述初始表情參數預測模型滿足預設的訓練結束條件時,將訓練完成的初始表情參數預測模型作為目標表情參數預測模型。
23、可選地,所述目標表情參數預測模型包括文本分支網絡、視頻分支網絡和crossattention網絡和全連接層;
24、所述將所述多模態特征、所述情緒類別和所述人物表情數據輸入至所述目標表情參數預測模型中,得到所述目標表情參數預測模型輸出的表情參數序列,包括:
25、通過所述文本分支網絡對所述多模態特征和所述情緒類別進行高維映射,得到文本分支特征,以及,通過所述視頻分支網絡對所述人物表情數據進行高維映射,得到視頻分支特征;
26、采用所述cross?attention網絡計算所述文本分支特征、所述視頻分支特征、所述多模態特征和所述人物表情數據的跨模態注意力權重,并輸出得到跨模態注意力特征;
27、將所述跨模態注意力特征和所述人物表情數據輸入至所述全連接層中,得到所述全連接層輸出的表情參數序列。
28、可選地,所述采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻,包括:
29、將所述表情參數序列和所述目標人物圖像輸入目標人臉生成模型中,以使所述目標人臉生成模型提取得到所述表情參數序列的參數序列特征和所述目標人物圖像的圖像特征,并采用跨時空注意力機制對所述參數序列特征和所述圖像特征進行權重調整,以及,根據調整結果對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻。
30、本申請還提供了一種數字人表情驅動裝置,包括:
31、特征提取模塊,用于獲取目標音頻以及所述目標音頻對應的目標文本,并采用目標情緒特征提取模型對所述目標音頻和所述目標文本進行特征提取,得到多模態特征以及所述多模態特征對應的情緒類別;
32、模型確定模塊,用于確定與所述情緒類別對應的人物表情數據,以及確定目標表情參數預測模型;所述目標表情參數預測模型采用跨時空注意力機制訓練得到;
33、參數預測模塊,用于將所述多模態特征、所述情緒類別和所述人物表情數據輸入至所述目標表情參數預測模型中,得到所述目標表情參數預測模型輸出的表情參數序列;
34、表情驅動模塊,用于獲取目標人物圖像,并采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻。
35、本申請還提供了一種存儲介質,所述存儲介質中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執行時,使得一個或多個處理器執行如上述實施例中任一項所述數字人表情驅動方法的步驟。
36、本申請還提供了一種計算機設備,包括:一個或多個處理器,以及存儲器;
37、所述存儲器中存儲有計算機可讀指令,所述計算機可讀指令被所述一個或多個處理器執行時,執行如上述實施例中任一項所述數字人表情驅動方法的步驟。
38、從以上技術方案可以看出,本申請實施例具有以下優點:
39、本申請提供的數字人表情驅動方法本文檔來自技高網...
【技術保護點】
1.一種數字人表情驅動方法,其特征在于,所述方法包括:
2.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標情緒特征提取模型包括音頻特征提取層、文本特征提取層、多模態特征融合層和分類層;
3.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定與所述情緒類別對應的人物表情數據,包括:
4.根據權利要求3所述的數字人表情驅動方法,其特征在于,所述表情數據庫的構建過程,包括:
5.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定目標表情參數預測模型,包括:
6.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標表情參數預測模型包括文本分支網絡、視頻分支網絡和Cross?Attention網絡和全連接層;
7.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述采用目標人臉生成模型基于所述表情參數序列對所述目標人物圖像進行表情驅動,生成數字人表情驅動視頻,包括:
8.一種數字人表情驅動裝置,其特征在于,包括:
9.一種存儲介質,其特征在于:所述存
10.一種計算機設備,其特征在于,包括:一個或多個處理器,以及存儲器;
...【技術特征摘要】
1.一種數字人表情驅動方法,其特征在于,所述方法包括:
2.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標情緒特征提取模型包括音頻特征提取層、文本特征提取層、多模態特征融合層和分類層;
3.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定與所述情緒類別對應的人物表情數據,包括:
4.根據權利要求3所述的數字人表情驅動方法,其特征在于,所述表情數據庫的構建過程,包括:
5.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述確定目標表情參數預測模型,包括:
6.根據權利要求1所述的數字人表情驅動方法,其特征在于,所述目標表...
【專利技術屬性】
技術研發人員:張順四,蔡佳然,
申請(專利權)人:廣州趣丸網絡科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。