數字人驅動模型的構建、數字人驅動方法、裝置及設備制造方法及圖紙

技術編號：44520120 閱讀：3 留言：0更新日期：2025-03-07 13:13

本公開提供了一種數字人驅動模型的構建、數字人驅動方法、裝置、設備、介質及程序產品，涉及人工智能技術領域，尤其涉及計算機視覺、深度學習以及大模型等技術領域，可應用于AIGC以及數字人等場景。具體實現方案為：獲取原始樣本；在原始樣本的動作幀序列中，按照隨機遮掩規則對設定數量的動作幀進行遮掩，得到遮掩動作幀序列；將遮掩動作幀序列加入至原始樣本中，形成訓練樣本；使用訓練樣本對初始動作模型進行訓練，得到數字人驅動模型。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及人工智能，尤其涉及計算機視覺、深度學習以及大模型等，可應用于aigc(artificial?intelligence?generated?content，人工智能生成內容)以及數字人等場景，具體涉及一種數字人驅動模型的構建方法、數字人驅動方法、數字人驅動模型的構建裝置、數字人驅動裝置、電子設備、非瞬時計算機可讀存儲介質以及計算機程序產品。

技術介紹

1、隨著aigc技術的快速發展，數字人作為一種新型的人機交互方式，正受到越來越多的關注。

2、相關技術中，可以通過語音驅動數字人的面部以及全身動作的方式，提高數字人的交互性。但是，隨著數字人交互領域的日益擴展，現有的語音驅動數字人動作的技術已經無法滿足人們日益增長的高效化、便捷化的數字人的驅動需求。

技術實現思路

1、本公開提供了一種用于數字人驅動模型的構建方法、數字人驅動方法、數字人驅動模型的構建裝置、數字人驅動裝置、電子設備、非瞬時計算機可讀存儲介質以及計算機程序產品。

2、根據本公開的一方面，提供了一種數字人驅動模型的構建方法，包括：

3、獲取原始樣本，其中，所述原始樣本中包含時間對齊的動作幀序列和語音特征幀序列；動作幀中包含2d頭部和肢體關鍵點；

4、在所述原始樣本的所述動作幀序列中，按照隨機遮掩規則對設定數量的動作幀進行遮掩，得到遮掩動作幀序列；

5、將所述遮掩動作幀序列加入至所述原始樣本中，形成訓練樣本；

6、使用所述訓練樣本對初始動作模型進行訓練，得到數字人驅動模型。

7、根據本公開的另一方面，提供了一種數字人驅動方法，包括：

8、獲取用于對目標虛擬形象的2d肢體動作進行語音驅動的目標語音，其中，所述目標虛擬形象中包含有頭部和肢體區域；

9、生成與所述目標語音匹配的目標語音特征幀序列，并構建與所述目標語音特征幀序列匹配的未知動作幀序列；

10、將與所述目標虛擬形象匹配的至少一個需求動作幀填充至所述未知動作幀序列中，得到局部未知動作幀序列；

11、將所述目標語音特征幀序列和所述局部未知動作幀序列輸入預先訓練的數字人驅動模型中，進行至少一次動作預測，得到與所述目標語音匹配的已知動作幀序列；

12、其中，所述數字人驅動模型通過如本公開實施例任一項所述的數字人驅動模型的構建方法訓練得到。

13、根據本公開實施例的一方面，還提供了一種數字人驅動模型的構建的裝置，包括：

14、原始樣本獲取模塊，用于獲取原始樣本；其中，所述原始樣本中包含時間對齊的動作幀序列和語音特征幀序列；動作幀中包含2d頭部和肢體關鍵點；

15、遮掩處理模塊，用于在所述原始樣本的所述動作幀序列中，按照隨機遮掩規則對設定數量的動作幀進行遮掩，得到遮掩動作幀序列；

16、訓練樣本獲取模塊，用于將所述遮掩動作幀序列加入至所述原始樣本中，形成訓練樣本；

17、模型訓練模塊，用于使用所述訓練樣本對初始動作模型進行訓練，得到數字人驅動模型。

18、根據本公開實施例的一方面，還提供了一種數字人驅動裝置，包括：

19、播報語音獲取模塊，用于獲取用于對目標虛擬形象的2d肢體動作進行語音驅動的目標語音，其中，所述目標虛擬形象中包含有頭部和肢體區域；

20、第一序列構建模塊，用于生成與所述目標語音匹配的目標語音特征幀序列，并構建與所述目標語音特征幀序列匹配的未知動作幀序列；

21、第二序列獲取模塊，用于將與所述目標虛擬形象匹配的至少一個需求動作幀填充至所述未知動作幀序列中，得到局部未知動作幀序列；

22、第三序列獲取模塊，用于將所述目標語音特征幀序列和所述局部未知動作幀序列輸入預先訓練的數字人驅動模型中，進行至少一次動作預測，得到與所述目標語音匹配的已知動作幀序列；

23、其中，所述數字人驅動模型通過如本公開實施例任一項所述的數字人驅動模型的構建方法訓練得到。

24、根據本公開的另一方面，提供了一種電子設備，包括：

25、至少一個處理器；以及

26、與所述至少一個處理器通信連接的存儲器；其中，

27、所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行如本公開實施例任一項所述的數字人驅動模型的構建方法或數字人驅動方法。

28、根據本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使計算機執行根據本公開實施例任一項所述的數字人驅動模型的構建方法或數字人驅動方法。

29、應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

本文檔來自技高網...

【技術保護點】

1.一種數字人驅動模型的構建方法，包括：

2.根據權利要求1所述的方法，其中，所述獲取原始樣本，包括：

3.根據權利要求2所述的方法，其中，在所述真人視頻中，僅顯示真人的上半身肢體區域。

4.根據權利要求1所述的方法，其中，所述在所述原始樣本的所述動作幀序列中，按照隨機遮掩規則對設定數量的動作幀進行遮掩，得到遮掩動作幀序列，包括：

5.根據權利要求1所述的方法，其中，所述使用所述訓練樣本對初始動作模型進行訓練，得到數字人動作模型，包括：

6.根據權利要求5所述的方法，其中，所述根據對各所述未知向量的預測結果向量，和所述第二標記嵌入向量序列中與各所述未知向量對應的已知向量，計算模型損失值，包括：

7.一種數字人驅動方法，包括：

8.根據權利要求7所述的方法，其中，將與所述目標虛擬形象匹配的至少一個需求動作幀填充至所述未知動作幀序列中，得到局部未知動作幀序列，包括：

9.根據權利要求7所述的方法，其中，將與所述目標虛擬形象匹配的至少一個需求動作幀填充至所述未知動作幀序列中，得到局部未知動作幀序列，包括：

10.根據權利要求7所述的方法，其中，將與所述目標虛擬形象匹配的至少一個需求動作幀填充至所述未知動作幀序列中，得到局部未知動作幀序列，包括：

11.根據權利要求7所述的方法，其中，所述將所述目標語音特征幀序列和所述局部未知動作幀序列輸入預先訓練的數字人驅動模型中，進行至少一次動作預測，得到與所述目標語音匹配的已知動作幀序列，包括：

12.根據權利要求11所述的方法，其中，所述通過模型解碼器層根據所述目標編碼結果序列與目標語音特征幀序列的加和結果，得到對所述原始標記嵌入向量中至少一個目標未知向量的預測結果向量，包括：

13.根據權利要求7-12任一項所述的方法，還包括：

14.一種數字人驅動模型的構建裝置，包括：

15.根據權利要求14所述的裝置，其中，所述原始樣本獲取模塊，具體用于：

16.根據權利要求15所述的裝置，其中，在所述真人視頻中，僅顯示真人的上半身肢體區域。

17.根據權利要求14所述的裝置，其中，所述遮掩處理模塊，具體用于：

18.根據權利要求14所述的裝置，其中，所述模型訓練模塊，具體用于：

19.根據權利要求18所述的裝置，其中，所述模型訓練模塊，進一步用于：

20.一種數字人驅動裝置，包括：

21.根據權利要求20所述的裝置，其中，所述第二序列獲取模塊，具體用于：

22.根據權利要求20所述的裝置，其中，所述第二序列獲取模塊，具體用于：

23.根據權利要求20所述的裝置，其中，所述第二序列獲取模塊，具體用于：

24.根據權利要求20所述的裝置，其中，所述第三序列獲取模塊，具體用于：

25.根據權利要求24所述的裝置，其中，所述第三序列獲取模塊，進一步用于：

26.根據權利要求20-25任一項所述的裝置，還包括：

27.一種電子設備，包括：

28.一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使計算機執行根據權利要求1-13中任一項所述的方法。

29.一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時實現權利要求1-13中任一項所述方法的步驟。

...

【技術特征摘要】

1.一種數字人驅動模型的構建方法，包括：

2.根據權利要求1所述的方法，其中，所述獲取原始樣本，包括：

3.根據權利要求2所述的方法，其中，在所述真人視頻中，僅顯示真人的上半身肢體區域。

5.根據權利要求1所述的方法，其中，所述使用所述訓練樣本對初始動作模型進行訓練，得到數字人動作模型，包括：

7.一種數字人驅動方法，包括：

12.根據權利要求11所述的方法，其中，所述通過模型解碼器層根據所述目標編碼結果序列與目標語音特征幀序列的加和...

【專利技術屬性】
技術研發人員：梁峻豪，徐志良，梁柏榮，李瑩瑩，周航，馮浩城，
申請(專利權)人：北京百度網訊科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術