基于視覺風格特征的多樣性增強協同語音動作生成系統技術方案

技術編號：44467155 閱讀：5 留言：0更新日期：2025-03-04 17:39

本發明專利技術公開了基于視覺風格特征的多樣性增強協同語音動作生成系統，所述系統包括：特征提取多樣性增強模塊將參考視頻輸入到3D人體姿態估計網絡中以獲得styleclips。通過引入額外的styleclips，可以獲取更多的特征信息，從而增加動作的多樣性。風格編碼器多樣性補償模塊利用具有附加注意力機制池化層的transformer風格編碼器來有效提取styleclips的深度學習表示。最后，動作預測器多樣性驅動模塊采用交叉注意力機制，將MFCC和風格代碼進行融合，在交叉條件自回歸生成動作過程中進行影響，從而調節生成的動作來增加多樣性。所述方法在保持動作自然度的同時，顯著提高了生成動作的多樣性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于語音驅動的動作生成領域，具體涉及基于視覺風格特征的多樣性增強協同語音動作生成系統。

技術介紹

1、頭部、手部和身體動作是人類在交流時不可或缺的一部分，它們之間存在復雜而有規律的關聯，可以增強語言的表達力，傳遞情感和態度，以及協調對話的流程。隨著虛擬人物和機器人在教育、娛樂、醫療等領域的廣泛應用，以及在信息傳播中的重要性，如何讓它們根據語音生成自然、適當且多樣的動作，成為了一個重要且具有挑戰性的研究問題。該問題涉及多個學科領域，如計算機視覺、自然語言處理、人機交互等，并且在信息傳播、輿情管理和社交互動等廣泛應用場景中具有重大意義，如虛擬主持人、智能助理、社交機器人等。

2、現有的語音驅動頭部、手部和身體姿勢生成方法主要分為三類：基于規則的方法、基于統計模型的方法以及基于深度學習的方法。其中，基于深度學習的技術是目前最為主流的方法。雖然當前研究在生成人體動作的流暢性和自然性方面取得了一定成果，但現有技術中的數據集主要包含有限人物的協同語音動作視頻，風格比較固定，導致模型在訓練時學習到的模式也相對單一。這種缺乏多樣性的運動表現，限制了虛擬角色在復雜信息傳播場景中的適應能力，尤其是在需要靈活應對多變情境和情感傳遞時的表現。

技術實現思路

1、為解決上述技術問題，本專利技術提供了一種基于視覺風格特征的多樣性增強協同語音動作生成系統。所述方法由特征提取多樣性增強模塊、風格編碼器多樣性補償模塊和動作預測器多樣性驅動模塊共同執行完成，首先，特征提取多樣性增強模塊不僅從語音

2、為實現上述目的，本專利技術采用的技術方案如下：

3、一種基于視覺風格特征的多樣性增強協同語音動作生成系統，所述系統包括特征提取多樣性增強模塊、風格編碼器多樣性補償模塊、動作預測器多樣性驅動模塊，其中，

4、所述特征提取多樣性增強模塊用于對輸入的音頻信息及參考視頻信息進行特征提取及特征增強；

5、所述風格編碼器多樣性補償模塊用于通過附加自注意力池化層的transformer風格編碼器將提取并增強的參考視頻特征表示為深度特征風格代碼；

6、所述動作預測器多樣性驅動模塊用于通過交叉注意力機制將深度特征風格代碼和音頻有效信息進行特征融合，并在時間自回歸網絡中進行調制后輸出第一結果；還用于利用身份信息對音頻有效信息的編碼結果進行調制后輸出第二結果，將第一結果與第二結果輸入解碼器獲得最終動作。

7、進一步的，所述特征提取多樣性增強模塊用于對輸入的音頻信息及參考視頻信息進行特征提取及特征增強包括：

8、將語音音頻?作為輸入，生成全身身體動作序列，其中n為語音音頻a對應的總幀數，表示輸入的第n幀語音音頻，?代表相應生成的第n個全身身體動作，總體目標表示為：

9、，

10、其中，g={}表示初始動作序列，‖‖表示歐幾里得范數，argmin表示使函數達到最小值的參數值；

11、分別用??和??表示第i幀的手部動作和身體動作，且手部動作片段序列表示為??，身體動作片段序列表示為?；采用時間卷積網絡對手部和身體動作片段序列??和??進行編碼，得到手部和身體動作特征序列和?；

12、將第i幀的手部動作特征和身體動作特征??和??映射到各自最近的碼本元素,?來進行量化：

13、，

14、，

15、式中，m表示碼本中的第?m?個向量，?和?分別表示量化得到的第i幀的手部動作碼本元素和身體動作碼本元素，q表示動作量化過程，??和?分別表示手部和身體動作對應的碼本；

16、解碼器將手部和身體動作對應的碼本映射回運動空間作為動作序列：

17、，

18、，

19、表示生成的手部動作序列，表示生成的身體動作序列，d表示解碼過程，e表示動作編碼過程；

20、通過訓練來優化編碼器、解碼器和碼本：

21、，

22、其中，表示重建損失，sg?表示梯度停止操作，表示權重因子，表示承諾損失，表示矢量量化變分自編碼器的損失函數；z表示全身身體動作碼本，g表示動作編碼特征。

23、進一步的，所述風格編碼器多樣性補償模塊用于通過附加自注意力池化層的transformer風格編碼器將提取并增強的參考視頻特征表示為深度特征風格代碼包括：

24、將全身身體動作序列輸入transformer風格編碼器，通過線性層將特征維度調整為風格編碼器期望的維度和格式，使用位置編碼將位置信息與輸入全身身體動作序列相加，得到風格代碼序列；

25、通過使用附加自注意力機制池化層中的前饋神經網絡對輸入風格代碼序列進行分割，并賦予分割后每個區域加權注意力權重，對標記之間的時間相關性進行建模之后，利用自注意力機制池化層將得到所有的風格向量乘以注意力權重并相加，得到最終的風格代碼，

26、?，

27、其中，是表示可訓練的參數，表示通過transformer風格編碼器得到的風格代碼序列，表示每個風格向量的維度，上標t表示轉置，表示歸一化函數。

28、進一步的，所述動作預測器多樣性驅動模塊具體用于執行如下步驟：

29、結合交叉注意力層，利用最終的風格代碼s調制基于音頻信息提取的梅爾頻率倒譜系數特征；包括，

30、將梅爾頻率倒譜系數特征??和最終的風格代碼s分別與投影矩陣?和相乘，其中，表示針對梅爾頻率倒譜系數特征?的查詢投影矩陣，用于生成查詢矩陣?，表示針對最終的風格代碼s的鍵投影矩陣，用于生成鍵矩陣；

31、最終的風格代碼s還與投影矩陣??相乘，表示針對最終的風格代碼s的值投影矩陣，用于生成值矩陣：

32、，

33、?，

34、，

35、，

36、其中，?為鍵值集合的維度，也表示查詢集合的維度，f表示模態融合特征，attention表示注意力機制，softmax表示注意力機制中的歸一化過程；

37、將模態融合特征f輸入到基于時間自回歸模型的動作匹配網絡中，生成一系列碼本向量索引和，表示手部動作碼本向量索引，表示身體動作碼本向量索引，包括：

38、時間自回歸模型利用過去的手部動作??和過去的身體動作??預測當前的手部動作??和當前的身體動作?，還利用當前的身體動作預測當前的手部動作??：

本文檔來自技高網...

【技術保護點】

1.一種基于視覺風格特征的多樣性增強協同語音動作生成系統，其特征在于，所述系統包括特征提取多樣性增強模塊、風格編碼器多樣性補償模塊、動作預測器多樣性驅動模塊，其中，

2.根據權利要求1所述的一種基于視覺風格特征的多樣性增強協同語音動作生成系統，其特征在于，所述特征提取多樣性增強模塊用于對輸入的音頻信息及參考視頻信息進行特征提取及特征增強包括：

3.根據權利要求1所述的一種基于視覺風格特征的多樣性增強協同語音動作生成系統，其特征在于，所述風格編碼器多樣性補償模塊用于通過附加自注意力池化層的transformer風格編碼器將提取并增強的參考視頻特征表示為深度特征風格代碼包括：

4.根據權利要求1所述的一種基于視覺風格特征的多樣性增強協同語音動作生成系統，其特征在于，所述動作預測器多樣性驅動模塊具體用于執行如下步驟：

【技術特征摘要】

3.根據...

【專利技術屬性】
技術研發人員：孟明，穆柯，王妍，侯小萍，崔鳴宇，朱永貴，范肇心，
申請(專利權)人：中國傳媒大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術