一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法技術

技術編號：44442779 閱讀：2 留言：0更新日期：2025-02-28 18:50

本發明專利技術公開了一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，屬于人工智能技術領域，基于MORE框架生成舞蹈，包括如下步驟：引入掩碼建模方法，通過掩碼建模機制生成舞蹈動作；基于MORE框架的殘差感知量化RAQ模塊，將舞蹈動作編碼為多層離散運動特征，逐層捕捉動作的增量細節和復雜性，獲取動作的細節信息；MORE框架通過殘差掩模建模RBMM模型，利用雙向變壓器模型在音樂條件下逐層預測和生成舞蹈動作的序列，將動作的序列信息通過殘差掩碼建模模塊RBMM生成與音樂匹配的舞蹈動作。該方法通過層次化的掩碼策略和音樂特征的結合，提升了生成過程的層次化和細致度，優化了生成的舞蹈動作與音樂特征的匹配程度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能，特別涉及一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法。

技術介紹

1、舞蹈是一種表演藝術，使用身體來完成各種優雅或高難度的動作，一般有音樂伴奏，以有節奏的動作為主要表現手段的藝術形式。而舞蹈創作中有很重要的一個環節，編舞，即根據所給的音樂旋律進行舞蹈的編排設計，通過肢體動作和細節配合，傳達出舞蹈者的思想表達。傳統的編舞通常依賴于專業編舞師的經驗和創意，具有一定的主觀性，且是一個復雜且勞動密集型的任務。

2、隨著科技的發展，編舞這一過程能夠與計算機視覺和人工智能技術相結合，通過計算機模型和音樂匹配相應的舞蹈序列，從而根據音樂生成一套完整的舞蹈動作。早期通常采用檢索式方法生成舞蹈，將舞蹈動作分解為若干固定長度的片段，并根據音樂的結構進行匹配和拼接來生成完整的舞蹈序列。隨著深度學習技術的發展，直接生成方法逐步成為主流，通過訓練模型從頭生成舞蹈動作。擴散模型也在近年中被廣泛應用，憑借其逐步去噪的生成過程，能夠生成高質量且連貫的舞蹈動作序列。

3、盡管現有的舞蹈生成技術在生成與音樂相匹配的舞蹈動作方面取得了一定的進展，但仍然存在一些缺陷：許多基于檢索的舞蹈生成方法依賴于預先定義的舞蹈片段，無法靈活地應對不同音樂的多樣性和復雜性，導致生成的舞蹈動作在面對多樣化的音樂風格和節奏時，缺乏足夠的泛化能力，難以捕捉到音樂的細膩變化；而直接生成的方法雖然能夠生成高質量的舞蹈動作，但在保證長時間段內的動作一致性和流暢性方面仍然面臨挑戰，特別是在處理較為復雜的音樂時，生成的舞蹈動作容易出現不協調和

技術實現思路

1、本專利技術的專利技術目的在于：針對上述存在的問題，提供一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，期望改善現有的舞蹈生成方法生成的舞蹈靈活性和泛化能力不足，時序一致性欠佳的問題。

2、本專利技術采用的技術方案如下：

3、一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，該方法基于more框架生成舞蹈，所述方法包括如下步驟：s1：引入掩碼建模方法，通過掩碼建模機制生成舞蹈動作；s2：基于more框架的殘差感知量化raq模塊，將舞蹈動作編碼為多層離散運動特征，逐層捕捉動作的增量細節和復雜性，獲取動作的細節信息，初始層使用矢量量化生成基礎運動特征，后續層則計算和存儲殘差特征，以逐層增強動作的復雜度和細節；s3：more框架通過殘差掩模建模rbmm模型，利用雙向變壓器模型在音樂條件下逐層預測和生成舞蹈動作的序列，將動作的序列信息通過殘差掩碼建模模塊rbmm生成與音樂匹配的舞蹈動作。

4、進一步的，所述more框架包括殘差感知量化raq模塊和基于殘差的掩碼建模rbmm模塊；其中，raq模塊將舞蹈動作標記化為多層離散特征序列，保留舞蹈動作中的語義信息；rbmm模塊用于預測隨機掩蓋的動作特征。

5、進一步的，所述步驟s2包括：s201：將舞蹈動作通過殘差感知量化raq模塊分為舞蹈動作序列d；s202：將舞蹈動作序列d通過一維卷積編碼器ε轉化為潛在向量s203：將潛在向量進行量化q(·)，且量化后的代碼序列投影回舞蹈動作空間，并使用一維解碼器重建舞蹈動作

6、進一步的，所述s203中量化過程為：通過向量量化變分自編碼器vq-vae將舞蹈動作潛在向量表示為l+1個有序代碼潛在序列，形成l+1個量化層；殘差量化rq模塊通過在每個量化層計算代碼序列來遞歸逼近殘差在多層量化過程中有效保留了動作細節，顯著提高了舞蹈動作生成的精度和真實性，公式如下：

7、zl＝q(rl)，rl+1＝rl-zl.

8、其中，上述過程從第0個殘差開始；

9、通過殘差量化rq模塊之后，潛在序列的最終表示是所有量化序列的總和，最后輸出的潛在序列被輸入到解碼器中，隨后被用于重建舞蹈動作。

10、進一步的，所述向量量化變分自編碼器vq-vae的訓練通過舞蹈動作重建損失來執行，其損失函數如下：

11、

12、其中，sg[·]表示停止梯度操作，超參數β為嵌入約束的加權因子，i是標識號，為代碼序列，為殘差，d為舞蹈動作序列，為解碼重建后的舞蹈動作序列，損失函數通過直通梯度估計器進行優化。

13、進一步的，所述步驟s3包括：

14、s301：將raq模塊中的殘差舞蹈動作潛在序列標記為{t0，t1，…，tl}序列；

15、s302：預先計算音樂的特征；

16、s303：將舞蹈動作{t0，t1，…，tl}序列與音樂特征嵌入融合，并作為輸入提供給多層雙向掩碼變換器架構；

17、s304：通過殘差的掩碼建模rbmm中的掩碼變換器分別生成基礎層和殘差層的舞蹈動作標記；

18、需要注意的是，這些變換器的使用允許對遵循量化過程結構層的舞蹈動作標記進行精細生成

19、s305：舞蹈動作標記通過raq-vae的解碼器解碼并還原為動作序列，從而生成與音樂匹配的舞蹈動作。

20、進一步的，所述多層雙向掩碼變換器架構用于實施一種隨機掩蓋過程，其中指定比例的序列元素通過用指定的[mask]標記替換原始標記進行遮蔽，隨后，這個[mask]標記作為指示輸入失真的占位符，促使模型推斷并重建最初被掩蓋的真實標記。

21、需要注意的是，音樂特征是按照標準協議得到的。

22、進一步的，所述掩碼建模rbmm中的掩碼變換器包括：基礎變換器ft和后續變換器st；

23、基礎變換器ft用于表示基礎層的舞蹈動作標記t0，當t0的子集被掩蓋時，結果序列表示為基礎變換器ft通過音樂特征v和部分掩蓋的序列預測掩蓋的標記；基礎變換器ft的優化涉及最小化與預測目標相關的負對數似然函數，公式如下：

24、

25、其中，為在給定音樂特征v和部分掩蓋的序列的情況下預測標記的概率；

26、后續變換器st用于表示殘差層的舞蹈動作標記tl，其中量化層l∈[1,l]；在訓練階段，隨機選擇一個量化層l進行學習，所有前面的層的標記都經過嵌入過程，然后聚合形成復合標記嵌入輸入；這個標記嵌入與音樂特征v和殘差量化層指示符l共同作為st的多方面輸入，然后，st被訓練以同時預測第l層l-th的標記。訓練過程可以表示為：

27、

28、其中k表示潛在向量的數量，為在給定音樂特征v和部分掩蓋的序列以及殘差層標號l的情況下預測標記的概率。

29、進一步的，掩碼變換器能夠同時平行解碼多個舞蹈動作特征，且綜合考慮前后動作特征的信息，通過在生成的舞蹈片段中插入掩碼特征，自動填補舞蹈空缺。

30、進一步的，通過無分類器引導cfg預測掩碼變換器的結果，最終的輸本文檔來自技高網...

【技術保護點】

1.一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，該方法基于MORE框架生成舞蹈，其特征在于，所述方法包括如下步驟：

2.根據權利要求1所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述MORE框架包括殘差感知量化RAQ模塊和基于殘差的掩碼建模RBMM模塊；

3.根據權利要求1所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述步驟S2包括：

4.根據權利要求3所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述S203中量化過程為：

5.根據權利要求4所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述向量量化變分自編碼器VQ-VAE的訓練通過舞蹈動作重建損失來執行，其損失函數如下：

6.根據權利要求1-5任意一項所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述步驟S3包括：

7.根據權利要求6所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在

8.根據權利要求6所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述掩碼建模RBMM中的掩碼變換器包括：基礎變換器FT和后續變換器ST；

9.根據權利要求8所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，掩碼變換器能夠同時平行解碼多個舞蹈動作特征，且綜合考慮前后動作特征的信息，通過在生成的舞蹈片段中插入掩碼特征，自動填補舞蹈空缺。

10.根據權利要求8所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，通過無分類器引導CFG預測掩碼變換器的結果，最終的輸出舞蹈標記的概率logits∈g計算公式為：

...

【技術特征摘要】

1.一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，該方法基于more框架生成舞蹈，其特征在于，所述方法包括如下步驟：

2.根據權利要求1所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述more框架包括殘差感知量化raq模塊和基于殘差的掩碼建模rbmm模塊；

3.根據權利要求1所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述步驟s2包括：

4.根據權利要求3所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述s203中量化過程為：

5.根據權利要求4所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述向量量化變分自編碼器vq-vae的訓練通過舞蹈動作重建損失來執行，其損失函數如下：

6.根據權利要求1-5任意一項所述的一種基于殘差感知量化和殘差掩碼建模的多功能舞蹈生成方法，其特征在于，所述步驟s3包括：

7.根據權...

【專利技術屬性】
技術研發人員：閆杰熹，呂光濤，徐承昊，鄧成，楊延華，
申請(專利權)人：西安電子科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術