當(dāng)前位置: 首頁 > 專利查詢>支付寶杭州信息技術(shù)有限公司專利>正文

視頻生成方法、視頻生成模型的訓(xùn)練方法以及系統(tǒng)技術(shù)方案

技術(shù)編號：44500596 閱讀：5 留言：0更新日期：2025-03-04 18:09

本說明書實施例提供一種視頻生成方法、視頻生成模型的訓(xùn)練方法以及系統(tǒng)。該視頻生成方法被配置為通過訓(xùn)練好的包括顯式特征提取網(wǎng)絡(luò)和擴(kuò)散網(wǎng)絡(luò)的視頻生成模型進(jìn)行視頻生成，包括：獲得展示第一對象的運動過程的參考視頻和展示第二對象的形象的參考圖像，對參考視頻中的第一對象的骨架進(jìn)行提取得到骨架視頻，對參考圖像進(jìn)行特征提取得到圖像特征，將該圖像特征和該骨架視頻輸入顯式特征提取網(wǎng)絡(luò)得到顯式運動特征，并將該顯式運動特征和該參考圖像輸入擴(kuò)散網(wǎng)絡(luò)得到展示第二對象的運動過程的目標(biāo)視頻；其中，在視頻生成模型的訓(xùn)練過程中，輸入至顯式特征提取網(wǎng)絡(luò)的骨架視頻為對樣本視頻中的樣本對象的至少部分骨架進(jìn)行變化后的骨架視頻。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本說明書涉及人工智能，尤其涉及一種視頻生成方法、視頻生成模型的訓(xùn)練方法以及系統(tǒng)。

技術(shù)介紹

1、隨著數(shù)字媒體技術(shù)的飛速發(fā)展，視頻生成已經(jīng)成為影視制作、游戲開發(fā)以及社交媒體內(nèi)容創(chuàng)作等多個領(lǐng)域不可或缺的一部分。例如，將第一對象的運動視頻和第二對象的形象融合生成所述第二對象的運動視頻。當(dāng)?shù)谝粚ο蠛偷诙ο髮儆诓煌愋偷慕巧珪r，傳統(tǒng)的視頻生成方式依賴于人工骨骼綁定和后期對角色的動畫渲染，耗時長、成本高，采用已有的視頻生成模型生成的視頻呈現(xiàn)效果不好。因此，開發(fā)一種高效、靈活且能夠自動生成高質(zhì)量視頻的方法顯得尤為重要。

2、
技術(shù)介紹
部分的內(nèi)容僅僅是專利技術(shù)人個人所知曉的信息，并不代表上述信息在本公開申請日之前已經(jīng)進(jìn)入公共領(lǐng)域，也不代表其可以成為本公開的現(xiàn)有技術(shù)。

技術(shù)實現(xiàn)思路

1、本說明書提供一種視頻生成方法、視頻生成模型的訓(xùn)練方法以及系統(tǒng)，可以基于第一對象的運動視頻和第二對象的形象，通過視頻生成模型自動化的生成第二對象的運動視頻，提高視頻生成效率，并且提升視頻質(zhì)量，使得生成視頻展示的運動姿態(tài)與第二對象的身份、骨架更加相符。

2、第一方面，本說明書提供一種視頻生成方法，所述方法被配置為通過預(yù)先訓(xùn)練好的視頻生成模型進(jìn)行視頻生成，所述視頻生成模型包括顯式特征提取網(wǎng)絡(luò)和擴(kuò)散網(wǎng)絡(luò)，所述方法包括：獲得參考視頻和參考圖像，所述參考視頻展示第一對象的運動過程，所述參考圖像展示第二對象的形象；對所述參考視頻中的所述第一對象的骨架進(jìn)行提取得到骨架視頻，對所述參考圖像進(jìn)行特征提取得到圖像特

3、在一些實施例中，所述視頻生成模型還包括隱式特征提取網(wǎng)絡(luò)，所述方法還包括：對所述參考視頻進(jìn)行特征提取得到視頻特征，以及將所述骨架視頻和所述視頻特征輸入所述隱式特征提取網(wǎng)絡(luò)，得到隱式運動特征，所述隱式運動特征對運動的描述精度低于所述顯式運動特征對運動的描述精度；

4、所述將所述顯式運動特征和所述參考圖像輸入所述擴(kuò)散網(wǎng)絡(luò)得到目標(biāo)視頻，包括：

5、將所述顯式運動特征、所述隱式運動特征和所述參考圖像輸入所述擴(kuò)散網(wǎng)絡(luò)得到所述目標(biāo)視頻。

6、在一些實施例中，所述參考視頻包括n個圖像幀，所述骨架視頻包括所述n個圖像幀各自對應(yīng)的骨架幀，所述n為大于1的整數(shù)；所述隱式特征提取網(wǎng)絡(luò)包括：交叉注意力層和線性層，其中，所述交叉注意力層被配置為，采用交叉注意力機(jī)制基于所述n個圖像幀各自對應(yīng)的骨架幀，從所述視頻特征中提取得到所述n個圖像幀各自對應(yīng)的運動子特征；所述線性層被配置為，將所述n圖像幀各自對應(yīng)的運動子特征映射到特征空間，以得到所述隱式運動特征。

7、在一些實施例中，所述顯式特征提取網(wǎng)絡(luò)包括自注意力層和線性層，所述自注意力層被配置為，采用自注意力機(jī)制將所述骨架視頻轉(zhuǎn)化為骨架運動特征，并將所述骨架運動特征和所述圖像特征進(jìn)行拼接；以及所述線性層被配置為，將拼接后的所述骨架運動特征和所述圖像特征映射到特征空間，以得到所述顯式運動特征。

8、在一些實施例中，所述第一對象和所述第二對象屬于不同類型的角色。

9、第二方面，本說明書提供一種視頻生成模型的訓(xùn)練方法，包括：獲得多個訓(xùn)練樣本，每個訓(xùn)練樣本包括樣本視頻和樣本圖像，所述樣本視頻展示第一樣本對象的運動過程，所述樣本圖像展示第二樣本對象的形象；基于所述多個訓(xùn)練樣本對所述視頻生成模型進(jìn)行多次迭代訓(xùn)練，以優(yōu)化所述視頻生成模型的模型參數(shù)，其中，所述視頻生成模型包括顯式特征提取網(wǎng)絡(luò)和擴(kuò)散網(wǎng)絡(luò)，每次迭代過程包括：

10、對所述樣本視頻中的所述第一樣本對象的骨架進(jìn)行提取得到第一骨架視頻，對所述第一骨架視頻中的至少部分骨架進(jìn)行變化得到第二骨架視頻，對所述樣本圖像進(jìn)行特征提取得到圖像特征，通過所述顯式特征提取網(wǎng)絡(luò)基于所述圖像特征、所述第二骨架視頻確定顯式運動特征，通過所述擴(kuò)散網(wǎng)絡(luò)基于所述顯式運動特征和所述樣本圖像得到合成視頻，所述合成視頻展示所述第二樣本對象的運動過程，以及以最小化所述擴(kuò)散網(wǎng)絡(luò)的目標(biāo)函數(shù)為訓(xùn)練目標(biāo)，對所述視頻生成模型的模型參數(shù)進(jìn)行更新。

11、在一些實施例中，所述對所述第一骨架視頻中的至少部分骨架進(jìn)行變化得到第二骨架視頻，包括：在所述第一樣本對象的骨架中選擇出至少一個骨架局部，每個骨架局部對應(yīng)所述第一樣本對象的一個骨骼或者一個關(guān)節(jié)點；從預(yù)設(shè)的變化方式集合中隨機(jī)選擇目標(biāo)變化方式；以及按照所述目標(biāo)變化方式對所述第一骨架視頻的各骨架幀中的所述至少一個骨架局部進(jìn)行變化，得到所述第二骨架視頻。

12、在一些實施例中，所述預(yù)設(shè)的變化方式集合包括以下至少一種：按照第一預(yù)設(shè)比例縮小骨架局部；按照第二預(yù)設(shè)比例放大骨架局部；刪除骨架局部；以及在骨架局部的預(yù)設(shè)范圍內(nèi)增加其他骨架局部。

13、在一些實施例中，所述視頻生成模型還包括隱式特征提取網(wǎng)絡(luò)，每次迭代過程還包括：對所述樣本視頻進(jìn)行特征提取得到視頻特征，通過所述隱式特征提取網(wǎng)絡(luò)基于所述第一骨架視頻從所述視頻特征中挖掘出隱式運動特征，所述隱式運動特征對運動的描述精度低于所述顯式運動特征對運動的描述精度，以及

14、所述通過所述擴(kuò)散網(wǎng)絡(luò)基于所述顯式運動特征和所述樣本圖像得到合成視頻，包括：

15、通過所述擴(kuò)散網(wǎng)絡(luò)基于所述顯式運動特征、所述樣本圖像和所述隱式運動特征得到所述合成視頻。

16、在一些實施例中，所述樣本視頻包括m個圖像幀，所述骨架視頻包括所述m個圖像幀各自對應(yīng)的骨架幀，所述m為大于1的整數(shù)；所述隱式特征提取網(wǎng)絡(luò)包括：交叉注意力層和線性層，其中，所述交叉注意力層被配置為，采用交叉注意力機(jī)制基于所述m個圖像幀各自對應(yīng)的骨架幀，從所述視頻特征中提取得到所述m個圖像幀各自對應(yīng)的運動子特征，所述線性層被配置為，將所述m個圖像幀各自對應(yīng)的運動子特征映射到特征空間，以得到所述隱式運動特征。

17、在一些實施例中，所述顯式特征提取網(wǎng)絡(luò)包括自注意力層和線性層，所述自注意力層被配置為，采用自注意力機(jī)制將所述第二骨架視頻轉(zhuǎn)化為骨架運動特征，并將所述骨架運動特征和所述圖像特征進(jìn)行拼接；以及所述線性層被配置為，將拼接后的所述骨架運動特征和所述圖像特征映射到特征空間，以得到所述顯式運動特征。

18、在一些實施例中，所述樣本圖像為所述樣本視頻中的一幀圖像。

19、第三方面，本說明書還提供一種系統(tǒng)，用于視頻生成，包括：至少一個存儲介質(zhì)，存儲有至少一個指令集；以及至少一個處理器，同所述至少一個存儲介質(zhì)通信連接，其中，所述至少一個處理器運行時讀取所述至少一個指令集，并且根據(jù)所述至少一個指令集的指示實現(xiàn)第一方面所述的方法。

20、第四方面，本說明書還提供一種系統(tǒng)，用于視頻生成模型的訓(xùn)練，包括：本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】

1.一種視頻生成方法，所述方法被配置為通過預(yù)先訓(xùn)練好的視頻生成模型進(jìn)行視頻生成，所述視頻生成模型包括顯式特征提取網(wǎng)絡(luò)和擴(kuò)散網(wǎng)絡(luò)，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述視頻生成模型還包括隱式特征提取網(wǎng)絡(luò)，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述參考視頻包括N個圖像幀，所述骨架視頻包括所述N個圖像幀各自對應(yīng)的骨架幀，所述N為大于1的整數(shù)；所述隱式特征提取網(wǎng)絡(luò)包括：交叉注意力層和線性層，其中，

4.根據(jù)權(quán)利要求1所述的方法，其中，所述顯式特征提取網(wǎng)絡(luò)包括自注意力層和線性層，

5.根據(jù)權(quán)利要求1所述的方法，其中，所述第一對象和所述第二對象屬于不同類型的角色。

6.一種視頻生成模型的訓(xùn)練方法，包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，所述對所述第一骨架視頻中的至少部分骨架進(jìn)行變化得到第二骨架視頻，包括：

8.根據(jù)權(quán)利要求7所述的方法，其中，所述預(yù)設(shè)的變化方式集合包括以下至少一種：

9.根據(jù)權(quán)利要求6所述的方法，其中，所述視頻生成模型還包括隱式特征提取網(wǎng)絡(luò)，每次迭代過程還包括：

10.根據(jù)權(quán)利要求9所述的方法，其中，所述樣本視頻包括M個圖像幀，所述骨架視頻包括所述M個圖像幀各自對應(yīng)的骨架幀，所述M為大于1的整數(shù)；所述隱式特征提取網(wǎng)絡(luò)包括：交叉注意力層和線性層，其中，

11.根據(jù)權(quán)利要求6所述的方法，其中，所述顯式特征提取網(wǎng)絡(luò)包括自注意力層和線性層，

12.根據(jù)權(quán)利要求6所述的方法，其中，所述樣本圖像為所述樣本視頻中的一幀圖像。

13.一種系統(tǒng)，用于視頻生成，包括：

14.一種系統(tǒng)，用于視頻生成模型的訓(xùn)練，包括：

...

【技術(shù)特征摘要】

2.根據(jù)權(quán)利要求1所述的方法，其中，所述視頻生成模型還包括隱式特征提取網(wǎng)絡(luò)，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述參考視頻包括n個圖像幀，所述骨架視頻包括所述n個圖像幀各自對應(yīng)的骨架幀，所述n為大于1的整數(shù)；所述隱式特征提取網(wǎng)絡(luò)包括：交叉注意力層和線性層，其中，

4.根據(jù)權(quán)利要求1所述的方法，其中，所述顯式特征提取網(wǎng)絡(luò)包括自注意力層和線性層，

5.根據(jù)權(quán)利要求1所述的方法，其中，所述第一對象和所述第二對象屬于不同類型的角色。

6.一種視頻生成模型的訓(xùn)練方法，包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，所述對所述第一骨...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：龔鏢，譚帥，鄭丹丹，陳景東，楊銘，
申請(專利權(quán))人：支付寶杭州信息技術(shù)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)