當(dāng)前位置: 首頁(yè) > 專利查詢>北京生數(shù)科技有限公司專利>正文

視頻生成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和產(chǎn)品制造方法及圖紙

技術(shù)編號(hào)：44142022 閱讀：21 留言：0更新日期：2025-01-29 10:18

本公開實(shí)施例公開了一種視頻生成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和產(chǎn)品，其中，該方法包括：獲取引導(dǎo)視頻生成的條件信息；基于第一適配器模型和視頻模型對(duì)所述條件信息進(jìn)行處理，得到與所述條件信息對(duì)應(yīng)的第二視頻片段。本公開實(shí)施例可以生成與引導(dǎo)視頻生成的條件信息具有高匹配度的視頻片段。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本公開涉及文生視頻技術(shù)，尤其是一種視頻生成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和產(chǎn)品。

技術(shù)介紹

1、隨著視頻生成模型技術(shù)的迅速發(fā)展，使得視頻生成模型在人工智能內(nèi)容生成（artificial?intelligence?generated?content，aigc）
中大放異彩。

2、根據(jù)視頻所需場(chǎng)景的深度信息控制視頻圖像的生成，可以應(yīng)用到多個(gè)場(chǎng)景中。例如，對(duì)于游戲開發(fā)者來(lái)說(shuō)可以通過(guò)所需場(chǎng)景的深度信息生成三維場(chǎng)景，提升游戲的視覺效果和沉浸感；對(duì)于電影特效上，可以利用視頻幀圖像的深度信息為視頻幀圖像的后期制作提供真實(shí)感的視覺效果。

3、相關(guān)技術(shù)中，對(duì)用戶輸入的文本描述信息自然語(yǔ)言處理得到相應(yīng)的特征信息，利用視頻生成模型對(duì)特征信息進(jìn)行處理，從而生成文本描述信息對(duì)應(yīng)的視頻。由于用戶輸入的文本描述信息無(wú)法詳細(xì)表達(dá)出想要生成視頻的具體要求，或者視頻生成模型根據(jù)文本描述信息生成對(duì)應(yīng)視頻的精度不足，因此導(dǎo)致視頻生成模型生成的視頻難以滿足用戶的需求。

4、如何得到與引導(dǎo)視頻生成的條件信息高匹配度的視頻片段，是一個(gè)亟待解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、本公開實(shí)施例提供一種視頻生成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和產(chǎn)品，以解決上述問題。

2、本公開實(shí)施例的第一方面，提供一種視頻生成方法，包括：

3、獲取引導(dǎo)視頻生成的條件信息，其中，所述條件信息至少包括：第一視頻片段對(duì)應(yīng)的第一深度圖序列；

4、基于第一適配器模型和視頻模型對(duì)所述條件信息進(jìn)

5、在本公開的一些實(shí)施例中，所述獲取引導(dǎo)視頻生成的條件信息，包括：

6、對(duì)所述第一視頻片段中各視頻幀圖像進(jìn)行深度處理，得到所述各視頻幀圖像對(duì)應(yīng)的多個(gè)深度圖；

7、基于所述各視頻幀圖像在所述第一視頻片段中的時(shí)序關(guān)系，對(duì)所述多個(gè)深度圖進(jìn)行排序，得到所述第一深度圖序列。

8、在本公開的一些實(shí)施例中，所述引導(dǎo)視頻生成的條件信息，還包括：所述第二視頻片段對(duì)應(yīng)的文本描述信息。

9、在本公開的一些實(shí)施例中，所述第一適配器模型和所述視頻模型的輸入層結(jié)構(gòu)相同，所述第一適配器模型的輸入層和所述視頻模型的輸入層均包括多個(gè)下采樣層；

10、所述基于第一適配器模型和視頻模型，對(duì)所述條件信息進(jìn)行處理，得到與所述條件信息對(duì)應(yīng)的第二視頻片段，包括：

11、基于所述第一適配器模型對(duì)所述第一深度圖序列進(jìn)行處理，得到所述第一適配器模型各下采樣層的輸出向量；

12、在每個(gè)時(shí)間步，將所述第一適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各采樣層輸出向量的加權(quán)計(jì)算結(jié)果作為所述視頻模型對(duì)應(yīng)下一個(gè)采樣層的輸入，以得到所述第二視頻片段。

13、在本公開的一些實(shí)施例中，所述將所述第一適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出，進(jìn)行加權(quán)計(jì)算，以得到所述第二視頻片段，包括：

14、基于所述視頻模型，對(duì)所述文本描述信息和第一高斯噪聲矩陣進(jìn)行處理，得到第一視頻輸出向量，其中，所述第一視頻輸出向量為所述視頻模型第一個(gè)下采樣層的輸出向量；

15、對(duì)所述第一視頻輸出向量和第一適配器輸出向量進(jìn)行加權(quán)計(jì)算，得到第一向量，其中，所述第一適配器輸出向量為所述第一適配器模型第一個(gè)下采樣層的輸出向量；

16、將所述第一向量作為所述視頻模型第二個(gè)下采樣層的輸入，得到第二視頻輸出向量，其中，所述第二視頻輸出向量為所述視頻模型第二個(gè)下采樣層的輸出向量，所述視頻模型第一個(gè)下采樣層與所述視頻模型第二個(gè)下采樣層相鄰；

17、將第n向量作為所述視頻模型第n+1個(gè)下采樣層的輸入，得到所述視頻模型第n+1個(gè)下采樣層的輸出向量，其中，第n向量基于所述視頻模型第n個(gè)下采樣層的輸出向量與所述第二適配器模型第n個(gè)下采樣層的輸出向量加權(quán)計(jì)算得到，n為大于1的整數(shù)。

18、在本公開的一些實(shí)施例中，在所述基于第一適配器模型和視頻模型，對(duì)所述條件信息進(jìn)行處理，得到與所述條件信息對(duì)應(yīng)的第二視頻片段之前，還包括：

19、獲取樣本視頻片段和樣本文本描述信息；

20、基于所述第二適配器模型對(duì)所述樣本視頻片段對(duì)應(yīng)的第二深度圖序列進(jìn)行處理，得到所述第二適配器模型各下采樣層的輸出向量；

21、基于所述視頻模型，對(duì)所述樣本文本描述信息、所述第二適配器模型各下采樣層的輸出向量，以及第二高斯噪聲矩陣進(jìn)行處理，得到第三視頻片段；

22、固定所述視頻模型的參數(shù)，基于所述第三視頻片段與所述樣本視頻片段之間的差異，調(diào)整所述第二適配器模型的參數(shù)得到所述第一適配器模型。

23、本公開實(shí)施例的第二方面，提供一種視頻生成裝置，包括：

24、信息獲取模塊，用于引導(dǎo)視頻生成的條件信息，其中，所述條件信息至少包括：第一視頻片段對(duì)應(yīng)的第一深度圖序列；

25、視頻生成模塊，用于基于第一適配器模型和視頻模型對(duì)所述條件信息進(jìn)行處理，得到與所述條件信息對(duì)應(yīng)的第二視頻片段，其中，基于第二適配器模型和所述視頻模型聯(lián)合訓(xùn)練得到所述第一適配器模型。

26、在本公開的一些實(shí)施例中，所述信息獲取模塊用于對(duì)所述第一視頻片段中各視頻幀圖像進(jìn)行深度處理，得到所述各視頻幀圖像對(duì)應(yīng)的多個(gè)深度圖；

27、所述信息獲取模塊還用于基于所述各視頻幀圖像在所述第一視頻片段中的時(shí)序關(guān)系，對(duì)所述多個(gè)深度圖進(jìn)行排序，得到所述第一深度圖序列。

28、在本公開的一些實(shí)施例中，所述引導(dǎo)視頻生成的條件信息，還包括：所述第二視頻片段對(duì)應(yīng)的文本描述信息。

29、在本公開的一些實(shí)施例中，所述第二適配器模型和所述視頻模型的輸入層結(jié)構(gòu)相同，所述第一適配器模型的輸入層和所述視頻模型的輸入層均包括多個(gè)下采樣層；

30、所述視頻生成模塊用于基于所述第一適配器模型對(duì)所述第一深度圖序列進(jìn)行處理，得到所述第一適配器模型各下采樣層的輸出向量；

31、所述視頻生成模塊還用于在每個(gè)時(shí)間步，將所述第一適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各采樣層輸出向量的加權(quán)計(jì)算結(jié)果作為所述視頻模型對(duì)應(yīng)下一個(gè)采樣層的輸入，以得到所述第二視頻片段。

32、在本公開的一些實(shí)施例中，所述視頻生成模塊用于基于所述視頻模型，對(duì)所述文本描述信息和第一高斯噪聲矩陣進(jìn)行處理，得到第一視頻輸出向量，其中，所述第一視頻輸出向量為所述視頻模型第一個(gè)下采樣層的輸出向量；

33、所述視頻生成模塊還用于對(duì)所述第一視頻輸出向量和第一適配器輸出向量進(jìn)行加權(quán)計(jì)算，得到第一向量，其中，所述第一適配器輸出向量為所述第一適配器模型第一個(gè)下采樣層的輸出向量；

34、本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種視頻生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取引導(dǎo)視頻生成的條件信息，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述引導(dǎo)視頻生成的條件信息，還包括：所述第二視頻片段對(duì)應(yīng)的文本描述信息。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述第一適配器模型和所述視頻模型的輸入層結(jié)構(gòu)相同，所述第一適配器模型的輸入層和所述視頻模型的輸入層均包括多個(gè)下采樣層；

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述將所述第一適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各采樣層輸出向量的加權(quán)計(jì)算結(jié)果作為所述視頻模型對(duì)應(yīng)下一個(gè)采樣層的輸入，包括：

6.根據(jù)權(quán)利要求3所述的方法，其特征在于，在所述基于第一適配器模型和視頻模型，對(duì)所述條件信息進(jìn)行處理，得到與所述條件信息對(duì)應(yīng)的第二視頻片段之前，還包括：

7.一種視頻生成裝置，其特征在于，包括：

8.一種電子設(shè)備，其特征在于，包括：

10.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)程序指令，所述計(jì)算機(jī)程序指令在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行上述權(quán)利要求1-6任一所述的方法。

...

【技術(shù)特征摘要】

1.一種視頻生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取引導(dǎo)視頻生成的條件信息，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述引導(dǎo)視頻生成的條件信息，還包括：所述第二視頻片段對(duì)應(yīng)的文本描述信息。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述將所述第一適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各采樣層輸出...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：請(qǐng)求不公布姓名，請(qǐng)求不公布姓名，
申請(qǐng)(專利權(quán))人：北京生數(shù)科技有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)