當(dāng)前位置: 首頁(yè) > 專利查詢>北京生數(shù)科技有限公司專利>正文

視頻生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44257605 閱讀：11 留言：0更新日期：2025-02-14 22:03

本公開(kāi)實(shí)施例公開(kāi)了一種視頻生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，其中，該方法包括：獲取第一視頻片段和文本描述信息；基于對(duì)第一適配器模型和視頻模型進(jìn)行聯(lián)合訓(xùn)練得到的第二適配器模型，對(duì)所述第一視頻片段進(jìn)行處理，得到第一向量；基于所述視頻模型，對(duì)所述文本描述信息和所述第一向量進(jìn)行處理，得到第二視頻片段。本公開(kāi)實(shí)施例可以生成與文本描述信息和第一視頻片段表征信息高度匹配且可以控制目標(biāo)對(duì)象移動(dòng)軌跡的視頻片段。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本公開(kāi)涉及文生視頻技術(shù)，尤其是一種視頻生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。

技術(shù)介紹

1、隨著視頻生成模型技術(shù)的迅速發(fā)展，使得視頻生成模型在人工智能內(nèi)容生成（artificial?intelligence?generated?content，aigc）
中大放異彩。

2、相關(guān)技術(shù)中，對(duì)用戶輸入的文本描述信息進(jìn)行自然語(yǔ)言處理，得到相應(yīng)的特征信息，利用視頻生成模型對(duì)特征信息進(jìn)行處理，從而生成文本描述信息對(duì)應(yīng)的視頻。在生成視頻時(shí)，對(duì)視頻中物體運(yùn)動(dòng)軌跡的控制是一個(gè)非常重要的需求，例如在電影或電視劇的后期制作中，可以利用這種技術(shù)生成或修改特定場(chǎng)景，例如添加或調(diào)整物體的運(yùn)動(dòng)，而無(wú)需重新拍攝。這樣可以節(jié)省大量的成本和時(shí)間，同時(shí)提高制作效率和質(zhì)量。

3、如何生成與文本描述信息高度匹配、且可以控制物體運(yùn)動(dòng)軌跡的視頻，是一個(gè)亟待解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)實(shí)施例提供一種視頻生成方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，以解決上述問(wèn)題。

2、本公開(kāi)實(shí)施例的第一方面，提供一種視頻生成方法，包括：

3、獲取第一視頻片段和文本描述信息，其中，所述文本描述信息至少包括第一目標(biāo)對(duì)象的屬性信息，所述第一視頻片段的各視頻幀的像素值為預(yù)設(shè)像素值，且所述第一視頻片段的各視頻幀具有所述第一目標(biāo)對(duì)象位置的目標(biāo)框；

4、基于對(duì)第一適配器模型和視頻模型進(jìn)行聯(lián)合訓(xùn)練得到的第二適配器模型，對(duì)所述第一視頻片段進(jìn)行處理，得到第一向量；

5、基于所述視頻模型，對(duì)

6、在本公開(kāi)的一些實(shí)施例中，所述獲取第一視頻片段，包括：

7、基于預(yù)設(shè)的視頻幀率、分辨率與視頻時(shí)長(zhǎng)，獲取第三視頻片段，其中，所述第三視頻片段的各視頻幀的像素值為所述預(yù)設(shè)像素值；

8、基于預(yù)設(shè)的對(duì)象位置信息，確定所述第三視頻片段的各視頻幀中所述第一目標(biāo)對(duì)象在所述各視頻幀中的位置；

9、基于所述第三視頻片段的各視頻幀中所述第一目標(biāo)對(duì)象在所述各視頻幀中的位置，確定所述第三視頻片段的各視頻幀中的目標(biāo)框，得到所述第一視頻片段。

10、在本公開(kāi)的一些實(shí)施例中，所述第二適配器模型和所述視頻模型的輸入層結(jié)構(gòu)相同，所述第二適配器模型的輸入層和所述視頻模型的輸入層均包括多個(gè)下采樣層；

11、所述基于對(duì)第一適配器模型和視頻模型進(jìn)行聯(lián)合訓(xùn)練得到的第二適配器模型，對(duì)所述第一視頻片段進(jìn)行處理，得到第一向量，包括：基于所述第二適配器模型對(duì)所述第一視頻片段進(jìn)行處理，得到所述第二適配器模型各下采樣層的輸出向量，其中，所述第一向量包括所述第二適配器模型各下采樣層的輸出向量；

12、所述基于所述視頻模型，對(duì)所述文本描述信息和所述第一向量進(jìn)行處理，得到第二視頻片段，包括：將所述文本描述信息、第一高斯噪聲輸入所述視頻模型；在每個(gè)時(shí)間步，將所述二適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各下采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各下采樣層輸出向量的加權(quán)計(jì)算結(jié)果作為所述視頻模型對(duì)應(yīng)下一個(gè)采樣層的輸入，以得到所述第二視頻片段。

13、在本公開(kāi)的一些實(shí)施例中，所述將所述第二適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各下采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各下采樣層輸出向量的加權(quán)計(jì)算結(jié)果作為所述視頻模型對(duì)應(yīng)下一個(gè)采樣層的輸入，包括：

14、基于所述視頻模型，對(duì)所述文本描述信息和第一高斯噪聲矩陣進(jìn)行處理，得到第一視頻輸出向量，其中，所述第一視頻輸出向量為所述視頻模型第一個(gè)下采樣層的輸出向量；

15、對(duì)所述第一視頻輸出向量和第一適配器對(duì)應(yīng)層的輸出向量進(jìn)行加權(quán)計(jì)算，得到第一輸入向量，其中，所述第一視頻輸出向量的所述第一適配器對(duì)應(yīng)層的輸出向量為所述第一適配器模型第一個(gè)下采樣層的輸出向量；

16、將所述第一輸入向量作為所述視頻模型第二個(gè)下采樣層的輸入，得到第二視頻輸出向量，其中，所述第二視頻輸出向量為所述視頻模型第二個(gè)下采樣層的輸出向量，所述視頻模型第一個(gè)下采樣層與所述視頻模型第二個(gè)下采樣層相鄰；

17、將第n輸入向量作為所述視頻模型第n+1個(gè)下采樣層的輸入，得到所述視頻模型第n+1個(gè)下采樣層的輸出向量，其中，第n輸入向量基于所述視頻模型第n個(gè)下采樣層的輸出向量與所述第二適配器模型第n個(gè)下采樣層的輸出向量加權(quán)計(jì)算得到，n為大于1的整數(shù)。

18、在本公開(kāi)的一些實(shí)施例中，在所述基于對(duì)第一適配器模型和視頻模型進(jìn)行聯(lián)合訓(xùn)練得到的第二適配器模型，對(duì)所述第一視頻片段進(jìn)行處理，得到第一向量之前，還包括：

19、獲取樣本視頻片段和樣本文本描述信息，其中，所述樣本文本描述信息至少包括第二目標(biāo)對(duì)象的屬性信息，所述樣本視頻片段的各視頻幀中具有表示第二目標(biāo)對(duì)象位置的目標(biāo)框；

20、固定所述視頻模型的參數(shù)，基于所述樣本視頻片段和所述樣本文本描述信息，對(duì)所述第一適配器模型和所述視頻模型進(jìn)行聯(lián)合訓(xùn)練，得到第三適配器模型；

21、獲取與所述樣本視頻片段幀率相同、分辨率相同、時(shí)長(zhǎng)相同、各視頻幀的像素值為所述預(yù)設(shè)像素值、且各視頻幀的目標(biāo)框位置相同的第四視頻片段；

22、固定所述視頻模型的參數(shù)，基于所述第四視頻片段和所述樣本文本描述信息，對(duì)所述第三適配器模型和所述視頻模型進(jìn)行聯(lián)合訓(xùn)練，得到所述第二適配器模型。

23、在本公開(kāi)的一些實(shí)施例中，所述固定所述視頻模型的參數(shù)，基于所述樣本視頻片段和所述樣本文本描述信息，對(duì)所述第一適配器模型和所述視頻模型進(jìn)行聯(lián)合訓(xùn)練，得到第三適配器模型，包括：

24、基于所述第一適配器模型對(duì)所述樣本視頻片段進(jìn)行處理，得到所述第一適配器模型各下采樣層的輸出向量；

25、基于所述視頻模型，對(duì)所述樣本文本描述信息、所述第一適配器模型各中間層的輸出向量，以及第二高斯噪聲矩陣進(jìn)行處理，得到第五視頻片段；

26、固定所述視頻模型的參數(shù)，基于所述第五視頻片段與所述樣本視頻片段之間的差異，調(diào)整所述第一適配器模型的參數(shù)得到所述第三適配器模型。

27、在本公開(kāi)的一些實(shí)施例中，所述固定所述視頻模型的參數(shù)，基于所述第四視頻片段和所述樣本文本描述信息，對(duì)所述第三適配器模型和所述視頻模型進(jìn)行聯(lián)合訓(xùn)練，得到所述第二適配器模型，包括：

28、基于所述第三適配器模型對(duì)所述第四視頻片段進(jìn)行處理，得到所述第三適配器模型各下采樣層的輸出向量；

29、基于所述視頻模型，對(duì)所述樣本文本描述信息、所述第三適配器模型各中間層的輸出向量，以及第三高斯噪聲矩陣進(jìn)行處理，得到第六視頻片段；

30、固定所述視頻模型的參數(shù)，基于所述第六視頻片段與所述樣本視頻片段之間的差異，調(diào)整所述第三適配器模型的參數(shù)得到所述第二適配器模型。

31、本公開(kāi)實(shí)施例本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種視頻生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取第一視頻片段，包括：

3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述第二適配器模型和所述視頻模型的輸入層結(jié)構(gòu)相同，所述第二適配器模型的輸入層和所述視頻模型的輸入層均包括多個(gè)下采樣層；

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述將所述第二適配器模型各下采樣層的輸出向量分別與所述視頻模型對(duì)應(yīng)的下采樣層的輸出向量進(jìn)行加權(quán)計(jì)算，得到各下采樣層輸出向量的加權(quán)計(jì)算結(jié)果，并將各下采樣層輸出向量的加權(quán)計(jì)算結(jié)果作為所述視頻模型對(duì)應(yīng)下一個(gè)采樣層的輸入，包括：

5.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，在所述基于對(duì)第一適配器模型和視頻模型進(jìn)行聯(lián)合訓(xùn)練得到的第二適配器模型，對(duì)所述第一視頻片段進(jìn)行處理，得到第一向量之前，還包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述固定所述視頻模型的參數(shù)，基于所述樣本視頻片段和所述樣本文本描述信息，對(duì)所述第一適配器模型和所述視頻模型進(jìn)行聯(lián)合訓(xùn)練，得到第三適配器模型，包括：

7.根據(jù)權(quán)利要求

8.一種視頻生成裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序指令，其特征在于，該計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述權(quán)利要求1-7任一所述的方法。

...

【技術(shù)特征摘要】

1.一種視頻生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取第一視頻片段，包括：

5.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，在所述基于對(duì)第一適配器模型和視頻模型進(jìn)行聯(lián)合訓(xùn)練得到的第二適配器模型，對(duì)所述...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：請(qǐng)求不公布姓名，請(qǐng)求不公布姓名，
申請(qǐng)(專利權(quán))人：北京生數(shù)科技有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)