視頻生成的方法、裝置、電子設備和計算機可讀存儲介質制造方法及圖紙

技術編號：44141985 閱讀：22 留言：0更新日期：2025-01-29 10:18

本公開實施例公開了一種視頻生成的方法、裝置、電子設備和計算機可讀存儲介質，其中，方法包括：獲取輸入視頻的第一圖像集，所述第一圖像集包括輸入視頻的第一數量視頻幀的涂鴉圖和第二數量視頻幀的全黑圖；將預設高斯噪聲、目標視頻提示詞和所述第一圖像集輸入預訓練的視頻生成模型，生成目標視頻；其中，所述預訓練的視頻生成模型由預設文生視頻模型和預設適配模型聯合訓練而成。實現將涂鴉圖等較為粗獷的線條圖自動轉化為動畫視頻的過程，幫助不同的用戶實現其視頻生成需求，提升用戶的互動體驗。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及視頻處理技術，尤其是一種視頻生成的方法、裝置、電子設備和計算機可讀存儲介質。

技術介紹

1、近段時間，由于視頻生成模型技術的迅速發展，使得視頻生成模型在aigc（artificial?intelligence?generated?content，人工智能內容生成）
中大放異彩。隨著技術的不斷進步，aigc
的圖生視頻技術的應用前景非常廣闊，可能在影視制作、廣告營銷、教育以及娛樂游戲等多個領域發揮重要作用，推動相關產業的創新和發展。尤其是在教育和娛樂游戲領域，亟需圖生視頻技術的創新支持，例如，在教育領域中，一些手繪的圖畫（或者涂鴉圖等）可以通過模型得到視頻，可以用于教授繪畫或設計技巧，在教學中，學生可以看到自己的涂鴉轉化為動畫過程，幫助學生培養創造力，激發想象力；再例如，在娛樂游戲領域中，可以基于玩家的涂鴉生成游戲環境，提升游戲的互動體驗。

技術實現思路

1、為了解決相關技術中的技術問題，本公開實施例提供了一種視頻生成的方法、裝置、電子設備和計算機可讀存儲介質。

2、本公開實施例的第一方面，提供了的一種視頻生成的方法，所述方法包括：

3、獲取輸入視頻的第一圖像集，所述第一圖像集包括輸入視頻的第一數量視頻幀的涂鴉圖和第二數量視頻幀的全黑圖；

4、將預設高斯噪聲、目標視頻提示詞和所述第一圖像集輸入預訓練的視頻生成模型，生成目標視頻；

5、其中，所述預訓練的視頻生成模型由預設文生視頻模型和預設適配模型聯合訓練而成。>

6、作為本公開一種可選實施例，所述獲取輸入視頻的第一圖像集，包括：

7、按照預設處理方式獲取所述輸入視頻的多個視頻幀；

8、從每個所述視頻幀中提取出所述視頻幀的涂鴉圖，得到所述輸入視頻的涂鴉圖像集；

9、將所述涂鴉圖像集中的目標涂鴉圖替換為全黑圖，得到所述第一圖像集。

10、作為本公開一種可選實施例，所述將所述涂鴉圖像集中的目標涂鴉圖替換為全黑圖，得到所述第一圖像集，包括：

11、確定所述輸入視頻的視頻幀的總幀數；

12、基于所述輸入視頻的視頻幀的總幀數，將所述涂鴉圖像集中的預設比例的涂鴉圖確定為目標涂鴉圖，以將所述目標涂鴉圖替換為全黑圖，得到所述第一圖像集。

13、作為本公開一種可選實施例，所述確定所述輸入視頻的視頻幀的總幀數，包括：

14、獲取所述輸入視頻的總時長和幀率；

15、根據所述總時長和幀率計算所述輸入視頻的視頻幀的總幀數。

16、作為本公開一種可選實施例，所述將預設高斯噪聲、目標視頻提示詞和所述第一圖像集輸入預訓練的視頻生成模型，生成目標視頻，包括：

17、將所述第一圖像集輸入至所述預訓練的視頻生成模型的預設適配模型中，得到所述預設適配模型的網絡架構的每一層的輸出向量；

18、將所述預設高斯噪聲和所述目標視頻提示詞輸入所述預訓練的視頻生成模型的預設文生視頻模型中，得到所述預設文生視頻模型的輸入層的每一層的輸出向量；

19、將所述預設適配模型的網絡架構的每一層的輸出向量與所述預設文生視頻模型的輸入層的每一層的輸出向量相加處理，得到所述目標視頻，所述目標視頻是基于對預設高斯噪聲去噪處理的、與所述目標視頻提示詞和所述第一圖像集中的涂鴉圖匹配的視頻。

20、作為本公開一種可選實施例，所述方法還包括：

21、獲取訓練視頻樣本的第二圖像集、視頻片段和每個視頻片段對應的標注描述文本，其中，所述第二圖像集包括對應訓練視頻樣本的視頻幀中的涂鴉圖和全黑圖；

22、在每一輪訓練中，將所述訓練視頻樣本的第二圖像集輸入所述預設適配模型，保存所述預設適配模型的網絡架構的每一層的輸出向量；

23、固定所述預設文生視頻模型的網絡架構的每一層的網絡參數；

24、將每個視頻片段對應的標注描述文本輸入所述預設文生視頻模型，獲得所述預設文生視頻模型輸出的預測噪聲；其中，所述預設文生視頻模型的每層輸入層的輸出向量對應疊加所述預設適配模型的網絡架構的每一層的輸出向量，以作為所述預設文生視頻模型的輸入層的下一層的輸入向量；

25、根據所述預設文生視頻模型輸出的預測噪聲計算的損失函數進行反向傳播，以調整預設適配模型的網絡架構的每一層的網絡參數，得到所述預訓練的視頻生成模型；

26、其中，所述預設文生視頻模型的輸入層和所述預設適配模型具有相同的網絡架構。

27、作為本公開一種可選實施例，所述方法還包括：

28、針對每個所述訓練視頻樣本，按照預設分辨率和預設視頻段時長，將所述訓練視頻樣本裁剪成多個視頻片段。

29、作為本公開一種可選實施例，所述方法還包括：

30、針對所述訓練視頻樣本的每一個視頻片段，利用預設視頻語言模型對任一個所述視頻片段進行文本標注，得到每一個所述視頻片段對應的標注描述文本。

31、本公開實施例的第二方面，提供了一種視頻生成的裝置，所述裝置包括：

32、圖像獲取模塊，用于獲取輸入視頻的第一圖像集，所述第一圖像集包括輸入視頻的第一數量視頻幀的涂鴉圖和第二數量視頻幀的全黑圖；

33、視頻生成模塊，用于將預設高斯噪聲、目標視頻提示詞和所述第一圖像集輸入預訓練的視頻生成模型，生成目標視頻；

34、其中，所述預訓練的視頻生成模型由預設文生視頻模型和預設適配模型聯合訓練而成。

35、本公開實施例的第三方面，提供了一種電子設備，包括：

36、存儲器，用于存儲計算機程序產品；

37、處理器，用于執行所述存儲器中存儲的計算機程序產品，且所述計算機程序產品被執行時，實現上述第一方面所述的方法。

38、本公開實施例的第四方面，提供了一種計算機可讀存儲介質，其上存儲有計算機程序指令，該計算機程序指令被處理器執行時，實現上述第一方面所述的方法。

39、本公開實施例的第五方面，提供了一種計算機程序產品，包括計算機程序指令，其特征在于，該計算機程序指令被處理器執行時實現上述第一方面所述的方法。

40、根據本公開實施例的技術方案，通過輸入視頻的稀疏涂鴉圖（包括輸入視頻的第一數量視頻幀的涂鴉圖和第二數量視頻幀的全黑圖），結合高斯噪聲圖像和目標視頻提示詞，通過預訓練的視頻生成模型來生成與涂鴉圖等匹配的目標視頻，實現將涂鴉圖等較為粗獷的線條圖自動轉化為動畫視頻的過程，幫助不同的用戶實現其視頻生成需求，提升用戶的互動體驗，降低動畫視頻生成的輸入信息的要求，增加適用領域的范圍。

41、下面通過附圖和實施例，對本公開的技術方案做進一步的詳細描述。

本文檔來自技高網...

【技術保護點】

1.一種視頻生成的方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述獲取輸入視頻的第一圖像集，包括：

3.根據權利要求2所述的方法，其特征在于，所述將所述涂鴉圖像集中的目標涂鴉圖替換為全黑圖，得到所述第一圖像集，包括：

4.根據權利要求3所述的方法，其特征在于，所述確定所述輸入視頻的視頻幀的總幀數，包括：

5.根據權利要求1至4任一項所述的方法，其特征在于，所述將預設高斯噪聲、目標視頻提示詞和所述第一圖像集輸入預訓練的視頻生成模型，生成目標視頻，包括：

6.根據權利要求1所述的方法，其特征在于，所述方法還包括：

7.根據權利要求6所述的方法，其特征在于，所述方法還包括：

8.一種視頻生成的裝置，其特征在于，所述裝置包括：

9.一種電子設備，其特征在于，包括：

10.一種計算機可讀存儲介質，其上存儲有計算機程序指令，其特征在于，該計算機程序指令被處理器執行時，實現上述權利要求1-7任一所述的方法。

【技術特征摘要】

1.一種視頻生成的方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述獲取輸入視頻的第一圖像集，包括：

3.根據權利要求2所述的方法，其特征在于，所述將所述涂鴉圖像集中的目標涂鴉圖替換為全黑圖，得到所述第一圖像集，包括：

4.根據權利要求3所述的方法，其特征在于，所述確定所述輸入視頻的視頻幀的總幀數，包括：

5.根據權利要求1至4任一項所述的方法，其特征在于，所述將預設高斯噪聲、目標視頻提示詞...

【專利技術屬性】
技術研發人員：請求不公布姓名，請求不公布姓名，
申請(專利權)人：北京生數科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術