當(dāng)前位置: 首頁(yè) > 專利查詢>摩爾線程智能科技成都有限責(zé)任公司專利>正文

一種模型訓(xùn)練方法、視頻生成方法、裝置及存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：43724051 閱讀：13 留言：0更新日期：2024-12-20 12:51

本公開(kāi)涉及一種模型訓(xùn)練方法、視頻生成方法、裝置及存儲(chǔ)介質(zhì)，其中，模型訓(xùn)練方法包括：獲取訓(xùn)練數(shù)據(jù)；其中，所述訓(xùn)練數(shù)據(jù)包括視頻數(shù)據(jù)及圖像數(shù)據(jù)；基于所述訓(xùn)練數(shù)據(jù)及預(yù)先訓(xùn)練好的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，得到視頻生成模型；其中，所述圖像擴(kuò)散模型為以文本生成圖像的擴(kuò)散模型；所述視頻生成模型為以圖像生成視頻的擴(kuò)散模型。通過(guò)本公開(kāi)，將視頻數(shù)據(jù)及圖像數(shù)據(jù)這單一模態(tài)的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，不需要收集和構(gòu)建視頻文本對(duì)即可完成訓(xùn)練，降低了訓(xùn)練數(shù)據(jù)構(gòu)建和模型訓(xùn)練的成本。同時(shí)，在預(yù)先訓(xùn)練好的圖像擴(kuò)散模型的基礎(chǔ)上進(jìn)行訓(xùn)練得到高質(zhì)量的視頻生成模型，從而有效提高了訓(xùn)練效率及訓(xùn)練效果。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本公開(kāi)涉及圖像處理，尤其涉及一種模型訓(xùn)練方法、視頻生成方法、裝置及存儲(chǔ)介質(zhì)。

技術(shù)介紹

1、人工智能生成內(nèi)容(ai-generated?content，aigc)指的是通過(guò)生成式人工智能技術(shù)生成的內(nèi)容。基于擴(kuò)散模型的圖像生成是aigc的一種具體應(yīng)用場(chǎng)景，如midjourney、stable?diffusion等擴(kuò)散模型。借助controlnet等可控生成技術(shù)、dreambooth、lora等微調(diào)技術(shù)，以及text?inversion等圖片編輯技術(shù)，用戶可以按照所需所想向擴(kuò)散模型輸入文本，從而生成期望的圖片。相比于基于擴(kuò)散模型的圖像生成，基于擴(kuò)散模型的視頻生成的難度和挑戰(zhàn)更大；現(xiàn)有技術(shù)中，采用文本或者文本加額外的控制信息輸入到擴(kuò)散模型中生成視頻，這種擴(kuò)散模型訓(xùn)練難度大，生成視頻的內(nèi)容可控性差。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本公開(kāi)提出了一種模型訓(xùn)練方法、視頻生成方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。

2、根據(jù)本公開(kāi)的一方面，提供了一種模型訓(xùn)練方法，包括：

3、獲取訓(xùn)練數(shù)據(jù)；其中，所述訓(xùn)練數(shù)據(jù)包括視頻數(shù)據(jù)及圖像數(shù)據(jù)；

4、基于所述訓(xùn)練數(shù)據(jù)及預(yù)先訓(xùn)練好的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，得到視頻生成模型；

5、其中，所述圖像擴(kuò)散模型為以文本生成圖像的擴(kuò)散模型；所述視頻生成模型為以圖像生成視頻的擴(kuò)散模型。

6、在一種可能的實(shí)現(xiàn)方式中，所述基于所述訓(xùn)練數(shù)據(jù)及預(yù)先訓(xùn)練好的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，得到視頻生成模型，包括：

7、對(duì)所述圖像擴(kuò)散

8、利用所述圖像數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，得到中間擴(kuò)散模型，所述中間擴(kuò)散模型為以圖像生成圖像的擴(kuò)散模型；

9、對(duì)所述中間擴(kuò)散模型的結(jié)構(gòu)進(jìn)行調(diào)整，得到結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型；

10、利用所述視頻數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型進(jìn)行訓(xùn)練，得到所述視頻生成模型。

11、在一種可能的實(shí)現(xiàn)方式中，所述圖像擴(kuò)散模型包括：文本編碼器、卷積編碼器-解碼器結(jié)構(gòu)、變分自編碼器；

12、所述對(duì)所述圖像擴(kuò)散模型的結(jié)構(gòu)進(jìn)行調(diào)整，得到結(jié)構(gòu)調(diào)整后的圖像擴(kuò)散模型，包括：

13、采用視覺(jué)編碼器替換所述文本編碼器，并在所述視覺(jué)編碼器后配置線性映射層，得到所述結(jié)構(gòu)調(diào)整后的圖像擴(kuò)散模型；

14、其中，所述視覺(jué)編碼器用于提取圖像特征，所述線性映射層用于將所述圖像特征與所述文本編碼器提取的文本特征對(duì)齊。

15、在一種可能的實(shí)現(xiàn)方式中，所述將所述圖像特征與所述文本編碼器提取的文本特征對(duì)齊，包括：將所述視覺(jué)編碼器中全局池化層的輸入特征沿空間維度展平，得到視覺(jué)特征序列，將所述視覺(jué)特征序列的長(zhǎng)度與文本特征的長(zhǎng)度對(duì)齊。

16、在一種可能的實(shí)現(xiàn)方式中，所述利用所述圖像數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，包括：

17、將所述圖像數(shù)據(jù)輸入到所述結(jié)構(gòu)調(diào)整后的圖像擴(kuò)散模型中，通過(guò)所述視覺(jué)編碼器提取所述圖像數(shù)據(jù)的第一特征，并通過(guò)所述變分自編碼器提取所述圖像數(shù)據(jù)的第二特征；

18、將所述第一特征輸入到線性映射層中進(jìn)行對(duì)齊處理，得到對(duì)齊后的第一特征；

19、將所述對(duì)齊后的第一特征及所述第二特征輸入到卷積編碼器-解碼器結(jié)構(gòu)中進(jìn)行處理，得到預(yù)測(cè)圖像；

20、根據(jù)所述預(yù)測(cè)圖像與所述圖像數(shù)據(jù)，對(duì)所述線性映射層及所述卷積編碼器-解碼器結(jié)構(gòu)中各變壓器塊的參數(shù)進(jìn)行調(diào)整。

21、在一種可能的實(shí)現(xiàn)方式中，所述對(duì)所述中間擴(kuò)散模型的結(jié)構(gòu)進(jìn)行調(diào)整，得到結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型，包括：

22、在所述卷積編碼器-解碼器結(jié)構(gòu)中的各變壓器塊后添加時(shí)序模塊，并在所述卷積編碼器-解碼器結(jié)構(gòu)前添加拼接模塊，得到所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型，其中，所述時(shí)序模塊用于計(jì)算時(shí)序自注意力，以對(duì)齊所述視頻數(shù)據(jù)中第一個(gè)視頻幀與所述卷積編碼器-解碼器結(jié)構(gòu)生成的各視頻幀的內(nèi)容；所述拼接模塊用于對(duì)所述視頻數(shù)據(jù)中的各視頻幀進(jìn)行拼接。

23、在一種可能的實(shí)現(xiàn)方式中，所述利用所述視頻數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型進(jìn)行訓(xùn)練，包括：

24、利用所述變分自編碼器提取所述視頻數(shù)據(jù)中各視頻幀的第二特征；

25、利用所述拼接模塊將所述視頻數(shù)據(jù)中第一個(gè)視頻幀的第二特征與加噪后的其他視頻幀的第二特征進(jìn)行拼接，得到拼接特征；

26、將所述視頻數(shù)據(jù)中第一個(gè)視頻幀輸入到所述視覺(jué)編碼器中，提取所述視頻數(shù)據(jù)中第一個(gè)視頻幀的第一特征，并通過(guò)線性映射層進(jìn)行對(duì)齊；

27、將所述拼接特征及對(duì)齊后的所述視頻數(shù)據(jù)中第一個(gè)視頻幀的第一特征輸入到所述卷積編碼器-解碼器結(jié)構(gòu)中進(jìn)行去噪處理，生成預(yù)測(cè)視頻；

28、根據(jù)所述預(yù)測(cè)視頻及所述視頻數(shù)據(jù)，調(diào)整所述時(shí)序模塊的參數(shù)。

29、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述預(yù)測(cè)視頻及所述視頻數(shù)據(jù)，調(diào)整所述時(shí)序模塊的參數(shù)，包括：

30、根據(jù)所述視頻數(shù)據(jù)中除第一個(gè)視頻幀外的其他視頻幀，及所述預(yù)測(cè)視頻中除第一個(gè)視頻幀外的其他視頻幀，計(jì)算損失函數(shù)值；

31、基于所述損失函數(shù)值，調(diào)整所述時(shí)序模塊的參數(shù)。

32、在一種可能的實(shí)現(xiàn)方式中，所述利用所述視頻數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型進(jìn)行訓(xùn)練，包括：

33、對(duì)所述視頻數(shù)據(jù)進(jìn)行降低維度處理，得到降維后的數(shù)據(jù)；其中，所述降維后的數(shù)據(jù)的維度與所述圖像數(shù)據(jù)的維度相同；

34、利用所述降維后的數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型進(jìn)行訓(xùn)練。

35、在一種可能的實(shí)現(xiàn)方式中，所述時(shí)序模塊的參數(shù)的初始值為零。

36、根據(jù)本公開(kāi)的另一方面，提供了一種視頻生成方法，所述方法包括：

37、獲取參考圖；

38、利用目標(biāo)模型對(duì)所述參考圖進(jìn)行處理，生成目標(biāo)視頻；其中，所述目標(biāo)模型為通過(guò)上述任一模型訓(xùn)練方法得到的視頻生成模型。

39、在一種可能的實(shí)現(xiàn)方式中，所述目標(biāo)視頻中包含預(yù)設(shè)數(shù)量的視頻幀；

40、所述方法還包括：

41、提取所述目標(biāo)視頻中的最后一個(gè)視頻幀；

42、將所述最后一個(gè)視頻幀作為所述參考圖；

43、重復(fù)執(zhí)行利用目標(biāo)模型對(duì)所述參考圖進(jìn)行處理，生成目標(biāo)視頻，及之后的操作，直到拼接視頻中視頻幀的數(shù)量達(dá)到預(yù)設(shè)閾值，其中，所述拼接視頻由所述目標(biāo)模型對(duì)每一參考圖進(jìn)行處理所生成的目標(biāo)視頻拼接得到。

44、在一種可能的實(shí)現(xiàn)方式中，所述利用目標(biāo)模型對(duì)所述參考圖進(jìn)行處理，生成目標(biāo)視頻，包括：

45、利用所述目標(biāo)模型中的視覺(jué)編碼器提取所述參考圖的第一特征，并通過(guò)所述目標(biāo)模型中的線性映射層進(jìn)行對(duì)齊，得到對(duì)齊后的第一特征；

46、利用所述目標(biāo)模型中的變分自編碼器提取所述參考圖的第二特征，并與隨時(shí)噪聲進(jìn)行拼接，得到拼接特征；

47、將所述對(duì)齊后的第一特征及所述拼接特征輸入到所述目標(biāo)模型中卷積編碼器-解碼器結(jié)構(gòu)進(jìn)行處理，生成所述本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述訓(xùn)練數(shù)據(jù)及預(yù)先訓(xùn)練好的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，得到視頻生成模型，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述圖像擴(kuò)散模型包括：文本編碼器、卷積編碼器-解碼器結(jié)構(gòu)、變分自編碼器；

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述將所述圖像特征與所述文本編碼器提取的文本特征對(duì)齊，包括：將所述視覺(jué)編碼器中全局池化層的輸入特征沿空間維度展平，得到視覺(jué)特征序列，將所述視覺(jué)特征序列的長(zhǎng)度與文本特征的長(zhǎng)度對(duì)齊。

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述利用所述圖像數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的圖像擴(kuò)散模型進(jìn)行訓(xùn)練，包括：

6.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對(duì)所述中間擴(kuò)散模型的結(jié)構(gòu)進(jìn)行調(diào)整，得到結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述利用所述視頻數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型進(jìn)行訓(xùn)練，包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述根據(jù)所述預(yù)測(cè)視頻及所述

9.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述利用所述視頻數(shù)據(jù)對(duì)所述結(jié)構(gòu)調(diào)整后的中間擴(kuò)散模型進(jìn)行訓(xùn)練，包括：

10.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述時(shí)序模塊的參數(shù)的初始值為零。

11.一種視頻生成方法，其特征在于，所述方法包括：

12.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述目標(biāo)視頻中包含預(yù)設(shè)數(shù)量的視頻幀；

13.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述利用目標(biāo)模型對(duì)所述參考圖進(jìn)行處理，生成目標(biāo)視頻，包括：

14.一種模型訓(xùn)練裝置，其特征在于，所述裝置包括：

15.一種視頻生成裝置，其特征在于，所述裝置包括：

16.一種電子設(shè)備，其特征在于，包括：

17.一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序指令，其特征在于，所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至10中任意一項(xiàng)所述的方法。

...

【技術(shù)特征摘要】

1.一種模型訓(xùn)練方法，其特征在于，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述圖像擴(kuò)散模型包括：文本編碼器、卷積編碼器-解碼器結(jié)構(gòu)、變分自編碼器；

8.根據(jù)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：請(qǐng)求不公布姓名，
申請(qǐng)(專利權(quán))人：摩爾線程智能科技成都有限責(zé)任公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)