System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及視頻生成,特別是涉及一種視頻生成方法、視頻生成裝置、視頻生成設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、現(xiàn)有的視頻生成技術(shù)大多依賴于單一模態(tài)輸入,如圖像或文本描述,難以生成高度一致且復(fù)雜的視頻內(nèi)容。同時(shí),多模態(tài)信息之間存在較大差異,如何有效融合各類模態(tài)信息以生成連貫、自然且與輸入模態(tài)高度相關(guān)的視頻,是目前視頻生成技術(shù)中的一個(gè)重要挑戰(zhàn)。近年來(lái),深度學(xué)習(xí)技術(shù)在生成領(lǐng)域取得了顯著進(jìn)展,尤其是基于擴(kuò)散模型的視頻生成模型。然而,現(xiàn)有方法在處理多模態(tài)輸入時(shí)仍存在多模態(tài)融合困難,融合效果差,導(dǎo)致生成的視頻效果較差的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)岢隽艘环N視頻生成方法、視頻生成裝置、視頻生成設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
2、為解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)岢隽艘环N視頻生成方法,所述視頻生成方法包括:
3、獲取若干模態(tài)的輸入數(shù)據(jù);
4、提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征;
5、將若干單模態(tài)特征映射到同一維度的潛在表示空間,獲取若干潛在模態(tài)特征;
6、將所述若干潛在模態(tài)特征融合,得到融合模態(tài)特征;
7、利用所述融合模態(tài)特征,生成目標(biāo)視頻。
8、其中,所述將所述若干潛在模態(tài)特征融合,得到融合模態(tài)特征,包括:
9、利用跨模態(tài)注意力機(jī)制提取所述若干潛在模態(tài)特征的相關(guān)性信息;
10、根據(jù)所述相關(guān)性信息將所述若干潛在模態(tài)特征進(jìn)行融合,得到所述融合模態(tài)特征。
11、其中,所述
12、基于所述若干模態(tài)的輸入數(shù)據(jù),確定視頻場(chǎng)景;
13、根據(jù)所述視頻場(chǎng)景以及所述若干單模態(tài)特征,獲取動(dòng)態(tài)權(quán)重;
14、根據(jù)所述相關(guān)性信息和所述動(dòng)態(tài)權(quán)重將所述若干潛在模態(tài)特征進(jìn)行融合,得到所述融合模態(tài)特征。
15、其中,所述視頻生成方法,還包括:
16、提取每一單模態(tài)特征的時(shí)間序列信息;
17、基于所述時(shí)間序列信息獲取所述單模態(tài)特征的時(shí)序特征;
18、根據(jù)所述若干單模態(tài)特征的時(shí)序特征對(duì)所述若干單模態(tài)特征的時(shí)間序列信息進(jìn)行對(duì)齊;
19、所述利用所述融合模態(tài)特征,生成目標(biāo)視頻,包括:
20、利用所述融合模態(tài)特征以及對(duì)齊后的時(shí)間序列信息,生成所述目標(biāo)視頻。
21、其中,所述根據(jù)所述若干單模態(tài)特征的時(shí)序特征對(duì)所述若干單模態(tài)特征的時(shí)間序列信息進(jìn)行對(duì)齊,包括:
22、獲取所述若干單模態(tài)特征的時(shí)序特征與當(dāng)前生成視頻幀特征的相似度;
23、按照最小化相似度的方式對(duì)所述若干單模態(tài)特征的時(shí)間序列信息進(jìn)行對(duì)齊。
24、其中,所述利用所述融合模態(tài)特征以及對(duì)齊后的時(shí)間序列信息,生成所述目標(biāo)視頻,包括:
25、在每個(gè)生成步長(zhǎng),將所述融合模態(tài)特征和所述對(duì)齊后的時(shí)間序列信息輸入擴(kuò)散模型,生成每個(gè)生成步長(zhǎng)的視頻幀;
26、將所有生成步長(zhǎng)的視頻幀組合成為所述目標(biāo)視頻。
27、其中,所述利用所述融合模態(tài)特征,生成目標(biāo)視頻,包括:
28、利用所述融合模態(tài)特征,生成原始視頻;
29、通過(guò)超分辨率模塊對(duì)所述原始視頻的各視頻幀進(jìn)行分辨率提升,根據(jù)分辨率提升后的視頻幀生成所述目標(biāo)視頻。
30、為解決上述技術(shù)問(wèn)題,本申請(qǐng)還提出一種視頻生成裝置,所述視頻生成裝置包括:輸入模塊、提取模塊、映射模塊、融合模塊、生成模塊;其中,
31、所述輸入模塊,用于獲取若干模態(tài)的輸入數(shù)據(jù);
32、所述提取模塊,用于提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征;
33、所述映射模塊,用于將若干單模態(tài)特征映射到同一維度的潛在表示空間,獲取若干潛在模態(tài)特征;
34、所述融合模塊,用于將所述若干潛在模態(tài)特征融合,得到融合模態(tài)特征;
35、所述生成模塊,用于利用所述融合模態(tài)特征,生成目標(biāo)視頻。
36、為解決上述技術(shù)問(wèn)題,本申請(qǐng)還提出一種視頻生成設(shè)備,所述視頻生成設(shè)備包括存儲(chǔ)器以及與所述存儲(chǔ)器耦接的處理器;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)如上述的視頻生成方法。
37、為解決上述技術(shù)問(wèn)題,本申請(qǐng)還提出一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)用于存儲(chǔ)程序數(shù)據(jù),所述程序數(shù)據(jù)在被計(jì)算機(jī)執(zhí)行時(shí),用以實(shí)現(xiàn)上述的視頻生成方法。
38、與現(xiàn)有技術(shù)相比,本申請(qǐng)的有益效果是:視頻生成裝置獲取若干模態(tài)的輸入數(shù)據(jù);提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征;將若干單模態(tài)特征映射到同一維度的潛在表示空間,獲取若干潛在模態(tài)特征;將所述若干潛在模態(tài)特征融合,得到融合模態(tài)特征;利用所述融合模態(tài)特征,生成目標(biāo)視頻。通過(guò)上述視頻生成方法,利用映射到同一維度的潛在表示空間將多模態(tài)特征實(shí)現(xiàn)統(tǒng)一處理,在多模態(tài)輸入之間建立有效的融合機(jī)制,提高多模態(tài)信息之間的高效互補(bǔ)和聯(lián)合表征,有利于生成目標(biāo)視頻的準(zhǔn)確性。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種視頻生成方法,其特征在于,所述視頻生成方法包括:
2.根據(jù)權(quán)利要求1所述的視頻生成方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的視頻生成方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的視頻生成方法,其特征在于,
5.根據(jù)權(quán)利要求4所述的視頻生成方法,其特征在于,
6.根據(jù)權(quán)利要求4所述的視頻生成方法,其特征在于,
7.根據(jù)權(quán)利要求1或6所述的視頻生成方法,其特征在于,
8.一種視頻生成裝置,其特征在于,所述視頻生成裝置包括:輸入模塊、提取模塊、映射模塊、融合模塊、生成模塊;其中,
9.一種視頻生成設(shè)備,其特征在于,所述視頻生成設(shè)備包括存儲(chǔ)器以及與所述存儲(chǔ)器耦接的處理器;
10.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)存儲(chǔ)介質(zhì)用于存儲(chǔ)程序數(shù)據(jù),所述程序數(shù)據(jù)在被計(jì)算機(jī)執(zhí)行時(shí),用以實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的視頻生成方法。
【技術(shù)特征摘要】
1.一種視頻生成方法,其特征在于,所述視頻生成方法包括:
2.根據(jù)權(quán)利要求1所述的視頻生成方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的視頻生成方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的視頻生成方法,其特征在于,
5.根據(jù)權(quán)利要求4所述的視頻生成方法,其特征在于,
6.根據(jù)權(quán)利要求4所述的視頻生成方法,其特征在于,
7.根據(jù)權(quán)利要求1或6所述的視頻...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李超龍,何山,周良,殷保才,殷兵,
申請(qǐng)(專利權(quán))人:科大訊飛股份有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。