一種基于擴散模型的視頻超分辨方法、系統、設備及介質技術方案

技術編號：44459250 閱讀：5 留言：0更新日期：2025-02-28 19:07

本申請實施例提供了一種基于擴散模型的視頻超分辨方法、系統、設備及介質，其中，一種基于擴散模型的視頻超分辨方法包括：構建訓練樣本集，其中，所述訓練樣本集包括低分辨率樣本視頻以及低分辨率樣本視頻對應的高分辨率樣本視頻；構建初始擴散模型，其中，所述初始擴散模型包括編碼器模塊、時間嵌入模塊、Unet網絡模塊和解碼器模塊；利用所述訓練樣本集對所述初始擴散模型進行多輪迭代訓練，以獲得目標擴散模型；利用所述目標擴散模型對待處理的低分辨率視頻進行視頻超分辨處理，得到高分辨率視頻。通過在初始擴散模型中引入時間嵌入模塊，實現了抑制擴散模型中圖像生成過程的隨機性和不確定性，使模型能學習到不同時間步長的視頻幀特征的效果。

全部詳細技術資料下載

【技術實現步驟摘要】

申請涉及視頻圖像分辨，尤其涉及一種基于擴散模型的視頻超分辨方法、系統、設備及介質。

技術介紹

1、擴散模型(diffus?ion?mode?l?s)是一種基于概率論的生成模型，其原理源自物理學中的擴散過程。在視頻超分辨任務中，擴散模型通過模擬一個從低分辨率視頻幀到高分辨率視頻幀的逐漸“擴散”過程，來學習如何從低分辨率視頻生成高分辨率視頻。

2、然而，在生成圖像的過程中，擴散模型會引入一定的隨機噪聲，以模擬從數據分布到噪聲分布的擴散過程。這種隨機性雖然在一定程度上增加了模型的生成能力，但也導致了生成結果的不穩定性和不可預測性，從而導致了視頻超分辨任務中擴散模型生成圖像的過程存在隨機性和不確定性的問題。

技術實現思路

1、本申請實施例的主要目的在于提出一種基于擴散模型的視頻超分辨方法、系統、設備及介質，旨在抑制擴散模型中圖像生成過程的隨機性和不確定性，使模型能學習到不同時間步長的視頻幀特征。

2、為實現上述目的，本申請實施例的第一方面提出了一種基于擴散模型的視頻超分辨方法，所述方法包括：

3、構建訓練樣本集，其中，所述訓練樣本集包括多個樣本視頻，每個樣本視頻包括低分辨率樣本視頻以及所述低分辨率樣本視頻對應的高分辨率樣本視頻；

4、構建初始擴散模型，其中，所述初始擴散模型包括編碼器模塊、時間嵌入模塊、unet網絡模塊和解碼器模塊；

5、利用所述訓練樣本集對所述初始擴散模型進行多輪迭代訓練，以獲得目標擴散模型，其中，每輪迭代訓練包

6、利用所述目標擴散模型對待處理的低分辨率視頻進行視頻超分辨處理，得到高分辨率視頻。

7、通過第一方面提供的方法，可以解決現有技術中擴散模型在生成圖像的過程中的隨機性導致了生成結果的不穩定性和不可預測性，從而導致了視頻超分辨任務中擴散模型生成圖像的過程存在隨機性和不確定性的問題，達到了抑制擴散模型中圖像生成過程的隨機性和不確定性的目的，使模型能學習到不同時間步長的視頻幀特征。

8、在一種可能實現的方式中，所述編碼器模塊包括：輸入層、卷積層以及全連接層；

9、所述將所述低分辨率樣本視頻的視頻幀輸入到所述編碼器模塊中，獲得第一高維向量的步驟包括：

10、所述輸入層獲取所述低分辨率樣本視頻的視頻幀；

11、所述卷積層提取所述低分辨率樣本視頻的視頻幀的視頻數據特征；

12、所述全連接層將所述視頻數據特征轉化為所述第一高維向量。

13、在一種可能實現的方式中，所述卷積層包括普通卷積層、動態卷積層以及降維卷積層；

14、所述卷積層提取所述低分辨率樣本視頻的視頻幀的視頻數據特征的步驟包括：

15、所述普通卷積層提取所述低分辨率樣本視頻的視頻幀的第一數據特征；

16、所述動態卷積層基于所述第一數據特征對卷積核進行調參，得到第二數據特征；

17、所述降維卷積層降低所述第二數據特征的數據維度，得到所述視頻數據特征。

18、在一種可能實現的方式中，所述動態卷積層包括動態卷積、bn層以及si?lu激活函數；

19、其中，所述動態卷積用于基于所述第一數據特征計算出注意力權重，并根據所述注意力權重調整卷積核的大小；

20、所述bn層用于對所述第一數據特征進行歸一化處理；

21、所述si?lu激活函數用于對所述第一數據特征進行非線性變換。

22、在一種可能實現的方式中，所述時間嵌入模塊包括：位置編碼層、線性層、relu激活函數層和歸一化處理層；

23、所述將所述時間步長信息輸入所述時間嵌入模塊，獲得第二高維向量的步驟包括：

24、所述位置編碼層基于所述時間步長信息生成位置向量；

25、所述線性層對所述位置向量進行線性變換，得到線性變換后的向量；

26、所述relu激活函數對所述線性變換后的向量進行非線性變換，得到非線性變換后的向量；

27、所述歸一化處理層對所述非線性變換后的向量進行歸一化處理，得到所述第二高維向量。

28、在一種可能實現的方式中，所述位置編碼層基于所述時間步長信息生成位置向量包括：所述位置編碼層基于正弦-余弦函數，捕捉所述時間步長信息的周期信息，并基于所述周期信息生成與所述時間步長信息相對應的位置向量。

29、在一種可能實現的方式中，所述基于所述模型損失對所述初始擴散模型進行模型調參的步驟包括：

30、基于所述模型損失以及反向傳播算法計算所述初始擴散模型的參數，得到每個參數的梯度，使用優化器對所述每個參數的梯度進行優化和更新。

31、為實現上述目的，本申請實施例的第二方面提出了一種基于擴散模型的視頻超分辨系統，所述系統包括：

32、訓練樣本集構建模塊：用于構建訓練樣本集，其中，所述訓練樣本集包括多個樣本視頻，每個樣本視頻包括低分辨率樣本視頻以及所述低分辨率樣本視頻對應的高分辨率樣本視頻；

33、初始擴散模型構建模塊：用于構建初始擴散模型，其中，所述初始擴散模型包括編碼器模塊、時間嵌入模塊、unet網絡模塊和解碼器模塊；

34、模型訓練模塊：用于利用所述訓練樣本集對所述初始擴散模型進行多輪迭代訓練，以獲得目標擴散模型，其中，每輪迭代訓練包括：將所述低分辨率樣本視頻的視頻幀輸入到所述編碼器模塊中，獲得第一高維向量；基于所述多個樣本視頻確定時間步長信息，將所述時間步長信息輸入所述時間嵌入模塊，獲得第二高維向量；將所述第一高維向量和所述第二高維向量進行融合，獲得融合向量；將所述融合向量輸入所述unet網絡模塊，獲得視頻編碼數據；將所述視頻編碼數據輸入所述解碼器模塊，獲得高分辨率預測視頻；基于各個所述低分辨率樣本視頻對應的所述高分辨率預測視頻和所述高分辨率樣本視頻，確定模型損失，并基于所述模型損失對所述初始擴散模型進行模型調參；

35、視頻超分辨處理模塊：用于利用所述目標擴散模型對待處理的低分辨率視頻進行視頻超分辨處理，得到高分辨率視頻。

36、通過第二方面提供的系統，可以解決現有技術中擴散模型在生成圖像的過程中的隨機性導致了生成結果的不穩定性和不可預測性，從而導致了視頻超分辨任務中擴散模型生成圖像的過程存在隨機性和不確定性的問題，達到了抑制擴散模型中圖像生成過程的隨機性和不確定性的目的，使模型能學習到不本文檔來自技高網...

【技術保護點】

1.一種基于擴散模型的視頻超分辨方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述編碼器模塊包括：輸入層、卷積層以及全連接層；

3.根據權利要求2所述的方法，其特征在于，所述卷積層包括普通卷積層、動態卷積層以及降維卷積層；

4.根據權利要求3所述的方法，其特征在于，所述動態卷積層包括動態卷積、BN層以及SiLU激活函數；

5.根據權利要求1所述的方法，其特征在于，所述時間嵌入模塊包括：位置編碼層、線性層、ReLU激活函數層和歸一化處理層；

6.根據權利要求5所述的方法，其特征在于，所述位置編碼層基于所述時間步長信息生成位置向量包括：所述位置編碼層基于正弦-余弦函數，捕捉所述時間步長信息的周期信息，并基于所述周期信息生成與所述時間步長信息相對應的位置向量。

7.根據權利要求1所述的方法，其特征在于，所述基于所述模型損失對所述初始擴散模型進行模型調參的步驟包括：

8.一種基于擴散模型的視頻超分辨系統，其特征在于，所述系統包括：

9.一種電子設備，其特征在于，所

10.一種計算機可讀存儲介質，所述存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的基于擴散模型的視頻超分辨方法。

...

【技術特征摘要】

1.一種基于擴散模型的視頻超分辨方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述編碼器模塊包括：輸入層、卷積層以及全連接層；

3.根據權利要求2所述的方法，其特征在于，所述卷積層包括普通卷積層、動態卷積層以及降維卷積層；

4.根據權利要求3所述的方法，其特征在于，所述動態卷積層包括動態卷積、bn層以及silu激活函數；

5.根據權利要求1所述的方法，其特征在于，所述時間嵌入模塊包括：位置編碼層、線性層、relu激活函數層和歸一化處理層；

6.根據權利要求5所述的方法，其特征在于，所述位置編碼層基于所述時間步長信息生成位置向量包括：所述位置編碼層基于正弦-余弦函數...

【專利技術屬性】
技術研發人員：田春偉，楊俊健，
申請(專利權)人：西北工業大學太倉長三角研究院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術