System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及視頻編碼和質量增強,具體涉及一種基于雙流重參數化的多視圖視頻合成方法。
技術介紹
1、隨著視頻技術的迅速發展,視頻內容正朝著高清和三維視頻的方向演進。三維視頻(3dv)由于能夠提供沉浸式的立體視覺體驗,逐漸在虛擬現實(vr)、增強現實(ar)以及六自由度(6dof)視頻系統等新興應用中得到廣泛關注。作為三維視頻的典型形式,多視圖視頻通過多個攝像機從不同角度捕捉同一場景,使用戶能夠實現自由視角選擇和場景漫游等交互體驗。然而,多視圖視頻相比傳統單視圖視頻數據量顯著增加,導致存儲和傳輸面臨巨大挑戰。為了解決這一問題,國際電信聯盟(itu-t)和國際標準化組織(iso/iec)共同推出了3d高效視頻編碼(3d-hevc)標準,旨在有效壓縮多視圖視頻數據。3d-hevc是二維視頻編碼標準hevc的擴展,專門設計用于對多視圖加深度(mvd)格式的視頻進行高效編碼。mvd格式包括多個視角的紋理圖、對應的深度圖以及攝像機參數,利用深度圖像渲染(dibr)技術,解碼端可以從已有視圖中生成虛擬視圖。
2、虛擬視圖合成技術依賴于深度圖的準確性和渲染算法的精度,但在實際應用中,dibr技術面臨許多挑戰。首先,在多視圖視頻編碼后,深度圖像由于壓縮損耗和傳輸噪聲,通常會出現質量下降,導致渲染出的虛擬視圖存在深度信息不準確的情況。其次,在虛擬視圖的三維映射過程中,由于深度信息的誤差、像素插值舍入誤差以及物體遮擋問題,合成視圖往往會出現偽影、裂縫和孔洞。這些視覺瑕疵集中出現在前景和背景交界處,嚴重影響了合成視圖的整體質量,降低了用戶的
3、為了解決上述問題,研究者們嘗試通過改進深度圖的編碼、解碼技術以及引入后處理算法來增強虛擬視圖的質量。然而本申請的專利技術人經過研究發現,這些傳統方法在處理復雜場景或大規模多視角數據時往往效果有限,無法全面應對虛擬視圖合成過程中產生的各種失真問題。因此,近年來,基于深度學習的先進技術逐漸被引入到dibr虛擬視圖合成領域,而如何通過深度神經網絡自動提取和學習視圖合成中的全局和局部信息,以顯著提升合成視圖的視覺質量就顯得十分必要了。
技術實現思路
1、針對現有多視圖視頻合成中往往會出現偽影、裂縫和孔洞的技術問題,本專利技術提供一種基于雙流重參數化的多視圖視頻合成方法,該方法基于雙流重參數化再聚焦混合注意力網絡,網絡通過全局多尺度殘差信息流和局部特征金字塔注意力信息流相結合,能夠在不同尺度上自適應提取全局上下文信息和局部紋理細節,有效解決視圖合成中的偽影、裂縫及孔洞問題,顯著提升圖像視覺質量。
2、為了解決上述技術問題,本專利技術采用了如下的技術方案:
3、一種基于雙流重參數化的多視圖視頻合成方法,包括以下步驟:
4、s1、雙流重參數化再聚焦混合注意力網絡模型搭建:
5、s11、雙流重參數化再聚焦混合注意力網絡包括特征提取和特征重構兩個階段,特征提取階段采用局部特征金字塔注意力信息流和全局多尺度殘差信息流雙流結構,所述局部特征金字塔注意力信息流用于提取圖像的局部紋理信息,所述全局多尺度殘差信息流用于獲取合成視圖中的全局上下文信息,確保對細節和整體信息的全面把握;特征重構階段則是將來自所述局部特征金字塔注意力信息流和全局多尺度殘差信息流的全局和局部信息進行整合輸出;
6、s12、局部特征金字塔注意力信息流結構包括提取低級特征的卷積層及四層對稱的編碼器-解碼器結構,編碼器結構包括位于低級特征提取卷積層后面的四個重參數化再聚焦注意力模塊和三個下采樣,一個重參數化再聚焦注意力模塊和一個下采樣依次交替排列,最后一個重參數化再聚焦注意力模塊后面設置了兩個卷積層,解碼器結構包括位于兩個卷積層后面的三個卷積層、四個重參數化再聚焦注意力模塊和三個上采樣,一個卷積層、一個重參數化再聚焦注意力模塊和一個上采樣依次交替排列,最后一個重參數化再聚焦注意力模塊作為輸出;
7、全局多尺度殘差信息流結構包括順序設置的像素逆重組層、第一卷積層、第一再聚焦注意力模塊、十二個串聯的殘差塊、第二再聚焦注意力模塊、第二卷積層和像素重組層;
8、特征重構階段采用特征融合模塊進行整合,特征融合模塊包括兩個高效特征融合模塊和兩個卷積層,每個高效特征融合模塊后面設置一個卷積層依次交替排列;
9、s2、雙流重參數化再聚焦混合注意力網絡模型訓練與參數優化:
10、s21、數據集建立與預處理:使用包含11個不同分辨率的視頻序列作為實驗數據集,其中9個序列用于模型訓練,2個序列用于測試,每個視頻序列包含100幀圖像,并由低質量的合成視圖圖像與其對應的參考圖像配對構成數據,為確保模型的泛化能力,訓練和測試數據集中的場景是完全不重疊的,保證了訓練數據集中不會出現測試數據中的場景;
11、所有視頻序列根據公開測試條件下的不同質量水平進行聯合編碼,具體包括30-39、35-42、40-45和45-48共四個失真等級;
12、最后對訓練數據集中訓練圖像數據樣本使用mixup數據混洗進行數據增強,并使用隨機水平翻轉和隨機旋轉來提升模型的魯棒性和泛化能力;
13、s22、將64×64大小的圖像對作為雙流重參數化再聚焦混合注意力網絡的輸入,通過網絡前向計算生成特征向量;
14、s23、模型訓練配置:模型訓練中優化器選用adamw,并設置參數一階動量估計的指數衰減率β1為0.9,二階動量估計的指數衰減率β2為0.999,權重衰減值為0.02;整個訓練過程中,學習率從3e-4開始,并使用余弦退火算法使學習率逐步下降到1e-6;損失函數采用pseloss,以有效捕捉合成圖像的特征差異,定義如下:
15、
16、其中,lssim表示ssim損失,lpsnr表示psnr損失,ih表示預測的合成視圖,ig表示相應的未失真參考視圖,ξ和λ均為常數,ε用作懲罰系數以幫助網絡有效處理異常值,δ表示拉普拉斯算子,δ(ih)表示ih的拉普拉斯算子,δ(ig)表示ig的拉普拉斯算子;
17、s24、采用自適應矩估計梯度下降算法優化目標函數lpse,運用誤差反向傳播更新雙流重參數化再聚焦混合注意力網絡模型參數,得到最優網絡模型參數;
18、s3、基于雙流重參數化的多視圖視頻合成:
19、用學習得到的最優網絡模型參數,搭建基于雙流重參數化再聚焦混合注意力的多視圖視頻合成網絡,將低質量的合成視圖圖像輸入該網絡中進行多視圖視頻合成,輸出高質量合成視圖圖像,進行質量提升。
20、進一步,所述步驟s12中,每個重參數化再聚焦注意力模塊從輸入端開始包括依次設置的多尺度卷積和再聚焦注意力模塊,再聚焦注意力模塊的輸出與輸入端的輸入進行級聯,級聯的輸出連接有3×3卷積層。
21、進一步,所述多尺度卷積從輸入端開始包括并列設置的3×3卷積本文檔來自技高網...
【技術保護點】
1.一種基于雙流重參數化的多視圖視頻合成方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述步驟S12中,每個重參數化再聚焦注意力模塊從輸入端開始包括依次設置的多尺度卷積和再聚焦注意力模塊,再聚焦注意力模塊的輸出與輸入端的輸入進行級聯,級聯的輸出連接有3×3卷積層。
3.根據權利要求2所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述多尺度卷積從輸入端開始包括并列設置的3×3卷積層和3×3膨脹卷積層,分別設于3×3卷積層和3×3膨脹卷積層后面的PReLU激活函數,設于激活函數后與輸入端輸入進行相加的元素相加,對兩個元素相加結果進行處理的級聯,以及設于級聯后面的1×1卷積層。
4.根據權利要求1或2所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述再聚焦注意力模塊包括順序設置的多尺度特征提取模塊和特征再聚焦模塊,所述多尺度特征提取模塊從輸入端開始并列設置有兩個分支,第一個分支包括依次設置的最大池化層、1×1卷積層、PReLU激活函數和1×1卷積層,第二個分支包括依次設
5.根據權利要求4所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述基本卷積從輸入端開始包括依次設置的重參數卷積、歸一化和PReLU激活函數。
6.根據權利要求1所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述步驟S12中,每個殘差塊從輸入端開始包括依次設置的3×3卷積層、PReLU激活函數、3×3卷積層,以及將兩個3×3卷積層的結果進行相加的元素相加。
7.根據權利要求1所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述步驟S12中,每個高效特征融合模塊由全局平均池化分支和重參數化卷積分支兩個分支組成,全局平均池化分支專注于跨通道信息的建模,并將空間位置信息整合到通道注意力圖中,以增強特征表達能力;重參數化卷積分支則專注于提供多尺度的空間結構信息,并將這些信息與全局平均池化分支的特征結合。
8.根據權利要求1所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述步驟S22中的網絡前向計算包括卷積操作、批量歸一化和非線性激勵。
9.根據權利要求8所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述卷積操作運算中,任意一個卷積核所對應的輸出特征圖Zi采用下式進行計算:
10.根據權利要求8所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述非線性激勵采用整流線性單元PRELU作為特征圖Zi的非線性激勵函數,用于將特征圖Zi歸一化后的每個值進行非線性轉化,所述整流線性單元PRELU定義如下:
...【技術特征摘要】
1.一種基于雙流重參數化的多視圖視頻合成方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述步驟s12中,每個重參數化再聚焦注意力模塊從輸入端開始包括依次設置的多尺度卷積和再聚焦注意力模塊,再聚焦注意力模塊的輸出與輸入端的輸入進行級聯,級聯的輸出連接有3×3卷積層。
3.根據權利要求2所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述多尺度卷積從輸入端開始包括并列設置的3×3卷積層和3×3膨脹卷積層,分別設于3×3卷積層和3×3膨脹卷積層后面的prelu激活函數,設于激活函數后與輸入端輸入進行相加的元素相加,對兩個元素相加結果進行處理的級聯,以及設于級聯后面的1×1卷積層。
4.根據權利要求1或2所述的基于雙流重參數化的多視圖視頻合成方法,其特征在于,所述再聚焦注意力模塊包括順序設置的多尺度特征提取模塊和特征再聚焦模塊,所述多尺度特征提取模塊從輸入端開始并列設置有兩個分支,第一個分支包括依次設置的最大池化層、1×1卷積層、prelu激活函數和1×1卷積層,第二個分支包括依次設置的平均池化層、1×1卷積層、prelu激活函數和1×1卷積層,兩個分支的最后一個1×1卷積層輸出相加后作為特征再聚焦模塊的輸入;所述特征再聚焦模塊從輸入端開始包括依次設置的sigmoid激活函數和點乘,點乘的輸出并列連接取最大值和求平均值,取最大值和求平均值的輸出連接級聯,級聯的輸出依次連接基本卷積、sigmoid激活函數和點乘。
【專利技術屬性】
技術研發人員:黎天送,曹子怡,陳艷,鐘隆偉,
申請(專利權)人:重慶師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。