用于視頻壓縮的基于深度學習的圖像分區制造技術

技術編號：43119836 閱讀：18 留言：0更新日期：2024-10-26 09:57

本申請涉及用于視頻壓縮的基于深度學習的圖像分區。通過使用經由使用基于深度學習的圖像分區獲得的分區選擇，使用幾種可能的分區操作中的一種或多種來拆分視頻數據塊。在至少一個實施例中，使用卷積神經網絡在一個或多個拆分操作中拆分塊。在另一實施例中，卷積神經網絡的輸入來自運動向量場和對應的殘差。提供了用于編碼的方法、設備、和信號實施例。

全部詳細技術資料下載

【技術實現步驟摘要】

本原理涉及視頻壓縮的領域。

技術介紹

1、在hevc視頻壓縮標準(國際電信聯盟，itu-t?h.265高效視頻編碼)中，畫面被劃分為所謂的編碼樹單元(ctu)，其尺寸通常為64×64、128×128或256×256像素。

2、每個ctu由壓縮域中的編碼樹表示。這是ctu的四叉樹劃分，其中每個葉子稱為編碼單元(cu)，如圖1所示。

3、然后，每個cu被給予一些幀內或幀間預測參數(預測信息)。為此，將其在空間上分區為一個或多個預測單元(pu)，每個pu均分配有一些預測信息。在cu級別上分配幀內或幀間編碼模式，參見圖2。

4、根據在比特流中用信號通知的分區類型，進行將編碼單元分區為(多個)預測單元。對于幀內編碼單元，僅使用圖3中所示的分區類型2n×2n和n×n。這意味著在幀內編碼單元中僅使用方形預測單元。

5、相反，幀間編碼單元可以使用圖3所示的所有分區類型。

6、根據hevc標準，在“轉換樹”之后，編碼單元也以遞歸的方式被劃分成所謂的轉換單元。因此，轉換樹是編碼單元的四叉樹劃分，并且轉換單元是轉換樹的葉子。轉換單元封裝與所考慮的方形空間區域相對應的每個畫面分量的方形轉換塊。轉換塊是單個分量中樣本的方形塊，其中應用了相同的轉換。

7、在"基于貝葉斯決策規則的hevc的快速編碼單元尺寸選擇(fast?coding?unitsize?selection?for?hevc?based?on?bayesian?decision?rule)"(在畫面編碼研討會中；ieee會

8、新出現的視頻壓縮工具包括壓縮域中的編碼樹單元表示，這允許在壓縮域中以更靈活的方式表示畫面數據。編碼樹的這種靈活表示的優點是，與hevc標準的cu/pu/tu布置相比，它提供了增加的壓縮效率。

9、四叉樹加二叉樹(qtbt)編碼工具提供了這種增加的靈活性。該編碼工具在于編碼樹，其中編碼單元既可以按四叉樹也可以按二叉樹方式拆分。編碼樹單元的這種編碼樹表示如圖4所示。塊上的qtbt表示如圖5所示。

10、通過率失真優化過程在編碼器側決策編碼單元的拆分，所述率失真優化過程在于以最小的率失真成本確定ctu的qtbt表示。

11、在qtbt技術中，cu具有方形或矩形形狀。編碼單元的尺寸始終為2的冪，并且通常為從4到256。

12、除了用于編碼單元的各種矩形形狀之外，與hevc相比，這種新的ctu表示具有以下不同的特性。

13、首先，ctu的qtbt分解由兩個階段組成：首先以四叉樹的方式拆分ctu，然后可以以二進制方式進一步劃分每個四叉樹葉子。這在圖4的右側進行了說明，其中實線表示四叉樹分解階段，并且虛線表示空間嵌入在四叉樹葉子中的二元分解。

14、其次，在幀內片段中，亮度和色度塊分區結構是分開的，并且獨立地決策。

15、接下來，不再采用cu分區為預測單元或轉換單元。換句話說，每個編碼單元系統地由單個預測單元(以前是2n×2n預測單元分區類型)和單個轉換單元(不劃分為轉換樹)組成。

16、但是，需要進一步改進的壓縮效率用于qtbt技術。

技術實現思路

1、通過所描述的實施例中的至少一個，解決了現有技術的這些和其他缺陷和缺點，這些實施例針對用于對視頻數據的塊進行編碼的方法和設備。在至少一個實施例中，提出了使用卷積神經網絡來生成用于決策編碼塊的拆分的邊界分區概率的向量。

2、根據本文所述的至少一個一般實施例，提供了一種用于對視頻數據的塊進行編碼的方法。所述方法包括：使用卷積神經網絡從至少一個輸入數據生成用于圖像數據塊的邊界可能性向量，輸入數據包括用于所述圖像數據塊的運動向量場、和基于所述運動向量場的來自運動補償的殘差數據；使用所述邊界可能性向量將所述圖像數據塊分區為一個或多個較小塊；以及，編碼所述一個或多個較小塊。有利地，運動向量場包括用于所述圖像數據塊的每個基本子塊的運動向量，并由此針對所述圖像數據塊的每個基本子塊確定殘差數據。

3、根據本文描述的另一一般實施例，提供了一種用于對視頻數據塊進行編碼的設備。所述設備包括存儲器和處理器，所述處理器被配置為：使用卷積神經網絡從至少一個輸入數據生成用于圖像數據塊的邊界可能性向量，輸入數據包括用于所述圖像數據塊的運動向量場、和基于所述運動向量場的來自運動補償的殘差數據；使用所述邊界可能性向量將所述圖像數據塊分區為一個或多個較小分區；以及，編碼所述一個或多個較小分區。

4、根據本文所述的另一方面，提供了一種非瞬態計算機可讀儲存介質，其包含根據所描述的方法實施例中的任一個的方法或由所描述的設備實施例中的任一個的設備所生成的數據內容，用于使用處理器進行回放。

5、根據本文描述的另一方面，提供了一種信號，包括根據用于編碼視頻數據塊的所描述的方法實施例中的任一個的方法或由用于編碼視頻數據塊的所描述的設備實施例中的任一個的設備生成的視頻數據，用于使用處理器進行回放。

6、根據本文描述的另一方面，提供了一種包括指令的計算機程序產品，當由計算機執行程序時，所述指令促使計算機執行所描述的方法實施例中的任何一個的方法。

7、通過下面將結合附圖閱讀的示例性實施例的以下詳細描述，本原理的這些和其他方面、特征和優點將變得清楚。

本文檔來自技高網...

【技術保護點】

1.一種方法，包括：

2.一種用于對視頻數據塊進行編碼的設備，包括：

3.根據權利要求1所述的方法或根據權利要求2所述的設備，其中所述輸入數據還包括所述塊的圖像數據。

4.根據權利要求1或3所述的方法或根據權利要求2或3所述的設備，其中所述輸入數據還包括針對多個參考圖像中的每一個的多個運動向量場和殘差數據，并且其中使用多個參考圖像中的相應參考圖像來獲得多個運動向量場中的每個運動向量場。

5.根據權利要求1或3所述的方法或根據權利要求2或3所述的設備，其中針對參考圖像來估計運動向量場，并且其中所述參考圖像是用于重構所述編碼塊的解碼畫面緩沖器中的第一參考畫面。

6.根據權利要求3所述的方法或根據權利要求3所述的設備，其中所述輸入數據包括預測數據而不是殘差數據，其中所述殘差數據是從預測數據和原始圖像數據獲得的。

7.根據權利要求1、3-6中任一項所述的方法或根據權利要求2-6中任一項所述的設備，其中所述運動向量場的運動向量通過以下函數歸一化：

8.根據權利要求1、3-6中任一項所述的方法或根據權利要求2

9.根據權利要求1、3-8中任一項所述的方法或根據權利要求2-8中任一項所述的設備，其中基本子塊的尺寸為4×4。

10.根據權利要求1、3-9中的任一項所述的方法或根據權利要求2-9中的任一項所述的設備，其中，所述卷積神經網絡包括卷積層和全連接層。

...

【技術特征摘要】

1.一種方法，包括：

2.一種用于對視頻數據塊進行編碼的設備，包括：

3.根據權利要求1所述的方法或根據權利要求2所述的設備，其中所述輸入數據還包括所述塊的圖像數據。

6.根據權利要求3所述的方法或根據權利...

【專利技術屬性】
技術研發人員：F·加爾平，F·拉卡普，P·博爾德斯，
申請(專利權)人：交互數字VC控股公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術