System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费A级毛片无码A∨,无码任你躁久久久久久老妇,亚洲国产精品无码久久
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    在視頻壓縮中使用深度學習的幀間編碼制造技術

    技術編號:44478762 閱讀:5 留言:0更新日期:2025-03-04 17:46
    描述了用于使用在圖像和視頻壓縮中使用的端到端神經網絡進行幀間編碼的方法、系統和比特流語法。幀間編碼方法包括以下各項中的一項或多項:對YUV圖片的聯合亮度?色度運動補償;對YUV圖片的聯合亮度?色度殘差編碼;使用注意力層;啟用時間運動預測網絡進行運動矢量預測;使用將運動矢量和殘差信息進行組合的跨域網絡進行運動矢量解碼;使用跨域網絡對殘差進行解碼;使用加權運動補償幀間預測;以及在熵解碼中僅使用時間特征、僅使用空間特征或使用時間特征和空間特征兩者。還描述了用于改進用于幀間編碼的神經網絡的訓練的方法。

    【技術實現步驟摘要】
    【國外來華專利技術】

    本文檔總體上涉及圖像。更特別地,本專利技術的實施例涉及在視頻壓縮中使用深度學習的幀間編碼


    技術介紹

    1、2020年,國際標準化組織(iso)中的mpeg專家組與國際電信聯盟(itu)聯合發布了第一版通用視頻編碼標準(vvc),也稱為h.266。最近,相同的聯合小組(jvet)和靜止圖像壓縮專家(jpeg)已經開始致力于開發下一代編碼標準,所述編碼標準與現有的圖像和視頻編碼技術相比將使編碼性能得到改進。作為這項研究的一部分,還考察了基于人工智能和深度學習的編碼技術。如本文所使用的,術語“深度學習”是指具有至少三層、并且優選地多于三層的神經網絡。

    2、如專利技術人在此所理解的,本文描述了用于基于神經網絡對圖像和視頻進行編碼的改進技術。

    3、在本節中描述的方法是可以采用的方法,但不一定是先前已經設想到或采用過的方法。因此除非另有指示,否則不應該認為本節中描述的任何方法僅憑其納入本節就可被視為現有技術。類似地,除非另有指示,否則關于一種或多種方法所認定的問題不應該基于本節而認為在任何現有技術中已被認識到。


    技術實現思路

    1、本文描述的示例實施例涉及使用神經網絡進行圖像和視頻編碼。在實施例中,處理器接收編碼視頻序列以及指示啟用幀間編碼適配以用于對當前圖片進行解碼的高級語法,所述處理器:

    2、解析所述高級語法以提取幀間編碼適配參數;以及

    3、基于所述幀間編碼適配參數對所述當前圖片進行解碼以生成輸出圖片,其中,所述幀間編碼適配參數包括以下各項中的一項或多項:

    4、聯合亮度-色度運動補償啟用標志,其指示當輸入圖片在yuv顏色域中時在解碼中使用聯合亮度-色度運動補償網絡;

    5、聯合亮度-色度殘差編碼啟用標志,其指示當所述輸入圖片在所述yuv顏色域中時在解碼中使用聯合亮度-色度殘差網絡;

    6、注意力層啟用標志,其指示在解碼中使用注意力網絡層;

    7、時間運動預測啟用標志,其指示在解碼中使用時間運動預測網絡進行運動矢量預測;

    8、跨域運動矢量啟用標志,其指示在解碼中使用將運動矢量和殘差信息進行組合的跨域網絡對運動矢量進行解碼;

    9、跨域殘差啟用標志,其指示在解碼中使用將運動矢量和殘差信息進行組合的跨域網絡對殘差進行解碼;以及

    10、時間-空間-熵標志,其指示熵解碼是僅使用空間特征、僅使用時間特征還是使用空間特征和時間特征的組合。

    11、在第二實施例中,在包括用于訓練神經網絡以進行幀間編碼的處理器的系統中,所述處理器可以采用以下各項中的一項或多項:

    12、大運動訓練,其中,對于總共具有n個圖片的訓練序列,使用從1到n-1的隨機p幀跳轉進行大運動訓練;

    13、時間距離調制損失,其中,計算率-失真損失為

    14、損失=w*λ*mse+速率,

    15、其中,速率表示所達到的比特率,并且mse測量原始圖片與對應的重構圖片之間的失真,權重參數“w”基于時間幀間距被初始化為:

    16、

    17、其中,索引i表示在ν次訓練迭代中的迭代計數。

    18、在第三實施例中,呈現了一種用于利用一個或多個神經網絡來處理未壓縮視頻幀的方法,所述方法包括:

    19、基于包括未壓縮輸入視頻幀(xt)的未壓縮輸入視頻幀序列來生成所述未壓縮輸入視頻幀的運動矢量和空間圖信息(α);

    20、至少基于運動補償網絡和用于生成所述運動矢量信息的參考幀來生成運動補償幀

    21、將所述空間圖信息應用于所述運動補償幀以生成加權運動補償幀;

    22、通過從所述未壓縮輸入視頻幀減去所述加權運動補償幀來生成殘差幀;

    23、基于殘差編碼器分析和解碼器合成網絡來生成重構殘差幀其中,所述殘差編碼器分析網絡基于所述殘差幀的量化來生成編碼幀;以及

    24、通過將所述加權運動補償幀與所述重構殘差幀相加來生成所述編碼幀的經解碼近似。

    25、使用深度學習的示例編碼模型

    26、基于深度學習的圖像和視頻壓縮方法越來越受歡迎,并且這也是一個活躍的研究領域。圖1描繪了基于深度學習的基本框架的示例(參考文獻[1])。該示例包含在傳統編解碼器(比如高級視頻編碼(avc)、高效視頻編碼(hevc)、通用視頻編碼(vvc)等)中發現的若干基本部件(例如,運動補償、運動估計、殘差編碼等)。主要區別在于,所有這些部件都使用基于神經網絡(nn)的方法,比如運動矢量(mv)解碼器網絡(net)、運動補償(mc)網、殘差解碼器網等。框架還包括若干僅編碼器的部件,比如光流網、mv編碼器網、殘差編碼器網、量化等。這種框架通常被稱為端到端深度學習視頻編碼(deep-learning?video?coding,dlvc)框架。

    27、注意,與傳統的編碼器架構不同,該端到端深度學習(dl)網絡不具有逆量化塊(逆q)。這種端到端網絡不需要逆q。這是因為在編碼器大小上對潛點(latent)進行了簡單的基于半舍入的量化,這在解碼器側不需要任何逆q。針對不同的λ(不同的qp)(例如,損失=λ*mse+速率)對網絡進行訓練,以便針對每一λ生成一個模型。

    28、與傳統的編碼方案相比,最先進的dlvc方法可以實現相似的圖像編碼性能,但與vvc相比時在幀間編碼方面仍然存在很大差距。本文所描述的實施例將集中于改進用于幀間(或幀間)編碼的神經網絡的訓練、編碼效率和編碼復雜度。

    29、yuv?4:2:0編碼

    30、在典型的dlvc實施方式中,圖1的框架對rgb域中的圖像進行操作。給定色度分量之間的相關性,在4:2:0域(簡單且不作限定地表示為yuv420)中的亮度-色度空間(比如yuv、ycbcr等)中進行操作可能更有效,其中,4:2:0表示與亮度相比,色度分量在水平分辨率和垂直分辨率兩者中進行因子為2的二次采樣。

    31、為了在yuv420域中操作,提出了幾個修改以便能夠更高效地進行yuv420編碼。由于亮度運動和色度運動高度相關,因此在實施例中,亮度和色度的運動估計和運動編碼分別使用經修改的yuv光流網絡和mv編碼器網-mv解碼器網聯合完成。然而,yuv420的亮度分量和色度分量的運動補償和殘差編碼可以以如下多種方式來處理:

    32、·使用單獨的亮度和色度運動補償(mc)網絡或使用聯合的亮度-色度mc網絡;

    33、·使用單獨的亮度和色度殘差編碼網絡或使用聯合的亮度-色度殘差編碼網絡用于yuv420編碼的單獨和聯合運動補償(mc)網絡

    34、為rgb圖像設計的mc網絡假設所有圖像通道具有相同的維度。對于yuv420幀間幀,可以設計單獨的mc網絡以適應y通道和uv通道的尺寸,如圖2a所示。但這又增加了復雜度,還具有以下風險:存在于y通道和uv通道中的聯合信息未被有效利用,并且對通道的運動補償可能略有不同,從而導致重構圖像中出現偽影。在圖2a的單獨mc網絡中的亮度mc網的輸入是當前本文檔來自技高網...

    【技術保護點】

    1.一種用于利用一個或多個神經網絡來處理已編碼視頻序列的方法,所述方法包括:

    2.如權利要求1所述的方法,其中,當啟用聯合亮度-色度運動補償時,

    3.如權利要求1所述的方法,其中,當使用注意力網絡層時,在對P圖片或B圖片進行解碼時將注意力塊層插入兩個解卷積層之間,每個解卷積層包括一個具有上采樣的解卷積層、然后是一個非線性激活塊。

    4.如權利要求3所述的方法,其中,在兩個連續的解卷積層之后插入一個注意力塊層,在其之間沒有注意力塊,或者在每個解卷積層之后插入一個注意力塊層。

    5.如權利要求1所述的方法,其中,當使用時間運動預測網絡進行運動矢量預測時,流預測神經網絡包括:

    6.如權利要求5所述的方法,其中,對于P圖片,在所述解碼器中生成所述當前圖片的輸出運動包括:

    7.如權利要求5所述的方法,其中,對于B圖片,在所述解碼器中生成所述當前圖片的輸出運動包括:

    8.如權利要求6所述的方法,其中,所述流預測網絡的輸入之前是扭曲網絡,所述扭曲網絡包括:

    9.如權利要求1所述的方法,其中,當使用跨域網絡對運動矢量進行解碼時,解碼包括:

    10.如權利要求1所述的方法,其中,當使用跨域網絡對殘差進行解碼時,解碼包括:

    11.如權利要求1所述的方法,其中當熵解碼使用時空特征時,熵解碼包括:

    12.一種用于改進幀間編碼中采用的神經網絡的訓練的方法,所述方法包括以下各項中的一項或多項:

    13.如權利要求12所述的方法,其中,計算調制熵損失包括:

    14.一種用于利用一個或多個神經網絡來處理未壓縮視頻幀的方法,所述方法包括:

    15.如權利要求14所述的方法,其中,所述空間圖信息包括[0,1]中的權重,其中,0指示對僅幀內編碼的偏好,1指示對僅幀間編碼的偏好,并且0到1之間的權重表示混合式幀內幀間編碼。

    16.一種非暫態計算機可讀存儲介質,具有存儲于其上的計算機可執行指令,所述指令用于利用一個或多個處理器來執行根據權利要求1至15中任一項所述的方法。

    17.一種裝置,包括處理器并且被配置為執行如權利要求1至15所述的方法中的任一種方法。

    ...

    【技術特征摘要】
    【國外來華專利技術】

    1.一種用于利用一個或多個神經網絡來處理已編碼視頻序列的方法,所述方法包括:

    2.如權利要求1所述的方法,其中,當啟用聯合亮度-色度運動補償時,

    3.如權利要求1所述的方法,其中,當使用注意力網絡層時,在對p圖片或b圖片進行解碼時將注意力塊層插入兩個解卷積層之間,每個解卷積層包括一個具有上采樣的解卷積層、然后是一個非線性激活塊。

    4.如權利要求3所述的方法,其中,在兩個連續的解卷積層之后插入一個注意力塊層,在其之間沒有注意力塊,或者在每個解卷積層之后插入一個注意力塊層。

    5.如權利要求1所述的方法,其中,當使用時間運動預測網絡進行運動矢量預測時,流預測神經網絡包括:

    6.如權利要求5所述的方法,其中,對于p圖片,在所述解碼器中生成所述當前圖片的輸出運動包括:

    7.如權利要求5所述的方法,其中,對于b圖片,在所述解碼器中生成所述當前圖片的輸出運動包括:

    8.如權利要求6所述的方法,其中,所述流預測網絡的輸入之前是扭曲網絡,所述扭曲網絡包括:

    9.如權利要求1...

    【專利技術屬性】
    技術研發人員:J·N·辛加拉A·莫哈南切蒂亞爾P·夏爾馬A·阿羅拉邵曈尹鵬
    申請(專利權)人:杜比實驗室特許公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩免费a级毛片无码a∨| 尤物永久免费AV无码网站| 在线精品自拍无码| 一本一道av中文字幕无码| 最新无码专区视频在线| 日韩精品无码免费专区午夜| 中文字幕无码播放免费| 国精无码欧精品亚洲一区| 久久人妻无码一区二区| 免费看又黄又无码的网站| 综合国产在线观看无码| 精品久久久久久中文字幕无码 | 日韩人妻精品无码一区二区三区| 国产乱妇无码大片在线观看| 亚洲国产精品无码成人片久久| 无码综合天天久久综合网| 2021无码最新国产在线观看| 亚洲va无码手机在线电影| 中文字幕无码免费久久9一区9| 无码人妻精品一区二区三区蜜桃 | 国产精品第一区揄拍无码| 亚洲乱亚洲乱妇无码| 亚洲国产精品无码久久久蜜芽| 久久精品无码专区免费| 五月丁香六月综合缴清无码| 精品久久久久久无码人妻中文字幕 | 精品人体无码一区二区三区| 丰满少妇被猛烈进入无码| 日韩精品成人无码专区免费| 亚洲AV无码专区国产乱码不卡 | 中文字幕无码亚洲欧洲日韩| 无码内射中文字幕岛国片| 无码一区二区三区老色鬼| 久久久久亚洲AV无码专区体验| 国产AV无码专区亚洲AV毛网站| 国产成人午夜无码电影在线观看| 国产激情无码一区二区| 久久无码中文字幕东京热| 中文字幕乱偷无码av先锋蜜桃| 亚洲AV无码专区亚洲AV桃| 亚洲Av无码乱码在线播放|