System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,屬于深度學(xué)習(xí)和視頻編碼。
技術(shù)介紹
1、視頻壓縮是人們長期研究的一項(xiàng)基礎(chǔ)性工作。現(xiàn)如今,隨著互聯(lián)網(wǎng)的發(fā)展,視頻內(nèi)容已成為互聯(lián)網(wǎng)流量的最重要的組成部分。在過去,視頻壓縮通常是通過傳統(tǒng)的編解碼器實(shí)現(xiàn)的,例如h.264、h.265。盡管這些技術(shù)由于實(shí)現(xiàn)了可接受的折衷而被廣泛使用,但這些編碼方法中的手工算法限制了編碼效率。近年來,隨著深度學(xué)習(xí)的快速發(fā)展,許多方法使用神經(jīng)網(wǎng)絡(luò)替換傳統(tǒng)編解碼器中的某些模塊取得了較為先進(jìn)的率失真性能。然而,這些方法由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,計(jì)算量巨大,導(dǎo)致解碼效率較低,此外,這些方法還存在域泛化問題,適用性較差,因此沒有得到大規(guī)模實(shí)際應(yīng)用,因此積極探索新的編碼方法很有必要。
2、隱式神經(jīng)表示是一種新穎的方法,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)一個(gè)連續(xù)的函數(shù)實(shí)現(xiàn)對輸入坐標(biāo)到相應(yīng)值的映射。由于其高效性和緊湊性,已被用于表示和壓縮視頻內(nèi)容,與先前基于學(xué)習(xí)的方法相比取得了較高的解碼速度。在這種范式下,不是訓(xùn)練一個(gè)通過編解碼網(wǎng)絡(luò)來實(shí)現(xiàn)對視頻幀的編解碼,而是為每一個(gè)視頻訓(xùn)練一個(gè)單獨(dú)的網(wǎng)絡(luò),訓(xùn)練完成后視頻內(nèi)容就被保存到網(wǎng)絡(luò)權(quán)重中。視頻的編碼過程是訓(xùn)練網(wǎng)絡(luò)過擬合的過程,解碼過程是神經(jīng)網(wǎng)絡(luò)的前向過程,因此,當(dāng)訓(xùn)練完成后就可以使用神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)進(jìn)行壓縮以得到視頻的比特流。
3、dupont等人提出了圖像隱式神經(jīng)表示coin(dupont?e,?goliński?a,?alizadehm,?et?al.?coin:?compression?with?implicit?
4、由于神經(jīng)網(wǎng)絡(luò)的頻譜偏差性質(zhì)會(huì)導(dǎo)致網(wǎng)絡(luò)對于高頻信息的重建能力不足,此外過去方法大多使用空間域損失,忽略了頻率對改善圖像質(zhì)量的重要性。這就導(dǎo)致現(xiàn)有方案重建的視頻幀過度平滑,缺乏高頻細(xì)節(jié),對于人類感知不友好。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的缺陷,提供一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,改善現(xiàn)有基于隱式神經(jīng)表示視頻壓縮方法重建高頻信息能力不足的問題。
2、優(yōu)先地,本專利技術(shù)提供一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,包括:
3、s1,對需要進(jìn)行編碼的視頻進(jìn)行預(yù)處理操作,獲得預(yù)處理后的包括視頻幀的數(shù)據(jù)集;
4、s2,構(gòu)建基于高頻特征增強(qiáng)的神經(jīng)表示網(wǎng)絡(luò),神經(jīng)表示網(wǎng)絡(luò)包括內(nèi)容編碼器、小波高頻編碼器和頻率感知解碼器;其中,頻率感知解碼器包括用于特征尺寸上采樣的諧波塊和用于特征調(diào)制融合的高頻特征調(diào)制層;
5、s3,將數(shù)據(jù)集輸入構(gòu)建的基于高頻特征增強(qiáng)的神經(jīng)表示網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用內(nèi)容編碼器對視頻幀進(jìn)行下采樣,得到內(nèi)容特征嵌入;利用小波高頻編碼器中的小波頻率分解塊對視頻幀的高頻信息進(jìn)行提取,得到高頻特征嵌入;
6、s4,將內(nèi)容特征嵌入和高頻特征嵌入輸入頻率感知解碼器,利用頻率感知解碼器中的高頻特征調(diào)制層進(jìn)行特征融合,然后經(jīng)過頻率感知解碼器中的諧波塊進(jìn)行空間尺寸上采樣,得到重建的視頻幀;
7、s5,計(jì)算重建的視頻幀與原始視頻幀之間的重建損失,通過adan優(yōu)化器對神經(jīng)表示網(wǎng)絡(luò)進(jìn)行端到端優(yōu)化,重復(fù)上述步驟s3-s5直至滿足預(yù)設(shè)訓(xùn)練輪次;
8、s6,停止優(yōu)化神經(jīng)表示網(wǎng)絡(luò),保存訓(xùn)練好的神經(jīng)表示網(wǎng)絡(luò)的權(quán)重和特征嵌入;
9、s7,對神經(jīng)表示網(wǎng)絡(luò)進(jìn)行剪枝、量化、熵編碼操作后壓縮為視頻比特流。
10、s8,解碼時(shí),加載保存的神經(jīng)表示網(wǎng)絡(luò)的權(quán)重,將特征嵌入輸入到解碼器中進(jìn)行前向計(jì)算,得到重建的視頻幀。
11、優(yōu)先地,對視頻幀進(jìn)行編碼和解碼時(shí),額外提取和利用當(dāng)前的視頻幀的高頻特征對編碼過程進(jìn)行增強(qiáng)。
12、優(yōu)先地,內(nèi)容編碼器包括依次連接的第一內(nèi)容編碼階段、第二內(nèi)容編碼階段、第三內(nèi)容編碼階段、第四內(nèi)容編碼階段和第五內(nèi)容編碼階段,其中第一內(nèi)容編碼階段包括依次連接的第一跨步卷積層、第一層歸一化層、第一convnext塊;
13、第二內(nèi)容編碼階段包括依次連接的第二跨步卷積層和第二convnext塊;
14、第三內(nèi)容編碼階段包括依次連接的第三跨步卷積層和第三convnext塊;
15、第四內(nèi)容編碼階段包括依次連接的第四跨步卷積層和第四convnext塊;
16、第五內(nèi)容編碼階段包括依次連接的第五跨步卷積層和第五convnext塊;
17、其中每個(gè)convnext塊包括依次連接的深度可分離卷積層、層歸一化層、第一全連接層、gelu激活層和第二全連接層構(gòu)成。
18、優(yōu)先地,構(gòu)建的基于高頻特征增強(qiáng)的神經(jīng)表示網(wǎng)絡(luò)包括小波高頻編碼器、內(nèi)容編碼器和解碼器;
19、其中,小波高頻編碼器包括依次連接的第一高頻編碼階段、第二高頻編碼階段、第三高頻編碼階段、第四高頻編碼階段和第五高頻編碼階段,其中第一高頻編碼階段包括第六跨步卷積層本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
3.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
5.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
6.根據(jù)權(quán)利要求6所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
7.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
【技術(shù)特征摘要】
1.一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
3.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
5.根據(jù)權(quán)利要求1所述的一種基于高頻特征增強(qiáng)的神經(jīng)表示視頻編碼方法,其特征在于,
6.根據(jù)權(quán)利要求6所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李智慧,于莉,
申請(專利權(quán))人:南京信息工程大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。