System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及動作識別,尤其涉及一種基于上下文信息的連續(xù)視頻人體行為定位方法。
技術(shù)介紹
1、近年來,在“新一代人工智能發(fā)展規(guī)劃”的號召下,智能視頻分析技術(shù)蓬勃發(fā)展。其中,人體行為識別是視頻分析重要的研究內(nèi)容之一,也是人工智能時代極具應(yīng)用前景的技術(shù)之一,并在人機(jī)交互、虛擬現(xiàn)實、視頻檢索、視頻監(jiān)控和運動分析等場景得到了初步應(yīng)用。
2、然而,現(xiàn)有技術(shù)中人體行為連續(xù)視頻分析技術(shù)識別精度低下。主要源于以下幾點:連續(xù)視頻的時序信息處理困難,因視頻序列未經(jīng)修剪,包含多個行為類別及大量背景信息,增加了捕捉行為動作時序信息及關(guān)聯(lián)性的難度;動作邊界模糊,行為定位需精確檢測動作區(qū)間,但生活中動作邊界主觀性強(qiáng),如吃飯與喝水動作區(qū)分度小,導(dǎo)致識別精度下降;行為動作跨度大,不同動作持續(xù)時長與視頻時長比例變化大,難以生成高質(zhì)量候選框,進(jìn)一步影響識別精度。
3、本專利技術(shù)提供了一種基于上下文信息的連續(xù)視頻人體行為定位方法,解決了現(xiàn)有技術(shù)中不能準(zhǔn)確定位人體行為動作邊界的技術(shù)問題,達(dá)到了提高候選框質(zhì)量的技術(shù)效果。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)提供一種基于上下文信息的連續(xù)視頻人體行為定位方法,用以解決現(xiàn)有技術(shù)中現(xiàn)有技術(shù)中人體行為連續(xù)視頻分析技術(shù)識別精度低下的缺陷。
2、一方面,本專利技術(shù)提供一種基于上下文信息的連續(xù)視頻人體行為定位方法,包括:
3、將候選動作劃分為動作開始、動作執(zhí)行和動作結(jié)束,所述動作開始對應(yīng)候選框上文信息、所述動作執(zhí)行對應(yīng)候選框信息,所述動作結(jié)束對應(yīng)候
4、基于卷積網(wǎng)絡(luò)模型,以及所述候選框上文信息、所述候選框信息以及所述候選框下文信息提取與之相對應(yīng)的特征,并生成連續(xù)視頻的幀級特征;
5、基于所述連續(xù)視頻的幀級特征,以候選框的開始點和結(jié)束點為中心點分別定義開始框和結(jié)束框,將所述候選框作為節(jié)點,并通過注意力機(jī)制網(wǎng)絡(luò)對所述節(jié)點鄰域進(jìn)行聚合以得到聚合信息,根據(jù)所述聚合信息生成候選框上下文信息圖譜;
6、基于所述候選框上下文信息圖譜重復(fù)生成行為定位候選框,直至所述行為定位候選框停止不變,并生成行為定位網(wǎng)絡(luò)模型;
7、基于所述行為定位網(wǎng)絡(luò)模型對待分割視頻進(jìn)行分割處理。
8、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述卷積網(wǎng)絡(luò)模型為3d全卷積為基礎(chǔ)的unet網(wǎng)絡(luò),所述卷積網(wǎng)絡(luò)模型由對稱的編碼器和解碼器組成,通過3d卷積神經(jīng)網(wǎng)絡(luò)彼此連接。
9、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述編碼器用于提取特征信息并進(jìn)行壓縮,所述解碼器用于對壓縮后的所述特征信息進(jìn)行逐步采樣和恢復(fù)。
10、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述編碼器還用于基于3d全卷積進(jìn)行下采樣,并通過若干個卷積層和池化層降低所述特征信息的空間維度,并生成特征圖。
11、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述編碼器還用于通過若干個所述卷積層對輸入特征圖進(jìn)行處理,且每進(jìn)行一次卷積操作后,通過relu激活函數(shù)增加網(wǎng)絡(luò)的非線性能力;
12、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述編碼器還用于對輸入特征圖進(jìn)行處理后,基于最大池化操作降低特征圖的空間尺寸。
13、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述3d全卷積基于i3d模型執(zhí)行,所述i3d模型由若干個3維卷積層、若干個inc模塊、若干個3維最大池化層以及若干個3維平均池化層組成;其中,若干個所述3維卷積層中,除最后1個卷積層外,其他卷積層后均使用一個relu激活函數(shù)。
14、根據(jù)本專利技術(shù)提供的一種基于上下文信息的連續(xù)視頻人體行為定位方法,所述注意力機(jī)制網(wǎng)絡(luò)為mamba模型。
15、本專利技術(shù)提供的基于上下文信息的連續(xù)視頻人體行為定位方法,通過構(gòu)建候選框邊界圖譜網(wǎng)絡(luò)捕獲每個候選框的上下文信息,利用候選框的上下文局部細(xì)節(jié)信息進(jìn)一步細(xì)化候選動作的邊界,提高候選框的質(zhì)量;利用mamba模型優(yōu)化候選框相鄰節(jié)點的信息,實現(xiàn)候選框上下文信息的自適應(yīng)聚合,細(xì)化候選框的邊界,彌補傳統(tǒng)方法由動作邊界主觀性引起邊界模糊的缺陷,進(jìn)一步提高候選框的質(zhì)量,解決了現(xiàn)有技術(shù)中人體行為連續(xù)視頻分析技術(shù)識別精度低下的技術(shù)問題,達(dá)到了提高候選框質(zhì)量的有益效果。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點】
1.一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
4.根據(jù)權(quán)利要求3所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
5.根據(jù)權(quán)利要求2所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
6.根據(jù)權(quán)利要求2所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
【技術(shù)特征摘要】
1.一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的一種基于上下文信息的連續(xù)視頻人體行為定位方法,其特征在于,
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李傳坤,李劍,崔敏,劉翔,楊智奇,馬官生,
申請(專利權(quán))人:中北大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。