本發(fā)明專利技術(shù)公開(kāi)了一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法,包括以下步驟:獲得原始視頻多種模態(tài)下的信息,并進(jìn)行預(yù)處理獲取初始RGB圖像序列及初始深度圖像序列,以及獲取骨架特征序列;對(duì)初始RGB圖像序列進(jìn)行背景建模,通過(guò)得到的背景建模結(jié)果來(lái)提取第一人體區(qū)域外接矩形,同時(shí)提取初始深度圖像序列上相應(yīng)位置的第二人體區(qū)域外接矩形;在第一、第二人體區(qū)域外接矩形上分別提取人體動(dòng)作特征,得到RGB模態(tài)和深度模態(tài)下的特征向量;根據(jù)得到的RGB-LBP、D-LBP特征向量序列,以及骨架特征序列,通過(guò)多視角判別模型來(lái)進(jìn)行動(dòng)作識(shí)別。本發(fā)明專利技術(shù)能夠?qū)⒍喾N模態(tài)的序列信息進(jìn)行互補(bǔ)融合,能夠有效提高動(dòng)作識(shí)別準(zhǔn)確率。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法
本專利技術(shù)涉及計(jì)算機(jī)視覺(jué)、人體動(dòng)作識(shí)別領(lǐng)域,尤其涉及一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法。
技術(shù)介紹
人體動(dòng)作識(shí)別在智能視頻監(jiān)控、人機(jī)交互、視頻檢索等領(lǐng)域中具有廣闊的應(yīng)用前景,已逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。現(xiàn)有技術(shù)中的很多研究工作主要是利用普通RGB攝像機(jī)獲得的圖像序列來(lái)進(jìn)行動(dòng)作識(shí)別,并在一些經(jīng)典的數(shù)據(jù)庫(kù)上驗(yàn)證了其有效性。然而,由于光照變化、人體外形的多樣性、遮擋等因素的干擾,人體動(dòng)作識(shí)別仍然是一項(xiàng)具有挑戰(zhàn)性的工作。近年來(lái),將深度圖像序列引入人體動(dòng)作識(shí)別領(lǐng)域成為了一個(gè)新興的熱點(diǎn)問(wèn)題。這主要是由于深度攝像機(jī)的成本大大降低,尤其是微軟推出的3D體感攝影機(jī)Kinect,其成本低廉、所攝取的圖像分辨率高。與彩色圖像相比,深度圖像能直接反映物體表面的三維特征,且不受光照變化、陰影、環(huán)境變化等因素的干擾。此外,深度圖像表示物體在3D空間中的坐標(biāo),可以很好的克服遮擋或重疊問(wèn)題。人體骨架可以用來(lái)有效地表征人體區(qū)域及輪廓信息,它能反映出人體運(yùn)動(dòng)的軌跡,包含很多運(yùn)動(dòng)信息,骨架信息能夠直接反映人體的位置信息,且不會(huì)受到光照、陰影、遮擋等因素的干擾。RGB信息、深度信息、骨架信息、熱傳感信息等分別代表著同一個(gè)場(chǎng)景的不同形式,通過(guò)將這些不同模態(tài)的信息融合進(jìn)行序列建模,可以提升動(dòng)作識(shí)別的準(zhǔn)確率。但是由于不同模態(tài)的信息于不同的流形空間且值域不同,直接將其融合并不能得到最佳效果。所以,如何進(jìn)一步多模態(tài)序列進(jìn)行互補(bǔ)融合,是人體動(dòng)作識(shí)別中亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)提供了一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法,本專利技術(shù)實(shí)現(xiàn)了RGB信息與深度信息的互補(bǔ),顯著地提高了動(dòng)作識(shí)別的準(zhǔn)確率,詳見(jiàn)下文描述:一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法,所述方法包括以下步驟:獲得原始視頻多種模態(tài)下的信息,并進(jìn)行預(yù)處理。包括對(duì)原始視頻的RGB圖像序列和深度圖像序列進(jìn)行預(yù)處理,獲取初始RGB圖像序列及初始深度圖像序列,以及獲取骨架特征序列;對(duì)初始RGB圖像序列進(jìn)行背景建模,通過(guò)得到的背景建模結(jié)果來(lái)提取第一人體區(qū)域外接矩形,同時(shí)提取初始深度圖像序列上相應(yīng)位置的第二人體區(qū)域外接矩形;在第一、第二人體區(qū)域外接矩形上分別提取人體動(dòng)作特征,得到RGB模態(tài)和深度模態(tài)下的特征向量;根據(jù)步驟103中得到的RGB-LBP、D-LBP特征向量序列,以及步驟101中得到的骨架特征序列,通過(guò)多視角判別模型來(lái)進(jìn)行動(dòng)作識(shí)別。。所述根據(jù)RGB-LBP、D-LBP特征向量,以及骨架特征序列,通過(guò)多視角判別模型來(lái)進(jìn)行動(dòng)作識(shí)別的步驟具體為:(1)多視角判別模型的表示:多視角判別模型的條件概率模型可以表示為:其中,X是觀測(cè)序列,Y是序列標(biāo)記,H是隱狀態(tài)變量,θ是權(quán)重向量且θ={θ1,θ2},θ1和θ2表示權(quán)重,T表示轉(zhuǎn)置,φ(Y,X,H)是特征函數(shù),表示由圖模型中節(jié)點(diǎn)位置以及節(jié)點(diǎn)之間的關(guān)聯(lián)而決定的序列特征,Z是歸一化的分配函數(shù),用來(lái)進(jìn)行概率歸一化。(2)多視角判別模型的學(xué)習(xí):目標(biāo)函數(shù)為:其中,Xi表示觀測(cè)樣例,Yi表示觀測(cè)樣例真實(shí)的標(biāo)注,使得上式取得最小值的θ值,即是最優(yōu)參數(shù)θ。(3)多視角判別模型的判斷:在多視角判別模型參數(shù)已經(jīng)確定之后,判斷觀測(cè)序列X的分類最優(yōu)標(biāo)記Y*,確定動(dòng)作類別,本專利技術(shù)提供的技術(shù)方案的有益效果是:本方法根據(jù)得到的RGB-LBP、D-LBP特征向量,以及骨架特征序列,通過(guò)多視角判別模型的學(xué)習(xí)和判斷來(lái)進(jìn)行動(dòng)作識(shí)別。本專利技術(shù)能夠?qū)GB信息、深度信息和骨架信息進(jìn)行互補(bǔ),可以顯著的提高動(dòng)作識(shí)別的準(zhǔn)確率。附圖說(shuō)明圖1為基于多模態(tài)序列融合的動(dòng)作識(shí)別方法的流程圖;圖2為L(zhǎng)BP特征算法示意圖;圖3為多視角判別模型的示意圖;具體實(shí)施方式為使本專利技術(shù)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面對(duì)本專利技術(shù)實(shí)施方式作進(jìn)一步地詳細(xì)描述。為了將多模態(tài)序列進(jìn)行互補(bǔ)融合,提高動(dòng)作識(shí)別的準(zhǔn)確率,本專利技術(shù)實(shí)施例提供了一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法,參見(jiàn)圖1,詳見(jiàn)下文描述:101:獲得原始視頻多種模態(tài)下的信息,并進(jìn)行預(yù)處理。包括對(duì)原始視頻的RGB圖像序列和深度圖像序列進(jìn)行預(yù)處理,獲取初始RGB圖像序列及初始深度圖像序列,以及獲取骨架特征序列;對(duì)于同一動(dòng)作序列,可以用不同模態(tài)進(jìn)行表示,如RGB信息、深度信息、骨架信息、熱傳感信息等模態(tài)。本實(shí)驗(yàn)中選用RGB信息、深度信息和骨架信息三種模態(tài)。具體實(shí)現(xiàn)時(shí),本專利技術(shù)實(shí)施例對(duì)此不做限制。本專利技術(shù)實(shí)施例首先采用參考文獻(xiàn)[1]中的高斯濾波方法,對(duì)原始視頻的RGB圖像序列和深度圖像序列進(jìn)行預(yù)處理。為了減小背景對(duì)目標(biāo)的干擾,再對(duì)深度圖像序列進(jìn)行進(jìn)一步處理,若深度像素值大于閾值T1或小于閾值T2時(shí),認(rèn)為此像素值不是有效值,將其標(biāo)記為0。其中,Dk(x,y)代表第k幀時(shí),深度圖像中像素(x,y)點(diǎn)處的深度值。閾值T1和閾值T2滿足關(guān)系T1>T2,其具體數(shù)值可以根據(jù)實(shí)際情況來(lái)設(shè)定,在本實(shí)驗(yàn)中設(shè)置T1=3500,T2=2000。具體實(shí)現(xiàn)時(shí),本專利技術(shù)實(shí)施例對(duì)此不做限制。至此,得到初始RGB圖像序列及初始深度圖像序列。本專利技術(shù)實(shí)施例采用KinectSDK工具[2]獲取人體20個(gè)骨架點(diǎn)所對(duì)應(yīng)的位置坐標(biāo),將其串聯(lián)得到骨架特征序列,作為骨架信息模態(tài)。具體實(shí)現(xiàn)時(shí),本專利技術(shù)實(shí)例對(duì)獲取骨架特征的方式不做限制。102:對(duì)初始RGB圖像序列進(jìn)行背景建模,通過(guò)得到的背景建模結(jié)果來(lái)提取第一人體區(qū)域外接矩形,同時(shí)提取初始深度圖像序列上相應(yīng)位置的第二人體區(qū)域外接矩形;由于特征檢測(cè)是在每幀圖像上遍歷進(jìn)行的,為此首先從初始RGB圖像序列的每一幀中提取前景區(qū)域。由于本方法研究對(duì)象所處的環(huán)境比較理想,背景幾乎無(wú)變化,因此可以采用最常用的背景差法來(lái)提取前景目標(biāo)。背景差法實(shí)現(xiàn)簡(jiǎn)單、運(yùn)算速度快,適用于攝像機(jī)靜止的場(chǎng)景,并需要得到當(dāng)前場(chǎng)景的靜止背景圖像。具體步驟為:1)獲得當(dāng)前場(chǎng)景中不包含目標(biāo)對(duì)象的靜止背景圖像B;2)將當(dāng)前幀(即第k幀)圖像fk(x,y)與背景圖像B進(jìn)行差值運(yùn)算,得到差分圖像Ck(x,y),Ck(x,y)=|fk(x,y)-B|。3)對(duì)上述差分圖像Ck(x,y)進(jìn)行二值化,得到二值化圖像Rk(x,y),其中閾值T3可以根據(jù)實(shí)際情況來(lái)設(shè)定,在本實(shí)驗(yàn)中設(shè)置T3=30。具體實(shí)現(xiàn)時(shí),本專利技術(shù)實(shí)施例對(duì)此不做限制。4)對(duì)二值化圖像Rk(x,y)進(jìn)行形態(tài)學(xué)濾波方法,并通過(guò)連通性分析,最終檢測(cè)和分割出第一人體區(qū)域外接矩形,同時(shí)提取深度圖像序列上相應(yīng)位置的第二人體區(qū)域外接矩形。其中,提取出的二值化圖像Rk(x,y)可能會(huì)出現(xiàn)空洞、毛刺等現(xiàn)象,采用參考文獻(xiàn)[3]中提出的形態(tài)學(xué)濾波方法,可以消除孤立噪聲點(diǎn)并修復(fù)目標(biāo)區(qū)域的空洞。再經(jīng)過(guò)連通性分析,最終檢測(cè)和分割出人體區(qū)域外接矩形,同時(shí)提取深度圖像序列上相應(yīng)位置的人體區(qū)域外接矩形。103:在第一、第二人體區(qū)域外接矩形上分別提取人體動(dòng)作特征,得到RGB模態(tài)和深度模態(tài)下的特征向量;人體動(dòng)作特征有多種提取和表示方法,常見(jiàn)的有梯度方向直方圖特征(HistogramsofOrientedGradients,HOG)、光流直方圖特征(HistogramofOpticalFlows,HOF)、局部二值模式(LocalBinaryPatterns,LBP)等。不失一般性的,本方法使用參考文獻(xiàn)[4]中提出的LBP特征來(lái)描述人體動(dòng)作視覺(jué)特征。具體提取方法如下:LBP是一種用來(lái)描述本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法,其特征在于,所述方法包括以下步驟:獲得原始視頻多種模態(tài)下的信息,并進(jìn)行預(yù)處理,獲取初始RGB圖像序列、初始深度圖像序列,以及獲取骨架特征序列;對(duì)所述初始RGB圖像序列進(jìn)行背景建模,通過(guò)得到的背景建模結(jié)果來(lái)提取第一人體區(qū)域外接矩形,同時(shí)提取所述初始深度圖像序列上相應(yīng)位置的第二人體區(qū)域外接矩形;在第一、第二人體區(qū)域外接矩形上分別提取人體動(dòng)作特征,得到RGB模態(tài)和深度模態(tài)下的RGB?LBP、D?LBP特征向量序列;根據(jù)所述RGB?LBP、D?LBP特征向量序列,以及所述骨架特征序列,通過(guò)多視角判別模型來(lái)進(jìn)行動(dòng)作識(shí)別。
【技術(shù)特征摘要】
1.一種基于多模態(tài)序列融合的動(dòng)作識(shí)別方法,其特征在于,所述方法包括以下步驟:獲得原始視頻多種模態(tài)下的信息,并進(jìn)行預(yù)處理,獲取初始RGB圖像序列、初始深度圖像序列,以及獲取骨架特征序列;對(duì)所述初始RGB圖像序列進(jìn)行背景建模,通過(guò)得到的背景建模結(jié)果來(lái)提取第一人體區(qū)域外接矩形,同時(shí)提取所述初始深度圖像序列上相應(yīng)位置的第二人體區(qū)域外接矩形;在第一、第二人體區(qū)域外接矩形上分別提取人體動(dòng)作特征,得到RGB模態(tài)和深度模態(tài)下的RGB-LBP、D-LBP特征向量序列;根據(jù)所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通過(guò)多視角判別模型來(lái)進(jìn)行動(dòng)作識(shí)別;其中,所述根據(jù)所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通過(guò)多視角判別模型來(lái)進(jìn)行動(dòng)作識(shí)別的步驟具體為:(1)所述多視角判別模型的表示:多視角判別模型的條件概率模型可以表示為:
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉安安,蘇育挺,馬莉,
申請(qǐng)(專利權(quán))人:天津大學(xué),
類型:發(fā)明
國(guó)別省市:天津;12
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。