本發(fā)明專利技術(shù)公開了基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法、裝置、介質(zhì)及設(shè)備,其中方法包括:獲取圖片集,圖片集包括多幀連續(xù)的圖片,圖片中至少包括1位待識別行人連續(xù)出現(xiàn)在各幀圖片中;基于行人檢測網(wǎng)絡(luò),提取各幀圖片的圖片特征,并根據(jù)提取的圖片特征確定圖片中各待識別行人的行人框;基于Lite
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法、裝置、介質(zhì)及設(shè)備
[0001]本專利技術(shù)涉及基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法、裝置、介質(zhì)及設(shè)備,屬于計算機(jī)視覺、圖像處理與視頻動作識別
技術(shù)介紹
[0002]行為識別是計算機(jī)視覺中的經(jīng)典問題,是機(jī)器理解世界和人類行為的關(guān)鍵技術(shù)。在智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、智慧園區(qū)等方面具有極大的探索價值和重要的應(yīng)用前景。園區(qū)行人異常動作識別是行為識別的重要方向,對推動智慧園區(qū)的發(fā)展和保障公眾的生命安全具有重要意義。
[0003]現(xiàn)有的行人異常動作識別方法主要分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)的方法依賴于手工設(shè)計的特征,缺乏靈活性,在大數(shù)據(jù)時代有很大的局限性。得益于計算機(jī)硬件的飛速發(fā)展,深度學(xué)習(xí)方法在計算機(jī)視覺和圖像處理中大放異彩,彌補(bǔ)了傳統(tǒng)方法的局限。基于深度學(xué)習(xí)的方法一般分為兩類,一種是對整個視頻幀進(jìn)行特征提取,直接進(jìn)行視頻幀分類,因此無法區(qū)分視頻幀中每個人的不同行為,具有一定的局限性。另一種是采用多人檢測的方式,通過多人檢測提取各個行人的骨架點(diǎn),然后進(jìn)行動作分類,這種方法較為靈活,但是受制于復(fù)雜的行人遮擋、重疊等問題,異常動作識別往往精度差,且運(yùn)行效率低,無法達(dá)到實(shí)時性的要求。
技術(shù)實(shí)現(xiàn)思路
[0004]本專利技術(shù)的目的是提供基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法、裝置、介質(zhì)及設(shè)備,通過順次級聯(lián)的行人檢測網(wǎng)絡(luò)、Lite
?
HRNet與ST
?
GCN網(wǎng)絡(luò),確定每位待識別行人的動作。
[0005]為達(dá)到上述目的/為解決上述技術(shù)問題,本專利技術(shù)是采用下述技術(shù)方案實(shí)現(xiàn)的。
[0006]一方面,本專利技術(shù)提供一種基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,包括:
[0007]獲取圖片集,圖片集包括多幀連續(xù)的圖片,圖片中至少包括1位待識別行人連續(xù)出現(xiàn)在各幀圖片中;
[0008]基于行人檢測網(wǎng)絡(luò),提取各幀圖片的圖片特征,并根據(jù)提取的圖片特征確定圖片中各待識別行人的行人框;
[0009]基于Lite
?
HRNet,利用各行人框確定每幀圖片中待識別行人的骨架點(diǎn);
[0010]基于ST
?
GCN網(wǎng)絡(luò),利用每幀圖片中待識別行人的骨架點(diǎn),確定各待識別行人的動作。
[0011]進(jìn)一步的,所述行人檢測網(wǎng)絡(luò)、Lite
?
HRNet與ST
?
GCN網(wǎng)絡(luò)順次級聯(lián);
[0012]進(jìn)一步的,所述行人檢測網(wǎng)絡(luò)包括順次設(shè)置的主干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)以及任務(wù)自適應(yīng)檢測頭網(wǎng)絡(luò);
[0013]進(jìn)一步的,所述主干網(wǎng)絡(luò)為MobileNetV2,MobileNetV2包括3個輸出層M3、M4和M5,其中M3的通道數(shù)為64,M4的通道數(shù)為160,M5的通道數(shù)為320。
[0014]進(jìn)一步的,所述特征金字塔網(wǎng)絡(luò)獲取M3和M4的信號,將M4的信號進(jìn)行一次雙線性
插值調(diào)整圖片的長寬,以及1
×
1卷積調(diào)整圖片的通道數(shù)后與M3的信號疊加,并將疊加后的信號從輸出層P3輸出;
[0015]進(jìn)一步的,所述特征金字塔網(wǎng)絡(luò)獲取M4和M5的信號,將M5的信號進(jìn)行一次雙線性插值調(diào)整圖片的長寬,以及1
×
1卷積調(diào)整圖片的通道數(shù)后與M4的信號疊加,并將疊加后的信號從輸出層P4輸出;
[0016]進(jìn)一步的,所述特征金字塔網(wǎng)絡(luò)獲取M4的信號,將M4的信號進(jìn)行一次3
×
3卷積后,利用Relu激活函數(shù)將處理后的信號從輸出層P5輸出。
[0017]進(jìn)一步的,所述任務(wù)自適應(yīng)檢測頭網(wǎng)絡(luò)包括順次設(shè)置的尺度注意力機(jī)制、空間注意力機(jī)制以及分類回歸卷積層;
[0018]所述尺度注意力機(jī)制獲取特征金字塔網(wǎng)絡(luò)各輸出層的信號,將獲取的各層級信號的長寬維度合并,并按照通道維度拼接,獲得圖片的重組特征;
[0019]所述空間注意力機(jī)制獲取圖片的重組特征,根據(jù)圖片的重組特征,利用可變形卷積捕捉待識別行人的形狀,并聚集各層級的待識別行人的形狀,獲得跨級特征;
[0020]所述分類回歸卷積層為并行分支的多層卷積結(jié)構(gòu):
[0021]其中,分類分支包括順次設(shè)置的4組層結(jié)構(gòu)和一個步長為3
×
3且輸出通道數(shù)為1的卷積層;
[0022]回歸分支包括順次設(shè)置的4組層結(jié)構(gòu)和一個步長為3
×
3且輸出通道數(shù)為4的卷積層;
[0023]各組所述層結(jié)構(gòu)包括一個步長為3
×
3且輸出通道數(shù)為256的卷積層和組歸一化層。
[0024]進(jìn)一步的,所述動作包括跑、跳、打架、摔倒或行走。
[0025]另一方面,本專利技術(shù)提供一種基于級聯(lián)網(wǎng)絡(luò)的行人動作識別裝置,包括:
[0026]獲取模塊,用于獲取圖片集,圖片集包括多幀連續(xù)的圖片,圖片中至少包括1位待識別行人連續(xù)出現(xiàn)在各幀圖片中;
[0027]行人框確定模塊,用于基于行人檢測網(wǎng)絡(luò),提取各幀圖片的圖片特征,并根據(jù)提取的圖片特征確定圖片中各待識別行人的行人框;
[0028]骨架點(diǎn)確定模塊,用于基于Lite
?
HRNet,利用各行人框確定每幀圖片中待識別行人的骨架點(diǎn);
[0029]動作識別模塊,用于基于ST
?
GCN網(wǎng)絡(luò),利用每幀圖片中待識別行人的骨架點(diǎn),確定各待識別行人的動作。
[0030]另一方面,本專利技術(shù)提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時,實(shí)現(xiàn)上述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法。
[0031]另一方面,本專利技術(shù)提供一種設(shè)備,包括:
[0032]存儲器,用于存儲指令;
[0033]處理器,用于執(zhí)行所述指令,使得所述設(shè)備執(zhí)行實(shí)現(xiàn)上述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法的操作。
[0034]與現(xiàn)有技術(shù)相比,本專利技術(shù)所達(dá)到的有益效果:
[0035]本專利技術(shù)通過順次級聯(lián)的行人檢測網(wǎng)絡(luò)、Lite
?
HRNet與ST
?
GCN網(wǎng)絡(luò)為各幀圖片中的每個待識別行人設(shè)置行人框,根據(jù)行人框確定每個對應(yīng)的待識別行人的骨架點(diǎn),并根據(jù)多
幀圖片中中待識別行人的骨架點(diǎn)確定每位待識別行人的動作。
附圖說明
[0036]圖1所示為本專利技術(shù)基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法的一種實(shí)施例的流程圖;
[0037]圖2所示為本專利技術(shù)基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法的一種實(shí)施例的示意圖。
具體實(shí)施方式
[0038]下面通過附圖以及具體實(shí)施例對本專利技術(shù)技術(shù)方案做詳細(xì)地說明,應(yīng)當(dāng)理解本專利技術(shù)實(shí)施例以及實(shí)施例中的具體特征是對本專利技術(shù)技術(shù)方案的詳細(xì)的說明,而不是對本專利技術(shù)技術(shù)方案的限定,在不沖突的情況下,本專利技術(shù)實(shí)施例以及實(shí)施例中的技術(shù)特征可以相互組合。
[0039]術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時存在A和B,單獨(dú)存在B這三種情況。另外,字符"/",一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,其特征在于,包括:獲取圖片集,圖片集包括多幀連續(xù)的圖片,圖片中至少包括1位待識別行人連續(xù)出現(xiàn)在各幀圖片中;基于行人檢測網(wǎng)絡(luò),提取各幀圖片的圖片特征,并根據(jù)提取的圖片特征確定圖片中各待識別行人的行人框;基于Lite
?
HRNet,利用各行人框確定每幀圖片中待識別行人的骨架點(diǎn);基于ST
?
GCN網(wǎng)絡(luò),利用每幀圖片中待識別行人的骨架點(diǎn),確定各待識別行人的動作。2.根據(jù)權(quán)利要求1所述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,其特征在于,所述行人檢測網(wǎng)絡(luò)、Lite
?
HRNet與ST
?
GCN網(wǎng)絡(luò)順次級聯(lián)。3.根據(jù)權(quán)利要求2所述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,其特征在于,所述行人檢測網(wǎng)絡(luò)包括順次設(shè)置的主干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)以及任務(wù)自適應(yīng)檢測頭網(wǎng)絡(luò)。4.根據(jù)權(quán)利要求3所述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,其特征在于,所述主干網(wǎng)絡(luò)為MobileNetV2,MobileNetV2包括3個輸出層M3、M4和M5,其中M3的通道數(shù)為64,M4的通道數(shù)為160,M5的通道數(shù)為320。5.根據(jù)權(quán)利要求4所述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,其特征在于,所述特征金字塔網(wǎng)絡(luò)獲取M3和M4的信號,將M4的信號進(jìn)行一次雙線性插值調(diào)整圖片的長寬,以及1
×
1卷積調(diào)整圖片的通道數(shù)后與M3的信號疊加,并將疊加后的信號從輸出層P3輸出;和/或,所述特征金字塔網(wǎng)絡(luò)獲取M4和M5的信號,將M5的信號進(jìn)行一次雙線性插值調(diào)整圖片的長寬,以及1
×
1卷積調(diào)整圖片的通道數(shù)后與M4的信號疊加,并將疊加后的信號從輸出層P4輸出;和/或,所述特征金字塔網(wǎng)絡(luò)獲取M4的信號,將M4的信號進(jìn)行一次3
×
3卷積后,利用Relu激活函數(shù)將處理后的信號從輸出層P5輸出。6.根據(jù)權(quán)利要求3所述的基于級聯(lián)網(wǎng)絡(luò)的行人動作識別方法,其特征在于,所述任務(wù)自適應(yīng)檢測頭...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:朱川,蔡達(dá),俞軍,
申請(專利權(quán))人:寬泛科技鹽城有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。