"/>
【技術實現步驟摘要】
一種基于全局時空特征學習的行為檢測方法與系統
[0001]本專利技術涉及計算機視覺領域,特別是涉及一種基于全局時空特征學習的行為檢測方法與系統
。
技術介紹
[0002]行為識別是計算機視覺和機器學習領域的重要研究方向之一,廣泛應用于視頻監控
、
智能駕駛
、
體育分析等領域
。
然而,傳統的行為識別方法在處理時空序列數據時存在一些挑戰,如信息提取
、
特征表示和時間建模等方面的限制
。
[0003]近年來,深度學習技術在計算機視覺領域取得了顯著的突破
。3D
卷積神經網絡(
CNN
)被廣泛應用于處理時空序列數據,其能夠有效地捕捉時空信息
。
但是
3D
卷積需要足夠大的感受野才能獲得全局信息,這樣會帶來巨大的計算量
。
另一方面,
transformer
模塊是一種基于自注意力機制的圖像分類方法,能夠關注到全局的特征信息
。
然而,如果直接把整個視頻作為
transformer
的輸入,計算量也同樣是巨大的,且無法直接處理視頻這種時空數據
。
技術實現思路
[0004]本專利技術目的在于針對現有技術中的不足,提供了一種基于全局時空特征學習的行為檢測方法與系統
。
對視頻提取時序特征與空間特征,在進行全局處理,實現對視頻中目標行為進行精準快速識別
。 />[0005]本專利技術的目的是通過以下技術方案來實現的:一種基于全局時空特征學習的行為檢測方法,該方法包括以下步驟:(1)時空特征提取:獲取視頻數據并進行預處理,設計一種側邊融合的
3DSF
?
FPN
卷積神經網絡捕捉預處理后的視頻數據序列中的時間與空間信息,基于多尺度特征融合網絡提取多個尺度特征,小尺寸特征信息進行下采樣融合加入大尺寸特征信息,最后所有特征進行上采樣融合后輸出,得到視頻中行為的時空特征信息;(2)多步小卷積:時空特征信息送入帶有小卷積核的多步
2D
卷積中進行嵌入編碼表示處理,提高穩定性及收斂速度,得到時空特征圖;(3)特征全局學習:將時空特征圖展平為一維向量,通過自注意變換模塊對時空特征信息進行視覺表示學習,利用自注意力機制建立全局上下文信息的關聯,以學習全局時空特征;并在步驟(2)的嵌入編碼結果上加入位置編碼信息;(4)行為檢測識別:對學習到的全局時空特征進行維度映射和非線性變換,實現行為分類與檢測識別
。
[0006]進一步地,預處理包括:將視頻序列按照
16
幀步長分解多個連續的圖像幀,然后對每一幀進行尺寸調整和顏色標準化操作
。
[0007]進一步地,對輸入的視頻數據進行裁剪,每若干幀為一個數據樣本,每個數據樣本對應一個視頻行為分類標注
。
[0008]進一步地,每幀視頻數據為
RGB
三通道,長寬均為
208
個像素
。
[0009]進一步地,
2D
卷積由3個3×3大小
、
步長為2的卷積核,和一個1×1大小
、
步長為1的卷積核組成
。
[0010]進一步地,通過自注意變換模塊進行全局特征學習,所述自注意變換模塊包括多個
transformer
編碼器,每個
transformer
編碼器包括自注意力機制和前饋神經網絡,自注意力機制能夠學習全局特征的相關性,捕捉時空序列數據中的長距離依賴關系
。
[0011]進一步地,使用行為分類標注的視頻數據訓練整體模型,并通過隨機梯度下降優化算法迭代地調整模型參數,以提高模型的準確性和泛化能力
。
[0012]進一步地,行為檢測識別具體過程為:在自注意變換模塊的
transformer
編碼器的輸出上添加全連接層,將學習到的全局時空特征進行維度映射和非線性變換,然后利用
softmax
分類器對行為類別進行判定,將時空序列數據映射到具體的行為類別
。
[0013]另一方面,本專利技術還提供了一種基于全局時空特征學習的行為檢測系統,該系統包括:時空特征提取模塊
、
多步小卷積模塊
、
特征全局學習模塊和行為檢測識別模塊;所述時空特征提取模塊用于設計一種側邊融合的
3DSF
?
FPN
卷積神經網絡捕捉預處理后的視頻數據序列中的時間與空間信息,基于多尺度特征融合網絡提取多個尺度特征,小尺寸特征信息進行下采樣融合加入大尺寸特征信息,最后所有特征進行上采樣融合后輸出,得到視頻中行為的時空特征信息;所述多步小卷積模塊用于將時空特征信息送入帶有小卷積核的多步
2D
卷積中進行嵌入編碼表示處理,提高穩定性及收斂速度,得到時空特征圖;所述特征全局學習模塊用于將時空特征圖展平為一維向量,通過自注意變換模塊對時空特征信息進行視覺表示學習,利用自注意力機制建立全局上下文信息的關聯,以學習全局時空特征;并在嵌入編碼結果上加入位置編碼信息;所述行為檢測識別模塊用于對學習到的全局時空特征進行維度映射和非線性變換,實現行為分類與檢測識別
。
[0014]本專利技術的有益效果在于:
1、
融合了
3DSF
?
FPN
卷積神經網絡
、2D
小卷積核和 Transformer
編碼器的優勢,提高了時空序列數據的表示能力和特征提取能力,有效的提高了模型的訓練穩定性和收斂速度,并且建立全局特征的融合信息
。
[0015]2、
通過引入自注意力機制,能夠捕捉全局上下文信息,改善時序信息的建模和運動特征的提取
。
自注意力機制能夠學習到時空序列數據中不同位置的依賴關系,提高了行為識別的準確性
。
[0016]3、
先使用
3DSF
?
FPN
卷積提取視頻中行為的時空特征,再由
transformer
編碼器在
2D
卷積核壓縮的特征上建立全局關系,使得模型參數相對較少,計算資源消耗較低,適用于實時行為識別等應用場景
。
[0017]4、
引入多步帶有小卷積核的
2D
卷積做嵌入編碼表示以后,模型對于學習率和權重的選擇更加穩定,訓練收斂也更快,且支持
SGD
優化器優化,檢測的結果也更加準確
。
[0018]5、
在行為識別任務中具有較高的準確性和魯棒性,能夠處理復雜的行為動作
。
通過綜合利用
3DSF
?
FPN
卷積
、2D
小卷積核和
tran本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.
一種基于全局時空特征學習的行為檢測方法,其特征在于,該方法包括以下步驟:(1)時空特征提取:獲取視頻數據并進行預處理,設計一種側邊融合的
3D
卷積神經網絡
3DSF
?
FPN
捕捉預處理后的視頻數據序列中的時間與空間信息,基于多尺度特征融合網絡提取多個尺度特征,小尺寸特征信息進行下采樣融合加入大尺寸特征信息,最后所有特征進行上采樣融合后輸出,得到視頻中行為的時空特征信息;(2)多步小卷積:時空特征信息送入帶有小卷積核的多步
2D
卷積中進行嵌入編碼表示處理,提高穩定性及收斂速度,得到時空特征圖;(3)特征全局學習:將時空特征圖展平為一維向量,通過自注意變換模塊對時空特征信息進行視覺表示學習,利用自注意力機制建立全局上下文信息的關聯,以學習全局時空特征并在步驟(2)的嵌入編碼結果上加入位置編碼信息;(4)行為檢測識別:對學習到的全局時空特征進行維度映射和非線性變換,實現行為分類與檢測識別
。2.
根據權利要求1所述的基于全局時空特征學習的行為檢測方法,其特征在于,預處理包括:將視頻序列按照
16
幀步長分解多個連續的圖像幀,然后對每一幀進行尺寸調整和顏色標準化操作
。3.
根據權利要求2所述的基于全局時空特征學習的行為檢測方法,其特征在于,對輸入的視頻數據進行裁剪,每若干幀為一個數據樣本,每個數據樣本對應一個視頻行為分類標注
。4.
根據權利要求2所述的基于全局時空特征學習的行為檢測方法,其特征在于,每幀視頻數據為
RGB
三通道,長寬均為
208
個像素
。5.
根據權利要求1所述的基于全局時空特征學習的行為檢測方法,其特征在于,
2D
卷積由3個3×3大小
、
步長為2的卷積核,和一個1×1大小
、
步長為1的卷積核組成
。6.
根據權利要求1所述的基于全局時空特征學習的行為檢測方法,其特征在于,通過自注意變換模塊進行...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。