一種基于TSN模型的群體-個體多人視頻行為識別方法技術

技術編號：43036500 閱讀：15 留言：0更新日期：2024-10-18 17:39

本發明專利技術提出了一種基于TSN模型的群體?個體多人視頻行為識別方法，包括：采用TSN稀疏采樣的策略對公共數據集中的視頻數據進行分割；采用預設注意機制網絡，分別學習分割后的視頻數據的視頻級特征和圖像幀特征；將所述視頻級特征和圖像幀特征進行融合，獲取時空特征；利用CNN模型提取所述視頻數據中的全局運動特征；將全局運動特征與時空特征進行融合，獲取個體?群體行為所屬類別。本發明專利技術提高了視頻行為識別的性能，為視頻監控、智能分析等領域帶來了更精準和可靠的應用前景。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于計算機視覺，尤其涉及一種基于tsn模型的群體-個體多人視頻行為識別方法。

技術介紹

1、行為識別是計算機視覺領域的研究熱點，在實際場景中，個體的行為或動作通常相互影響，且在群體層面共同構成了群體活動。群體行為識別研究在這類場景下準確識別群體行為(group?activities)及個體動作(individual?actions)。在視頻監控分析、體育視頻分析和社交行為理解等領域具有許多實際應用。

2、在人類行為識別中，視頻被分為空間和時間信息，simonyan等人在《two-streamconvolutional?networks?for?action?recognition?in?videos》提出雙流cnn網絡，其由兩條分支組成，分別處理空間的rgb圖像幀信息和時間維度的若干個圖像幀之間的光流場信息；wang等人在《temporal?segment?networks:towards?good?practices?for?deepaction?recognition》中提出在雙流網絡的基礎上加入分段和稀疏化采樣的思想，提出具有四種輸入模態的時域段網絡；但在二維卷積神經網絡中，2d特征圖僅僅處理視頻當中的空間信息，丟失了動作之間的關聯性，而捕獲視頻的時間特征尤為重要，zhao等人在《two-stream?rnn/cnn?for?action?recognition?in?3d?videos》中提出結合rnn和cnn的優勢，提出基于門控循環單元的雙流神經網絡，空間分支采用3d?cnn網絡，時間分支采用rn

3、根據查閱，目前已有專利技術的方法有：①李巖山等人專利技術了一種視頻行為識別方法：利用深度全卷積網絡對目標對象的roi進行初檢測再利用馬爾科夫隨機場進行roi的微調，獲得最終目標對象的roi集合，最后基于最終目標對象的roi集合分別同時進行單人行為識別和群體行為識別；②李玲等人在《一種基于級聯transformer的視頻群體行為識別方法》提出使用基于級聯transformer的方法進行行為識別，將視頻經過三維骨干網絡提取三維時空特征，選取關鍵幀圖像空間特征圖；對關鍵幀圖像空間特征圖進行預處理后送入人體目標檢測transformer，輸出關鍵幀圖像中的人體目標框；然后映射篩選后人體目標框在關鍵幀圖像特征圖上所對應的子特征圖，結合關鍵幀圖像周圍幀特征圖計算query/key/value，輸入群體行為識別transfomer，輸出群體級別時空編碼特征圖，最后，經過多層感知機對群體行為進行分類；③李楠楠等人在《一種基于關系圖分析的群體行為識別方法》中首先使用目標檢測網絡檢測人體目標，通過卷積網絡提取單幀人體目標特征，再根據單個個體之間外貌和位置關系構建圖模型，利用圖卷積神經網絡提取單幀群體行為表示特征，最后對多幀群體行為特征進行融合得到視頻群體行為表征特征。但缺點在于圖卷積網絡提取單幀群體空間特征時，未對群體中具有判別性的個體特征進行突出，且在視頻時間特征維度僅進行簡單的加權融合，無法較好的提取視頻時序特征。

4、現有基于深度學習的視頻行為識別方法，在深度學習過程中存在信息量稀缺、信息重復度高以及類間相似性大等不足，從而導致動作類表達能力弱和行為識別中錯誤分類，針對目前基于雙流網絡的群體行為識別無法充分提取視頻級特征問題，亟需提出一種基于tsn模型為基本架構的群體-個體多人視頻行為識別模型。

技術實現思路

1、本專利技術的目的在于提出一種基于tsn模型的群體一個體多人視頻行為識別方法，進一步提升了識別效果。

2、為實現上述目的，本專利技術提供了一種基于tsn模型的群體一個體多人視頻行為識別方法，包括：

3、采用tsn稀疏采樣的策略對公共行為識別視頻數據集中的視頻數據進行分割；

4、采用預設注意機制網絡，分別學習分割后的視頻數據的視頻級特征和圖像幀特征；

5、將所述視頻級特征和圖像幀特征進行融合，獲取時空特征；

6、利用cnn模型提取所述視頻數據中的全局運動特征；

7、將全局運動特征與時空特征進行融合，獲取個體-群體行為所屬類別。

8、可選地，采用tsn稀疏采樣的策略對公共數據集中的視頻數據進行分割包括：

9、在對視頻進行分割后，隨機抽取一些幀，然后綜合各個采樣段的信息，獲取整個視頻的預測結果；

10、所述整個視頻的預測結果為：

11、tsn(t1，t2，...，tk)＝h(g(f(t1，w)，f(t2，w)，...，f(tk，w)))

12、其中，(t1，t2，...，tk)為一個片段序列集，tk為片段序列集中隨機選擇的片段序列，f(tk，w)為一個參數為w的卷積網絡，h為一個得到整個視頻的各種行為的預測概率的softmax函數，g為綜合各段預測分數的函數；

13、函數g的交叉熵損失定義為：

14、

15、其中，c為行為分類的個數，yi是實際的類別標簽，l(y，g)為函數g的交叉熵損失，i和j均為索引變量，gi為某個行為類別的預測分數，gj為片段tk的預測分數。

16、可選地，所述預設注意機制網絡包括：空間卷積網絡和時間卷積網絡；

17、所述空間卷積網絡，通過輸入在分割后的視頻數據的每一段中隨機選取的紅外圖像和相應的光流圖像，學習視頻圖像的靜態內容信息，提取所述視頻級特征；

18、所述時間卷積網絡，通過輸入所述視頻級特征，提取所述圖像幀特征。

19、可選地，所述空間卷積網絡包括：兩個bn-incision子網絡；

20、第一個bn-incision子網絡的輸入為分割視頻中的紅外圖像是紅外圖像，通過多層卷積核和池化操作，從紅外圖像中提取出與行為識別相關的靜態內容信息，即圖像幀特征；

21、第二個bn-incision子網絡的輸入為與紅外圖像對應的光流圖像，通過多層卷積核和池化操作，從光流圖像中提取出與行為識別相關的運動信息，即視頻級特征；

22、在兩個子網絡分別提取出紅外圖像和光流圖像的特征信息后，將提取的特征信息在網絡的預設節點處進行融合，獲取所述視頻級特征；其中，預設節點處進行融合是在bn-inception子網絡處理完各自輸入之后，在它們的輸出節點處進行的。

23、可選地，所述視頻級特征為：

24、

25、其中，分別表示紅外圖像網絡流和光流圖像網絡流第l層的輸入，分別表示各自網絡流的學習權參數，表示融合紅外圖像內容特征和光流圖像運動特征得到紅外圖像網絡流本文檔來自技高網...

【技術保護點】

1.一種基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，包括：

2.根據權利要求1所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，采用TSN稀疏采樣的策略對公共數據集中的視頻數據進行分割包括：

3.根據權利要求1所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，所述預設注意機制網絡包括：空間卷積網絡和時間卷積網絡；

4.根據權利要求3所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，所述空間卷積網絡包括：兩個BN-Incision子網絡；

5.根據權利要求4所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，所述視頻級特征為：

6.根據權利要求4所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，所述時間卷積網絡包括：小尺度LSTM子網絡、時間權值生成層和時間特征融合層；

7.根據權利要求6所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，所述時間特征融合層的表達式為：

8.根據權利要求7所述

9.根據權利要求1所述的基于TSN模型的群體-個體多人視頻行為識別方法，其特征在于，利用CNN提取所述視頻數據中的全局運動特征包括：

...

【技術特征摘要】

1.一種基于tsn模型的群體-個體多人視頻行為識別方法，其特征在于，包括：

2.根據權利要求1所述的基于tsn模型的群體-個體多人視頻行為識別方法，其特征在于，采用tsn稀疏采樣的策略對公共數據集中的視頻數據進行分割包括：

3.根據權利要求1所述的基于tsn模型的群體-個體多人視頻行為識別方法，其特征在于，所述預設注意機制網絡包括：空間卷積網絡和時間卷積網絡；

4.根據權利要求3所述的基于tsn模型的群體-個體多人視頻行為識別方法，其特征在于，所述空間卷積網絡包括：兩個bn-incision子網絡；

5.根據權利要求4所述的基于tsn模型的群體-個體多人視...

【專利技術屬性】
技術研發人員：謝劍斌，陳永超，
申請(專利權)人：湖南中科助英智能科技研究院有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術