一種基于多視角時空對比損失的骨架人體行為識別方法技術

技術編號：43545212 閱讀：16 留言：0更新日期：2024-12-03 12:26

本發明專利技術公開了一種基于多視角時空對比損失的骨架人體行為識別方法，涉及計算機視覺技術領域，包括骨架人體行為識別的識別網絡是以端到端的雙路時空建模網絡為主干網絡，主干網絡包含ST?Encoder和TS?Encoder這兩種具有不同建模順序的時空編碼器；通過兩個時空編碼器所獲得的兩個時空特征分別利用池化投影模塊進行解耦和非線性投影，獲得在全局時空、空間和時間視角下的特征分布；主干網絡的參數優化是利用多視角時空對比損失與交叉熵損失相結合實現的，端到端的雙路時空建模網絡利用兩種具有互補特性的編碼器能夠靈活地學習人體骨架動作的全面性時空表征，提高對相似的動作的辨別能力。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機視覺，具體是一種基于多視角時空對比損失的骨架人體行為識別方法。

技術介紹

1、近年來，人工智能(ai)技術飛速發展。計算機視覺是ai重要的一個研究方向，其目標是為了讓計算機學習分析周圍環境，建立與人類一樣的視覺系統。計算機視覺包含了許多經典的下游研究任務，例如視頻理解、視頻生成、圖像分類和目標檢測等。在視頻理解和分析任務中，人體行為識別(har)是核心任務，具有很高的研究價值和應用場景。

2、har是計算機視覺領域中一個活躍且富有挑戰性的課題，主要研究如何從原始的視頻數據中自動提取人體動作特征并進行識別與分類。早期的har主要是基于rgb數據展開的，隨著傳感器的不斷發展，骨架數據、深度圖像數據和紅外圖像數據等模態的數據受到越來越多研究人員的關注。har在現實中應用廣泛，例如智能視頻監控系統、人機交互、無人駕駛、運動人體分析、虛擬現實等。當前的市場中的智能監控系統已經相對完善，可以對視頻監控中的人體進行行為識別并做出預設好的反應，例如跌倒檢測并通知聯系人，危險行為檢測并報警等。近年來，人們對于運動和健康問題愈發關注，這推動了行為識別技術在該領域上的應用。人體行為識別技術憑借高效精準的人體捕捉與識別，有助于運動員科學規范運動姿勢，避免傷病的同時提高運動表現。在醫療領域，人體行為識別技術在抑郁癥診斷和術后康復中發揮著重要作用。此外，隨著人工智能技術的快速發展，人機交互、無人駕駛和虛擬現實已經成為當下的熱點研究領域，人體行為識別方法的研究也在一定程度上推進了上述研究領域的發展。

3、起初，研究

4、rnn及其變體長短時記憶網絡(lstm)在對時間序列數據建模方面具有天然的優勢。對于骨架人體行為識別任務，一部分研究人員嘗試對人體骨架序列數據進行建模，關注于人體骨架中關節點的共現特征以提取其中的時空特征。此外，特征增強和特殊的網絡結構等方式被用來提高網絡的性能。與rnn不同，cnn具有提取高級特征的能力，擅長于空間建模。一方面，2d?cnn憑借其網絡結構簡單，運行速度快等優勢得到早期研究人員的青睞。另一方面，為了進一步挖掘骨架序列數據中的空間特征和時間特征，3d?cnn模型被用來用于骨架人體行為識別。rnn對于空間信息的提取不夠充分，而且難以訓練。cnn擅長處理歐式數據，在對骨架序列數據構建相應輸入形式的過程中會丟失人體的空間拓撲結構信息。基于rnn和cnn的骨架人體行為識別方法都存在各自的缺陷，隨著深度網絡模型的發展，新型深度學習網絡，例如圖卷積網絡(gcn)和transformer，越來越受到研究人員的關注。

5、gcn在處理人體骨架這種圖結構數據時具有天然的優勢。yan等人創新性地提出了時空圖卷積(st-gcn)模型。對于骨架人體行為識別任務，他們首先基于人體內部關節點的自然連接和同一關節點在相鄰幀間的連接設計了骨架序列的時空拓撲圖。然后通過堆疊一系列時空圖卷積塊來提取骨架序列的時空特征，并使用softmax分類器進行類別預測。與st-gcn模型中提取關節點的局部空間特征不同，動作結構圖卷積網絡(as-gcn)。as-gcn模型不僅可以通過動作捕捉特定的關節點依賴關系，還可以通過將現有的骨架圖擴展至結構性連接以獲取多鄰域的關節點依賴關系。預先定義的人體骨架拓撲圖無法反映關節間的隱形聯系，于是，研究人員嘗試挖掘非鄰接關節間的聯系和構建具有樣本適應性的圖結構，并使用多數據流訓練網絡模型。以上模型關注于骨架圖的空間建模，但是對于骨架序列的時間特征提取不充分。

6、基于此，本專利技術旨在提供一種基于多視角時空對比損失的骨架人體行為識別方法，能夠更加靈活地學習人體骨架動作的全面性時空表征，提高對相似的動作的辨別能力。

技術實現思路

1、為了彌補現有技術問題的不足，本專利技術的目的在于提供一種基于多視角時空對比損失的骨架人體行為識別方法，其端到端的雙路時空建模網絡利用兩種具有互補特性的編碼器能夠靈活地學習人體骨架動作的全面性時空表征；另外，池化投影模塊將互補的兩個動作特征進行解耦并投影到不同的高維空間中，增強特征的表達能力將mst-cl與交叉熵損失相結合，對主干網絡進行端到端的參數優化，使主干網絡更好地學習骨架動作中的互補信息，有利于分辨出相似的動作。

2、為實現上述目的，本專利技術提供如下技術方案：

3、一種基于多視角時空對比損失的骨架人體行為識別方法，所述骨架人體行為識別的識別網絡以端到端的雙路時空建模網絡為主干網絡，主干網絡包含st-encoder和ts-encoder兩種具有不同建模順序的時空編碼器，兩種編碼器協同互補，學習并分別提取人體骨架動作的全面性時空表征；通過兩個時空編碼器所獲得的兩個時空特征分別利用池化投影模塊進行解耦和非線性投影，獲得在全局時空、空間和時間視角下的特征分布；

4、主干網絡的參數優化利用多視角時空對比損失與交叉熵損失相結合實現。

5、進一步的，所述st-encoder由一系列st-block堆疊而成，每個st-block包括通道拓撲細化圖卷積、多尺度時間建模；

6、ts-encoder由一系列ts-block堆疊而成，ts-block包括多尺度時間建模、通道拓撲細化圖卷積；

7、st-encoder與ts-encoder組成模塊一致，多尺度時間建模、通道拓撲細化圖卷積順序不同。

8、進一步的，所述池化投影模塊分別對兩個時空特征進行解耦和非線性投影，具體如下：

9、fst依次進行全局池化、空間池化和時間池化，分別得到和同樣的，對fts進行全局池化、空間池化和時間池化，分別得到和

10、fst是st-encoder對輸入的骨架序列數據提取獲得的特征向量，fst∈rb×c×t×n；fts是ts-encoder對輸入的骨架序列數據提取獲得的特征向量，fts∈rb×c×t×n；b表示batchsize，c表示通道數，t表示時間維度，n表示空間維度。

11、進一步的，所述多視角時空對比損失mst-cl，計算公式如下：

12、lmst-cl＝lg+ls+lt

13、

14、其中，表示計算二者的余弦相似度，對比損失隨著溫度系數τ的增大而傾向于“一視同仁”，隨著τ的減少而只關注最困難的負樣本，τ發揮調節負樣本關注度作用。

15、與現有技術相比，本專利技術的有益效果是：

16、(1)、首先，本專利技術提出了端到端的雙路時空建模網絡，端到端的雙路時空建模網絡包含ts-encoder、st-encoder兩個特征編碼器，這兩個特征編碼器組成模塊一致，但時空建模順序不同，構成了兩種具有互補特性的編碼器，能夠靈本文檔來自技高網...

【技術保護點】

1.一種基于多視角時空對比損失的骨架人體行為識別方法，其特征在于，所述骨架人體行為識別的識別網絡以端到端的雙路時空建模網絡為主干網絡，主干網絡包含ST-Encoder和TS-Encoder兩種具有不同建模順序的時空編碼器，兩種編碼器協同互補，學習并分別提取人體骨架動作的全面性時空表征；通過兩個時空編碼器所獲得的兩個時空特征分別利用池化投影模塊進行解耦和非線性投影，獲得在全局時空、空間和時間視角下的特征分布；

2.根據權利要求1所述基于多視角時空對比損失的骨架人體行為識別方法，其特征在于，所述ST-Encoder由一系列ST-Block堆疊而成，每個ST-Block包括通道拓撲細化圖卷積、多尺度時間建模；

3.根據權利要求1所述基于多視角時空對比損失的骨架人體行為識別方法，所述池化投影模塊分別對兩個時空特征進行解耦和非線性投影，具體如下：

4.根據權利要求1所述基于多視角時空對比損失的骨架人體行為識別方法，所述多視角時空對比損失MST-CL，計算公式如下：

【技術特征摘要】

1.一種基于多視角時空對比損失的骨架人體行為識別方法，其特征在于，所述骨架人體行為識別的識別網絡以端到端的雙路時空建模網絡為主干網絡，主干網絡包含st-encoder和ts-encoder兩種具有不同建模順序的時空編碼器，兩種編碼器協同互補，學習并分別提取人體骨架動作的全面性時空表征；通過兩個時空編碼器所獲得的兩個時空特征分別利用池化投影模塊進行解耦和非線性投影，獲得在全局時空、空間和時間視角下的特征分布；

2.根據權利要求1所述基于多...

【專利技術屬性】
技術研發人員：唐超，任放，喬碩，童安煬，席治遠，程俊豪，汪超，
申請(專利權)人：合肥大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術