基于多頭注意力與時空特征融合的手勢識別方法及系統技術方案

技術編號：44487723 閱讀：3 留言：0更新日期：2025-03-04 17:52

本發明專利技術屬于手勢識別領域，提供了一種基于多頭注意力與時空特征融合的手勢識別方法及系統，利用深度學習的框架搭建神經網絡模型結構，導入包含時序特征的手部關節點的手勢序列，利用提出的手勢識別算法對手勢序列數據進行特征提取、位置編碼與注意力計算、特征融合與特征映射，輸出更高準確率的手勢分類結果。采用新的網絡拓撲結構并利用局部全局多頭注意力模塊在時空兩個維度捕捉空間和時間上的復雜關系，解決了目前模型在應對復雜時序數據時捕捉短期和長期依賴關系不充分的問題，使得融合算法在處理不同類型的手勢序列數據時更加靈活高效。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于手勢識別，具體涉及一種基于多頭注意力與時空特征融合的手勢識別方法及系統。

技術介紹

1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
信息，不必然構成在先技術。

2、在近年來的手勢識別研究中，隨著深度學習技術的不斷發展，手勢識別的精度和效率得到了顯著提升。然而，現有模型在處理復雜時序數據時仍面臨諸多挑戰，尤其是在捕捉短期和長期依賴關系方面。

3、手勢識別任務通常涉及大量動態變化的時序數據，這些數據的特征在時間維度上具有高度的非線性和復雜性。一些改進的模型如時空注意力卷積模型(dg-sta)引入注意力機制以增強在依賴關系的捕捉能力。然而，這類模型可能在時間序列的變化上存在敏感性不足的問題。這使得在手勢快速變化或長時間序列中，重要特征的信息往往被忽略，降低了識別的準確性。同時，手勢序列中的動作不僅依賴于當前時刻的輸入，還與先前的狀態密切相關。因此，有效地捕捉短期和長期依賴關系對提升手勢識別性能至關重要。目前，許多現有方法如空間-時間圖卷積網絡(st-gcn)通過同時考慮空間和時間的卷積運算來捕捉手勢的動態特征，盡管這種方法在捕捉空間-時間依賴性上有優勢，但對于長序列數據，可能面臨信息流失的問題。手勢的關鍵在于不同關節之間的相對運動依賴關系，忽視這些信息可能導致模型無法準確捕捉到動作的本質，尤其是在復雜或相似的手勢之間進行區分或者對復雜的多關節手勢進行建模時，可能未能充分考慮各關節之間的相對位置的依賴關系，影響最終的識別效果。

技術實現思路

1、

2、根據一些實施例，本專利技術的第一方案提供了一種基于多頭注意力與時空特征融合的手勢識別方法，采用如下技術方案：

3、基于多頭注意力與時空特征融合的手勢識別方法，包括：

4、獲取手勢序列并進行預處理；

5、基于預處理后的手勢序列，利用訓練好的手勢識別網絡模型進行手勢類別識別，具體為：

6、基于預處理后的手勢序列，通過提取多序列幀時間特征以及每幀中的手部關鍵點位置特征進行編碼并進行特征提取；

7、將提取后的特征分別送入時間特征模塊與空間特征模塊中利用自選擇頻域卷積以進行特征重構，再根據相對位置編碼對重構后的特征提取關鍵信息，使用局部全局多頭注意力捕捉時序數據中的時空關系，最后進行通道聚合卷積操作；

8、將時空兩個模塊的計算輸出結果進行特征融合，通過增強前饋網絡進行特征映射輸出手勢類別結果。

9、進一步地，所述基于預處理后的手勢序列，通過提取多序列幀時間特征以及每幀中的手部關鍵點位置特征進行編碼并進行特征提取，具體為：

10、根據預處理后的手勢序列長度和關節數量的乘積以及特征維度確定可學習的參數矩陣；

11、基于預處理后的手勢序列中的每個手部關鍵點位置生成一個向量，基于可學習的參數矩陣提取設定數量行的位置信息添加到預處理后的手勢序列中，得到預處理后的手勢序列中每幀時間特征對應的位置編碼；

12、利用時序卷積對位置編碼信息進行特征提取。

13、進一步地，所述利用自選擇頻域卷積以進行特征重構，具體為：

14、將提取特征從一維轉換為二維表示，再對二維表示的特征圖進行特征分割；

15、對分割后的一部分特征圖應用局部卷積處理，并將局部卷積的結果與分割后的另一部分特征圖進行合并得到重構的特征圖；

16、將重構的特征圖重新扁平化為一維表示，對一維表示的特征圖利用線性層進行處理后再進行平均切分，將一部分特征圖應用深度可分離卷積操作后與另一部分特征圖進行相乘；

17、將上述乘積后的結果線性變換還原的原始維度，并與輸入的提取特征進行殘差連接得到自選擇頻域卷積的輸出結果。

18、進一步地，所述深度可分離卷積操作包括特征重排層、深度可分離卷積以及扁平化層的處理。

19、進一步地，所述使用局部全局多頭注意力捕捉時序數據中的時空關系，具體為：

20、基于相對位置編碼后的特征，分別計算局部注意力結果和全局注意力結果；

21、根據局部掩碼計算局部注意力中查詢和鍵之間的得分并轉換為局部注意力權重，根據全局掩碼計算全局注意力中查詢和鍵之間的得分；并轉換為全局注意力權重；

22、利用局部注意力權重對值進行加權求和，得到最終的局部注意力輸出，利用全局注意力權重對值進行加權求和，得到最終的全局注意力輸出；

23、將局部注意力輸出和全局注意力輸出，得到手勢序列時序特征。

24、進一步地，所述手勢識別網絡模型，包括依次連接的位置編碼模塊以及時序卷積特征提取模塊；

25、所述時序卷積特征提取模塊分別連接時間特征融合模塊與空間特征融合模塊；

26、所述時間特征融合模塊和空間特征融合模塊的輸出融合后輸出給增強前饋網絡模塊；

27、所述增強前饋網絡模塊輸出手勢類別識別預測結果。

28、進一步地，所述時間特征融合模塊和空間特征融合模塊均包括自選擇頻域卷積層、相對位置編碼層、局部全局注意力模塊以及通道聚合卷積層。

29、根據一些實施例，本專利技術的第二方案提供了一種基于多頭注意力與時空特征融合的手勢識別系統，采用如下技術方案：

30、基于多頭注意力與時空特征融合的手勢識別系統，包括：

31、手勢序列處理模塊，被配置為獲取手勢序列并進行預處理；

32、手勢識別模塊，被配置為基于預處理后的手勢序列，利用訓練好的手勢識別網絡模型進行手勢類別識別，具體為：

33、基于預處理后的手勢序列，通過提取多序列幀時間特征以及每幀中的手部關鍵點位置特征進行編碼并進行特征提取；

34、將提取后的特征分別送入時間特征模塊與空間特征模塊中利用自選擇頻域卷積以進行特征重構，再根據相對位置編碼對重構后的特征提取關鍵信息，使用局部全局多頭注意力捕捉時序數據中的時空關系，最后進行通道聚合卷積操作；

35、將時空兩個模塊的計算輸出結果進行特征融合，通過增強前饋網絡進行特征映射輸出手勢類別結果。

36、根據一些實施例，本專利技術的第三方案提供了一種計算機可讀存儲介質。

37、一種計算機可讀存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現如上述第一個方面所述的基于多頭注意力與時空特征融合的手勢識別方法中的步驟。

38、根據一些實施例，本專利技術的第四方案提供了一種計算機設備。

39、一種計算機設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所本文檔來自技高網...

【技術保護點】

1.基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，包括：

2.如權利要求1所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述基于預處理后的手勢序列，通過提取多序列幀時間特征以及每幀中的手部關鍵點位置特征進行編碼并進行特征提取，具體為：

3.如權利要求1所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述利用自選擇頻域卷積以進行特征重構，具體為：

4.如權利要求3所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述深度可分離卷積操作包括特征重排層、深度可分離卷積以及扁平化層的處理。

5.如權利要求1所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述使用局部全局多頭注意力捕捉時序數據中的時空關系，具體為：

6.如權利要求1所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述手勢識別網絡模型，包括依次連接的位置編碼模塊以及時序卷積特征提取模塊；

7.如權利要求6所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述時間特

8.基于多頭注意力與時空特征融合的手勢識別系統，其特征在于，包括：

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該程序被處理器執行時實現如權利要求1-7中任一項所述的基于多頭注意力與時空特征融合的手勢識別方法中的步驟。

10.一種計算機設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述程序時實現如權利要求1-7中任一項所述的基于多頭注意力與時空特征融合的手勢識別方法中的步驟。

...

【技術特征摘要】

1.基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，包括：

3.如權利要求1所述的基于多頭注意力與時空特征融合的手勢識別方法，其特征在于，所述利用自選擇頻域卷積以進行特征重構，具體為：

6.如權利要求1所述的基于多頭注意力與時空特征融合的手...

【專利技術屬性】
技術研發人員：于明鑫，婁紅凱，祝連慶，
申請(專利權)人：北京信息科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術