一種基于時空Transformer的三維人體姿態估計方法技術

技術編號：44259971 閱讀：9 留言：0更新日期：2025-02-14 22:05

本發明專利技術涉及一種基于時空Transformer的三維人體姿態估計方法，屬于人體三維姿態估計技術領域，包括以下步驟：S1：使用級聯金字塔網絡CPN對輸入的人體姿態圖像進行二維姿態估計；S2：利用基于Transformer注意力機制的空間變壓器塊獲得關節點間的空間信息；S3：將空間信息輸入基于Transformer注意力機制的全局時序特征學習模塊，輸出全局的時序特征信息；S4：在時間維度上對不同的關節進行分離，對不同關節進行并行建模，利用基于Transformer注意力機制的局部時序特征學習模塊，輸出局部的時序特征信息；S5：將全局時序特征信息和局部時序特征信息進行融合與回歸，得到三維姿態坐標。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于人體三維姿態估計，涉及一種基于時空transformer的三維人體姿態估計方法。

技術介紹

1、人體姿態估計作為計算機視覺中的關鍵研究領域，近年來在技術發展和應用上取得了顯著進展。它旨在通過分析圖像或視頻中的人體形態，準確地描述人體的姿態信息，涉及目標識別、圖像分割、回歸檢測等多項任務。相較于傳統的二維姿態估計，三維人體姿態估計能夠更精細地捕捉人體的姿態信息，因此具有更廣泛的研究和應用前景。

2、目前，三維人體姿態估計已成為計算機視覺領域的研究熱點，也是許多重要應用領域的基礎。通過從圖像或視頻中提取的三維人體姿態信息，不僅可以用于動作識別，還可以應用于三維模型重建等任務，為人體行為分析、虛擬現實、增強現實等領域提供了重要支持。

3、當前的三維人體姿態估計方法主要可以分為兩類：一是直接回歸法，即直接從二維圖像中預測三維姿態坐標，這種方法可以進行端到端的網絡訓練，但對網絡結構和數據預處理要求較高；二是基于二維坐標的方法，首先使用預訓練好的二維姿態估計網絡提取出骨架序列，然后將其輸入到三維姿態估計網絡中進行維度提升。基于二維骨架的方法由于借助了現有二維姿態估計算法，簡化了任務復雜度，性能也較直接回歸法更優，因此成為主流。這種方法降低了網絡結構的復雜性，更易于在實際環境中進行應用部署。

4、此外，隨著近年來注意力機制在各種任務上展現的優秀效果，基于注意力機制的框架也開始被應用于單目單人三維人體姿態估計任務中，在改善深度模糊性問題上取得優秀的效果。2017年transformer模型提出，

5、雖然這些方法已經考慮了骨架信息的獲取，但對于局部信息的獲取仍然存在不足，這可能會影響到對人體三維姿態的準確估計。在視頻中，連續幀之間存在明顯的時序關系，不同時間尺度下的時序特征對姿態估計都可能至關重要。因此有效的處理多尺度時序特征有助于提高人體三維姿態估計的準確性。

技術實現思路

1、有鑒于此，本專利技術的目的在于提供一種基于時空transformer的三維人體姿態估計方法，針對三維人體姿態估計中復雜的時空信息難以處理的問題，首先，在空間建模上，提出了transformer注意力機制獲得關節點間的空間信息，其次，在時序建模上，提出了融合兩種transformer注意力機制進行多尺度時序特征提取的方法，獲得多幀之間的時序特征信息，通過對關節間全局和局部的時空建模，獲取人體姿態中關節間復雜的時空信息，從而實現對人體三維姿態的精準估計。

2、為達到上述目的，本專利技術提供如下技術方案：

3、一種基于時空transformer的三維人體姿態估計方法，包括以下步驟：

4、s1：使用級聯金字塔網絡cpn對輸入的人體圖像進行二維姿態估計；

5、s2：以二維姿態估計出的關節點為輸入，利用空間transformer模塊stb得到單幀圖像關節點間的空間信息；

6、s3：將多幀圖像的空間信息輸入全局時序transformer模塊，輸出多幀圖像關節點的全局時序特征信息；

7、s4：在時間維度上對不同的關節進行分離，對不同關節進行并行建模，利用局部時序transformer模塊，輸出局部的時序特征信息；

8、s5：將全局時序特征信息和局部時序特征信息進行融合與回歸，得到三維姿態坐標。

9、進一步，步驟s1中具體包括以下步驟：

10、s11：將人體姿態圖像輸入到級聯金字塔網絡cpn進行二維姿態估計，得到二維關節點坐標cn,t∈rn×t×2，其中n為關節點數量，t為幀數；

11、s12：將所述二維關鍵點坐標cn,t使用由多層全連接網絡組成的骨架嵌入模塊進行編碼，得到高維向量每個關節的特征維數為dm。

12、進一步，步驟s2中，所述stb學習每個幀中關節之間的空間相關性，給定具有n個關節的二維關鍵點，將每個關節視為空間注意力的標記；

13、首先，以二維關節點為輸入，利用線性嵌入層將每個關鍵點投影到空間特征上；

14、然后用位置矩陣嵌入空間位置信息；

15、然后將第i幀的空間特征輸入到stb的空間注意機制中，對所有關節間的依賴關系進行建模，輸出第i幀空間變壓器塊中的高維特征

16、進一步，步驟s3中，將空間模塊的輸出轉化為作為全局時序transformer模塊的輸入，學習一個全局的跨幀時序信息。輸出全局的時序特征信息將其維度轉化為

17、進一步，步驟s4中，把所有的身體關節都當作局部時序transformer模塊中的一個標記，在時間維度上對不同的關節進行分離，使每個關節的軌跡為一個單獨的令牌并且對人體的不同關節進行并行建模；從時間維度的角度出發，將人體關節的不同運動軌跡分別建模，聯合分離操作如下：

18、

19、其中pi,j∈pn,t表示第j幀中的第i個關節，f表示時序編碼器函數，第l個ttb編碼器的輸出

20、進一步，所述全局時序transformer模塊和局部時序transformer模塊均基于transformer注意力機制，所述transformer注意力機制遵循縮放后的點積注意，每個頭中查詢、鍵、值矩陣q、k、v的關注計算公式為：

21、

22、其中n表示令牌個數即關節點個本文檔來自技高網...

【技術保護點】

1.一種基于時空Transformer的三維人體姿態估計方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：步驟S1中具體包括以下步驟：

3.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：步驟S2中，所述STB學習每個幀中關節之間的空間相關性，給定具有N個關節的二維關鍵點，將每個關節視為空間注意力的標記；

4.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：步驟S3中，將空間模塊的輸出轉化為作為全局時序Transformer模塊的輸入，學習一個全局的跨幀時序信息；輸出全局的時序特征信息將其維度轉化為

5.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：步驟S4中，把所有的身體關節都當作局部時序Transformer模塊中的一個標記，在時間維度上對不同的關節進行分離，使每個關節的軌跡為一個單獨的令牌并且對人體的不同關節進行并行建模；從時間維度的角度出

6.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：所述全局時序Transformer模塊和局部時序Transformer模塊均基于Transformer注意力機制，所述Transformer注意力機制遵循縮放后的點積注意，每個頭中查詢、鍵、值矩陣Q、K、V的關注計算公式為：

7.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：步驟S5中，利用Concatenate的融合方式將得到的兩種時序特征信息進行融合，最終的特征融合表示為：

8.根據權利要求1所述的基于時空Transformer的三維人體姿態估計方法，其特征在于：估計的關節位置和真實關節位置使用MSE損失函數，定義為：

...

【技術特征摘要】

1.一種基于時空transformer的三維人體姿態估計方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的基于時空transformer的三維人體姿態估計方法，其特征在于：步驟s1中具體包括以下步驟：

3.根據權利要求1所述的基于時空transformer的三維人體姿態估計方法，其特征在于：步驟s2中，所述stb學習每個幀中關節之間的空間相關性，給定具有n個關節的二維關鍵點，將每個關節視為空間注意力的標記；

4.根據權利要求1所述的基于時空transformer的三維人體姿態估計方法，其特征在于：步驟s3中，將空間模塊的輸出轉化為作為全局時序transformer模塊的輸入，學習一個全局的跨幀時序信息；輸出全局的時序特征信息將其維度轉化為

5.根據權利要求1所述的基于時空transformer的三維人體姿態估計方法，其特征在于：步驟s4中，把所有的身體關節都當作局部時序transformer模塊中的一個標記...

【專利技術屬性】
技術研發人員：黃宏程，王涯瀚，胡敏，
申請(專利權)人：重慶郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術