System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于人體三維姿態估計,涉及一種基于注意力圖卷積的三維人體姿態估計方法。
技術介紹
1、人體姿態估計作為計算機視覺中最重要的研究之一,其隨著計算機視覺技術的發展也正處于快速發展時期,在現實生活中得到了越來越多的應用。人體姿態估計旨在通過分析圖片、視頻等對象中的人體形態來描繪出人體的姿態,其中涉及到目標識別、圖像分割、回歸檢測等多個任務。與傳統的二維姿態估計相比,三維人體姿態估計能夠更加精準地描述人體的姿態,具有更高的研究和應用價值。目前,三維人體姿態估計已成為計算機視覺領域的研究熱點,也是許多研究工作的重要基礎。從圖像或視頻中提取出的人體三維姿態不僅可以用于動作識別,還可以應用于三維網格重建等任務,為人體行為分析、虛擬現實、增強現實等領域的應用提供了強大的支持。隨著深度學習和計算機視覺技術的不斷進步,三維人體姿態估計將在更廣泛的領域展現出其重要性和潛力。
2、目前的三維人體姿態估計方法可以大致分為兩種類型:(1)直接回歸法,即直接從二維圖像中預測三維姿態坐標,無需先轉換為二維姿態表示。這種方法能夠進行端到端的網絡訓練,但對網絡結構和數據預處理要求較高。(2)基于二維骨架的方法,通常分為兩個階段:首先使用預訓練好的二維姿態估計網絡提取出骨架序列,然后將其輸入到三維姿態估計網絡中進行維度提升。由于現有二維姿態估計算法的成熟,基于二維骨架的方法大大簡化了任務復雜度,性能也優于直接回歸法,因此成為主流。這種方法可以降低網絡結構的復雜性,更容易在實際環境中應用部署。
3、zhao等人提出的語義圖卷積指出通過
技術實現思路
1、有鑒于此,本專利技術的目的在于提供一種基于注意力圖卷積的三維人體姿態估計方法
2、為達到上述目的,本專利技術提供如下技術方案:
3、一種基于注意力圖卷積的三維人體姿態估計方法,包括以下步驟:
4、s1:使用級聯金字塔網絡cpn對人體圖像進行二維姿態估計;
5、s2:利用基于transformer注意力機制對全局空間特征進行提??;
6、s3:利用圖卷積網絡對局部空間特征進行提??;
7、s4:將全局空間特征和局部空間特征進行融合,得到最終的三維姿態坐標。
8、進一步,步驟s1具體包括以下步驟:
9、s11:將人體圖像輸入到級聯金字塔網絡cpn進行二維姿態估計,得到二維關節點坐標ci∈rn×2,其中n為關節點數量;
10、s12:將得到的二維關鍵點坐標使用由多層全連接網絡組成的骨架嵌入模塊進行編碼得到高維向量。
11、進一步,步驟s2中,將每個關節視為一個patch,并按照通用視覺變換管道在所有patch之間進行特征提?。皇紫扔每捎柧毜木€性投影將每個關節的坐標映射到高維空間;將得到的特征rj×c的關節序列輸入到空間變壓器編碼器中,該編碼器應用自關注機制對所有關節的信息進行集成;
12、transformer注意力塊遵循縮放后的點積注意,每個頭中查詢、鍵、值矩陣q、k、v的關注計算公式為:
13、
14、其中{q,k,v}∈rj×c,n表示令牌個數即關節點個數,c表示每個令牌的維數,h個多頭注意力定義如下:
15、msa=concat(head1,head2,...,headh)wo
16、headi=attention(qi,ki,vi),i∈h
17、其中線性投影權值為wo∈rc×c,在注意力編碼器中,每個關節令牌p∈pn是從二維坐標c∈rn×2的關節ci投影出來的,聯合令牌p通過矩陣epos∈rn×c嵌入位置信息:
18、x=norm(le(ci)+epos),x∈rn×c
19、其中norm為層歸一化,le為線性嵌入層,通過注意力模塊計算關節點之間的空間依賴關系如下:
20、ui=xwm,m∈{q,k,v}
21、y=msa(uq,uk,uv)+x
22、r=mlp(norm(y))+y
23、其中y為關節令牌x的注意力輸出,ui為x通過線性變換映射的矩陣,wm為關節中查詢、鍵、值對應的線性變換權矩陣,norm為層歸一化,r為全局注意力最后的輸出。
24、進一步,將關節坐標表示為一個圖g={v,e},其中v是n個關節點的集合,e表示的是邊,gcn表示為:
25、
26、其中,為l層的輸入特征,為gcn操作后的輸出特征,dl和dl+1分別為每個關節的輸入特征維數和輸出特征維數,a為無向圖的鄰接矩陣,i為單位矩陣,(a+i)表示具有自連接的鄰接矩陣,d是a的度數矩陣;
27、是自環鄰接矩陣(a+i)的對稱歸一化,是對l層的關節特征進行變換和提取的可訓練變換矩陣;從空間域的角度看,h(l)w(l)為輸入關節特征h(l)的特征提?。?/p>
28、利用兩種不同的變換矩陣和w1(l)來提取兩種不同的特征信息,如下式所示:
29、
30、是針對兩種不同的信息分別提取的兩個特征;
31、在圖卷積結構中加入一個可學習的ea矩陣m(l),ea包括對自身關節和鄰近關節的學習,ea矩陣的鄰接關系表示為:
32、
33、其中鄰接矩陣(a+i)用作掩碼,⊙代表兩個矩陣的哈達瑪積,ρi為softmax算子,其作用是實現行歸一化,使得所有相鄰j個關節對關節i的邊緣關注權重之和等于1;通過可學習矩陣m(l)確定,將其替換后,同一骨骼相鄰關節之間的依賴關系不再相同;對自身關節的貢獻信息和相鄰關節的貢獻信息是分開提取的,被分解為兩個部分,即自關系和與鄰居關節的關系,分解公式如下:
34、
35、其中⊙代表實現兩個矩陣的哈達瑪積,將和作為關系矩陣,分別乘以和對自節點和相鄰節點的特征進行聚合:
36、
37、其中表示自結點聚合的特征,表示相鄰結點聚合的特征,這兩種特征都屬于局部特征。
38、進一步,步驟s4具體包括:
39、利用concatenate本文檔來自技高網...
【技術保護點】
1.一種基于注意力圖卷積的三維人體姿態估計方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:步驟S1具體包括以下步驟:
3.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:步驟S2中,將每個關節視為一個patch,并按照通用視覺變換管道在所有patch之間進行特征提??;首先用可訓練的線性投影將每個關節的坐標映射到高維空間;將得到的特征RJ×C的關節序列輸入到空間變壓器編碼器中,該編碼器應用自關注機制對所有關節的信息進行集成;
4.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:將關節坐標表示為一個圖G={V,E},其中V是N個關節點的集合,E表示的是邊,GCN表示為:
5.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:步驟S4具體包括:
6.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:使用估計值與真值之間的均方誤差MSE作為估計的關節位置和真實關節位置的損失函數
...【技術特征摘要】
1.一種基于注意力圖卷積的三維人體姿態估計方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:步驟s1具體包括以下步驟:
3.根據權利要求1所述的基于注意力圖卷積的三維人體姿態估計方法,其特征在于:步驟s2中,將每個關節視為一個patch,并按照通用視覺變換管道在所有patch之間進行特征提??;首先用可訓練的線性投影將每個關節的坐標映射到高維空間;將得到的特征rj×c的關節序列輸入到空間變壓器編碼器中,該編碼器應用自...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。