一種手勢識別的方法和裝置制造方法及圖紙

技術編號：44457553 閱讀：4 留言：0更新日期：2025-02-28 19:04

本發(fā)明專利技術公開了一種手勢識別的方法和裝置，涉及計算機視覺和人機交互技術領域。該方法的一具體實施方式包括：獲取待識別手勢的多模態(tài)視覺數(shù)據(jù)，并對多模態(tài)視覺數(shù)據(jù)進行特征提取得到視覺特征；基于提示詞模板構建各個手勢的提示詞，并對各個手勢的提示詞進行特征提取得到文本特征；根據(jù)視覺特征和文本特征計算多模態(tài)視覺數(shù)據(jù)和各個手勢的提示詞的相似度，并根據(jù)相似度確定手勢識別結果。該實施方式提高了手勢識別的準確率、魯棒性與可擴展性。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及計算機視覺和人機交互，尤其涉及一種手勢識別的方法和裝置。

技術介紹

1、手勢識別是計算機視覺和人機交互領域的重要研究方向。通過識別和理解人類手勢，計算機系統(tǒng)可以實現(xiàn)新的交互方式。例如在ar（augmented?reality，增強現(xiàn)實）/vr（virtual?reality，虛擬現(xiàn)實）領域，手勢識別是實現(xiàn)沉浸式體驗的重要技術。用戶可以通過手勢直接操控虛擬對象，進行導航、選擇和操作，極大地提升了交互的直觀性和沉浸感。現(xiàn)有手勢識別技術通常采用基于計算機視覺的方案，輸入rgb圖像或者骨骼節(jié)點坐標等單模態(tài)信息，通過規(guī)則系統(tǒng)，深度學習網(wǎng)絡等架構，實現(xiàn)特定手勢的識別。

2、在實現(xiàn)本專利技術過程中，專利技術人發(fā)現(xiàn)現(xiàn)有手勢識別技術方案，輸入數(shù)據(jù)為單模態(tài)數(shù)據(jù)，導致手勢識別結果的準確率與魯棒性存在一定的局限性。同時，現(xiàn)有技術的方案多為簡單的條件判斷或者利用沒有知識儲備以及推理能力的簡單深度學習網(wǎng)絡結構進行手勢識別，因此對于手勢識別的魯棒性與可擴展性較差。

技術實現(xiàn)思路

1、有鑒于此，本專利技術實施例提供一種手勢識別的方法和裝置，能夠結合多模態(tài)視覺數(shù)據(jù)和提示詞來進行手勢識別，多模態(tài)視覺數(shù)據(jù)保證了數(shù)據(jù)內(nèi)容的豐富度，避免因為環(huán)境光線等干擾造成識別不準確的問題，從而提高了手勢識別的準確率和魯棒性。同時，對于沒有經(jīng)過訓練的待識別手勢，只需要采集多模態(tài)視覺數(shù)據(jù)，并根據(jù)提示詞模板生成全新待識別手勢的提示詞，即可基于多模態(tài)視覺數(shù)據(jù)和提示詞之間的相似度來獲得手勢識別結果，實現(xiàn)零樣本預測功能，提

2、為實現(xiàn)上述目的，根據(jù)本專利技術實施例的一個方面，提供了一種手勢識別的方法，包括：

3、獲取待識別手勢的多模態(tài)視覺數(shù)據(jù)，并對所述多模態(tài)視覺數(shù)據(jù)進行特征提取得到視覺特征；

4、基于提示詞模板構建各個手勢的提示詞，并對所述各個手勢的提示詞進行特征提取得到文本特征；

5、根據(jù)所述視覺特征和所述文本特征計算所述多模態(tài)視覺數(shù)據(jù)和所述各個手勢的提示詞的相似度，并根據(jù)所述相似度確定手勢識別結果。

6、可選地，所述多模態(tài)視覺數(shù)據(jù)包括普通圖像數(shù)據(jù)、深度圖像數(shù)據(jù)和手掌關節(jié)點的位置數(shù)據(jù)；對所述多模態(tài)視覺數(shù)據(jù)進行特征提取得到視覺特征，包括：對普通圖像數(shù)據(jù)和深度圖像數(shù)據(jù)，將整張圖像切分成指定個數(shù)的小片，并根據(jù)每個小片在整張圖像中的位置生成每個小片的位置編碼；對每個小片，將所述小片進行線性變換后與所述小片的位置編碼相加，得到第一預處理數(shù)據(jù)；對手掌關節(jié)點的位置數(shù)據(jù)，根據(jù)所述位置數(shù)據(jù)中的三維坐標信息進行編碼，得到第二預處理數(shù)據(jù)；將所述第一預處理數(shù)據(jù)和所述第二預處理數(shù)據(jù)拼接后輸入到視覺變換器網(wǎng)絡中進行特征提取，得到視覺特征。

7、可選地，對手掌關節(jié)點的位置數(shù)據(jù)，根據(jù)所述位置數(shù)據(jù)中的三維坐標信息進行編碼，得到第二預處理數(shù)據(jù)，包括：對手掌關節(jié)點的位置數(shù)據(jù)，根據(jù)所述位置數(shù)據(jù)中的三維坐標信息，通過正弦函數(shù)和余弦函數(shù)進行編碼以進行數(shù)據(jù)格式的轉換，得到第二預處理數(shù)據(jù)。

8、可選地，所述視覺變換器網(wǎng)絡是基于具有連續(xù)時序信息的多幀普通圖像數(shù)據(jù)、與每幀普通圖像數(shù)據(jù)對應的深度圖像數(shù)據(jù)和手掌關節(jié)點的位置數(shù)據(jù)進行訓練得到的。

9、可選地，所述提示詞模板包括固定的手勢名稱提示詞和多個可學習的提示詞向量，且所述提示詞模板是通過對采集的各個手勢的樣本提示詞進行預訓練得到的。

10、可選地，對所述各個手勢的提示詞進行特征提取得到文本特征，包括：將所述各個手勢的提示詞輸入到預訓練語言模型中以進行特征提取，得到文本特征。

11、可選地，根據(jù)所述視覺特征和所述文本特征計算所述多模態(tài)視覺數(shù)據(jù)和所述各個手勢的提示詞的相似度，并根據(jù)所述相似度確定手勢識別結果，包括：根據(jù)所述視覺特征和所述文本特征計算所述多模態(tài)視覺數(shù)據(jù)和所述各個手勢的提示詞的相似度，將與所述多模態(tài)視覺數(shù)據(jù)相似度最高的手勢的提示詞作為所述待識別手勢的提示詞；根據(jù)所述待識別手勢的提示詞中的手勢名稱提示詞，得到手勢識別結果。

12、根據(jù)本專利技術實施例的另一方面，提供了一種手勢識別的裝置，包括：

13、視覺特征提取模塊，用于獲取待識別手勢的多模態(tài)視覺數(shù)據(jù)，并對所述多模態(tài)視覺數(shù)據(jù)進行特征提取得到視覺特征；

14、文本特征提取模塊，用于基于提示詞模板構建各個手勢的提示詞，并對所述各個手勢的提示詞進行特征提取得到文本特征；

15、識別結果確定模塊，用于根據(jù)所述視覺特征和所述文本特征計算所述多模態(tài)視覺數(shù)據(jù)和所述各個手勢的提示詞的相似度，并根據(jù)所述相似度確定手勢識別結果。

16、根據(jù)本專利技術實施例的又一方面，提供了一種電子設備，包括：一個或多個處理器；存儲裝置，用于存儲一個或多個程序，當所述一個或多個程序被所述一個或多個處理器執(zhí)行，使得所述一個或多個處理器實現(xiàn)本專利技術實施例所提供的手勢識別的方法。

17、根據(jù)本專利技術實施例的又一方面，提供了一種計算機可讀介質，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)本專利技術實施例所提供的手勢識別的方法。

18、根據(jù)本專利技術實施例的再一方面，提供了一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)本專利技術實施例所提供的手勢識別的方法。

19、上述專利技術中的一個實施例具有如下優(yōu)點或有益效果：通過獲取待識別手勢的多模態(tài)視覺數(shù)據(jù)，并對多模態(tài)視覺數(shù)據(jù)進行特征提取得到視覺特征；基于提示詞模板構建各個手勢的提示詞，并對各個手勢的提示詞進行特征提取得到文本特征；根據(jù)視覺特征和文本特征計算多模態(tài)視覺數(shù)據(jù)和各個手勢的提示詞的相似度，并根據(jù)相似度確定手勢識別結果的技術方案，可以結合多模態(tài)視覺數(shù)據(jù)和提示詞來進行手勢識別，多模態(tài)視覺數(shù)據(jù)保證了數(shù)據(jù)內(nèi)容的豐富度，避免因為環(huán)境光線等干擾造成識別不準確的問題，從而提高了手勢識別的準確率和魯棒性。同時，對于沒有經(jīng)過訓練的待識別手勢，只需要采集多模態(tài)視覺數(shù)據(jù)，并根據(jù)提示詞模板生成全新待識別手勢的提示詞，即可基于多模態(tài)視覺數(shù)據(jù)和提示詞之間的相似度來獲得手勢識別結果，實現(xiàn)零樣本預測功能，提高了手勢識別的魯棒性與可擴展性。

20、上述的非慣用的可選方式所具有的進一步效果將在下文中結合具體實施方式加以說明。

本文檔來自技高網(wǎng)...

【技術保護點】

1.一種手勢識別的方法，其特征在于，包括：

2.根據(jù)權利要求1所述的方法，其特征在于，所述多模態(tài)視覺數(shù)據(jù)包括普通圖像數(shù)據(jù)、深度圖像數(shù)據(jù)和手掌關節(jié)點的位置數(shù)據(jù)；

3.根據(jù)權利要求2所述的方法，其特征在于，對手掌關節(jié)點的位置數(shù)據(jù)，根據(jù)所述位置數(shù)據(jù)中的三維坐標信息進行編碼，得到第二預處理數(shù)據(jù)，包括：

4.根據(jù)權利要求2所述的方法，其特征在于，所述視覺變換器網(wǎng)絡是基于具有連續(xù)時序信息的多幀普通圖像數(shù)據(jù)、與每幀普通圖像數(shù)據(jù)對應的深度圖像數(shù)據(jù)和手掌關節(jié)點的位置數(shù)據(jù)進行訓練得到的。

5.根據(jù)權利要求1所述的方法，其特征在于，所述提示詞模板包括固定的手勢名稱提示詞和多個可學習的提示詞向量，且所述提示詞模板是通過對采集的各個手勢的樣本提示詞進行預訓練得到的。

6.根據(jù)權利要求1或5所述的方法，其特征在于，對所述各個手勢的提示詞進行特征提取得到文本特征，包括：

7.根據(jù)權利要求5所述的方法，其特征在于，根據(jù)所述視覺特征和所述文本特征計算所述多模態(tài)視覺數(shù)據(jù)和所述各個手勢的提示詞的相似度，并根據(jù)所述相似度確定手勢識別結果，包括：p>

8.一種手勢識別的裝置，其特征在于，包括：

9.一種電子設備，其特征在于，包括：

10.一種計算機可讀介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1-7中任一所述的方法。

11.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1-7中任一所述的方法。

...

【技術特征摘要】

1.一種手勢識別的方法，其特征在于，包括：

5.根據(jù)權利要求1所述的方法，其特征在于，所述提示詞模板包括固定的手勢名稱提示詞和多個可學習的提示詞向量，且所述提示詞模板是通過對采集的各個手勢的樣本提示詞進行預訓...

【專利技術屬性】
技術研發(fā)人員：劉陽，張磊，檀兵，楊超，吳朝陽，魏偉，
申請(專利權)人：北京沃東天駿信息技術有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術