一種基于小樣本學習的第一人稱行為識別方法和裝置制造方法及圖紙

技術編號：44065032 閱讀：3 留言：0更新日期：2025-01-17 16:04

本發明專利技術涉及一種基于小樣本學習的第一人稱行為識別方法和裝置，包括遵循小樣本學習設置，通過第一人稱視頻樣本構建元訓練任務和元測試任務；利用元訓練任務對第一人稱行為識別模型進行元訓練，其中，所述第一人稱行為識別模型包括：特征提取模塊和集合匹配度量模塊；所述特征提取模塊用于提取第一人稱視頻樣本的多尺度視頻特征；所述集合匹配度量模塊用于根據第一人稱視頻樣本的多尺度視頻特征計算查詢集中第一人稱視頻樣本和支持集的匹配分數，并根據匹配分數識別用戶的行為類別；利用訓練好的第一人稱行為識別模型對元測試任務進行用戶行為識別，本發明專利技術能夠提高模型的泛化能力和識別準確率，減小模型訓練的計算量。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于圖像處理與計算機視覺，涉及一種基于小樣本學習的第一人稱行為識別方法和裝置。

技術介紹

1、人們在日常生活中頻繁使用可穿戴視頻采集設備，例如智能頭盔、頭戴攝像頭等，記錄自己的各類活動，由此產生了大量以第一人稱視角拍攝的視頻。第一人稱視頻記錄了人體手部及其交互物體的互動過程。作為第一人稱視頻分析的基礎任務之一，第一人稱行為識別旨在識別第一人稱視頻中由人體手部與交互物體互動所產生的行為。

2、對于第一人稱行為識別任務，當前的深度學習方法大致可以分為三類，第一類是基于類激活特征圖的方法，這類方法使用在大規模圖像數據集上預訓練過的圖像分類網絡提取視頻幀的類激活圖，然后通過施加空間注意力、時序建模或長短時注意力模塊來提取時空融合信息，但這些方法較為依賴來自于大規模數據集的先驗知識，且模型推理速度較慢，泛化性能較差。第二類是基于行為標簽和人的眼球視線數據聯合監督的方法，這類方法使用眼球視線數據作為輔助監督數據，來實現對主要區域的關注，雖然能夠高效地關注關鍵空間特征，但額外的眼球視線數據增加了冗余性。第三類是基于關鍵物體檢測的方法，考慮到人體手部及其交互物體對于第一人稱行為識別的關鍵性作用，該類方法使用目標檢測模型對第一人稱視頻中的手部和交互物體進行檢測，并提取檢測區域的特征，但需要目標檢測算法進行輔助，增大了網絡的計算量，且需要額外的邊界框標注。

技術實現思路

1、為了解決
技術介紹
中存在的問題，以提高模型的推理速度，減少人工對數據的標注，降低網絡的計算量，提高網絡的泛化

2、s1：遵循小樣本學習設置，通過第一人稱視頻樣本構建元訓練任務和元測試任務；

3、s2：利用元訓練任務對第一人稱行為識別模型進行元訓練，其中，所述第一人稱行為識別模型包括：特征提取模塊和集合匹配度量模塊；

4、所述特征提取模塊用于提取第一人稱視頻樣本的多尺度視頻特征；

5、所述集合匹配度量模塊用于根據第一人稱視頻樣本的多尺度視頻特征計算查詢集中第一人稱視頻樣本和支持集的匹配分數，并根據匹配分數識別用戶的行為類別；

6、s3：利用訓練好的第一人稱行為識別模型對元測試任務進行用戶行為識別。

7、優選地，所述特征提取模塊包括：resnet50、以及與resnet50每個階段對應的特征融合支路；

8、所述提取第一人稱視頻樣本的多尺度視頻特征包括：

9、將第一人稱視頻樣本的視頻幀依次輸入resnet50，在resnet50每個階段輸出對應尺度的視頻幀特征；所述resnet50包括5個階段，每個階段由不同數量的卷積層和/或殘差塊組成；

10、將resnet50在每個階段輸出的所有視頻幀特征輸入該階段對應的特征融合支路得到對應尺度的視頻特征；

11、將所有特征融合支路輸出的視頻特征組成第一人稱視頻樣本的多尺度視頻特征。

12、優選地，所述特征融合支路將輸入的所有視頻幀特征分別在空間維度上展平，將所有展平后的視頻幀特征輸入映射器進行時空信息融合生成時空視頻特征；將時空視頻特征進行平均池化處理得到特征提取支路的輸出特征。

13、優選地，所述映射器將所有展平后的視頻幀特征作為輸入序列進行單頭自注意力操作得到空間視頻幀特征序列；將空間視頻幀特征序列進行平均池化操作得到空間池化視頻幀特征序列；將空間池化視頻幀特征序列中的所有特征元素進行拼接得到初始視頻特征；將初始視頻特征輸入mlp-mixer進行處理得到時間視頻特征；將時間視頻特征依次進行擴展-拼接-卷積操作生成時空視頻特征。

14、優選地，所述mlp-mixer包括：token-mixing?mlp和channel-mixing?mlp；所述token-mixing?mlp的輸入特征為初始視頻特征的轉置；token-mixing?mlp的輸出特征進行轉置后與輸入的初始視頻特征相加作為channel-mixing?mlp的輸入特征；channel-mixingmlp的輸出特征和channel-mixing?mlp的輸入特征進行相加得到時間視頻特征。

15、優選地，所述將時間視頻特征依次進行擴展-拼接-卷積操作生成時空視頻特征包括：

16、將支持集中所有樣本的時間視頻特征組成支持集的時間視頻特征查詢集中所有樣本的時間視頻特征組成查詢集的時間視頻特征k是支持集樣本的數量，m是查詢集樣本數量，f是樣本的采樣幀數，c是通道數；

17、對支持集的時間視頻特征在第0維度擴展一個維度，并沿著此維度復制m次，m表示查詢集樣本的數量，得到支持集的第一中間視頻特征

18、將查詢集的時間視頻特征在第1維度后增加一個新維度，得到查詢集的第一中間視頻特征

19、將支持集的第一中間視頻特征和查詢集的第一中間視頻特征分別在幀數維度上取平均得到查詢集的第二中間視頻特征和支持集的第二中間視頻特征

20、將支持集的第二中間視頻特征和查詢集的第二中間視頻特征沿著第二個維度進行拼接得到第一融合特征

21、采用多頭自注意力對第一融合特征進行注意力處理得到第二融合特征；

22、將第二融合特征在第2個維度后添加一個維度，并沿著此維度復制f次，得到第三融合特征fsup∈rm×(k+1)×f×c；

23、將第三融合特征在第二個維度上的前k個視頻特征與支持集樣本的第一中間視頻特征沿著通道維度進行拼接得到支持集的第一融合特征fs∈rm×k×f×2c，進而得到每個支持集樣本的第一融合特征i表示支持集的第i個第一人稱視頻樣本；

24、將第三融合特征在第二個維度上的最后1個視頻特征與查詢集的第一中間視頻特征沿著通道維度進行拼接得到查詢集的第一融合特征fp∈rm×1×f×2c，進而得到每個查詢集樣本的第一融合特征j表示查詢集的第j個第一人稱視頻樣本；

25、采用一維卷積對支持集樣本的第一融合特征或查詢集樣本的第一融合特征沿著通道維度進一步聚合，使其通道維度與映射器輸入特征的通道維度相同，得到支持集樣本或查詢集樣本的時空視頻特征。

26、優選地，所述計算查詢集中第一人稱視頻樣本和支持集的匹配分數包括：

27、

28、d(xq,sn)＝max(d(xq,sn),d(sn,xq))

29、其中，dm(·)表示馬氏距離，xq表示查詢集樣本，表示支持集，xin表示支持集sn中的第i個第一人稱視頻樣本，yi表示樣本的用戶行為類別，n表示支持集中所有樣本的用戶行為類別為n，f(xq)表示查詢樣本xq的多尺度視頻特征，表示支持集樣本的多尺度視頻特征；score(xq,sn)表示查詢樣本xq和支持集sn的匹配分數。

30、優選地，所述根據匹配分數識別用戶的行為類別包括：選擇匹配分數最大的支持集sn的用戶行為類別n作為查詢樣本xq的用戶行為類別。

<本文檔來自技高網...

【技術保護點】

1.一種基于小樣本學習的第一人稱行為識別方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述特征提取模塊包括：ResNet50、以及與ResNet50每個階段對應的特征融合支路；

3.根據權利要求2所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述特征融合支路將輸入的所有視頻幀特征分別在空間維度上展平，將所有展平后的視頻幀特征輸入映射器進行時空信息融合生成時空視頻特征；將時空視頻特征進行平均池化處理得到特征提取支路的輸出特征。

4.根據權利要求3所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述映射器將所有展平后的視頻幀特征作為輸入序列進行單頭自注意力操作得到空間視頻幀特征序列；將空間視頻幀特征序列進行平均池化操作得到空間池化視頻幀特征序列；將空間池化視頻幀特征序列中的所有特征元素進行拼接得到初始視頻特征；將初始視頻特征輸入MLP-Mixer進行處理得到時間視頻特征；將時間視頻特征依次進行擴展-拼接-卷積操作生成時空視頻特征。

5.根據權利要

6.根據權利要求4所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述將時間視頻特征依次進行擴展-拼接-卷積操作生成時空視頻特征包括：

7.根據權利要求1所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述計算查詢集中第一人稱視頻樣本和支持集的匹配分數包括：

8.根據權利要求7所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述根據匹配分數識別用戶的行為類別包括：選擇匹配分數最大的支持集Sn的用戶行為類別n作為查詢樣本xq的用戶行為類別。

9.一種基于小樣本學習的第一人稱行為識別裝置，包括存儲器、處理器以及存儲在所述存儲器中并能夠在所述處理器上運行的計算機程序，其特征在于，所述處理器被配置為能夠在執行所述計算機程序時實現權利要求1-8中任一項所述的一種基于小樣本學習的第一人稱行為識別方法。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時能夠實現權利要求1-8中任一項所述的一種基于小樣本學習的第一人稱行為識別方法。

...

【技術特征摘要】

1.一種基于小樣本學習的第一人稱行為識別方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述特征提取模塊包括：resnet50、以及與resnet50每個階段對應的特征融合支路；

4.根據權利要求3所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述映射器將所有展平后的視頻幀特征作為輸入序列進行單頭自注意力操作得到空間視頻幀特征序列；將空間視頻幀特征序列進行平均池化操作得到空間池化視頻幀特征序列；將空間池化視頻幀特征序列中的所有特征元素進行拼接得到初始視頻特征；將初始視頻特征輸入mlp-mixer進行處理得到時間視頻特征；將時間視頻特征依次進行擴展-拼接-卷積操作生成時空視頻特征。

5.根據權利要求4所述的一種基于小樣本學習的第一人稱行為識別方法，其特征在于，所述mlp-mixer包括：token-mixing?mlp和channel-mixing?mlp；所述token-mixing?mlp的輸入特征為初始視頻特征的轉...

【專利技術屬性】
技術研發人員：譚卓林，高陳強，李欣霖，
申請(專利權)人：重慶郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術