圖像大模型驅動的視頻行為識別時空參數高效微調方法技術

技術編號：43173831 閱讀：14 留言：0更新日期：2024-11-01 20:02

本發明專利技術公開了一種圖像大模型驅動的視頻行為識別時空參數高效微調方法，包括：S1：建立以圖像大模型為基礎加入視頻時空建模遷移至視頻任務的框架；S2：建立針對視頻行為識別的模塊內時空適配器；S3：建立一種時空分離的雙分支時空適配結構；S4：建立在低秩空間操作的時空建模單元；S5：建立具有時間特征選擇和控制功能的門控單元；S6：利用服務器構建包含S1?S5的視頻行為識別模型后，建立一種大模型主分支凍結僅新加參數學習的訓練機制，對該網絡模型進行訓練，通過降低網絡損失函數優化網絡參數，直至網絡收斂；S7：針對待處理的視頻序列，利用網絡模型進行視頻中的行為識別。采用本方法能在視頻中準確快速識別人類的行為。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于計算機視覺的，具體涉及一種圖像大模型驅動的視頻行為識別時空參數高效微調方法。

技術介紹

1、基于視覺transformer(vit)的視頻動作識別方法主要可以分為三類：(1)完全訓練/微調專門的視頻模型，這涉及到直接設計具有專門時空建模結構的視頻基礎模型或視頻訓練策略，并需要完全訓練或微調整個模型。(2)從大規模圖像模型如clip進行整個網絡的微調適配，這包括在強大的預訓練圖像vits上添加時空嵌入模塊，然后完全微調整個模型。(3)從凍結的大規模圖像模型如clip進行參數高效遷移(peft)適配，這涉及在強大的凍結圖像模型中插入時空編碼塊或參數，但只專注于學習這些添加的模塊。

2、第一類通常需要對整個網絡模型的所有參數進行預訓練，導致參數量巨大、訓練周期長以及計算開銷大。不出所料，這種方法已經實現了最先進的性能。隨著像clip這樣的大規模多模態模型越來越普及，第二類中的最新方法采用clip作為基線，并將其作為良好的參數初始化，以減少訓練時間和降低訓練難度。相比于第一類，訓練周期有所縮短，但由于仍需微調整個模型，訓練時間依然相對較長。第三種方法在成本效益方面表現更好，只需學習少量的參數即可取得不錯的性能。正如圖1a和圖1b所示，總體而言，這三類方法的性能和所需學習參數量的順序為：1>2>3。這引發了一個問題，能否逆轉這一趨勢？第三類peft方法能否在最小參數量的情況下實現最佳性能？

3、與第一類和第二類方法相比，peft方法在性能上存在明顯差距，并且有很大的改進空間。那么是什么限制

技術實現思路

1、為了實現以上目的，本專利技術提供了一種圖像大模型驅動的視頻行為識別時空參數高效微調方法，能實現在圖像模型的基礎上僅添加少量可學習參數就能實現快速高效遷移至視頻行為識別任務。

2、本專利技術采用以下技術方案：圖像大模型驅動的視頻行為識別時空參數高效微調方法，包括以下步驟：

3、s1：建立以圖像大模型為基礎加入視頻時空建模遷移至視頻任務的框架；

4、s2：建立針對視頻行為識別的模塊內時空適配器；

5、s3：建立一種時空分離的雙分支時空適配結構；

6、s4：建立在低秩空間操作的時空建模單元；

7、s5：建立具有時間特征選擇和控制功能的門控單元；

8、s6：在s1的框架下構建一個視頻行為識別模型，包括模塊內時空適配器、時空分離的雙分支時空適配結構、在低秩空間操作的時空建模單元、以及具有時間特征選擇和控制功能的門控單元；構建完成該視頻行為識別的網絡模型后，構建一種大模型主分支凍結僅新加參數學習的訓練機制，利用服務器對網絡模型進行訓練，通過降低網絡損失函數優化網絡參數，直至網絡收斂；s7：針對待處理的視頻序列，利用網絡模型進行視頻中人類行為的識別。進一步的，步驟s1具體包括：

9、s11：建立一個以圖像大模型clip為基礎的視頻特征提取網絡，將給定的視頻首先進行抽幀，通常均勻采樣，抽偶數幀，同時輸入到所述特征提取網絡，進行單幀特征提取并同時進行不同幀之間的時空交互融合，最后在時序維度進行平均池化，輸出視頻特征；

10、s12：將視頻特征輸入到線性分類層，得到并輸出分類結果，分類結果即對應行為的類別。

11、更進一步的，步驟s2中模塊內時空適配器的實現過程如下：

12、s21：首先是針對輸入的視頻特征x，在進入多頭注意力機制層(mhsa)，進行注意力計算之前，首先在q、k、v三者對應的原始模型線性層wq，wk，wv側，進行各自的時空適配st-ad：

13、q，k，v＝xwq+st-adq(x)；xwk+st-adk(x)；xwv+st-adv(x)；

14、s22：得到q、k、v后，針對第h個注意力頭，計算注意力矩陣ah：

15、

16、s23：計算多頭注意力，最后得到的注意力矩陣amh為：

17、amh＝concat(a1，a2，...，ah)；

18、其中，concat表示從通道進行拼接操作；

19、s24：針對mhsa的輸出線性層wout，同樣添加時空適配器st-ado：

20、mhsa(x)＝amhwout+st-ado(amh)，

21、其中mhsa(x)為多頭注意力機制層的輸出。

22、更進一步的，步驟s3中時空分離的雙分支時空適配結構的實現過程如下：

23、s31：針對輸入的視頻特征x，進行時間適配t-ad：

24、

25、其中conv1d表示在時序維度進行一維時序卷積；和分別表示時間適配器中的升維、降維線性層；

26、s32：針對輸入的視頻特征x，進行空間適配s-ad：

27、

28、其中和分別表示空間適配器中的升維、降維線性層；

29、s33：s31和s32中的時間、空間適配器形成雙分子結構，獲得時空適配器st-ad：

30、st-ad(x)＝t-ad(x)+s-ad(x)。

31、更進一步的，步驟s4中在低秩空間操作的時空建模單元指對于s3中的時間或空間適配器降維投影線性層wdn、升維投影線性層wup，用來調整原始線性層的權重設定和其中秩r遠小于r＜＜min(d1，d2)。

32、更進一步的，步驟s5中具有時間特征選擇和控制功能的門控單元的實現過程如下：

33、s51：針對輸入的視頻特征x，與s4所述低秩空間一致,首先用一個線性層進行特征降維；

34、s52：引入一個激活函數本文檔來自技高網...

【技術保護點】

1.圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S1具體包括：

3.根據權利要求2所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S2中模塊內時空適配器的實現過程如下：

4.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S3中時空分離的雙分支時空適配結構的實現過程如下：

5.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S4中在低秩空間操作的時空建模單元指對于S3中的時間或空間適配器降維投影線性層Wdn、升維投影線性層Wup，用來調整原始線性層的權重設定和其中秩r遠小于r＜＜min(d1，d2)。

6.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S5中具有時間特征選擇和控制功能的門控單元的實現過程如下：

7.根據權利要求3、4、5或6所述的圖像

8.根據權利要求7所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S6具體包括：

9.根據權利要求8所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟S7具體包括：

10.根據權利要求2所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，所述的輸入幀為8，16或者32幀。

...

【技術特征摘要】

1.圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟s1具體包括：

3.根據權利要求2所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟s2中模塊內時空適配器的實現過程如下：

4.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟s3中時空分離的雙分支時空適配結構的實現過程如下：

5.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法，其特征在于，步驟s4中在低秩空間操作的時空建模單元指對于s3中的時間或空間適配器降維投影線性層wdn、升維投影線性層wup，用來調整原始線性層的權重設定和其中秩r遠小于r＜＜min(d1，d2)。

6.根據權利要求1所述的圖像大模型驅動的視頻行...

【專利技術屬性】
技術研發人員：王蒙蒙，沈國江，孔祥杰，杜嘉欣，劉志，
申請(專利權)人：浙江工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術