System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲一本大道无码av天堂,永久免费无码网站在线观看个,蜜臀AV无码一区二区三区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    圖像大模型驅動的視頻行為識別時空參數高效微調方法技術

    技術編號:43173831 閱讀:14 留言:0更新日期:2024-11-01 20:02
    本發明專利技術公開了一種圖像大模型驅動的視頻行為識別時空參數高效微調方法,包括:S1:建立以圖像大模型為基礎加入視頻時空建模遷移至視頻任務的框架;S2:建立針對視頻行為識別的模塊內時空適配器;S3:建立一種時空分離的雙分支時空適配結構;S4:建立在低秩空間操作的時空建模單元;S5:建立具有時間特征選擇和控制功能的門控單元;S6:利用服務器構建包含S1?S5的視頻行為識別模型后,建立一種大模型主分支凍結僅新加參數學習的訓練機制,對該網絡模型進行訓練,通過降低網絡損失函數優化網絡參數,直至網絡收斂;S7:針對待處理的視頻序列,利用網絡模型進行視頻中的行為識別。采用本方法能在視頻中準確快速識別人類的行為。

    【技術實現步驟摘要】

    本專利技術屬于計算機視覺的,具體涉及一種圖像大模型驅動的視頻行為識別時空參數高效微調方法


    技術介紹

    1、基于視覺transformer(vit)的視頻動作識別方法主要可以分為三類:(1)完全訓練/微調專門的視頻模型,這涉及到直接設計具有專門時空建模結構的視頻基礎模型或視頻訓練策略,并需要完全訓練或微調整個模型。(2)從大規模圖像模型如clip進行整個網絡的微調適配,這包括在強大的預訓練圖像vits上添加時空嵌入模塊,然后完全微調整個模型。(3)從凍結的大規模圖像模型如clip進行參數高效遷移(peft)適配,這涉及在強大的凍結圖像模型中插入時空編碼塊或參數,但只專注于學習這些添加的模塊。

    2、第一類通常需要對整個網絡模型的所有參數進行預訓練,導致參數量巨大、訓練周期長以及計算開銷大。不出所料,這種方法已經實現了最先進的性能。隨著像clip這樣的大規模多模態模型越來越普及,第二類中的最新方法采用clip作為基線,并將其作為良好的參數初始化,以減少訓練時間和降低訓練難度。相比于第一類,訓練周期有所縮短,但由于仍需微調整個模型,訓練時間依然相對較長。第三種方法在成本效益方面表現更好,只需學習少量的參數即可取得不錯的性能。正如圖1a和圖1b所示,總體而言,這三類方法的性能和所需學習參數量的順序為:1>2>3。這引發了一個問題,能否逆轉這一趨勢?第三類peft方法能否在最小參數量的情況下實現最佳性能?

    3、與第一類和第二類方法相比,peft方法在性能上存在明顯差距,并且有很大的改進空間。那么是什么限制了基于peft方法的性能?直觀上,可能的原因主要來自三個方面:(i)可學習參數的數量,(ii)時空適配模塊的放置位置,以及(iii)它們的結構配置。使用代表性的st-adapter通過調整其適配器的瓶頸寬度來驗證原因(i)。而當超過一定的參數數量閾值(約15m)后,性能沒有繼續提高。因此,可以排除原因(i)。接下來,再看原因(ii)。當前基于peft的方法主要在塊級別操作,保持clip的多頭自注意力(mhsa)塊和多層感知器(mlp)塊不變,同時在外部添加各種提示或時空適配器。這些重新利用clip的方法比較粗略,因為它們沒有深入探索transformer核心的mhsa和mlp模塊內部的架構。另一方面,一種模塊內適配方法lora在語言和圖像任務中表現出色。然而,由于缺乏時空建模,lora在視頻動作識別任務中未能脫穎而出。因此,本專利技術推測(ii)是限制當前peft范式的一個重要因素。原因(iii)在一些最新的工作中得到了探索,確實帶來了一些性能提升,但提升幅度有限。這些方法往往集中于如何整合時空特征,忽略了另一個關鍵問題:是否所有的時空適配應該具有相同的強度?可以看出,后兩個原因都是決定性能的關鍵因素,需要對這兩個因素進行重點考慮與改進,以進一步提升第三類peft方法的性能,同時使得可學習參數量遠少于整個網絡的參數。


    技術實現思路

    1、為了實現以上目的,本專利技術提供了一種圖像大模型驅動的視頻行為識別時空參數高效微調方法,能實現在圖像模型的基礎上僅添加少量可學習參數就能實現快速高效遷移至視頻行為識別任務。

    2、本專利技術采用以下技術方案:圖像大模型驅動的視頻行為識別時空參數高效微調方法,包括以下步驟:

    3、s1:建立以圖像大模型為基礎加入視頻時空建模遷移至視頻任務的框架;

    4、s2:建立針對視頻行為識別的模塊內時空適配器;

    5、s3:建立一種時空分離的雙分支時空適配結構;

    6、s4:建立在低秩空間操作的時空建模單元;

    7、s5:建立具有時間特征選擇和控制功能的門控單元;

    8、s6:在s1的框架下構建一個視頻行為識別模型,包括模塊內時空適配器、時空分離的雙分支時空適配結構、在低秩空間操作的時空建模單元、以及具有時間特征選擇和控制功能的門控單元;構建完成該視頻行為識別的網絡模型后,構建一種大模型主分支凍結僅新加參數學習的訓練機制,利用服務器對網絡模型進行訓練,通過降低網絡損失函數優化網絡參數,直至網絡收斂;s7:針對待處理的視頻序列,利用網絡模型進行視頻中人類行為的識別。進一步的,步驟s1具體包括:

    9、s11:建立一個以圖像大模型clip為基礎的視頻特征提取網絡,將給定的視頻首先進行抽幀,通常均勻采樣,抽偶數幀,同時輸入到所述特征提取網絡,進行單幀特征提取并同時進行不同幀之間的時空交互融合,最后在時序維度進行平均池化,輸出視頻特征;

    10、s12:將視頻特征輸入到線性分類層,得到并輸出分類結果,分類結果即對應行為的類別。

    11、更進一步的,步驟s2中模塊內時空適配器的實現過程如下:

    12、s21:首先是針對輸入的視頻特征x,在進入多頭注意力機制層(mhsa),進行注意力計算之前,首先在q、k、v三者對應的原始模型線性層wq,wk,wv側,進行各自的時空適配st-ad:

    13、q,k,v=xwq+st-adq(x);xwk+st-adk(x);xwv+st-adv(x);

    14、s22:得到q、k、v后,針對第h個注意力頭,計算注意力矩陣ah:

    15、

    16、s23:計算多頭注意力,最后得到的注意力矩陣amh為:

    17、amh=concat(a1,a2,...,ah);

    18、其中,concat表示從通道進行拼接操作;

    19、s24:針對mhsa的輸出線性層wout,同樣添加時空適配器st-ado:

    20、mhsa(x)=amhwout+st-ado(amh),

    21、其中mhsa(x)為多頭注意力機制層的輸出。

    22、更進一步的,步驟s3中時空分離的雙分支時空適配結構的實現過程如下:

    23、s31:針對輸入的視頻特征x,進行時間適配t-ad:

    24、

    25、其中conv1d表示在時序維度進行一維時序卷積;和分別表示時間適配器中的升維、降維線性層;

    26、s32:針對輸入的視頻特征x,進行空間適配s-ad:

    27、

    28、其中和分別表示空間適配器中的升維、降維線性層;

    29、s33:s31和s32中的時間、空間適配器形成雙分子結構,獲得時空適配器st-ad:

    30、st-ad(x)=t-ad(x)+s-ad(x)。

    31、更進一步的,步驟s4中在低秩空間操作的時空建模單元指對于s3中的時間或空間適配器降維投影線性層wdn、升維投影線性層wup,用來調整原始線性層的權重設定和其中秩r遠小于r<<min(d1,d2)。

    32、更進一步的,步驟s5中具有時間特征選擇和控制功能的門控單元的實現過程如下:

    33、s51:針對輸入的視頻特征x,與s4所述低秩空間一致,首先用一個線性層進行特征降維;

    34、s52:引入一個激活函數本文檔來自技高網...

    【技術保護點】

    1.圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S1具體包括:

    3.根據權利要求2所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S2中模塊內時空適配器的實現過程如下:

    4.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S3中時空分離的雙分支時空適配結構的實現過程如下:

    5.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S4中在低秩空間操作的時空建模單元指對于S3中的時間或空間適配器降維投影線性層Wdn、升維投影線性層Wup,用來調整原始線性層的權重設定和其中秩r遠小于r<<min(d1,d2)。

    6.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S5中具有時間特征選擇和控制功能的門控單元的實現過程如下:

    7.根據權利要求3、4、5或6所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,所述步驟S1的以圖像大模型為基礎加入視頻時空建模遷移至視頻任務的框架中,步驟S11所述特征提取器包含12個Transformer層;每個Transformer層依次包含一個歸一化層(LN),一個MHSA單元,一個LN層,一個多層線性感知單元(MLP);

    8.根據權利要求7所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S6具體包括:

    9.根據權利要求8所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟S7具體包括:

    10.根據權利要求2所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,所述的輸入幀為8,16或者32幀。

    ...

    【技術特征摘要】

    1.圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟s1具體包括:

    3.根據權利要求2所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟s2中模塊內時空適配器的實現過程如下:

    4.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟s3中時空分離的雙分支時空適配結構的實現過程如下:

    5.根據權利要求1所述的圖像大模型驅動的視頻行為識別時空參數高效微調方法,其特征在于,步驟s4中在低秩空間操作的時空建模單元指對于s3中的時間或空間適配器降維投影線性層wdn、升維投影線性層wup,用來調整原始線性層的權重設定和其中秩r遠小于r<<min(d1,d2)。

    6.根據權利要求1所述的圖像大模型驅動的視頻行...

    【專利技術屬性】
    技術研發人員:王蒙蒙沈國江孔祥杰杜嘉欣劉志
    申請(專利權)人:浙江工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产亚洲情侣一区二区无码AV| av色欲无码人妻中文字幕| 九九无码人妻一区二区三区| 国产精品无码久久综合网| 国产综合无码一区二区三区| 亚欧无码精品无码有性视频| 久久国产精品无码网站| 乱人伦中文无码视频在线观看| 噜噜综合亚洲AV中文无码| 人妻丰满熟妇AV无码片| 亚洲 无码 在线 专区| 亚洲精品无码久久| 国产V亚洲V天堂无码| 久青草无码视频在线观看| 97久久精品无码一区二区 | 国产成人无码a区在线观看视频免费| 亚洲国产精品无码久久久不卡| 成人免费无遮挡无码黄漫视频 | 亚洲AV无码国产剧情| 69堂人成无码免费视频果冻传媒| 台湾无码AV一区二区三区| 无码av中文一二三区| 免费无码专区毛片高潮喷水| 亚洲精品无码一区二区| 亚洲精品天堂无码中文字幕| 久久久久亚洲av无码专区| 无码欧精品亚洲日韩一区| 无码人妻精品一区二区三区东京热| 中文字幕人妻无码专区| 亚洲色无码专区在线观看| 亚洲av中文无码乱人伦在线播放| 熟妇人妻中文a∨无码| 中文字幕乱码人妻无码久久| 国产成人麻豆亚洲综合无码精品| 国产又爽又黄无码无遮挡在线观看| 狠狠躁夜夜躁无码中文字幕| 成人A片产无码免费视频在线观看| 中文字幕无码日韩专区免费| 国产V亚洲V天堂A无码| 久久午夜福利无码1000合集| AV无码精品一区二区三区|