System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品无码DVD在线观看,亚洲日韩乱码中文无码蜜桃臀,亚洲av无码成人精品国产
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于檢索增強的多模態提示學習方法技術

    技術編號:44495969 閱讀:3 留言:0更新日期:2025-03-04 18:03
    本發明專利技術公開了基于檢索增強的多模態提示學習方法,能夠同時對齊VLMs的文本編碼器和視覺編碼器,采用檢索增強策略,通過交叉注意力機制(Cross?Attention)捕獲跨模態信息,實現高效的多模態交互,基于跨模態信息生成自適應嵌入提示,以靈活對齊多模態表示空間,引入了可學習向量庫(LTL),進一步優化提示生成效果,確保在各種場景中的卓越性能,能夠通過檢索增強策略和跨模態協同感知技術增強自適應提示的準確性,并結合可學習向量庫,實現多模態信息的高效交互,降低微調所需的計算資源,顯著提升了模型的泛化能力和復雜任務的處理性能,為大規模預訓練VLMs的高效適應與優化提供了新的解決方案。

    【技術實現步驟摘要】

    【】本專利技術涉及提示學習的,特別是基于檢索增強的多模態提示學習方法的。


    技術介紹

    0、
    技術介紹

    1、視覺-語言模型(vision-language?models,vlms)在多個下游任務中展現了卓越的性能。這些模型通過同時訓練圖像編碼器和文本編碼器,將視覺和語言信息投射到共享的特征空間,從而捕捉兩者之間的深層語義關聯。例如,clip通過對4億對文本-圖像對進行對比學習,顯著提升了模型在多任務處理中的表現。然而,這些模型對輸入提示的敏感性和巨大的計算資源需求,限制了其廣泛應用。

    2、為了解決上述問題,研究者們提出了一個輕量級的方法——提示學習(promptlearning)。提示學習源于自然語言處理(nlp)領域,通過引入可學習的提示向量,在保持預訓練模型參數不變的情況下,使模型能夠適應不同的下游任務。coop和cocoop等方法通過使用可學習的連續向量顯著提升了文本嵌入效果;視覺提示(visual?prompt,vp)在圖像編碼器的輸入端添加可學習的提示向量,增強了模型對視覺信息的理解。然而,現有的提示學習方法主要集中在單模態,未能充分發揮vlms的多模態協同優勢。


    技術實現思路

    0、
    技術實現思路

    1、本專利技術的目的就是解決現有技術中的問題,提出基于檢索增強的多模態提示學習方法,能夠通過檢索增強策略和跨模態協同感知技術增強自適應提示的準確性,并結合可學習向量庫,實現多模態信息的高效交互,降低微調所需的計算資源,顯著提升了模型的泛化能力和復雜任務的處理性能,為大規模預訓練vlms的高效適應與優化提供了新的解決方案。

    2、為實現上述目的,本專利技術提出了基于檢索增強的多模態提示學習方法,包括以下步驟:

    3、s1:給定輸入圖像和預訓練的視覺模型,通過輕量級特征提取器(lfe)捕捉關鍵特征后后導入視覺提示生成器(vpg),視覺提示生成器(vpg)通過可學習向量庫(ltl)索歷史數據和任務相關信息,通過交叉注意力機制(cross-attention)捕獲并融合跨模信息生成視覺提示信息,將視覺提示信息添加到輸入圖像形成視覺提示圖像,將視覺提示圖像凍結到視覺編碼器中;

    4、s2:給定輸入文本和預訓練的文本模型,編碼構建文本特征后導入文本提示生成器(tpg),文本提示生成器(tpg)通過可學習向量庫(ltl)索歷史數據和任務相關信息,通過交叉注意力機制(cross-attention)捕獲并融合跨模信息生成文本提示信息,將文本提示信息凍結到文本編碼器中;

    5、s3:將視覺編碼器中凍結的視覺提示圖像和文本編碼器凍結中的文本提示信息進行交叉融合生成自適應提示信息。

    6、作為優選,所述步驟s1中,給定輸入圖像ii∈r3×h×w和預訓練的視覺模型φv,將圖像分割成s×s個小塊,得到{p1,p2,···,ps×s},其中每個小塊使用線性層l(·)對小塊進行編碼,構建視覺輸入;視覺提示生成器(vpg)由一個輕量級的神經網絡g(.)和可學習向量庫(ltl)實現,g(.)通過深度可分離卷積將圖像轉換為特征向量fi∈rl×c,l是特征序列長度,c是特征維度,可學習向量庫(ltl):lv∈rn×c,它包含n個可學習的特征向量,每個特征向量維度為c,通過交叉注意力機制將這些圖像特征與可學習向量庫(ltl)生成的k個視覺提示向量在此過程中,圖像特征fi作為查詢向量q,視覺token庫lv作為鍵k和值v,提示生成的具體計算如下:

    7、

    8、其中g(·)表示從r3×h×w到rk×n的學習映射,最終將提示信息添加到輸入圖像以形成視覺提示圖像向量輸入到凍結的視覺編碼器中,生成潛在的視覺特征作為輸入傳遞到下游任務中。

    9、作為優選,所述步驟s2中,給定輸入文本ti∈rl和預訓練的語言模型φt,其中l是文本長度,將文本分割成k個子詞,得到{t1,t2,···,tk},其中每個子詞ti∈rd,d是詞嵌入維度,使用嵌入層e(·)對子詞進行編碼,構建文本輸入;文本提示生成器(tpg)由類別文本ci和可學習向量庫(ltl)協同實現,通過e(·)將類別文本ci∈rl×c轉換為嵌入向量ti=e(ci),其中l是文本序列長度,c是嵌入維度,對嵌入向量ti和可學習向量庫lt進行拼接形成pi=(ti;lt)∈r(l+n)×c,通過交叉注意力機制(cross-attention)對ti和pi進行文本處理,生成最終的k個文本提示向量在此過程中,文本token庫lt作為查詢向量q,pi作為鍵k和值v,提示生成的具體計算如下:

    10、

    11、最終生成的文本提示向量和原始類別文本嵌入向量進行融合,得到增強后的文本特征表示:

    12、

    13、本專利技術的有益效果:本專利技術能夠同時對齊vlms的文本編碼器和視覺編碼器,采用檢索增強策略,通過交叉注意力機制(cross-attention)捕獲跨模態信息,實現高效的多模態交互,基于跨模態信息生成自適應嵌入提示,以靈活對齊多模態表示空間,引入了可學習向量庫(ltl),進一步優化提示生成效果,確保在各種場景中的卓越性能,能夠通過檢索增強策略和跨模態協同感知技術增強自適應提示的準確性,并結合可學習向量庫,實現多模態信息的高效交互,降低微調所需的計算資源,顯著提升了模型的泛化能力和復雜任務的處理性能,為大規模預訓練vlms的高效適應與優化提供了新的解決方案。

    14、本專利技術的特征及優點將通過實施例結合附圖進行詳細說明。

    本文檔來自技高網...

    【技術保護點】

    1.基于檢索增強的多模態提示學習方法,其特征在于:包括以下步驟:

    2.如權利要求1所述的基于檢索增強的多模態提示學習方法,其特征在于:所述步驟S1中,給定輸入圖像Ii∈R3×H×W和預訓練的視覺模型ΦV,將圖像分割成s×s個小塊,得到{p1,p2,···,ps×s},其中每個小塊使用線性層L(·)對小塊進行編碼,構建視覺輸入;視覺提示生成器(VPG)由一個輕量級的神經網絡g(.)和可學習向量庫(LTL)實現,g(.)通過深度可分離卷積將圖像轉換為特征向量Fi∈RL×C,L是特征序列長度,C是特征維度,可學習向量庫(LTL):LV∈RN×C,它包含N個可學習的特征向量,每個特征向量維度為C,通過交叉注意力機制將這些圖像特征與可學習向量庫(LTL)生成的K個視覺提示向量在此過程中,圖像特征Fi作為查詢向量Q,視覺Token庫LV作為鍵K和值V,提示生成的具體計算如下:

    3.如權利要求1所述的基于檢索增強的多模態提示學習方法,其特征在于:所述步驟S2中,給定輸入文本Ti∈RL和預訓練的語言模型ΦT,其中L是文本長度,將文本分割成K個子詞,得到{t1,t2,···,tK},其中每個子詞ti∈Rd,d是詞嵌入維度,使用嵌入層E(·)對子詞進行編碼,構建文本輸入;文本提示生成器(TPG)由類別文本Ci和可學習向量庫(LTL)協同實現,通過E(·)將類別文本Ci∈RL×C轉換為嵌入向量Ti=E(Ci),其中L是文本序列長度,C是嵌入維度,對嵌入向量Ti和可學習向量庫LT進行拼接形成Pi=(Ti;LT)∈R(L+N)×C,通過交叉注意力機制(Cross-Attention)對Ti和Pi進行文本處理,生成最終的K個文本提示向量在此過程中,文本Token庫LT作為查詢向量Q,Pi作為鍵K和值V,提示生成的具體計算如下:

    ...

    【技術特征摘要】

    1.基于檢索增強的多模態提示學習方法,其特征在于:包括以下步驟:

    2.如權利要求1所述的基于檢索增強的多模態提示學習方法,其特征在于:所述步驟s1中,給定輸入圖像ii∈r3×h×w和預訓練的視覺模型φv,將圖像分割成s×s個小塊,得到{p1,p2,···,ps×s},其中每個小塊使用線性層l(·)對小塊進行編碼,構建視覺輸入;視覺提示生成器(vpg)由一個輕量級的神經網絡g(.)和可學習向量庫(ltl)實現,g(.)通過深度可分離卷積將圖像轉換為特征向量fi∈rl×c,l是特征序列長度,c是特征維度,可學習向量庫(ltl):lv∈rn×c,它包含n個可學習的特征向量,每個特征向量維度為c,通過交叉注意力機制將這些圖像特征與可學習向量庫(ltl)生成的k個視覺提示向量在此過程中,圖像特征fi作為查詢向量q,視覺token庫lv作為鍵k和值v,提示生成的具...

    【專利技術屬性】
    技術研發人員:樓俊鋼,宋向,王胤,
    申請(專利權)人:湖州師范學院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久久久久人妻无码中文字幕爆 | 精品国产性色无码AV网站| 日韩人妻无码一区二区三区| 亚洲AV日韩AV永久无码免下载| a级毛片无码免费真人| 中文AV人妻AV无码中文视频| 国产精品无码一区二区在线| 无码专区狠狠躁躁天天躁| 精品无码黑人又粗又大又长| 久久精品成人无码观看56| av无码一区二区三区| 精品无码久久久久久国产| 老司机亚洲精品影院无码| 国产精品无码成人午夜电影| 无码精品人妻一区二区三区免费| 无码精品A∨在线观看十八禁| 国产成人A亚洲精V品无码| 精品无码专区亚洲| 中日韩亚洲人成无码网站| 久久久久久国产精品无码超碰| 国产爆乳无码一区二区麻豆| 久久久久久国产精品无码下载| 用舌头去添高潮无码视频| 高清无码v视频日本www| 精品日韩亚洲AV无码一区二区三区| 国产aⅴ无码专区亚洲av麻豆| 国产免费黄色无码视频| 国产爆乳无码视频在线观看3| 国产久热精品无码激情| 免费A级毛片无码视频| 无码国产乱人伦偷精品视频| 久久精品无码精品免费专区| 无码日韩精品一区二区免费暖暖| 亚洲欧洲日产国码无码网站| 自拍偷在线精品自拍偷无码专区 | 国产精品无码亚洲一区二区三区 | 无码av天天av天天爽| 无码熟熟妇丰满人妻啪啪软件| 成人无码Av片在线观看| 国产成人无码A区在线观看视频| 久久久久久国产精品无码下载|