基于檢索增強的多模態提示學習方法技術

技術編號：44495969 閱讀：3 留言：0更新日期：2025-03-04 18:03

本發明專利技術公開了基于檢索增強的多模態提示學習方法，能夠同時對齊VLMs的文本編碼器和視覺編碼器，采用檢索增強策略，通過交叉注意力機制(Cross?Attention)捕獲跨模態信息，實現高效的多模態交互，基于跨模態信息生成自適應嵌入提示，以靈活對齊多模態表示空間，引入了可學習向量庫(LTL)，進一步優化提示生成效果，確保在各種場景中的卓越性能，能夠通過檢索增強策略和跨模態協同感知技術增強自適應提示的準確性，并結合可學習向量庫，實現多模態信息的高效交互，降低微調所需的計算資源，顯著提升了模型的泛化能力和復雜任務的處理性能，為大規模預訓練VLMs的高效適應與優化提供了新的解決方案。

全部詳細技術資料下載

【技術實現步驟摘要】

【】本專利技術涉及提示學習的，特別是基于檢索增強的多模態提示學習方法的。

技術介紹

0、
技術介紹

1、視覺-語言模型(vision-language?models,vlms)在多個下游任務中展現了卓越的性能。這些模型通過同時訓練圖像編碼器和文本編碼器，將視覺和語言信息投射到共享的特征空間，從而捕捉兩者之間的深層語義關聯。例如，clip通過對4億對文本-圖像對進行對比學習，顯著提升了模型在多任務處理中的表現。然而，這些模型對輸入提示的敏感性和巨大的計算資源需求，限制了其廣泛應用。

2、為了解決上述問題，研究者們提出了一個輕量級的方法——提示學習(promptlearning)。提示學習源于自然語言處理(nlp)領域，通過引入可學習的提示向量，在保持預訓練模型參數不變的情況下，使模型能夠適應不同的下游任務。coop和cocoop等方法通過使用可學習的連續向量顯著提升了文本嵌入效果；視覺提示(visual?prompt,vp)在圖像編碼器的輸入端添加可學習的提示向量，增強了模型對視覺信息的理解。然而，現有的提示學習方法主要集中在單模態，未能充分發揮vlms的多模態協同優勢。

技術實現思路

0、
技術實現思路

1、本專利技術的目的就是解決現有技術中的問題，提出基于檢索增強的多模態提示學習方法，能夠通過檢索增強策略和跨模態協同感知技術增強自適應提示的準確性，并結合可學習向量庫，實現多模態信息的高效交互，降低微調所需的計算資源，顯著提升了模型的泛化能力

2、為實現上述目的，本專利技術提出了基于檢索增強的多模態提示學習方法，包括以下步驟：

3、s1：給定輸入圖像和預訓練的視覺模型，通過輕量級特征提取器(lfe)捕捉關鍵特征后后導入視覺提示生成器(vpg)，視覺提示生成器(vpg)通過可學習向量庫(ltl)索歷史數據和任務相關信息，通過交叉注意力機制(cross-attention)捕獲并融合跨模信息生成視覺提示信息，將視覺提示信息添加到輸入圖像形成視覺提示圖像，將視覺提示圖像凍結到視覺編碼器中；

4、s2：給定輸入文本和預訓練的文本模型，編碼構建文本特征后導入文本提示生成器(tpg)，文本提示生成器(tpg)通過可學習向量庫(ltl)索歷史數據和任務相關信息，通過交叉注意力機制(cross-attention)捕獲并融合跨模信息生成文本提示信息，將文本提示信息凍結到文本編碼器中；

5、s3：將視覺編碼器中凍結的視覺提示圖像和文本編碼器凍結中的文本提示信息進行交叉融合生成自適應提示信息。

6、作為優選，所述步驟s1中，給定輸入圖像ii∈r3×h×w和預訓練的視覺模型φv，將圖像分割成s×s個小塊，得到{p1,p2,···,ps×s}，其中每個小塊使用線性層l(·)對小塊進行編碼，構建視覺輸入；視覺提示生成器(vpg)由一個輕量級的神經網絡g(.)和可學習向量庫(ltl)實現，g(.)通過深度可分離卷積將圖像轉換為特征向量fi∈rl×c,l是特征序列長度，c是特征維度，可學習向量庫(ltl)：lv∈rn×c，它包含n個可學習的特征向量，每個特征向量維度為c，通過交叉注意力機制將這些圖像特征與可學習向量庫(ltl)生成的k個視覺提示向量在此過程中，圖像特征fi作為查詢向量q，視覺token庫lv作為鍵k和值v，提示生成的具體計算如下：

7、

8、其中g(·)表示從r3×h×w到rk×n的學習映射，最終將提示信息添加到輸入圖像以形成視覺提示圖像向量輸入到凍結的視覺編碼器中，生成潛在的視覺特征作為輸入傳遞到下游任務中。

9、作為優選，所述步驟s2中，給定輸入文本ti∈rl和預訓練的語言模型φt，其中l是文本長度，將文本分割成k個子詞，得到{t1,t2,···,tk}，其中每個子詞ti∈rd，d是詞嵌入維度，使用嵌入層e(·)對子詞進行編碼，構建文本輸入；文本提示生成器(tpg)由類別文本ci和可學習向量庫(ltl)協同實現，通過e(·)將類別文本ci∈rl×c轉換為嵌入向量ti＝e(ci)，其中l是文本序列長度，c是嵌入維度，對嵌入向量ti和可學習向量庫lt進行拼接形成pi＝(ti；lt)∈r(l+n)×c，通過交叉注意力機制(cross-attention)對ti和pi進行文本處理，生成最終的k個文本提示向量在此過程中，文本token庫lt作為查詢向量q，pi作為鍵k和值v，提示生成的具體計算如下：

10、

11、最終生成的文本提示向量和原始類別文本嵌入向量進行融合，得到增強后的文本特征表示：

12、

13、本專利技術的有益效果：本專利技術能夠同時對齊vlms的文本編碼器和視覺編碼器，采用檢索增強策略，通過交叉注意力機制(cross-attention)捕獲跨模態信息，實現高效的多模態交互，基于跨模態信息生成自適應嵌入提示，以靈活對齊多模態表示空間，引入了可學習向量庫(ltl)，進一步優化提示生成效果，確保在各種場景中的卓越性能，能夠通過檢索增強策略和跨模態協同感知技術增強自適應提示的準確性，并結合可學習向量庫，實現多模態信息的高效交互，降低微調所需的計算資源，顯著提升了模型的泛化能力和復雜任務的處理性能，為大規模預訓練vlms的高效適應與優化提供了新的解決方案。

14、本專利技術的特征及優點將通過實施例結合附圖進行詳細說明。

本文檔來自技高網...

【技術保護點】

1.基于檢索增強的多模態提示學習方法，其特征在于：包括以下步驟：

2.如權利要求1所述的基于檢索增強的多模態提示學習方法，其特征在于：所述步驟S1中，給定輸入圖像Ii∈R3×H×W和預訓練的視覺模型ΦV，將圖像分割成s×s個小塊，得到{p1,p2,···,ps×s}，其中每個小塊使用線性層L(·)對小塊進行編碼，構建視覺輸入；視覺提示生成器(VPG)由一個輕量級的神經網絡g(.)和可學習向量庫(LTL)實現，g(.)通過深度可分離卷積將圖像轉換為特征向量Fi∈RL×C,L是特征序列長度，C是特征維度，可學習向量庫(LTL)：LV∈RN×C，它包含N個可學習的特征向量，每個特征向量維度為C，通過交叉注意力機制將這些圖像特征與可學習向量庫(LTL)生成的K個視覺提示向量在此過程中，圖像特征Fi作為查詢向量Q，視覺Token庫LV作為鍵K和值V，提示生成的具體計算如下：

3.如權利要求1所述的基于檢索增強的多模態提示學習方法，其特征在于：所述步驟S2中，給定輸入文本Ti∈RL和預訓練的語言模型ΦT，其中L是文本長度，將文本分割成K個子詞，得到{t1,t2,···

...

【技術特征摘要】

1.基于檢索增強的多模態提示學習方法，其特征在于：包括以下步驟：

2.如權利要求1所述的基于檢索增強的多模態提示學習方法，其特征在于：所述步驟s1中，給定輸入圖像ii∈r3×h×w和預訓練的視覺模型φv，將圖像分割成s×s個小塊，得到{p1,p2,···,ps×s}，其中每個小塊使用線性層l(·)對小塊進行編碼，構建視覺輸入；視覺提示生成器(vpg)由一個輕量級的神經網絡g(.)和可學習向量庫(ltl)實現，g(.)通過深度可分離卷積將圖像轉換為特征向量fi∈rl×c,l是特征序列長度，c是特征維度，可學習向量庫(ltl)：lv∈rn×c，它包含n個可學習的特征向量，每個特征向量維度為c，通過交叉注意力機制將這些圖像特征與可學習向量庫(ltl)生成的k個視覺提示向量在此過程中，圖像特征fi作為查詢向量q，視覺token庫lv作為鍵k和值v，提示生成的具...

【專利技術屬性】
技術研發人員：樓俊鋼，宋向，王胤，
申請(專利權)人：湖州師范學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術