基于小樣本提示微調的多模態檢測模型訓練方法和裝置制造方法及圖紙

技術編號：44489288 閱讀：3 留言：0更新日期：2025-03-04 17:53

本公開的實施例涉及目標檢測領域，具體涉及基于小樣本提示微調的多模態檢測模型訓練方法和裝置。該方法的一實施方式包括：獲取訓練樣本集和初始多模態檢測模型；執行訓練步驟：得到文本語義嵌入向量序列，對第一層文本提示向量序列與文本語義嵌入向量序列進行拼接處理，得到初始文本嵌入向量序列；得到圖像塊嵌入向量序列組，對第一層圖像提示向量序列與圖像塊嵌入向量序列進行拼接處理，得到初始圖像嵌入向量序列組；得到圖像文本相似度矩陣組；對各個圖像文本相似度矩陣進行融合處理，得到圖像文本對齊分數矩陣；生成分類標注圖像；確定多模態檢測損失值；確定多模態檢測模型。該實施方式可以降低多模態檢測模型的復雜度，減少計算資源的占用。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開的實施例涉及目標檢測領域，具體涉及基于小樣本提示微調的多模態檢測模型訓練方法和裝置。

技術介紹

1、多模態檢測模型能夠在不依賴大量標注樣本的情況下，實現對未知類別的有效識別。然而當檢測對象在原訓練集中缺乏代表性或存在顯著差異，多模態檢測模型仍會面臨著概念不一致的問題。為解決上述多模態檢測模型面臨的概念不一致的問題，使多模態檢測模型能迅速適應下游檢測任務，研究者們開始探索小樣本微調策略。目前，在通過小樣本微調訓練多模態檢測模型時，通常采用的方式為：保持預訓練模型參數不變，對可學習的文本提示向量和通過元網絡學習的圖像特征進行結合，或者通過類感知視覺提示調優，動態生成類別感知的視覺提示以與原始圖像特征進行融合。

2、然而，實踐中發現，當采用上述方式訓練多模態檢測模型時，經常會存在如下技術問題：

3、若引入元網絡，則會使得模型復雜度較高，且需要額外消耗內存和計算資源，若采用類感知視覺提示調優動態生成類別感知視覺提示，則需要對每個圖像進行處理，以生成與其內容相關的視覺提示，進一步使得模型計算的復雜度較高，從而，導致占用較多計算資源。

4、該
技術介紹
部分中所公開的以上信息僅用于增強對本公開構思的背景的理解，并因此，其可包含并不形成本領域普通技術人員已知的現有技術的信息。

技術實現思路

1、本公開的內容部分用于以簡要的形式介紹構思，這些構思將在后面的具體實施方式部分被詳細描述。本公開的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征，也不旨在用

2、本公開的一些實施例提出了基于小樣本提示微調的多模態檢測模型訓練方法和裝置，來解決以上
技術介紹
部分提到的技術問題中的一項或多項。

3、第一方面，本公開的一些實施例提供了一種基于小樣本提示微調的多模態檢測模型訓練方法，該方法包括：獲取訓練樣本集和初始多模態檢測模型，其中，訓練樣本集中的訓練樣本包括樣本文本、樣本圖像和樣本分類標注圖像，上述初始多模態檢測模型是由文本嵌入模塊、圖像嵌入模塊、投影層和語言圖像預訓練模型構成的，上述語言圖像預訓練模型包括語言編碼器、視覺編碼器和分類器，上述語言編碼器包括語言編碼層序列，上述視覺編碼器包括圖像編碼層序列和錨點生成器；從訓練樣本集中選出訓練樣本，以及基于初始多模態檢測模型，執行以下訓練步驟：將所選出的訓練樣本包括的樣本文本輸入初始多模態檢測模型包括的文本嵌入模塊，得到文本語義嵌入向量序列，以及對預設的第一層文本提示向量序列與上述文本語義嵌入向量序列進行拼接處理，得到初始文本嵌入向量序列；將所選出的訓練樣本包括的樣本圖像輸入初始多模態檢測模型包括的圖像嵌入模塊，得到圖像塊嵌入向量序列組，以及對第一層圖像提示向量序列與上述圖像塊嵌入向量序列組中的各個圖像塊嵌入向量序列進行拼接處理，得到初始圖像嵌入向量序列組，其中，上述第一層圖像提示向量序列是通過初始多模態檢測模型包括的投影層，對上述第一層文本提示向量序列進行維度變換得到的；將上述初始文本嵌入向量序列和上述初始圖像嵌入向量序列組輸入初始多模態檢測模型包括的語言圖像預訓練模型，得到圖像文本相似度矩陣組，其中，上述語言圖像預訓練模型在初始多模態檢測模型訓練過程中凍結參數；對上述圖像文本相似度矩陣組中的各個圖像文本相似度矩陣進行融合處理，得到圖像文本對齊分數矩陣；基于上述圖像文本對齊分數矩陣，生成分類標注圖像；基于上述圖像文本對齊分數矩陣、所選出的訓練樣本對應的樣本分類標注圖像和分類標注圖像，確定多模態檢測損失值；響應于確定上述多模態檢測損失值小于預設損失閾值，將訓練完成的初始多模態檢測模型確定為多模態檢測模型。

4、第二方面，本公開的一些實施例提供了一種圖像檢測方法，該方法包括：獲取物品圖像和對應上述物品圖像的物品描述文本；將上述物品圖像和上述物品描述文本輸入預先訓練的多模態檢測模型，得到上述物品圖像對應的分類標注圖像，其中，上述多模態檢測模型是通過第一方面任一實現方式所描述的方法預先訓練得到的。

5、第三方面，本公開的一些實施例提供了一種基于小樣本提示微調的多模態檢測模型訓練裝置，裝置包括：獲取單元，被配置成獲取訓練樣本集和初始多模態檢測模型，其中，訓練樣本集中的訓練樣本包括樣本文本、樣本圖像和樣本分類標注圖像，上述初始多模態檢測模型是由文本嵌入模塊、圖像嵌入模塊、投影層和語言圖像預訓練模型構成的，上述語言圖像預訓練模型包括語言編碼器、視覺編碼器和分類器，上述語言編碼器包括語言編碼層序列，上述視覺編碼器包括圖像編碼層序列和錨點生成器；選擇以及執行單元，被配置成從訓練樣本集中選出訓練樣本，以及基于初始多模態檢測模型，執行以下訓練步驟：將所選出的訓練樣本包括的樣本文本輸入初始多模態檢測模型包括的文本嵌入模塊，得到文本語義嵌入向量序列，以及對預設的第一層文本提示向量序列與上述文本語義嵌入向量序列進行拼接處理，得到初始文本嵌入向量序列；將所選出的訓練樣本包括的樣本圖像輸入初始多模態檢測模型包括的圖像嵌入模塊，得到圖像塊嵌入向量序列組，以及對第一層圖像提示向量序列與上述圖像塊嵌入向量序列組中的各個圖像塊嵌入向量序列進行拼接處理，得到初始圖像嵌入向量序列組，其中，上述第一層圖像提示向量序列是通過初始多模態檢測模型包括的投影層，對上述第一層文本提示向量序列進行維度變換得到的；將上述初始文本嵌入向量序列和上述初始圖像嵌入向量序列組輸入初始多模態檢測模型包括的語言圖像預訓練模型，得到圖像文本相似度矩陣組，其中，上述語言圖像預訓練模型在初始多模態檢測模型訓練過程中凍結參數；對上述圖像文本相似度矩陣組中的各個圖像文本相似度矩陣進行融合處理，得到圖像文本對齊分數矩陣；基于上述圖像文本對齊分數矩陣，生成分類標注圖像；基于上述圖像文本對齊分數矩陣、所選出的訓練樣本對應的樣本分類標注圖像和分類標注圖像，確定多模態檢測損失值；響應于確定上述多模態檢測損失值小于預設損失閾值，將訓練完成的初始多模態檢測模型確定為多模態檢測模型。

6、第四方面，本公開的一些實施例提供了一種圖像檢測裝置，裝置包括：獲取單元，被配置成獲取物品圖像和對應上述物品圖像的物品描述文本；輸入單元，被配置成將上述物品圖像和上述物品描述文本輸入預先訓練的多模態檢測模型，得到上述物品圖像對應的分類標注圖像，其中，上述多模態檢測模型是通過第一方面任一實現方式所描述的方法預先訓練得到的。

7、第五方面，本公開的一些實施例提供了一種電子設備，包括：一個或多個處理器；存儲裝置，其上存儲有一個或多個程序，當一個或多個程序被一個或多個處理器執行，使得一個或多個處理器實現上述第一方面或第二方面任一實現方式所描述的方法。

8、第六方面，本公開的一些實施例提供了一種計算機可讀介質，其上存儲有計算機程序，其中，計算機程序被處理器執行時實現上述第一方面或第二方面任一實現方式所描述的方法。

9、本公開的上述各個實施例具有如下有益效果：通過本公開的一些實施例的基于小樣本提示微調的多模態檢測模型訓練方法，可以降低模型的本文檔來自技高網...

【技術保護點】

1.一種基于小樣本提示微調的多模態檢測模型訓練方法，包括：

2.根據權利要求1所述的方法，其中，所述語言圖像預訓練模型包括語言編碼器和視覺編碼器，所述語言編碼器包括語言編碼層序列，所述視覺編碼器包括圖像編碼層序列，所述語言編碼層序列中的每個語言編碼層與所述圖像編碼層序列中的圖像編碼層相對應，所述語言編碼層序列中滿足預設序號條件的每個語言編碼層與預設的文本提示向量序列相對應，所述圖像編碼層序列中滿足所述預設序號條件的每個圖像編碼層與圖像提示向量序列相對應，圖像提示向量序列是通過初始多模態檢測模型包括的投影層，對與目標語言編碼層相對應的文本提示向量序列進行維度變換得到的，目標語言編碼層為所述語言編碼層序列中對應序號與圖像提示向量序列對應的圖像編碼層的序號相同的語言編碼層。

3.根據權利要求2所述的方法，其中，所述方法還包括：

4.根據權利要求2所述的方法，其中，所述語言圖像預訓練模型還包括分類器，所述視覺編碼器還包括錨點生成器；以及所述將所述初始文本嵌入向量序列和所述初始圖像嵌入向量序列組輸入初始多模態檢測模型包括的語言圖像預訓練模型，得到圖像文本相似度矩陣組，包括：

5.根據權利要求4所述的方法，其中，所述通過所述語言圖像預訓練模型中的語言編碼器，對所述初始文本嵌入向量序列進行特征提取處理，得到文本特征向量序列，包括：

6.根據權利要求5所述的方法，其中，所述方法還包括：

7.根據權利要求5所述的方法，其中，所述方法還包括：

8.根據權利要求5所述的方法，其中，所述方法還包括：

9.一種圖像檢測方法，包括：

10.一種基于小樣本提示微調的多模態檢測模型訓練裝置，包括：

...

【技術特征摘要】

1.一種基于小樣本提示微調的多模態檢測模型訓練方法，包括：

3.根據權利要求2所述的方法，其中，所述方法還...

【專利技術屬性】
技術研發人員：劉慶杰，胡征慧，劉欣悅，李世偉，傅澤華，王政，王蘊紅，
申請(專利權)人：北京航空航天大學杭州創新研究院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術