System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产做无码视频在线观看,精品无码久久久久久久动漫,日韩va中文字幕无码电影
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于小樣本提示微調的多模態檢測模型訓練方法和裝置制造方法及圖紙

    技術編號:44489288 閱讀:3 留言:0更新日期:2025-03-04 17:53
    本公開的實施例涉及目標檢測領域,具體涉及基于小樣本提示微調的多模態檢測模型訓練方法和裝置。該方法的一實施方式包括:獲取訓練樣本集和初始多模態檢測模型;執行訓練步驟:得到文本語義嵌入向量序列,對第一層文本提示向量序列與文本語義嵌入向量序列進行拼接處理,得到初始文本嵌入向量序列;得到圖像塊嵌入向量序列組,對第一層圖像提示向量序列與圖像塊嵌入向量序列進行拼接處理,得到初始圖像嵌入向量序列組;得到圖像文本相似度矩陣組;對各個圖像文本相似度矩陣進行融合處理,得到圖像文本對齊分數矩陣;生成分類標注圖像;確定多模態檢測損失值;確定多模態檢測模型。該實施方式可以降低多模態檢測模型的復雜度,減少計算資源的占用。

    【技術實現步驟摘要】

    本公開的實施例涉及目標檢測領域,具體涉及基于小樣本提示微調的多模態檢測模型訓練方法和裝置


    技術介紹

    1、多模態檢測模型能夠在不依賴大量標注樣本的情況下,實現對未知類別的有效識別。然而當檢測對象在原訓練集中缺乏代表性或存在顯著差異,多模態檢測模型仍會面臨著概念不一致的問題。為解決上述多模態檢測模型面臨的概念不一致的問題,使多模態檢測模型能迅速適應下游檢測任務,研究者們開始探索小樣本微調策略。目前,在通過小樣本微調訓練多模態檢測模型時,通常采用的方式為:保持預訓練模型參數不變,對可學習的文本提示向量和通過元網絡學習的圖像特征進行結合,或者通過類感知視覺提示調優,動態生成類別感知的視覺提示以與原始圖像特征進行融合。

    2、然而,實踐中發現,當采用上述方式訓練多模態檢測模型時,經常會存在如下技術問題:

    3、若引入元網絡,則會使得模型復雜度較高,且需要額外消耗內存和計算資源,若采用類感知視覺提示調優動態生成類別感知視覺提示,則需要對每個圖像進行處理,以生成與其內容相關的視覺提示,進一步使得模型計算的復雜度較高,從而,導致占用較多計算資源。

    4、該
    技術介紹
    部分中所公開的以上信息僅用于增強對本公開構思的背景的理解,并因此,其可包含并不形成本領域普通技術人員已知的現有技術的信息。


    技術實現思路

    1、本公開的內容部分用于以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。本公開的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。

    2、本公開的一些實施例提出了基于小樣本提示微調的多模態檢測模型訓練方法和裝置,來解決以上
    技術介紹
    部分提到的技術問題中的一項或多項。

    3、第一方面,本公開的一些實施例提供了一種基于小樣本提示微調的多模態檢測模型訓練方法,該方法包括:獲取訓練樣本集和初始多模態檢測模型,其中,訓練樣本集中的訓練樣本包括樣本文本、樣本圖像和樣本分類標注圖像,上述初始多模態檢測模型是由文本嵌入模塊、圖像嵌入模塊、投影層和語言圖像預訓練模型構成的,上述語言圖像預訓練模型包括語言編碼器、視覺編碼器和分類器,上述語言編碼器包括語言編碼層序列,上述視覺編碼器包括圖像編碼層序列和錨點生成器;從訓練樣本集中選出訓練樣本,以及基于初始多模態檢測模型,執行以下訓練步驟:將所選出的訓練樣本包括的樣本文本輸入初始多模態檢測模型包括的文本嵌入模塊,得到文本語義嵌入向量序列,以及對預設的第一層文本提示向量序列與上述文本語義嵌入向量序列進行拼接處理,得到初始文本嵌入向量序列;將所選出的訓練樣本包括的樣本圖像輸入初始多模態檢測模型包括的圖像嵌入模塊,得到圖像塊嵌入向量序列組,以及對第一層圖像提示向量序列與上述圖像塊嵌入向量序列組中的各個圖像塊嵌入向量序列進行拼接處理,得到初始圖像嵌入向量序列組,其中,上述第一層圖像提示向量序列是通過初始多模態檢測模型包括的投影層,對上述第一層文本提示向量序列進行維度變換得到的;將上述初始文本嵌入向量序列和上述初始圖像嵌入向量序列組輸入初始多模態檢測模型包括的語言圖像預訓練模型,得到圖像文本相似度矩陣組,其中,上述語言圖像預訓練模型在初始多模態檢測模型訓練過程中凍結參數;對上述圖像文本相似度矩陣組中的各個圖像文本相似度矩陣進行融合處理,得到圖像文本對齊分數矩陣;基于上述圖像文本對齊分數矩陣,生成分類標注圖像;基于上述圖像文本對齊分數矩陣、所選出的訓練樣本對應的樣本分類標注圖像和分類標注圖像,確定多模態檢測損失值;響應于確定上述多模態檢測損失值小于預設損失閾值,將訓練完成的初始多模態檢測模型確定為多模態檢測模型。

    4、第二方面,本公開的一些實施例提供了一種圖像檢測方法,該方法包括:獲取物品圖像和對應上述物品圖像的物品描述文本;將上述物品圖像和上述物品描述文本輸入預先訓練的多模態檢測模型,得到上述物品圖像對應的分類標注圖像,其中,上述多模態檢測模型是通過第一方面任一實現方式所描述的方法預先訓練得到的。

    5、第三方面,本公開的一些實施例提供了一種基于小樣本提示微調的多模態檢測模型訓練裝置,裝置包括:獲取單元,被配置成獲取訓練樣本集和初始多模態檢測模型,其中,訓練樣本集中的訓練樣本包括樣本文本、樣本圖像和樣本分類標注圖像,上述初始多模態檢測模型是由文本嵌入模塊、圖像嵌入模塊、投影層和語言圖像預訓練模型構成的,上述語言圖像預訓練模型包括語言編碼器、視覺編碼器和分類器,上述語言編碼器包括語言編碼層序列,上述視覺編碼器包括圖像編碼層序列和錨點生成器;選擇以及執行單元,被配置成從訓練樣本集中選出訓練樣本,以及基于初始多模態檢測模型,執行以下訓練步驟:將所選出的訓練樣本包括的樣本文本輸入初始多模態檢測模型包括的文本嵌入模塊,得到文本語義嵌入向量序列,以及對預設的第一層文本提示向量序列與上述文本語義嵌入向量序列進行拼接處理,得到初始文本嵌入向量序列;將所選出的訓練樣本包括的樣本圖像輸入初始多模態檢測模型包括的圖像嵌入模塊,得到圖像塊嵌入向量序列組,以及對第一層圖像提示向量序列與上述圖像塊嵌入向量序列組中的各個圖像塊嵌入向量序列進行拼接處理,得到初始圖像嵌入向量序列組,其中,上述第一層圖像提示向量序列是通過初始多模態檢測模型包括的投影層,對上述第一層文本提示向量序列進行維度變換得到的;將上述初始文本嵌入向量序列和上述初始圖像嵌入向量序列組輸入初始多模態檢測模型包括的語言圖像預訓練模型,得到圖像文本相似度矩陣組,其中,上述語言圖像預訓練模型在初始多模態檢測模型訓練過程中凍結參數;對上述圖像文本相似度矩陣組中的各個圖像文本相似度矩陣進行融合處理,得到圖像文本對齊分數矩陣;基于上述圖像文本對齊分數矩陣,生成分類標注圖像;基于上述圖像文本對齊分數矩陣、所選出的訓練樣本對應的樣本分類標注圖像和分類標注圖像,確定多模態檢測損失值;響應于確定上述多模態檢測損失值小于預設損失閾值,將訓練完成的初始多模態檢測模型確定為多模態檢測模型。

    6、第四方面,本公開的一些實施例提供了一種圖像檢測裝置,裝置包括:獲取單元,被配置成獲取物品圖像和對應上述物品圖像的物品描述文本;輸入單元,被配置成將上述物品圖像和上述物品描述文本輸入預先訓練的多模態檢測模型,得到上述物品圖像對應的分類標注圖像,其中,上述多模態檢測模型是通過第一方面任一實現方式所描述的方法預先訓練得到的。

    7、第五方面,本公開的一些實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個程序,當一個或多個程序被一個或多個處理器執行,使得一個或多個處理器實現上述第一方面或第二方面任一實現方式所描述的方法。

    8、第六方面,本公開的一些實施例提供了一種計算機可讀介質,其上存儲有計算機程序,其中,計算機程序被處理器執行時實現上述第一方面或第二方面任一實現方式所描述的方法。

    9、本公開的上述各個實施例具有如下有益效果:通過本公開的一些實施例的基于小樣本提示微調的多模態檢測模型訓練方法,可以降低模型的本文檔來自技高網...

    【技術保護點】

    1.一種基于小樣本提示微調的多模態檢測模型訓練方法,包括:

    2.根據權利要求1所述的方法,其中,所述語言圖像預訓練模型包括語言編碼器和視覺編碼器,所述語言編碼器包括語言編碼層序列,所述視覺編碼器包括圖像編碼層序列,所述語言編碼層序列中的每個語言編碼層與所述圖像編碼層序列中的圖像編碼層相對應,所述語言編碼層序列中滿足預設序號條件的每個語言編碼層與預設的文本提示向量序列相對應,所述圖像編碼層序列中滿足所述預設序號條件的每個圖像編碼層與圖像提示向量序列相對應,圖像提示向量序列是通過初始多模態檢測模型包括的投影層,對與目標語言編碼層相對應的文本提示向量序列進行維度變換得到的,目標語言編碼層為所述語言編碼層序列中對應序號與圖像提示向量序列對應的圖像編碼層的序號相同的語言編碼層。

    3.根據權利要求2所述的方法,其中,所述方法還包括:

    4.根據權利要求2所述的方法,其中,所述語言圖像預訓練模型還包括分類器,所述視覺編碼器還包括錨點生成器;以及所述將所述初始文本嵌入向量序列和所述初始圖像嵌入向量序列組輸入初始多模態檢測模型包括的語言圖像預訓練模型,得到圖像文本相似度矩陣組,包括:

    5.根據權利要求4所述的方法,其中,所述通過所述語言圖像預訓練模型中的語言編碼器,對所述初始文本嵌入向量序列進行特征提取處理,得到文本特征向量序列,包括:

    6.根據權利要求5所述的方法,其中,所述方法還包括:

    7.根據權利要求5所述的方法,其中,所述方法還包括:

    8.根據權利要求5所述的方法,其中,所述方法還包括:

    9.一種圖像檢測方法,包括:

    10.一種基于小樣本提示微調的多模態檢測模型訓練裝置,包括:

    ...

    【技術特征摘要】

    1.一種基于小樣本提示微調的多模態檢測模型訓練方法,包括:

    2.根據權利要求1所述的方法,其中,所述語言圖像預訓練模型包括語言編碼器和視覺編碼器,所述語言編碼器包括語言編碼層序列,所述視覺編碼器包括圖像編碼層序列,所述語言編碼層序列中的每個語言編碼層與所述圖像編碼層序列中的圖像編碼層相對應,所述語言編碼層序列中滿足預設序號條件的每個語言編碼層與預設的文本提示向量序列相對應,所述圖像編碼層序列中滿足所述預設序號條件的每個圖像編碼層與圖像提示向量序列相對應,圖像提示向量序列是通過初始多模態檢測模型包括的投影層,對與目標語言編碼層相對應的文本提示向量序列進行維度變換得到的,目標語言編碼層為所述語言編碼層序列中對應序號與圖像提示向量序列對應的圖像編碼層的序號相同的語言編碼層。

    3.根據權利要求2所述的方法,其中,所述方法還...

    【專利技術屬性】
    技術研發人員:劉慶杰胡征慧劉欣悅李世偉傅澤華王政王蘊紅
    申請(專利權)人:北京航空航天大學杭州創新研究院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产午夜激无码av毛片| 色欲AV永久无码精品无码| 中文无码熟妇人妻AV在线| 亚洲精品无码乱码成人| 中文无码一区二区不卡αv | 无码人妻一区二区三区精品视频| 国产aⅴ激情无码久久久无码| 无码国内精品久久人妻蜜桃| 免费A级毛片无码A| 亚洲精品无码成人片久久不卡| 亚洲av无码乱码国产精品fc2| 亚洲AV无码一区二区三区电影 | 亚洲另类无码专区丝袜| 亚洲AV无码乱码国产麻豆穿越| 国产乱人伦Av在线无码| 久久久久亚洲AV无码专区网站| 台湾无码AV一区二区三区| 中国少妇无码专区| 国产成人AV一区二区三区无码| 无码人妻一区二区三区在线| 亚洲av无码有乱码在线观看| 18禁超污无遮挡无码免费网站国产 | 亚洲AV日韩AV高潮无码专区| 免费无码肉片在线观看| 亚洲va中文字幕无码久久不卡| 国产成人精品无码一区二区三区| 亚洲熟妇无码爱v在线观看| 天码av无码一区二区三区四区 | 精品人妻系列无码人妻免费视频 | 久久国产亚洲精品无码| 国产精品无码av片在线观看播| 国产亚洲精品无码成人| 日韩乱码人妻无码中文字幕视频 | 无码乱人伦一区二区亚洲一| 亚洲国产av无码精品| 日韩AV片无码一区二区不卡| 精品无码一区二区三区电影| 亚洲AV无码久久精品色欲| 黑人无码精品又粗又大又长 | 亚洲AV永久纯肉无码精品动漫| 国产精品无码一区二区在线观|