System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 人妻无码第一区二区三区,亚洲天然素人无码专区,日韩精品无码久久一区二区三
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法、系統(tǒng)、設(shè)備及介質(zhì)技術(shù)方案

    技術(shù)編號:44490215 閱讀:5 留言:0更新日期:2025-03-04 17:55
    本申請適用于視覺語言模型技術(shù)領(lǐng)域,提供了一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,包括:基于預(yù)訓(xùn)練的候選框提取模型,獲取待檢測圖片的偽標(biāo)簽,將待檢測圖片按照偽標(biāo)簽的區(qū)域進(jìn)行裁剪,獲得偽標(biāo)簽區(qū)域圖像,偽標(biāo)簽為與已知類的標(biāo)注框不重合的候選框;基于CLIP視覺編碼器,獲取偽標(biāo)簽區(qū)域圖像的視覺特征;基于CLIP文本編碼器,采用文本類別標(biāo)簽生成方法,獲取偽標(biāo)簽區(qū)域圖像的文本特征;基于視覺特征和文本特征,采用雙對稱蒸餾方法,對目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使目標(biāo)檢測模型學(xué)習(xí)到CLIP視覺編碼器的視覺特征以及CLIP文本編碼器的文本特征,本發(fā)明專利技術(shù)的目標(biāo)檢測模型能夠?qū)σ曈X特征和文本特征進(jìn)行知識蒸餾學(xué)習(xí),提高了目標(biāo)檢測模型的泛化能力。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請屬于視覺語言模型,尤其涉及一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法、系統(tǒng)、設(shè)備及介質(zhì)


    技術(shù)介紹

    1、開放詞匯是測試階段需要能夠檢測不在訓(xùn)練集中的類別,基于現(xiàn)有泛化性極強(qiáng)的基礎(chǔ)大型視覺語言模型,對目標(biāo)檢測器進(jìn)行知識蒸餾學(xué)習(xí),從而使得檢測器在有限的訓(xùn)練數(shù)據(jù)的情況下,能夠檢測廣泛的、不在訓(xùn)練中出現(xiàn)過的物體。現(xiàn)有技術(shù)中把訓(xùn)練集中出現(xiàn)過的物體稱為已知類,其余物體類別稱為未知類,通過在已知類上進(jìn)行訓(xùn)練,并且使得模型能夠具有檢測未知類的能力,這種能力包括定位出物體的位置和對物體類別進(jìn)行識別。

    2、現(xiàn)有技術(shù)中,通常采用dk-detr方法,使得基于目標(biāo)查詢向量的目標(biāo)檢測模型具有檢測開放詞匯的能力,在該方法中,目標(biāo)查詢向量會分為兩組:一組常規(guī)的目標(biāo)查詢向量,用于檢測已知類,這些目標(biāo)查詢向量在真實標(biāo)注的監(jiān)督下,學(xué)習(xí)到回歸物體的能力,并且能夠?qū)σ阎愡M(jìn)行分類;另一組為輔助的目標(biāo)查詢向量,用于蒸餾學(xué)習(xí)clip模型的特征,通過在輔助的目標(biāo)查詢向量中選擇置信度較高的目標(biāo)查詢向量,把這些目標(biāo)查詢向量的特征與clip模型輸出的特征進(jìn)行拉近,從而使得目標(biāo)檢測模型具有檢測未知類的能力,其中高置信度表明該目標(biāo)查詢向量有極大可能包含了一個未知類的物體。

    3、上述現(xiàn)有技術(shù)的缺點在于:1.對clip模型的蒸餾學(xué)習(xí)只局限于可能的一些未知類上,并沒有顯式地區(qū)分已知類和未知類。通過我們的實驗觀察發(fā)現(xiàn),由于缺少未知類的標(biāo)注信息,clip模型在檢測未知類的時候,往往會將未知類誤分類為某一個已知類或者誤分類為背景類,因此對于僅局限于未知類上的clip模型蒸餾學(xué)習(xí)不能顯示地將未知類和已知類以及背景類進(jìn)行區(qū)分,從而降低了在未知類別上的檢測性能。2.clip是一種視覺語言預(yù)訓(xùn)練的基礎(chǔ)模型,通常包括clip視覺編碼器和clip文本編碼器,分別對圖片和語言進(jìn)行編碼,然而上述現(xiàn)有方案僅局限于對clip視覺編碼器的蒸餾學(xué)習(xí),忽視了clip是一個具有對稱編碼器結(jié)構(gòu)的模型,沒有利用到clip文本編碼器的知識。3.上述現(xiàn)有方案需要兩組目標(biāo)查詢向量,這會增加目標(biāo)檢測模型的訓(xùn)練開銷。


    技術(shù)實現(xiàn)思路

    1、本申請實施例提供了一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法、系統(tǒng)、設(shè)備及介質(zhì),可以解決上述現(xiàn)有技術(shù)問題的至少之一。

    2、第一方面,本申請實施例提供了一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,包括:

    3、基于預(yù)訓(xùn)練的候選框提取模型,獲取待檢測圖片的偽標(biāo)簽,將待檢測圖片按照所述偽標(biāo)簽的區(qū)域進(jìn)行裁剪,獲得偽標(biāo)簽區(qū)域圖像,所述偽標(biāo)簽為與已知類的標(biāo)注框不重合的候選框;

    4、基于clip視覺編碼器,獲取所述偽標(biāo)簽區(qū)域圖像的視覺特征,采用圖片描述生成模型對所述偽標(biāo)簽區(qū)域圖像進(jìn)行分析,獲取所述偽標(biāo)簽區(qū)域圖像中的視覺元素和場景信息;

    5、基于clip文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征;

    6、基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到clip視覺編碼器的視覺特征以及clip文本編碼器的文本特征。

    7、進(jìn)一步的,所述基于clip文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征,包括:

    8、采用圖片描述生成模型,生成所述偽標(biāo)簽區(qū)域圖像的圖像語言描述;

    9、采用自然語言處理工具,提取所述圖像語言描述中涉及的名詞,生成名詞集合;

    10、在所述名詞集合中選擇其中一個名詞作為所述偽標(biāo)簽區(qū)域圖像的文本類別標(biāo)簽;

    11、將所述文本類別標(biāo)簽輸入所述clip文本編碼器中進(jìn)行編碼,生成所述偽標(biāo)簽區(qū)域圖像的文本特征。

    12、進(jìn)一步的,所述基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到clip視覺編碼器的視覺特征以及clip文本編碼器的文本特征,包括:

    13、采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),其中,所述知識蒸餾學(xué)習(xí)的方法包括對比知識蒸餾和關(guān)系知識蒸餾;

    14、通過在視覺空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型在視覺空間學(xué)習(xí)到clip視覺編碼器的視覺特征;

    15、通過在文本空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型在文本空間學(xué)習(xí)到clip文本編碼器的文本特征。

    16、進(jìn)一步的,所述采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),包括:在知識蒸餾學(xué)習(xí)過程中,通過全連接層,將在視覺空間學(xué)習(xí)到的視覺特征映射至文本空間,其中,所述視覺空間的蒸餾學(xué)習(xí)對象為每一個實例,所述文本空間的蒸餾學(xué)習(xí)對象是每一個類。

    17、進(jìn)一步的,所述通過在視覺空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),獲得視覺空間的視覺特征,包括:

    18、采用對比知識蒸餾函數(shù),將配對的特征進(jìn)行拉近,將不配對的特征進(jìn)行拉遠(yuǎn),其中,所述配對的特征是開放詞匯目標(biāo)檢測模型的物體特征以及與物體特征相對應(yīng)的clip視覺編碼器的視覺特征;

    19、采用關(guān)系知識蒸餾函數(shù),建立教師模型和學(xué)生模型,通過所述教師模型的物體之間的關(guān)系擬合所述學(xué)生模型的物體之間的關(guān)系,其中,所述教師模型為clip視覺編碼器,所述學(xué)生模型為開放詞匯目標(biāo)檢測模型;

    20、通過所述對比知識蒸餾函數(shù)和所述關(guān)系知識蒸餾函數(shù),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到所述clip視覺編碼器的視覺特征。

    21、進(jìn)一步的,所述采用對比知識蒸餾函數(shù),將配對的特征進(jìn)行拉近,將不配對的特征進(jìn)行拉遠(yuǎn),包括:

    22、通過余弦相似度反映開放詞匯目標(biāo)檢測模型的物體特征和與clip視覺編碼器的視覺特征之間的配對程度;

    23、所述對比知識蒸餾函數(shù)的具體公式如下:

    24、

    25、其中,q表示開放詞匯目標(biāo)檢測模型的物體特征,e表示clip視覺編碼器的視覺特征,n表示物體的個數(shù),τckd是一個超參數(shù),表示在所有q中相對于qk的相似度分?jǐn)?shù),表示在所有e中相對于ek的相似度分?jǐn)?shù),j和k表示相應(yīng)特征的下標(biāo)索引。

    26、進(jìn)一步的,所述采用關(guān)系知識蒸餾函數(shù),建立教師模型和學(xué)生模型,通過所述教師模型的物體之間的關(guān)系擬合所述學(xué)生模型的物體之間的關(guān)系,包括:

    27、采用kl散度衡量教師模型和學(xué)生模型的物體之間的關(guān)系的差異性,通過最小化kl散度,使得學(xué)生模型的物體之間的關(guān)系擬合于教師模型的物體之間的關(guān)系;

    28、所述關(guān)系知識蒸餾函數(shù)的具體公式如下:

    29、

    30、其中,n表示物體的個數(shù),r是一個n×n的矩陣,表示物體兩兩之間的關(guān)系,每行(r[k])表示第k個物體與所有物體的本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,其特征在于,包括:

    2.如權(quán)利要求1所述的方法,其特征在于,所述基于CLIP文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征,包括:

    3.如權(quán)利要求1所述的方法,其特征在于,基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到CLIP視覺編碼器的視覺特征以及CLIP文本編碼器的文本特征,包括:

    4.如權(quán)利要求3所述的方法,其特征在于,所述采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),包括:在知識蒸餾學(xué)習(xí)過程中,通過全連接層,將在視覺空間學(xué)習(xí)到的視覺特征映射至文本空間,其中,所述視覺空間的蒸餾學(xué)習(xí)對象為每一個實例,所述文本空間的蒸餾學(xué)習(xí)對象是每一個類。

    5.如權(quán)利要求3所述的方法,其特征在于,所述通過在視覺空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),獲得視覺空間的視覺特征,包括:

    6.如權(quán)利要求5所述的方法,其特征在于,所述采用對比知識蒸餾函數(shù),將配對的特征進(jìn)行拉近,將不配對的特征進(jìn)行拉遠(yuǎn),包括:

    7.如權(quán)利要求5所述的方法,其特征在于,所述采用關(guān)系知識蒸餾函數(shù),建立教師模型和學(xué)生模型,通過所述教師模型的物體之間的關(guān)系擬合所述學(xué)生模型的物體之間的關(guān)系,包括:

    8.一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)系統(tǒng),其特征在于,包括:

    9.一種終端設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至7任一項所述的方法。

    10.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,其特征在于,包括:

    2.如權(quán)利要求1所述的方法,其特征在于,所述基于clip文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征,包括:

    3.如權(quán)利要求1所述的方法,其特征在于,基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到clip視覺編碼器的視覺特征以及clip文本編碼器的文本特征,包括:

    4.如權(quán)利要求3所述的方法,其特征在于,所述采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),包括:在知識蒸餾學(xué)習(xí)過程中,通過全連接層,將在視覺空間學(xué)習(xí)到的視覺特征映射至文本空間,其中,所述視覺空間的蒸餾學(xué)習(xí)對象為每一個實例,所述文本空間的蒸餾學(xué)習(xí)對象是每一個類。

    5.如權(quán)利要求...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:胡智勇王靖聰王思琪
    申請(專利權(quán))人:廣東南方網(wǎng)絡(luò)信息科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码乱码国产精品| 69堂人成无码免费视频果冻传媒| 亚洲AV日韩AV无码污污网站| 亚洲AV无码成人精品区狼人影院| 精品乱码一区内射人妻无码| 日韩人妻无码一区二区三区综合部| 亚洲av福利无码无一区二区| 内射中出无码护士在线| 无码人妻精品中文字幕| 亚洲成a人无码av波多野按摩| 亚洲AV综合色区无码一区| 国产成人无码精品久久久露脸| 亚洲国产成人无码av在线播放| 久久久精品无码专区不卡 | 亚洲无码高清在线观看 | 精品久久久无码21p发布| 国产精品无码专区在线播放| 亚洲AV永久纯肉无码精品动漫| 国产高清不卡无码视频 | 无码人妻精品一区二区三区99不卡| 无套中出丰满人妻无码| 无码乱码观看精品久久| 亚洲av无码一区二区三区天堂 | 久久午夜无码鲁丝片| 丰满日韩放荡少妇无码视频| 国产爆乳无码视频在线观看3| 伊人天堂av无码av日韩av| 无码人妻精品一区二区| 人妻少妇乱子伦无码视频专区| 少妇人妻偷人精品无码视频| 国产精品三级在线观看无码| 亚洲国产精品无码久久SM| 亚洲精品无码久久一线| 久久午夜无码鲁丝片直播午夜精品| 亚洲中文字幕无码永久在线 | 国产成人无码免费看视频软件 | 亚洲欧洲无码一区二区三区| 无码爆乳护士让我爽| 亚洲AV永久无码天堂影院| 无码午夜人妻一区二区不卡视频 | 国产产无码乱码精品久久鸭|