System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請屬于視覺語言模型,尤其涉及一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法、系統(tǒng)、設(shè)備及介質(zhì)。
技術(shù)介紹
1、開放詞匯是測試階段需要能夠檢測不在訓(xùn)練集中的類別,基于現(xiàn)有泛化性極強(qiáng)的基礎(chǔ)大型視覺語言模型,對目標(biāo)檢測器進(jìn)行知識蒸餾學(xué)習(xí),從而使得檢測器在有限的訓(xùn)練數(shù)據(jù)的情況下,能夠檢測廣泛的、不在訓(xùn)練中出現(xiàn)過的物體。現(xiàn)有技術(shù)中把訓(xùn)練集中出現(xiàn)過的物體稱為已知類,其余物體類別稱為未知類,通過在已知類上進(jìn)行訓(xùn)練,并且使得模型能夠具有檢測未知類的能力,這種能力包括定位出物體的位置和對物體類別進(jìn)行識別。
2、現(xiàn)有技術(shù)中,通常采用dk-detr方法,使得基于目標(biāo)查詢向量的目標(biāo)檢測模型具有檢測開放詞匯的能力,在該方法中,目標(biāo)查詢向量會分為兩組:一組常規(guī)的目標(biāo)查詢向量,用于檢測已知類,這些目標(biāo)查詢向量在真實標(biāo)注的監(jiān)督下,學(xué)習(xí)到回歸物體的能力,并且能夠?qū)σ阎愡M(jìn)行分類;另一組為輔助的目標(biāo)查詢向量,用于蒸餾學(xué)習(xí)clip模型的特征,通過在輔助的目標(biāo)查詢向量中選擇置信度較高的目標(biāo)查詢向量,把這些目標(biāo)查詢向量的特征與clip模型輸出的特征進(jìn)行拉近,從而使得目標(biāo)檢測模型具有檢測未知類的能力,其中高置信度表明該目標(biāo)查詢向量有極大可能包含了一個未知類的物體。
3、上述現(xiàn)有技術(shù)的缺點在于:1.對clip模型的蒸餾學(xué)習(xí)只局限于可能的一些未知類上,并沒有顯式地區(qū)分已知類和未知類。通過我們的實驗觀察發(fā)現(xiàn),由于缺少未知類的標(biāo)注信息,clip模型在檢測未知類的時候,往往會將未知類誤分類為某一個已知類或者誤分類為背景類,因此對于僅局限于未知類上的clip模型蒸
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法、系統(tǒng)、設(shè)備及介質(zhì),可以解決上述現(xiàn)有技術(shù)問題的至少之一。
2、第一方面,本申請實施例提供了一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,包括:
3、基于預(yù)訓(xùn)練的候選框提取模型,獲取待檢測圖片的偽標(biāo)簽,將待檢測圖片按照所述偽標(biāo)簽的區(qū)域進(jìn)行裁剪,獲得偽標(biāo)簽區(qū)域圖像,所述偽標(biāo)簽為與已知類的標(biāo)注框不重合的候選框;
4、基于clip視覺編碼器,獲取所述偽標(biāo)簽區(qū)域圖像的視覺特征,采用圖片描述生成模型對所述偽標(biāo)簽區(qū)域圖像進(jìn)行分析,獲取所述偽標(biāo)簽區(qū)域圖像中的視覺元素和場景信息;
5、基于clip文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征;
6、基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到clip視覺編碼器的視覺特征以及clip文本編碼器的文本特征。
7、進(jìn)一步的,所述基于clip文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征,包括:
8、采用圖片描述生成模型,生成所述偽標(biāo)簽區(qū)域圖像的圖像語言描述;
9、采用自然語言處理工具,提取所述圖像語言描述中涉及的名詞,生成名詞集合;
10、在所述名詞集合中選擇其中一個名詞作為所述偽標(biāo)簽區(qū)域圖像的文本類別標(biāo)簽;
11、將所述文本類別標(biāo)簽輸入所述clip文本編碼器中進(jìn)行編碼,生成所述偽標(biāo)簽區(qū)域圖像的文本特征。
12、進(jìn)一步的,所述基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到clip視覺編碼器的視覺特征以及clip文本編碼器的文本特征,包括:
13、采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),其中,所述知識蒸餾學(xué)習(xí)的方法包括對比知識蒸餾和關(guān)系知識蒸餾;
14、通過在視覺空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型在視覺空間學(xué)習(xí)到clip視覺編碼器的視覺特征;
15、通過在文本空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型在文本空間學(xué)習(xí)到clip文本編碼器的文本特征。
16、進(jìn)一步的,所述采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),包括:在知識蒸餾學(xué)習(xí)過程中,通過全連接層,將在視覺空間學(xué)習(xí)到的視覺特征映射至文本空間,其中,所述視覺空間的蒸餾學(xué)習(xí)對象為每一個實例,所述文本空間的蒸餾學(xué)習(xí)對象是每一個類。
17、進(jìn)一步的,所述通過在視覺空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),獲得視覺空間的視覺特征,包括:
18、采用對比知識蒸餾函數(shù),將配對的特征進(jìn)行拉近,將不配對的特征進(jìn)行拉遠(yuǎn),其中,所述配對的特征是開放詞匯目標(biāo)檢測模型的物體特征以及與物體特征相對應(yīng)的clip視覺編碼器的視覺特征;
19、采用關(guān)系知識蒸餾函數(shù),建立教師模型和學(xué)生模型,通過所述教師模型的物體之間的關(guān)系擬合所述學(xué)生模型的物體之間的關(guān)系,其中,所述教師模型為clip視覺編碼器,所述學(xué)生模型為開放詞匯目標(biāo)檢測模型;
20、通過所述對比知識蒸餾函數(shù)和所述關(guān)系知識蒸餾函數(shù),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到所述clip視覺編碼器的視覺特征。
21、進(jìn)一步的,所述采用對比知識蒸餾函數(shù),將配對的特征進(jìn)行拉近,將不配對的特征進(jìn)行拉遠(yuǎn),包括:
22、通過余弦相似度反映開放詞匯目標(biāo)檢測模型的物體特征和與clip視覺編碼器的視覺特征之間的配對程度;
23、所述對比知識蒸餾函數(shù)的具體公式如下:
24、
25、其中,q表示開放詞匯目標(biāo)檢測模型的物體特征,e表示clip視覺編碼器的視覺特征,n表示物體的個數(shù),τckd是一個超參數(shù),表示在所有q中相對于qk的相似度分?jǐn)?shù),表示在所有e中相對于ek的相似度分?jǐn)?shù),j和k表示相應(yīng)特征的下標(biāo)索引。
26、進(jìn)一步的,所述采用關(guān)系知識蒸餾函數(shù),建立教師模型和學(xué)生模型,通過所述教師模型的物體之間的關(guān)系擬合所述學(xué)生模型的物體之間的關(guān)系,包括:
27、采用kl散度衡量教師模型和學(xué)生模型的物體之間的關(guān)系的差異性,通過最小化kl散度,使得學(xué)生模型的物體之間的關(guān)系擬合于教師模型的物體之間的關(guān)系;
28、所述關(guān)系知識蒸餾函數(shù)的具體公式如下:
29、
30、其中,n表示物體的個數(shù),r是一個n×n的矩陣,表示物體兩兩之間的關(guān)系,每行(r[k])表示第k個物體與所有物體的本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述基于CLIP文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征,包括:
3.如權(quán)利要求1所述的方法,其特征在于,基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到CLIP視覺編碼器的視覺特征以及CLIP文本編碼器的文本特征,包括:
4.如權(quán)利要求3所述的方法,其特征在于,所述采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),包括:在知識蒸餾學(xué)習(xí)過程中,通過全連接層,將在視覺空間學(xué)習(xí)到的視覺特征映射至文本空間,其中,所述視覺空間的蒸餾學(xué)習(xí)對象為每一個實例,所述文本空間的蒸餾學(xué)習(xí)對象是每一個類。
5.如權(quán)利要求3所述的方法,其特征在于,所述通過在視覺空間對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),獲得視覺空間的視覺特征,包括:
6.如權(quán)利要求5所
7.如權(quán)利要求5所述的方法,其特征在于,所述采用關(guān)系知識蒸餾函數(shù),建立教師模型和學(xué)生模型,通過所述教師模型的物體之間的關(guān)系擬合所述學(xué)生模型的物體之間的關(guān)系,包括:
8.一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)系統(tǒng),其特征在于,包括:
9.一種終端設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至7任一項所述的方法。
10.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的方法。
...【技術(shù)特征摘要】
1.一種開放詞匯目標(biāo)檢測模型的蒸餾學(xué)習(xí)方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述基于clip文本編碼器,采用文本類別標(biāo)簽生成方法,獲取所述偽標(biāo)簽區(qū)域圖像的文本特征,包括:
3.如權(quán)利要求1所述的方法,其特征在于,基于所述視覺特征和所述文本特征,采用雙對稱蒸餾方法,對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),使所述開放詞匯目標(biāo)檢測模型學(xué)習(xí)到clip視覺編碼器的視覺特征以及clip文本編碼器的文本特征,包括:
4.如權(quán)利要求3所述的方法,其特征在于,所述采用解耦蒸餾空間的方法,將蒸餾學(xué)習(xí)空間解耦為視覺空間和文本空間,在所述視覺空間和所述文本空間同時對開放詞匯目標(biāo)檢測模型進(jìn)行知識蒸餾學(xué)習(xí),包括:在知識蒸餾學(xué)習(xí)過程中,通過全連接層,將在視覺空間學(xué)習(xí)到的視覺特征映射至文本空間,其中,所述視覺空間的蒸餾學(xué)習(xí)對象為每一個實例,所述文本空間的蒸餾學(xué)習(xí)對象是每一個類。
5.如權(quán)利要求...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡智勇,王靖聰,王思琪,
申請(專利權(quán))人:廣東南方網(wǎng)絡(luò)信息科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。