System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于計算機視覺領域,具體涉及一種基于對抗攻擊的圖像自監督訓練方法。
技術介紹
1、為了提高模型在廣泛的下游任務中的性能,減小模型重復訓練開銷,掩碼圖像模型(masked?mage?modeling,mim)框架受到廣泛關注。受以掩碼語言模型(masked?languagemodel,mlm)為框架的bert方法在自然語言理解所取得的巨大成功啟發,近年來已經有許多工作將類似的框架應用到圖像領域中形成了mim框架。通過向下游任務微調,基于mim框架的預訓練模型在圖像檢測、語義分割、圖像分類任務中都取得了最先進的表現。mim借鑒了mlm的核心思想:隨機遮蔽圖像中的部分區域,通過從未遮蔽部分對遮蔽部分進行重建,以促進模型對于圖像語義信息的理解,學習到更具遷移性的特征。這類方法通過mim預訓練學習到的高級特征可以廣泛遷移到醫學、電商、大宗商品等領域,從而提高模型在各種領域具體任務(如標簽分類任務)中的表現,具有廣泛的應用價值。
2、然而傳統mim任務中,通過隨機均勻采樣對圖像中遮蔽的部分進行選取,這樣的方法會帶來重點語義信息的缺失,從而限制mim針對語義信息模式的學習,限制其泛化能力。
技術實現思路
1、本專利技術的目的是為解決傳統mim任務的重點語義信息缺失,導致對語義信息模式的學習能力差以及mim的泛化能力差的問題,而提出了一種基于對抗攻擊的圖像自監督訓練方法。
2、本專利技術為解決上述技術問題所采取的技術方案是:一種基于對抗攻擊的圖像自監督訓練方法,所
3、步驟一、基于嵌入級pgd對抗攻擊對獲取的源域圖像數據集進行處理,獲得處理后的圖像;
4、步驟二、利用處理后的圖像對掩碼圖像模型進行預訓練,直至損失收斂時停止預訓練,獲得預訓練好的掩碼圖像模型;
5、步驟三、基于像素級pgd對抗攻擊和帶標簽的目標域圖像數據集對預訓練好的掩碼圖像模型的參數進行微調,完成訓練過程。
6、進一步地,所述掩碼圖像模型為掩碼自編碼器。
7、進一步地,所述步驟一的具體過程為:
8、步驟一一、對于獲取的源域圖像數據集中的任意一張圖像x,將圖像x劃分為n′個非重疊圖像補丁,n′=h×w/p2,p表示每個圖像補丁的大小,h和w分別表示圖像x的高度和寬度;
9、將劃分后得到的第i張圖像補丁記為xi,i=1,2,3;
10、步驟一二、初始化迭代次數l=0,初始化對抗性擾動
11、步驟一三、對圖像x中的全部圖像補丁進行均勻隨機掩碼,掩碼比例為γ,即對γ·n′個圖像補丁進行掩碼;
12、步驟一四、將圖像x的全部圖像補丁作為掩碼自編碼器的輸入,且在掩碼自編碼器內,對于圖像x中的每個圖像補丁均有一個唯一對應的嵌入層;
13、若圖像補丁xi為未掩碼補丁,則給圖像補丁xi對應的嵌入層添加嵌入級pgd對抗攻擊,即給圖像補丁xi對應的嵌入層添加對抗性擾動若圖像補丁xi為掩碼補丁,則給圖像補丁xi對應的嵌入層添加的嵌入級pgd對抗攻擊為0;
14、并將圖像補丁xi對應的嵌入層輸出記為
15、步驟一五、判斷是否滿足迭代的停止條件;
16、若滿足,則獲得圖像補丁xi對應的最終嵌入層fembed,i,再執行步驟一六;
17、若不滿足,則令l=l+1,返回執行步驟一三;
18、步驟一六、將圖像x中的全部圖像補丁分別經過對應的最終嵌入層,根據和fembed,i(xi)從圖像x中選擇出部分掩碼補丁后,再從圖像x剩余的圖像補丁中隨機選擇出部分圖像補丁進行掩碼,得到圖像x對應的處理后圖像;
19、步驟一七、對源域圖像數據集中的每張圖像分別進行步驟一一至步驟一六的處理,得到源域圖像數據集對應的處理后圖像數據集。
20、進一步地,所述對抗性擾動為:
21、
22、其中,α為更新步長,是第l次迭代更新后的對抗性擾動,是圖像補丁xi對應的嵌入層上次添加的非0對抗性擾動,是第l次迭代的均方誤差重建損失,表示均方誤差重建損失對的梯度,sign(·)表示符號函數,m是第l次迭代選取的全部掩碼圖像補丁的集合。
23、進一步地,所述迭代的停止條件為滿足下述的方式(1)或方式(2);
24、方式(1)、達到設置的最大迭代次數;
25、方式(2)、任意一個圖像切片滿足大于閾值∈;其中,是的p范數。
26、進一步地,所述步驟一六中,將圖像x中的全部圖像補丁分別經過對應的最終嵌入層,根據和fembed,i(xi)從圖像x中選擇出部分掩碼補丁后,再從圖像x剩余的圖像補丁中隨機選擇出部分圖像補丁進行掩碼,得到圖像x對應的處理后圖像;具體過程為:
27、步驟1、分別計算每個圖像補丁對應的其中,|·|表示計算歐式距離,表示xi經過初始嵌入層的輸出,fembed,i(xi)表示xi經過最終嵌入層的輸出;
28、步驟2、根據從圖像x的全部圖像補丁中選取出固定比例的圖像補丁;
29、再從剩余的圖像補丁中隨機選取出固定比例的圖像補丁;
30、步驟3、在圖像x中對步驟2選取出的圖像補丁進行掩碼操作,獲得掩碼處理后的圖像,即獲得圖像x對應的處理后圖像。
31、進一步地,所述步驟2的具體過程為:
32、對圖像x的各個圖像補丁對應的進行降序排列,選取出排在前面的αattack·n′個值所對應的圖像補丁,其中,αattack為基于嵌入攻擊選取的掩碼部分比例;
33、再從剩余的圖像補丁中隨機選取出(γ-αattack)·n′個圖像補丁,γ為全部掩碼部分的比例。
34、進一步地,所述αattack的取值為0.4。
35、進一步地,所述步驟二中的損失為訓練集中各張圖像的均方誤差重建損失之和,圖像x的均方誤差重建損失具體為:
36、
37、其中,是圖像x的均方誤差重建損失,m是圖像x上掩碼圖像補丁的集合,xk是集合m中的第k個掩碼圖像補丁,是對xk的重建結果,‖·‖表示2范數。
38、更進一步地,所述基于像素級pgd對抗攻擊和目標域圖像數據集對預訓練好的掩碼圖像模型的參數進行微調,具體為:
39、
40、其中,xj是下游任務的目標域圖像數據集中的第j張圖像,δj是給xj添加的像素級pgd對抗攻擊,fθ(xj+δj)是xj+δj經過掩碼圖像模型后的輸出,θ是微調后的掩碼圖像模型參數,是交叉熵損失函數,n是下游任務的目標域圖像數據集中包含的圖像總張數,yj是xj的標簽。
41、本專利技術的有益效果是:
42、本專利技術首先對圖像中非語義信息部分進行掩碼處理,特別是在攻擊前后變化最顯著的區域,而對其余部分則進行隨機掩碼。通過這種掩碼方式,可以在最大程度保留語義信息的基礎上,生成針對語義信息部分的模型重建任務,從而增強模型對語義信息的理解能力本文檔來自技高網...
【技術保護點】
1.一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述方法具體包括以下步驟:
2.根據權利要求1所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述掩碼圖像模型為掩碼自編碼器。
3.根據權利要求2所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述步驟一的具體過程為:
4.根據權利要求3所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述對抗性擾動為:
5.根據權利要求4所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述迭代的停止條件為滿足下述的方式(1)或方式(2);
6.根據權利要求5所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述步驟一六中,將圖像X中的全部圖像補丁分別經過對應的最終嵌入層,根據和fembed,i(Xi)從圖像X中選擇出部分掩碼補丁后,再從圖像X剩余的圖像補丁中隨機選擇出部分圖像補丁進行掩碼,得到圖像X對應的處理后圖像;具體過程為:
7.根據權利要求6所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述步驟2的具體過程為:
...【技術特征摘要】
1.一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述方法具體包括以下步驟:
2.根據權利要求1所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述掩碼圖像模型為掩碼自編碼器。
3.根據權利要求2所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述步驟一的具體過程為:
4.根據權利要求3所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述對抗性擾動為:
5.根據權利要求4所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述迭代的停止條件為滿足下述的方式(1)或方式(2);
6.根據權利要求5所述的一種基于對抗攻擊的圖像自監督訓練方法,其特征在于,所述步驟一六中,將圖像x中的全部圖像補丁分別經過對應的最終嵌入層,根據和fembed,i...
【專利技術屬性】
技術研發人員:劉健行,羅奕昂,隋聰,齊弼卿,匡冀源,萬學堯,趙悅,石寶峰,
申請(專利權)人:哈爾濱工業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。