圖像分類模型訓練方法、裝置、電子設備及存儲介質制造方法及圖紙

技術編號：41257680 閱讀：28 留言：0更新日期：2024-05-11 09:17

本申請公開了一種圖像分類模型訓練方法、裝置、電子設備及存儲介質，屬于人工智能技術領域。方法包括：采用第一樣本圖像集對預設的視覺模型進行生成式自監督訓練，以對視覺模型的底層參數進行更新；底層參數表示用于提取圖像視覺特征的參數；加載更新后的底層參數作為初始化，采用第二樣本圖像集對視覺模型進行判別式自監督訓練，以對視覺模型的高階參數進行更新；高階參數表示用于提取圖像空間特征的參數；加載更新后的底層參數和更新后的高階參數作為初始化，采用標注有圖像類別的第三樣本圖像集對視覺模型進行有監督訓練。本申請實施例充分融合了生成式和判別式的自監督學習方法優勢，從而在全量微調和小樣本分類任務上取得性能的領先。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請屬于人工智能，尤其涉及一種圖像分類模型訓練方法、裝置、電子設備及存儲介質。

技術介紹

1、隨著人工智能技術的飛速發展，深度學習在工業領域得到了廣泛應用。通過加載在大規模無標注數據集上預訓練得到的模型參數作為初始化，然后在下游任務數據上對模型初始化參數進行微調，這種預訓練-微調范式成為了深度學習應用中的主流方法。

2、現有技術方案常采用自然場景數據集imagenet上預訓練得到的權重對模型進行初始化，然后在工業具體任務場景下進行遷移學習，采用少量帶標注的數據對模型進行微調，從而獲得最終應用于各個工業場景的專有模型。

3、然而，imagenet數據集多為自然場景圖像，這與工業場景數據之間存在巨大的域間差異。因此，使用imagenet數據進行預訓練的模型并沒有學習到工業場景圖像的有效視覺表征，使得在模型微調的時候需要更多的數據以及迭代輪次使得模型權重從自然場景向工業場景轉移，這導致模型性能下降。

技術實現思路

1、本申請旨在至少解決現有技術中存在的技術問題之一。為此，本申請提出一種圖像分類模型訓練方法、裝置、電子設備及存儲介質，以提高模型在小樣本分類任務上的性能。

2、第一方面，本申請提供了一種圖像分類模型訓練方法，包括：

3、采用第一樣本圖像集對預設的視覺模型進行生成式自監督訓練，以對所述視覺模型的底層參數進行更新；所述底層參數表示用于提取圖像視覺特征的參數；

4、加載更新后的底層參數作為初始化，采用第二樣本圖像集對所述

5、加載更新后的底層參數和更新后的高階參數作為初始化，采用標注有圖像類別的第三樣本圖像集對所述視覺模型進行有監督訓練。

6、根據本申請的圖像分類模型訓練方法，通過采用第一樣本圖像集對預設的視覺模型進行生成式自監督訓練，以對所述視覺模型的底層參數進行更新；所述底層參數表示用于提取圖像視覺特征的參數；加載更新后的底層參數作為初始化，采用第二樣本圖像集對所述視覺模型進行判別式自監督訓練，以對所述視覺模型的高階參數進行更新；所述高階參數表示用于提取圖像空間特征的參數；加載更新后的底層參數和更新后的高階參數作為初始化，采用標注有圖像類別的第三樣本圖像集對所述視覺模型進行有監督訓練。本申請實施例通過兩階段的訓練方式，不需要人工標注的數據，只需要未標記數據作為訓練集，充分發揮兩種自監督學習方法的優勢，使得面向工業場景的預訓練模型既能學習到工業場景豐富的視覺底層特征，又能學習到高階抽象的圖像類別特征，并且在判別式自監督訓練時更新高階參數，約束底層參數的更新，充分融合了生成式和判別式的自監督學習方法，在微調階段，僅需要少量的有標注數據，從而在全量微調和小樣本分類任務上取得性能的領先。

7、根據本申請的一個實施例，所述采用第一樣本圖像集對預設的視覺模型進行生成式自監督訓練，以對所述視覺模型的底層參數進行更新，包括：

8、對所述第一樣本圖像集中樣本圖像的隨機區域進行掩碼；

9、基于所述視覺模型的底層參數提取所述樣本圖像中未被掩碼區域對應的特征向量；

10、根據所述特征向量與所述樣本圖像中的掩碼區域之間的關聯關系對掩碼區域進行重建，得到重建圖像；

11、基于所述重建圖像與所述樣本圖像的差異在所述視覺模型中進行反向傳播，以對所述視覺模型的底層參數進行更新。

12、該實施例通過對樣本集中的樣本圖像進行掩碼和重建的方式實現模型訓練，能夠學習數據的分布，從而能夠生成與訓練數據相似的新數據，有助于模型學習圖像的視覺底層特征和結構，提高模型的泛化能力。

13、根據本申請的一個實施例，所述對所述第一樣本圖像集中樣本圖像的隨機區域進行掩碼，包括：

14、將所述樣本圖像分割成預設大小的多個圖像塊；

15、以預設的掩碼比例隨機選擇圖像塊進行掩碼；所述掩碼比例表示被掩碼的圖像塊數量與總圖像塊數量的比例。

16、在該實施例中，通過對圖像進行分割和隨機掩碼的方式對樣本圖像的隨機區域進行掩碼，能夠基于樣本圖像生成新的數據樣本，這些數據可以用于增加訓練數據的多樣性，提高模型的泛化能力。特別是在樣本稀缺的情況下，通過對圖像進行分割和隨機掩碼的方式對樣本圖像的隨機區域進行掩碼的方式還可以起到數據增強的作用。

17、根據本申請的一個實施例，所述基于所述重建圖像與所述樣本圖像的差異在所述視覺模型中進行反向傳播，以對所述視覺模型的底層參數進行更新，包括：

18、計算表征所述重建圖像與所述樣本圖像差異的第一損失函數；其中，所述重建圖像與所述樣本圖像的差異越小，所述第一損失函數值越小；

19、根據所述第一損失函數在所述視覺模型中進行反向傳播，以對所述視覺模型的底層參數進行更新。

20、在該實施例中，可以通過表征所述重建圖像與所述樣本圖像差異的第一損失函數來做為反向傳播的輸入，第一損失函數越小，則表示模型訓練的效果越好，通過這種方式能夠準確了解視覺模型的訓練進度。

21、根據本申請的一個實施例，所述加載更新后的底層參數作為初始化，采用第二樣本圖像集對所述視覺模型進行判別式自監督訓練，包括：

22、基于不同的數據增強方式對所述第二樣本圖像集中樣本圖像的進行多次數據增強，得到所述樣本圖像對應的多個增廣圖像；

23、將所述樣本圖像對應的多個增廣圖像作為一個樣本對，基于所述視覺模型的高階參數和初始化的底層參數提取所述樣本對中各個樣本的特征向量；

24、根據所述樣本對中各個樣本的特征向量之間的差異在所述視覺模型中進行反向傳播，以對所述視覺模型的高階參數進行更新。

25、在該實施例中，通過構建樣本對的方式比對樣本對中各個樣本的差異實現模型的訓練，能夠基于比對樣本對中各個樣本的差異學習圖像在空間結構上多尺度與多視角的特征，提高了模型對高階類別特征的抽象能力，進一步的，通過加載生成式自監督訓練更新的底層參數作為初始化參數參與特征的提取，并且在訓練過程中約束底層參數的更新，對高階參數進行更新，有效融合了生成式和判別式的自監督學習方法的優勢，進一步了模型的性能。

26、根據本申請的一個實施例，所述樣本對包括正樣本對和負樣本對；所述正樣本對和所述負樣本包括不同樣本圖像對應的多個增廣圖像；

27、所述根據所述樣本對中各個樣本的特征向量之間的差異在所述視覺模型中進行反向傳播，以對所述視覺模型的高階參數進行更新，包括：

28、根據所述正樣本對中各個正樣本的特征向量之間的差異，以及所述正樣本對中各個正樣本的特征向量與所述負樣本對中各個負樣本的特征向量之間的差異構建第二損失函數；其中，所述正樣本對中各個正樣本的特征向量之間的差異越小，所述正樣本對中各個正樣本的特征向量與所述負樣本對中各個負樣本的特征向量之間的差異越大，所述第二損失函數值越小本文檔來自技高網...

【技術保護點】

1.一種圖像分類模型訓練方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述采用第一樣本圖像集對預設的視覺模型進行生成式自監督訓練，以對所述視覺模型的底層參數進行更新，包括：

3.根據權利要求2所述的方法，其特征在于，所述對所述第一樣本圖像集中樣本圖像的隨機區域進行掩碼，包括：

4.根據權利要求2所述的方法，其特征在于，所述基于所述重建圖像與所述樣本圖像的差異在所述視覺模型中進行反向傳播，以對所述視覺模型的底層參數進行更新，包括：

5.根據權利要求1所述的方法，其特征在于，所述加載更新后的底層參數作為初始化，采用第二樣本圖像集對所述視覺模型進行判別式自監督訓練，包括：

6.根據權利要求1所述的方法，其特征在于，所述樣本對包括正樣本對和負樣本對；所述正樣本對和所述負樣本包括不同樣本圖像對應的多個增廣圖像；

7.根據權利要求1所述的方法，所述加載更新后的底層參數和更新后的高階參數作為初始化，采用標注有圖像類別的第三樣本圖像集對所述視覺模型進行有監督訓練，包括：

8.一種圖像分類模型

9.一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述程序時實現如權利要求1-7任一項所述的方法。

10.一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該計算機程序被處理器執行時實現如權利要求1-7任一項所述的方法。

...

【技術特征摘要】

1.一種圖像分類模型訓練方法，其特征在于，包括：

3.根據權利要求2所述的方法，其特征在于，所述對所述第一樣本圖像集中樣本圖像的隨機區域進行掩碼，包括：

6.根據權利要求...

【專利技術屬性】
技術研發人員：高鵬程，楊騰，唐永亮，
申請(專利權)人：深圳市凌云視迅科技有限責任公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術