圖文匹配模型的訓練方法、裝置、電子設備及存儲介質制造方法及圖紙

技術編號：44529325 閱讀：1 留言：0更新日期：2025-03-07 13:19

本公開涉及計算機技術領域，提供了一種圖文匹配模型的訓練方法、裝置、電子設備及存儲介質。該方法包括：將當前批訓練文本和當前批訓練圖像輸入圖文匹配模型進行編碼，得到當前批訓練文本的初始特征向量和當前批訓練圖像的初始特征向量；從特征存儲隊列獲取歷史批訓練文本的特征向量和歷史批訓練圖像的特征向量；基于當前批特征向量和歷史批特征向量，得到損失值并基于損失值更新圖文匹配模型的參數，得到訓練完成的圖文匹配模型；將當前批訓練文本和當前批訓練圖像輸入訓練完成的圖文匹配模型進行編碼，得到當前批訓練文本的特征向量和當前批訓練圖像的特征向量并據此更新特征存儲隊列，提高圖文匹配模型的性能和增強圖文匹配模型的魯棒性。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及計算機，尤其涉及一種圖文匹配模型的訓練方法、裝置、電子設備及存儲介質。

技術介紹

1、根據圖像或文本之間的相似性進行搜索是一種常見的多模態任務，現有最流行的方案是利用對比語言－圖像預訓練模型(contrastive?language–image?pre-training，clip)進行圖文匹配，clip是一種多模態視覺和文字學習的方法，它通過聯合訓練圖像特征提取網絡和文本特征提取網絡，使兩者能夠提取出具有高度相關性的特征向量。在clip中，圖像和文本被映射到同一個特征空間，通過計算特征向量之間的余弦相似度來衡量文本和圖像之間的相似性。但該方法也存在一些局限性，其中一個主要問題是負樣本的來源受限于當前訓練批次中的數據。由于圖像處理器顯存(graphics?processing?unit?memory，gpu)的限制，每次訓練只能處理有限數量的數據，這意味著可以用來作為負樣本的數量也是有限的。而對比損失的訓練效果通常隨著負樣本數量的增加而變得更好，因此極大地限制了模型的性能。

技術實現思路

1、有鑒于此，本公開實施例提供了一種圖文匹配模型的訓練方法、裝置、電子設備及存儲介質，以解決現有技術中圖文匹配模型在訓練過程中因顯存限制而導致的負樣本數量不足的問題從而影響圖文匹配模型性能的問題。

2、本公開實施例的第一方面，提供了一種圖文匹配模型的訓練方法，包括：

3、獲取當前批訓練集，當前批訓練集包括多個當前批訓練樣本，各個當前批訓練樣本包括當前批訓練文本和當前批訓練圖像；

4、將各個當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼，得到各個當前批訓練文本的初始特征向量，以及將各個當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼，得到各個當前批訓練圖像的初始特征向量；

5、獲取多個歷史批訓練文本的特征向量和多個歷史批訓練圖像的特征向量；

6、基于各個當前批訓練文本的初始特征向量、各個當前批訓練圖像的初始特征向量、各個歷史批訓練文本的特征向量和各個歷史批訓練圖像的特征向量，得到對比損失函數對應的損失值；

7、基于損失值更新圖文匹配模型的文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器的參數，直至損失值小于或等于預設閾值，得到訓練完成的圖文匹配模型；

8、將各個當前批訓練文本輸入文本動量編碼器進行文本編碼，得到各個當前批訓練文本的特征向量，以及將各個當前批訓練圖像輸入圖像動量編碼器進行圖像編碼，得到各個當前批訓練圖像的特征向量；

9、根據各個當前批訓練文本的特征向量更新文本特征存儲隊列，以及根據各個當前批訓練圖像的特征向量更新圖像特征存儲隊列；其中，多個歷史批訓練文本的特征向量為從文本特征存儲隊列獲取的，多個歷史批訓練圖像的特征向量為從圖像特征存儲隊列獲取的。

10、本公開實施例的第二方面，提供了一種圖文匹配模型的訓練裝置，包括：

11、第一獲取模塊，被配置為獲取當前批訓練集，當前批訓練集包括多個當前批訓練樣本，各個當前批訓練樣本包括當前批訓練文本和當前批訓練圖像；

12、第一編碼模塊，被配置為將各個當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼，得到各個當前批訓練文本的初始特征向量，以及將各個當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼，得到各個當前批訓練圖像的初始特征向量；

13、第二獲取模塊，被配置為獲取多個歷史批訓練文本的特征向量和多個歷史批訓練圖像的特征向量；

14、計算模塊，被配置為基于各個當前批訓練文本的初始特征向量、各個當前批訓練圖像的初始特征向量、各個歷史批訓練文本的特征向量和各個歷史批訓練圖像的特征向量，得到對比損失函數對應的損失值；

15、模型更新模塊，被配置為基于損失值更新圖文匹配模型的參數，直至損失值小于或等于預設閾值，得到訓練完成的圖文匹配模型；

16、第二編碼模塊，被配置為將各個當前批訓練文本輸入文本動量編碼器進行文本編碼，得到各個當前批訓練文本的特征向量，以及將各個當前批訓練圖像輸入圖像動量編碼器進行圖像編碼，得到各個當前批訓練圖像的特征向量；

17、隊列更新模塊，被配置為根據各個當前批訓練文本的特征向量更新文本特征存儲隊列，以及根據各個當前批訓練圖像的特征向量更新圖像特征存儲隊列；其中，多個歷史批訓練文本的特征向量為從文本特征存儲隊列獲取的，多個歷史批訓練圖像的特征向量為從圖像特征存儲隊列獲取的。

18、本公開實施例的第三方面，提供了一種電子設備，包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序，該處理器執行計算機程序時實現上述方法的步驟。

19、本公開實施例的第四方面，提供了一種可讀存儲介質，該可讀存儲介質存儲有計算機程序，該計算機程序被處理器執行時實現上述方法的步驟。

20、本公開實施例與現有技術相比存在的有益效果是：通過獲取當前批訓練集，將各個當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼，得到各個當前批訓練文本的初始特征向量，將各個當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼，得到各個當前批訓練圖像的初始特征向量，將文本和圖像數據轉換為特征向量，以便進行后續的特征匹配和損失計算。從文本特征存儲隊列和圖像特征存儲隊列中獲取多個歷史批訓練文本的特征向量和多個歷史批訓練圖像的特征向量，為當前批樣本增加負樣本的數量，從而提高對比學習的效果，通過增加負樣本，可以更好地區分正樣本和負樣本，提高圖文匹配模型的區分能力。基于當前批次的初始特征向量和歷史批次的特征向量，得到對比損失函數對應的損失值，對比損失衡量正樣本對之間的相似度與負樣本對之間的相似度之間的差距，通過計算損失值，可以評估圖文匹配模型當前的匹配效果，并據此更新圖文匹配模型中的編碼器參數(包括文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器)，通過不斷調整參數，使得圖文匹配模型可以更好地學習到文本和圖像之間的對應關系，得到訓練完成的圖文匹配模型。使用文本動量編碼器和圖像動量編碼器對當前批次的訓練文本和訓練圖像進行編碼，通過累積歷史信息來提供一個更加平滑的更新路徑，生成更穩定的各個當前批訓練文本的特征向量和各個當前批訓練圖像的特征向量，將用于更新特征存儲隊列。將當前批次的特征向量更新到特征存儲隊列中，使得存儲隊列中的特征向量是最新的，并且隊列長度保持不變。通過為圖像和文本特征分別建立存儲隊列，存儲隊列中存儲了之前訓練批次中提取的圖像特征和文本特征，可以在有限的顯存條件下增加可用于對比學習的負樣本數量，從而提高訓練質量。動量編碼器通過累積歷史信息通過動量更新的方式，使得參數更新更加平滑，可以生成比原始編碼器更穩定的特征向量。通過建立存儲隊列增加負樣本數量，并且通過動量網絡平滑了訓練過程，最終訓練得到的圖文匹配模型可以提取出更高質量的特征表示，解決現有技術中圖文匹配模型在訓練過程中因顯存限制而導本文檔來自技高網...

【技術保護點】

1.一種圖文匹配模型的訓練方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述基于所述損失值更新圖文匹配模型的文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器的參數，直至所述損失值小于或等于預設閾值，得到訓練完成的圖文匹配模型，包括：

3.根據權利要求1所述的方法，其特征在于，所述根據各個所述當前批訓練文本的特征向量更新文本特征存儲隊列，包括：

4.根據權利要求1所述的方法，其特征在于，所述根據各個所述當前批訓練圖像的特征向量更新圖像特征存儲隊列，包括：

5.根據權利要求1所述的方法，其特征在于，所述基于各個所述當前批訓練文本的初始特征向量、各個所述當前批訓練圖像的初始特征向量、各個所述歷史批訓練文本的特征向量和各個所述歷史批訓練圖像的特征向量，得到對比損失函數對應的損失值，包括：

6.根據權利要求1所述的方法，其特征在于，所述將各個所述當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼，得到各個當前批訓練文本的初始特征向量，包括：

7.根據權利要求1所述的方法，其特

8.一種圖文匹配模型的訓練裝置，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器以及存儲在所述存儲器中并且可在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現如權利要求1至7中任一項所述方法的步驟。

10.一種可讀存儲介質，所述可讀存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述方法的步驟。

...

【技術特征摘要】

1.一種圖文匹配模型的訓練方法，其特征在于，包括：

3.根據權利要求1所述的方法，其特征在于，所述根據各個所述當前批訓練文本的特征向量更新文本特征存儲隊列，包括：

4.根據權利要求1所述的方法，其特征在于，所述根據各個所述當前批訓練圖像的特征向量更新圖像特征存儲隊列，包括：

5.根據權利要求1所述的方法，其特征在于，所述基于各個所述當前批訓練文本的初始特征向量、各個所述當前批訓練圖像的初始特征向量、各個所述歷史批訓練文本的特征向量和各個所述歷史批訓練圖像的特征向量，得到對比損失函數對應的損失值，包...

【專利技術屬性】
技術研發人員：周靖宇，
申請(專利權)人：深圳須彌云圖空間科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術