System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码精品人妻一区二区三区免费看,久久无码专区国产精品,精品亚洲成在人线AV无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    圖文匹配模型的訓練方法、裝置、電子設備及存儲介質制造方法及圖紙

    技術編號:44529325 閱讀:1 留言:0更新日期:2025-03-07 13:19
    本公開涉及計算機技術領域,提供了一種圖文匹配模型的訓練方法、裝置、電子設備及存儲介質。該方法包括:將當前批訓練文本和當前批訓練圖像輸入圖文匹配模型進行編碼,得到當前批訓練文本的初始特征向量和當前批訓練圖像的初始特征向量;從特征存儲隊列獲取歷史批訓練文本的特征向量和歷史批訓練圖像的特征向量;基于當前批特征向量和歷史批特征向量,得到損失值并基于損失值更新圖文匹配模型的參數,得到訓練完成的圖文匹配模型;將當前批訓練文本和當前批訓練圖像輸入訓練完成的圖文匹配模型進行編碼,得到當前批訓練文本的特征向量和當前批訓練圖像的特征向量并據此更新特征存儲隊列,提高圖文匹配模型的性能和增強圖文匹配模型的魯棒性。

    【技術實現步驟摘要】

    本公開涉及計算機,尤其涉及一種圖文匹配模型的訓練方法、裝置、電子設備及存儲介質


    技術介紹

    1、根據圖像或文本之間的相似性進行搜索是一種常見的多模態任務,現有最流行的方案是利用對比語言-圖像預訓練模型(contrastive?language–image?pre-training,clip)進行圖文匹配,clip是一種多模態視覺和文字學習的方法,它通過聯合訓練圖像特征提取網絡和文本特征提取網絡,使兩者能夠提取出具有高度相關性的特征向量。在clip中,圖像和文本被映射到同一個特征空間,通過計算特征向量之間的余弦相似度來衡量文本和圖像之間的相似性。但該方法也存在一些局限性,其中一個主要問題是負樣本的來源受限于當前訓練批次中的數據。由于圖像處理器顯存(graphics?processing?unit?memory,gpu)的限制,每次訓練只能處理有限數量的數據,這意味著可以用來作為負樣本的數量也是有限的。而對比損失的訓練效果通常隨著負樣本數量的增加而變得更好,因此極大地限制了模型的性能。


    技術實現思路

    1、有鑒于此,本公開實施例提供了一種圖文匹配模型的訓練方法、裝置、電子設備及存儲介質,以解決現有技術中圖文匹配模型在訓練過程中因顯存限制而導致的負樣本數量不足的問題從而影響圖文匹配模型性能的問題。

    2、本公開實施例的第一方面,提供了一種圖文匹配模型的訓練方法,包括:

    3、獲取當前批訓練集,當前批訓練集包括多個當前批訓練樣本,各個當前批訓練樣本包括當前批訓練文本和當前批訓練圖像;

    4、將各個當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼,得到各個當前批訓練文本的初始特征向量,以及將各個當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼,得到各個當前批訓練圖像的初始特征向量;

    5、獲取多個歷史批訓練文本的特征向量和多個歷史批訓練圖像的特征向量;

    6、基于各個當前批訓練文本的初始特征向量、各個當前批訓練圖像的初始特征向量、各個歷史批訓練文本的特征向量和各個歷史批訓練圖像的特征向量,得到對比損失函數對應的損失值;

    7、基于損失值更新圖文匹配模型的文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器的參數,直至損失值小于或等于預設閾值,得到訓練完成的圖文匹配模型;

    8、將各個當前批訓練文本輸入文本動量編碼器進行文本編碼,得到各個當前批訓練文本的特征向量,以及將各個當前批訓練圖像輸入圖像動量編碼器進行圖像編碼,得到各個當前批訓練圖像的特征向量;

    9、根據各個當前批訓練文本的特征向量更新文本特征存儲隊列,以及根據各個當前批訓練圖像的特征向量更新圖像特征存儲隊列;其中,多個歷史批訓練文本的特征向量為從文本特征存儲隊列獲取的,多個歷史批訓練圖像的特征向量為從圖像特征存儲隊列獲取的。

    10、本公開實施例的第二方面,提供了一種圖文匹配模型的訓練裝置,包括:

    11、第一獲取模塊,被配置為獲取當前批訓練集,當前批訓練集包括多個當前批訓練樣本,各個當前批訓練樣本包括當前批訓練文本和當前批訓練圖像;

    12、第一編碼模塊,被配置為將各個當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼,得到各個當前批訓練文本的初始特征向量,以及將各個當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼,得到各個當前批訓練圖像的初始特征向量;

    13、第二獲取模塊,被配置為獲取多個歷史批訓練文本的特征向量和多個歷史批訓練圖像的特征向量;

    14、計算模塊,被配置為基于各個當前批訓練文本的初始特征向量、各個當前批訓練圖像的初始特征向量、各個歷史批訓練文本的特征向量和各個歷史批訓練圖像的特征向量,得到對比損失函數對應的損失值;

    15、模型更新模塊,被配置為基于損失值更新圖文匹配模型的參數,直至損失值小于或等于預設閾值,得到訓練完成的圖文匹配模型;

    16、第二編碼模塊,被配置為將各個當前批訓練文本輸入文本動量編碼器進行文本編碼,得到各個當前批訓練文本的特征向量,以及將各個當前批訓練圖像輸入圖像動量編碼器進行圖像編碼,得到各個當前批訓練圖像的特征向量;

    17、隊列更新模塊,被配置為根據各個當前批訓練文本的特征向量更新文本特征存儲隊列,以及根據各個當前批訓練圖像的特征向量更新圖像特征存儲隊列;其中,多個歷史批訓練文本的特征向量為從文本特征存儲隊列獲取的,多個歷史批訓練圖像的特征向量為從圖像特征存儲隊列獲取的。

    18、本公開實施例的第三方面,提供了一種電子設備,包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序,該處理器執行計算機程序時實現上述方法的步驟。

    19、本公開實施例的第四方面,提供了一種可讀存儲介質,該可讀存儲介質存儲有計算機程序,該計算機程序被處理器執行時實現上述方法的步驟。

    20、本公開實施例與現有技術相比存在的有益效果是:通過獲取當前批訓練集,將各個當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼,得到各個當前批訓練文本的初始特征向量,將各個當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼,得到各個當前批訓練圖像的初始特征向量,將文本和圖像數據轉換為特征向量,以便進行后續的特征匹配和損失計算。從文本特征存儲隊列和圖像特征存儲隊列中獲取多個歷史批訓練文本的特征向量和多個歷史批訓練圖像的特征向量,為當前批樣本增加負樣本的數量,從而提高對比學習的效果,通過增加負樣本,可以更好地區分正樣本和負樣本,提高圖文匹配模型的區分能力。基于當前批次的初始特征向量和歷史批次的特征向量,得到對比損失函數對應的損失值,對比損失衡量正樣本對之間的相似度與負樣本對之間的相似度之間的差距,通過計算損失值,可以評估圖文匹配模型當前的匹配效果,并據此更新圖文匹配模型中的編碼器參數(包括文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器),通過不斷調整參數,使得圖文匹配模型可以更好地學習到文本和圖像之間的對應關系,得到訓練完成的圖文匹配模型。使用文本動量編碼器和圖像動量編碼器對當前批次的訓練文本和訓練圖像進行編碼,通過累積歷史信息來提供一個更加平滑的更新路徑,生成更穩定的各個當前批訓練文本的特征向量和各個當前批訓練圖像的特征向量,將用于更新特征存儲隊列。將當前批次的特征向量更新到特征存儲隊列中,使得存儲隊列中的特征向量是最新的,并且隊列長度保持不變。通過為圖像和文本特征分別建立存儲隊列,存儲隊列中存儲了之前訓練批次中提取的圖像特征和文本特征,可以在有限的顯存條件下增加可用于對比學習的負樣本數量,從而提高訓練質量。動量編碼器通過累積歷史信息通過動量更新的方式,使得參數更新更加平滑,可以生成比原始編碼器更穩定的特征向量。通過建立存儲隊列增加負樣本數量,并且通過動量網絡平滑了訓練過程,最終訓練得到的圖文匹配模型可以提取出更高質量的特征表示,解決現有技術中圖文匹配模型在訓練過程中因顯存限制而導本文檔來自技高網...

    【技術保護點】

    1.一種圖文匹配模型的訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述損失值更新圖文匹配模型的文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器的參數,直至所述損失值小于或等于預設閾值,得到訓練完成的圖文匹配模型,包括:

    3.根據權利要求1所述的方法,其特征在于,所述根據各個所述當前批訓練文本的特征向量更新文本特征存儲隊列,包括:

    4.根據權利要求1所述的方法,其特征在于,所述根據各個所述當前批訓練圖像的特征向量更新圖像特征存儲隊列,包括:

    5.根據權利要求1所述的方法,其特征在于,所述基于各個所述當前批訓練文本的初始特征向量、各個所述當前批訓練圖像的初始特征向量、各個所述歷史批訓練文本的特征向量和各個所述歷史批訓練圖像的特征向量,得到對比損失函數對應的損失值,包括:

    6.根據權利要求1所述的方法,其特征在于,所述將各個所述當前批訓練文本輸入圖文匹配模型的文本原始編碼器進行文本編碼,得到各個當前批訓練文本的初始特征向量,包括:

    7.根據權利要求1所述的方法,其特征在于,所述將各個所述當前批訓練圖像輸入圖文匹配模型的圖像原始編碼器進行圖像編碼,得到各個當前批訓練圖像的初始特征向量,包括:

    8.一種圖文匹配模型的訓練裝置,其特征在于,包括:

    9.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并且可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7中任一項所述方法的步驟。

    10.一種可讀存儲介質,所述可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述方法的步驟。

    ...

    【技術特征摘要】

    1.一種圖文匹配模型的訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述損失值更新圖文匹配模型的文本原始編碼器、文本動量編碼器、圖像原始編碼器和圖像動量編碼器的參數,直至所述損失值小于或等于預設閾值,得到訓練完成的圖文匹配模型,包括:

    3.根據權利要求1所述的方法,其特征在于,所述根據各個所述當前批訓練文本的特征向量更新文本特征存儲隊列,包括:

    4.根據權利要求1所述的方法,其特征在于,所述根據各個所述當前批訓練圖像的特征向量更新圖像特征存儲隊列,包括:

    5.根據權利要求1所述的方法,其特征在于,所述基于各個所述當前批訓練文本的初始特征向量、各個所述當前批訓練圖像的初始特征向量、各個所述歷史批訓練文本的特征向量和各個所述歷史批訓練圖像的特征向量,得到對比損失函數對應的損失值,包...

    【專利技術屬性】
    技術研發人員:周靖宇
    申請(專利權)人:深圳須彌云圖空間科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产亚洲精品a在线无码| 亚洲国产一二三精品无码| 人妻丰满熟AV无码区HD| 无码免费又爽又高潮喷水的视频| 无码A级毛片日韩精品| 亚洲Av综合色区无码专区桃色| 无码人妻丰满熟妇啪啪网站| 国产亚洲精品无码成人| 国产怡春院无码一区二区| 亚洲AV无码专区国产乱码电影 | 亚洲精品无码久久久久APP | 久久人妻少妇嫩草AV无码蜜桃| 无码人妻一区二区三区在线| 精品无码一区二区三区水蜜桃| 久久久久亚洲av无码专区导航 | 亚洲精品无码不卡在线播HE| 亚洲av无码av在线播放| 免费A级毛片av无码| 丰满熟妇人妻Av无码区| 国产精品无码v在线观看| 色综合色国产热无码一| 亚洲看片无码在线视频| 久久无码AV一区二区三区| 一夲道无码人妻精品一区二区| 日韩乱码人妻无码中文视频| 亚洲中文久久精品无码1| 无码精品A∨在线观看| 野花在线无码视频在线播放 | 免费A级毛片无码无遮挡内射| 亚洲国产精品无码专区在线观看 | 未满十八18禁止免费无码网站 | 亚洲国产精品无码久久九九大片 | 亚洲av永久无码一区二区三区| 无码专区中文字幕无码| 免费A级毛片无码视频| 精品无码免费专区毛片| 亚洲熟妇av午夜无码不卡| 亚洲AV无码成人精品区狼人影院| 亚洲精品GV天堂无码男同| 精品人妻系列无码人妻漫画| 无码高潮少妇毛多水多水免费|