System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于模型訓練與測試領域,具體涉及一種有效的深度學習模型訓練測試方法及裝置。
技術介紹
1、當前深度學習模型已經被廣泛應用,模型訓練過程中需要大量的標注數據集。然而在數據集的海量標簽中,因標注出錯而產生噪聲標簽的情況時常發生。在實際研究中,模型的性能往往受到數據質量和數量的顯著影響。尤其是在分類任務中,訓練數據的多樣性和豐富性直接關系到模型的泛化能力和分類精度。因此,快速建立低標注代價的圖像分類方法具有重要意義。尤其是在分類任務中,訓練數據的多樣性和準確性直接關系到模型的泛化能力和分類精度。然而,許多實際應用中可用的數據集往往存在樣本不足、類別不平衡或噪聲數據等問題,這些因素可能導致模型在新數據上的表現不佳。
2、有鑒于此,本專利技術提出一種有效的深度學習模型訓練測試方法及裝置。
技術實現思路
1、為了解決現有技術中存在的上述問題,本專利技術提供一種有效的深度學習模型訓練測試方法及裝置,通過圖像去重、生成式數據增強和對模型進行交叉訓練測試,提高模型的訓練精度和泛化能力。
2、為了實現上述目的,本專利技術采用以下技術方案。
3、第一方面,本專利技術提供一種有效的深度學習模型訓練測試方法,包括以下步驟:
4、對原始的圖像數據集d0進行去重處理,刪除相似圖像,得到數據集d1;
5、對數據集d1進行數據增強處理,得到數據量增多的數據集d2;
6、將數據集d2隨機分成多個子集,分別以每個子集為測試集,以其余子集的
7、進一步地,獲得數據集d1的方法包括:
8、將數據集d0中的圖像縮小至m行×n列像素,并轉換為灰度圖像;
9、若第i行第j列的像素值大于第i行第j+1列的像素值,記為aij=1;否則,記為aij=0,得到m行×(n-1)列矩陣a={aij}m×(n-1);其中,i=1,2,...,m,j=1,2,...,n-1;
10、統計數據集d0中任意兩個圖像對應的矩陣a中相同位置元素aij不等的個數s,若s小于設定閾值,則所述兩個圖像為相似圖像,將所述兩個圖像組成一個相似圖像對;
11、基于相似圖像對對數據集d0中的圖像進行刪除處理,得到數據集d1。
12、更進一步地,基于相似圖像對對數據集d0中的圖像進行刪除處理的方法包括:從數據集d0中刪除每個相似圖像對中的任意一個圖像。
13、更進一步地,基于相似圖像對對數據集d0中的圖像進行刪除處理的方法包括:
14、統計相似圖像對中的每個圖像出現在所有相似圖像對中的次數;
15、按照所述次數從高到低的順序對每個圖像排序;
16、從所有相似圖像對中依次刪除包含排在最前面的圖像的相似圖像對,同時從數據集d0中刪除所述圖像,直到刪除所有相似圖像對。
17、進一步地,利用生成對抗網絡對數據集d1進行數據增強處理,包括:
18、將數據集d1中的數據輸入到判別模型d,將隨機噪聲輸入到生成模型g;
19、生成模型g輸出生成數據,并將生成數據輸入到判別模型d;
20、判別模型d輸出生成數據是數據集d1中的數據的概率,并將所述概率反饋到生成模型g;
21、生成模型g基于反饋數據調整模型參數,使判別模型d輸出的所述概率提高;
22、通過反復迭代,使生成模型g輸出精度滿足要求的生成數據;
23、將所述生成數據不斷補充到數據集d1中,得到數據集d2。
24、進一步地,基于數據集d2對深度學習模型訓練測試的方法包括:
25、s1、將數據集d2隨機分成k個子集;
26、s2、將第k個子集作為測試集,將其余子集的合集作為訓練集,利用訓練集對深度學習模型進行訓練,利用測試集對訓練后的模型進行測試;其中,1≤k≤k;
27、s3、將k更新為mod(k+1,k),轉步驟s2,循環執行步驟s2、s3,直到深度學習模型的分類精度達到設定閾值;其中,mod(k+1,k)表示k+1除以k的余數,且余數為0時其值為k。
28、進一步地,基于數據集d2對深度學習模型訓練測試的方法包括:
29、s1、將數據集d2隨機分成k個子集;
30、s2、將第k個子集作為測試集,將其余子集的合集作為訓練集,利用訓練集對深度學習模型進行訓練,利用測試集對訓練后的模型進行測試,并記錄訓練測試次數m;其中,1≤k≤k;
31、s3、若m<k,將k更新為mod(k+1,k),轉步驟s2;若否,將m清零后轉步驟s1;循環執行步驟s2、s3,直到深度學習模型的分類精度達到設定閾值;其中,mod(k+1,k)表示k+1除以k的余數,且余數為0時其值為k。
32、進一步地,基于數據集d2對深度學習模型訓練測試的方法包括:
33、s1、將數據集d2隨機分成k個子集;
34、s2、將第k個子集作為測試集,將其余子集的合集作為訓練集,利用訓練集對深度學習模型進行訓練,利用測試集對訓練后的模型進行測試,并記錄測試結果中模型分類出錯的負樣本數據以及訓練測試次數m;其中,1≤k≤k;
35、s3、若m<k,將k更新為mod(k+1,k),轉步驟s2;若否,轉步驟s4;其中,mod(k+1,k)表示k+1除以k的余數,且余數為0時其值為k;
36、s4、重新構建包含全部負樣本數據的訓練集和包含全部負樣本數據的測試集;
37、s5、利用訓練集對深度學習模型進行訓練,利用測試集對訓練后的模型進行測試,并將測試結果中出現的新的負樣本數據添加到訓練集;重復執行步驟s5,直到深度學習模型的分類精度達到設定閾值。
38、更進一步地,k=5。
39、第二方面,本專利技術提供一種有效的深度學習模型訓練測試裝置,包括:
40、數據去重模塊,用于對原始的圖像數據集d0進行去重處理,刪除相似圖像,得到數據集d1;
41、數據增強模塊,用于對數據集d1進行數據增強處理,得到數據量增多的數據集d2;
42、訓練測試模塊,用于將數據集d2隨機分成多個子集,分別以每個子集為測試集,以其余子集的合集為訓練集,對深度學習模型進行循環交叉訓練和測試,直到訓練后的模型滿足精度要求。
43、與現有技術相比,本專利技術具有以下有益效果。
44、本專利技術通過對原始的圖像數據集d0進行去重處理,刪除相似圖像,得到數據集d1,對數據集d1進行數據增強處理,得到數據量增多的數據集d2,將數據集d2隨機分成多個子集,分別以每個子集為測試集,以其余子集的合集為訓練集,對深度學習模型進行循環交叉訓練和測試,直到訓練后的模型滿足精度要求,實現了對深度學習模型的有效訓練測試。本專利技術通過對原始數據集進行去重處理,并刪除重復或相似圖像,可本文檔來自技高網...
【技術保護點】
1.一種有效的深度學習模型訓練測試方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,獲得數據集D1的方法包括:
3.根據權利要求2所述的有效的深度學習模型訓練測試方法,其特征在于,基于相似圖像對對數據集D0中的圖像進行刪除處理的方法包括:從數據集D0中刪除每個相似圖像對中的任意一個圖像。
4.根據權利要求2所述的有效的深度學習模型訓練測試方法,其特征在于,基于相似圖像對對數據集D0中的圖像進行刪除處理的方法包括:
5.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,利用生成對抗網絡對數據集D1進行數據增強處理,包括:
6.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,基于數據集D2對深度學習模型訓練測試的方法包括:
7.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,基于數據集D2對深度學習模型訓練測試的方法包括:
8.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,基于數據集D2
9.根據權利要求8所述的有效的深度學習模型訓練測試方法,其特征在于,K=5。
10.一種有效的深度學習模型訓練測試裝置,其特征在于,包括:
...【技術特征摘要】
1.一種有效的深度學習模型訓練測試方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,獲得數據集d1的方法包括:
3.根據權利要求2所述的有效的深度學習模型訓練測試方法,其特征在于,基于相似圖像對對數據集d0中的圖像進行刪除處理的方法包括:從數據集d0中刪除每個相似圖像對中的任意一個圖像。
4.根據權利要求2所述的有效的深度學習模型訓練測試方法,其特征在于,基于相似圖像對對數據集d0中的圖像進行刪除處理的方法包括:
5.根據權利要求1所述的有效的深度學習模型訓練測試方法,其特征在于,利用生成對...
【專利技術屬性】
技術研發人員:暴恒,史博軒,劉琨,劉暢,孫巍,于佳華,
申請(專利權)人:國家計算機網絡與信息安全管理中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。