System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開涉及模型訓練領域,尤其涉及一種基于樣本過濾的模型訓練方法及相關設備。
技術介紹
1、深度神經網絡的有效性依賴于大量的訓練樣本,用戶往往為了節約時間和成本從不受信任的數據源收集數據,這正在成為攻擊者的目標。攻擊者通過改變一部分訓練樣本以改變模型的預測。現有的防御策略還存在良性樣本的精度下降,容易引發未知的錯誤,容易被攻擊者設計的自適應攻擊繞過,受到攻擊中毒率的影響而失效,從而導致訓練得到的模型可靠性低。
技術實現思路
1、本公開提出一種基于樣本過濾的模型訓練方法及相關設備,以在一定程度上解決訓練樣本不可靠導致訓練得到的模型可靠性低等技術問題。
2、本公開第一方面,提供了一種基于樣本過濾的模型訓練方法,包括:
3、獲取訓練樣本集合;
4、基于所述訓練樣本集合訓練用于識別后門正樣本的判別器,以及基于所述判別器確定所述訓練樣本集合中的第一后門正樣本;
5、基于所述訓練樣本集合的aum值確定所述訓練樣本集合中的第二后門樣本;
6、將所述第一后門正樣本和所述第二后門樣本的原始標簽去除,得到中間樣本集合;
7、基于所述中間樣本集合在所述訓練樣本集合中的補集與所述中間樣本集合進行半監督訓練,得到訓練好的模型。
8、本公開第二方面,提供了一種基于樣本過濾的模型訓練裝置,包括:
9、樣本獲取模塊,用于獲取訓練樣本集合;
10、第一樣本模塊,用于基于所述訓練樣本集合訓練用于識別后門正樣本的判
11、第二樣本模塊,用于基于所述訓練樣本集合的aum值確定所述訓練樣本集合中的第二后門樣本;
12、標簽去除模塊,用于將所述第一后門正樣本和所述第二后門樣本的原始標簽去除,得到中間樣本集合;
13、模型訓練模塊,用于基于所述中間樣本集合在所述訓練樣本集合中的補集與所述中間樣本集合進行半監督訓練,得到訓練好的模型。
14、本公開第三方面,提供了一種電子設備,包括一個或者多個處理器、存儲器;和一個或多個程序,其中所述一個或多個程序被存儲在所述存儲器中,并且被所述一個或多個處理器執行,所述程序包括用于執行根據第一方面所述的方法的指令。
15、本公開第四方面,提供了一種包含計算機程序的非易失性計算機可讀存儲介質,當所述計算機程序被一個或多個處理器執行時,使得所述處理器執行第一方面所述的方法。
16、本公開第五方面,提供了一種計算機程序產品,包括計算機程序指令,當所述計算機程序指令在計算機上執行時,使得計算機執行第一方面所述的方法。
17、從上面所述可以看出,本公開提供的一種基于樣本過濾的模型訓練方法及相關設備,在訓練階段消除不受信任的訓練集的影響(訓練集中可能含有后門數據)。通過分析后門樣本在訓練時期與干凈樣本表現出的不同的損失差異,設計了一個雙通道的樣本過濾方式以應對不同中毒率情況下的后門樣本。最終將去除標簽的后門樣本與干凈樣本進行半監督學習以訓練干凈的模型。在消除后門攻擊的情況下能夠保持模型在干凈樣本上的預測精度,從而有效地提高了模型的安全性和魯棒性。
本文檔來自技高網...【技術保護點】
1.一種基于樣本過濾的模型訓練方法,包括:
2.根據權利要求1的方法,其中,基于所述訓練樣本集合訓練用于識別后門正樣本的判別器,包括:
3.根據權利要求2的方法,其中,還包括:
4.根據權利要求3的方法,其中,基于所述判別器確定所述訓練樣本集合中的第一后門正樣本,包括:
5.根據權利要求1的方法,其中,基于所述訓練樣本集合的AUM值確定所述訓練樣本集合中的第二后門樣本,包括:
6.根據權利要求2的方法,其中,基于所述Flooding損失、第一閾值數量和第二閾值數量確定所述訓練樣本集合中的第一中間后門正樣本和第一中間后門負樣本,包括:
7.根據權利要求1的方法,其中,基于所述中間樣本集合在所述訓練樣本集合中的補集與所述中間樣本集合進行半監督訓練,得到訓練好的模型,包括:
8.一種樣本過濾的模型訓練裝置,包括:
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上執行的計算機程序,所述處理器執行所述程序時實現如權利要求1至7任意一項所述的方法。
10.一種非暫態計
...【技術特征摘要】
1.一種基于樣本過濾的模型訓練方法,包括:
2.根據權利要求1的方法,其中,基于所述訓練樣本集合訓練用于識別后門正樣本的判別器,包括:
3.根據權利要求2的方法,其中,還包括:
4.根據權利要求3的方法,其中,基于所述判別器確定所述訓練樣本集合中的第一后門正樣本,包括:
5.根據權利要求1的方法,其中,基于所述訓練樣本集合的aum值確定所述訓練樣本集合中的第二后門樣本,包括:
6.根據權利要求2的方法,其中,基于所述flooding損失、第一閾值數量和第二閾值數量確定所述訓練樣本集合中的第一中...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。