本發明專利技術公開一種基于增量學習的自適應加密威脅檢測方法、裝置,用于避免固化模型的災難性遺忘問題,通過自適應學習可以根據當前問題的特性和數據分布,自動調整學習策略和模型參數,能夠在原模型的基礎上,通過進一步訓練擬合新的數據。并且為解決現網流量數據復雜多變,短時間內數據大量單一,以及威脅樣本獲取困難的情況,通過本發明專利技術的兩大模塊:數據預處理模塊和數據更新模塊進行改善。
【技術實現步驟摘要】
本專利技術涉及流量檢測,尤其涉及一種基于增量學習的自適應加密威脅檢測方法。
技術介紹
1、在流量檢測領域,加密技術的應用普及廣泛,傳統的基于明文檢測的方法受到限制,通過從加密流量總提取相關行為字段信息,構建機器學習模型本可以有效識別惡意威脅,然而,當前絕大多數加密流量ai檢測技術基于固化模型,即利用相對固定的實驗室黑白加密流量集合,使用各種ai算法經過擬合后形成。
2、這類ai檢測模型主要有如下兩個問題,首先,實驗室的白流量與現網白流量可能存在較大差別,因此模型可能會出現將現網的白流量識別為惡意流量,出現誤報;其次,現網流量隨時間推移,也會出現變化,出現新的白流量,如果模型不能自適應更新,誤報情況可能會愈發嚴重。
技術實現思路
1、本專利技術的主要目的在于公開一種基于增量學習的自適應加密威脅檢測方法,用于解決現有技術中存在的因白流量存在較大差異出現將現網白流量識別為惡意流量出現誤報,以及因模型不能自適應更新出現的誤報情況加重。
2、為達上述目的,根據本專利技術的一個方面,提供一種基于增量學習的自適應加密威脅檢測方法,并采用如下技術方案:
3、提取流量數據的多個角度特征;根據特征基于規則的提取方法及基于主動學習的提取方法獲取白流量樣本數據;根據特征基于數據擾動的數據增廣技術獲取黑流量樣本數據;根據白流量樣本數據及黑流量樣本數據進行主動學習,獲取現網黑白樣本;基于黑白樣本對加密威脅檢測系統進行模型訓練調整,并確認使用最新加密威脅檢測系統進行檢測。p>4、進一步地,自適應加密威脅檢測方法,所述根據特征基于規則的提取方法包括:按照時間分布,分時段獲取未引起設備檢測告警的白樣本,且在各個時段利用隨機欠采樣方法獲取代表性數據;根據場景不同,使用按照ip段流量占比等比例進行隨機欠采樣抽取;將各個部分抽樣的所有數據合并作為第一樣本。
5、進一步地,自適應加密威脅檢測方法,所述基于主動學習的提取方法包括,利用自適應更新之前的模型作為基準模型,選擇實時樣本中預測為正常流量和惡意流量的概率值之差的絕對值最小的樣本,對此部分樣本進行二次標簽確認真實標簽,將真實標簽為白的樣本為第二樣本;合并第一樣本與第二樣本為白流量樣本數據。
6、進一步地,自適應加密威脅檢測方法,根據特征基于數據擾動的數據增廣技術獲取黑流量樣本數據包括:利用收集的歷史黑樣本以及外部所提供黑樣本數據,模擬生成新的黑樣本數據作為現網黑樣本數據;通過歷史黑流量的進行隨機丟包、重傳來模擬現網中可能存在的變異黑樣本。
7、進一步地,自適應加密威脅檢測方法,黑白樣本對加密威脅檢測系統進行模型訓練調整,并確認使用最新加密威脅檢測系統進行檢測包括:模型參數調整:
8、wclass_i=w*(numall/numclass_i)
9、其中w表示所有樣本所對應的原有特征權重參數向量,num?all為全部樣本總量,num?class_i為第i類的樣本數量,第i類樣本所對應的樣本權重經調整后變成wclass_i;
10、模型結構調整:首先設置隨機森林最大子樹數量閾值,以控制模型的規模;當模型更新時,子樹數量未達到最大閾值,則增加一定的子樹,用于學習和擬合數據預處理模塊獲取的數據;而當子樹數量達到最大閾值時,更新之前通過根據各個子樹在待更新的實時數據上的錯誤率表現進行排序,并末位淘汰topn棵樹,同時,增加相同數量的n棵樹訓練擬合新的實時數據,由此后續所更新的模型的子樹數量始終等于最大閾值。
11、根據本專利技術的另外一個方面,提供一種基于增量學習的自適應加密威脅檢測裝置,并采用如下技術方案:
12、提取模塊,用于提取流量數據的多個角度特征;第一獲取模塊,用于根據特征基于規則的提取方法及基于主動學習的提取方法獲取白流量樣本數據;第二獲取模塊,用于根據特征基于數據擾動的數據增廣技術獲取黑流量樣本數據;主動學習模塊,用于根據白流量樣本數據及黑流量樣本數據進行主動學習,獲取現網黑白樣本;訓練模塊,用于基于黑白樣本對加密威脅檢測系統進行模型訓練調整,并確認使用最新加密威脅檢測系統進行檢測。
13、進一步地,自適應加密威脅檢測裝置,第一獲取模塊包括:獲取子模塊,用于按照時間分布,分時段獲取未引起設備檢測告警的白樣本,且在各個時段利用隨機欠采樣方法獲取代表性數據;欠采用抽取模塊,用于根據場景不同,使用按照ip段流量占比等比例進行隨機欠采樣抽取;合并模塊,用于將各個部分抽樣的所有數據合并作為第一樣本。確認模塊,用于利用自適應更新之前的模型作為基準模型,選擇實時樣本中預測為正常流量和惡意流量的概率值之差的絕對值最小的樣本,對此部分樣本進行二次標簽確認真實標簽,將真實標簽為白的樣本為第二樣本;合并子模塊,用于合并第一樣本與第二樣本為白流量樣本數據。
14、進一步地,自適應加密威脅檢測裝置,其特征在于,所述第二獲取模塊包括:利用收集的歷史黑樣本以及外部所提供黑樣本數據,模擬生成新的黑樣本數據作為現網黑樣本數據;通過歷史黑流量的進行隨機丟包、重傳來模擬現網中可能存在的變異黑樣本。
15、進一步地,自適應加密威脅檢測裝置,其特征在于,所述訓練模塊包括:第一調整模塊,用于模型參數調整:
16、wclass_i=w*(numall/numclass_i)
17、其中w表示所有樣本所對應的原有特征權重參數向量,num?all為全部樣本總量,num?class_i為第i類的樣本數量,第i類樣本所對應的樣本權重經調整后變成wclass_i;第二調整模塊,用于模型結構調整:首先設置隨機森林最大子樹數量閾值,以控制模型的規模;當模型更新時,子樹數量未達到最大閾值,則增加一定的子樹,用于學習和擬合數據預處理模塊獲取的數據;而當子樹數量達到最大閾值時,更新之前通過根據各個子樹在待更新的實時數據上的錯誤率表現進行排序,并末位淘汰topn棵樹,同時,增加相同數量的n棵樹訓練擬合新的實時數據,由此后續所更新的模型的子樹數量始終等于最大閾值。
18、根據本專利技術的又一個方面,提供一種存儲介質,并采用如下技術方案:
19、一種存儲介質包括上述的自適應加密威脅檢測裝置。
20、本專利技術通過對問題的特性和數據分布進行自適應學習,自動調整策略和模型參數,通過增量學習的思想引入加密威脅檢測中,從而自適應地對模型進行調整,提高模型檢測的準確性,有效降低誤報率。
本文檔來自技高網...
【技術保護點】
1.一種基于增量學習的自適應加密威脅檢測方法,其特征在于,包括:
2.根據權利要求1所述的自適應加密威脅檢測方法,其特征在于,所述根據特征基于規則的提取方法包括:
3.根據權利要求2所述的自適應加密威脅檢測方法,其特征在于,所述基于主動學習的提取方法包括:
4.根據權利要求1所述的自適應加密威脅檢測方法,其特征在于,所述根據特征基于數據擾動的數據增廣技術獲取黑流量樣本數據包括:
5.根據權利要求1所述的自適應加密威脅檢測方法,其特征在于,所述基于黑白樣本對加密威脅檢測系統進行模型訓練調整,并確認使用最新加密威脅檢測系統進行檢測包括:
6.一種基于增量學習的自適應加密威脅檢測裝置,其特征在于,包括:
7.根據權利要求6所述的自適應加密威脅檢測裝置,其特征在于,所述第一獲取模塊包括:
8.根據權利要求6所述的自適應加密威脅檢測裝置,其特征在于,所述第二獲取模塊包括:
9.根據權利要求6所述的自適應加密威脅檢測裝置,其特征在于,所述訓練模塊包括:
10.一種存儲介質,其特征在于,包括權利要求6-9任一項所述的自適應加密威脅檢測裝置。
...
【技術特征摘要】
1.一種基于增量學習的自適應加密威脅檢測方法,其特征在于,包括:
2.根據權利要求1所述的自適應加密威脅檢測方法,其特征在于,所述根據特征基于規則的提取方法包括:
3.根據權利要求2所述的自適應加密威脅檢測方法,其特征在于,所述基于主動學習的提取方法包括:
4.根據權利要求1所述的自適應加密威脅檢測方法,其特征在于,所述根據特征基于數據擾動的數據增廣技術獲取黑流量樣本數據包括:
5.根據權利要求1所述的自適應加密威脅檢測方法,其特征在于,所述基于黑白樣本對加密威脅檢測系統...
【專利技術屬性】
技術研發人員:劉宗敏,
申請(專利權)人:北京觀成科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。