System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及信息安全,具體涉及一種用于深度學習模型的流量數據預處理方法和裝置。
技術介紹
1、隨著互聯網的普及和技術的不斷進步,互聯網技術已廣泛應用于各行各業,深刻影響著人們的生產和生活方式。然而,互聯網在為人們帶來便利的同時,也對用戶的隱私和網絡安全提出了嚴峻挑戰。為了最大限度地保障數據傳輸的安全,目前大多數網絡應用都采用了加密流量傳輸方式;這不僅給網絡監管工作帶來了難度,也使得如何根據加密流量對應用進行有效區分成為了一個緊迫的問題。在傳統方法中,加密應用的識別方法主要基于規則匹配或深度包檢測(dpi),但這些方法存在一定的局限性。例如,基于規則匹配的方法,如通過ip地址和端口號進行識別,過度依賴于規則庫的更新,在許多應用采用自定義協議的情況下效果受限;而基于dpi的方法則依賴于應用協議的特征字段,無法處理加密數據的協議交互,導致在加密傳輸的環境下出現誤報,無法準確識別。
2、在已有技術中,可以采用深度學習模型對流量威脅進行識別,在基于深度學習的流量威脅識別方法中,通過收集和分析正常流量與惡意數據流特征,經過特征預處理和深度學習模型的訓練,能夠挖掘出應用的高維潛在特征,從而實現對加密應用的有效區分和識別。但是,深度學習模型需要大規模數據集訓練才能取得比較優異的效果,而現實中往往對于威脅樣本的獲取比較受限,且在數據搜集中,正常流量樣本與威脅樣本的標簽往往易受到資產環境、人為等因素的干擾產生標簽噪聲,這些因素都會影響最終深度學習模型的檢測效果。
3、鑒于此,提供一種用于深度學習模型的流量數據預處理方法和裝
技術實現思路
1、為此,本專利技術實施例提供一種用于深度學習模型的流量數據預處理方法和裝置,以解決用于加密流量識別的深度學習模型,在訓練過程中由于樣本質量較差而導致的模型識別準確性較低的問題,從而為深度學習模型的訓練提供準確的樣本數據,為提高模型準確性提供數據保障。
2、為了實現上述目的,本專利技術實施例提供如下技術方案:
3、本專利技術提供一種用于深度學習模型的流量數據預處理方法,所述方法包括:
4、獲取網絡流量數據;
5、對所述網絡流量數據進行行為特征數據提取;
6、對提取到的行為特征數據進行歸一化處理;
7、對歸一化處理后的特征數據中的缺失特征字段進行缺失值處理;
8、對缺失值處理后的特征數據進行降維,以得到目標特征數據;
9、基于單類支持向量機模型ocsvm去除特征數據中的異常點;
10、基于ctgan數據增強方法對去除異常點后的特征數據進行數據增強處理。
11、在一些實施例中,對所述網絡流量數據進行行為特征數據提取,具體包括:
12、分別提取正常流量和異常流量的單流特征數據,所述單流特征數據至少包括會話流的持續時長特征、數據包大小特征和通信流量特征。
13、在一些實施例中,對缺失值處理后的特征數據進行降維,具體包括
14、獲取保留原始樣本信息至少95%以上信息的最小維度n;
15、將原始特征降維到最小維度n。
16、在一些實施例中,單類支持向量機模型ocsvm去除特征數據中的異常點,具體包括以下步驟:
17、針對樣本中的各類數據分別去除異常點,默認各類樣本中含有一定量的異常樣本,通過設置異常值參數去除部分異常樣本。
18、在一些實施例中,對特征數據中的缺失特征字段進行缺失值處理,具體包括:
19、對所在缺失字段,通過獲取當前字段的全部數據取均值,來填充缺失位置。
20、在一些實施例中,基于ctgan數據增強方法對樣本中的數據進行數據增強處理,具體包括:
21、可對每一類樣本數據分別利用ctgan方法進行數據增廣,增大各個類別的數據量并消除數據不平衡問題。
22、本專利技術還提供一種用于深度學習模型的流量數據預處理裝置,所述裝置包括:
23、數據采集單元,用于獲取網絡流量數據;
24、數據處理單元,用于對所述網絡流量數據進行行為特征數據提取,對提取到的行為特征數據進行歸一化處理;對歸一化處理后的特征數據中的缺失特征字段進行均缺失值處理;對缺失值處理后的特征數據進行降維,以得到目標特征數據;基于單類支持向量機模型ocsvm去除特征數據中的異常點;基于ctgan數據增強方法對去除異常點后的特征數據進行數據增強處理。
25、本專利技術還提供一種智能終端,所述智能終端包括:數據采集裝置、處理器和存儲器;
26、所述數據采集裝置用于采集數據;所述存儲器用于存儲一個或多個程序指令;所述處理器,用于執行一個或多個程序指令,用以執行如上所述的方法。
27、本專利技術還提供一種計算機可讀存儲介質,所述計算機存儲介質中包含一個或多個程序指令,所述一個或多個程序指令用于執行如上所述的方法。
28、本專利技術所提供的用于深度學習模型的流量數據預處理方法和裝置;通過獲取網絡流量數據,對所述網絡流量數據進行特征數據提取,對提取到的特征數據進行歸一化處理,基于pca算法對歸一化處理后的數據進行降維,以得到目標特征數據,基于單類支持向量機模型ocsvm去除樣本中的異常點,對樣本中的缺失特征字段進行均值處理,基于ctgan數據增強方法對樣本中的數據進行數據增強處理。本專利技術所提供的方法和裝置通過將統計得出的單流行為特征數據,分別進行數據去噪、數據增廣、特征歸一化等方式,提升數據的質量,解決了網絡流量中所獲取的行為特征數據存在噪聲、以及樣本量少等問題,提高了模型訓練的效果;這樣,在用于加密流量識別的深度學習模型的訓練過程中,該方法和裝置克服了由于樣本質量較差而導致的模型識別準確性較低的問題,從而為深度學習模型的訓練提供了準確的樣本數據,為提高模型準確性提供了數據保障。
本文檔來自技高網...【技術保護點】
1.一種用于深度學習模型的流量數據預處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,對所述網絡流量數據進行行為特征數據提取,具體包括:
3.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,對缺失值處理后的特征數據進行降維,具體包括:
4.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,單類支持向量機模型OCSVM去除特征數據中的異常點,具體包括以下步驟:
5.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,對特征數據中的缺失特征字段進行缺失值處理,具體包括:
6.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,基于CTGAN數據增強方法對特征數據中的數據進行數據增強處理,具體包括:
7.一種用于深度學習模型的流量數據預處理裝置,其特征在于,所述裝置包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的方法。
...【技術特征摘要】
1.一種用于深度學習模型的流量數據預處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,對所述網絡流量數據進行行為特征數據提取,具體包括:
3.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,對缺失值處理后的特征數據進行降維,具體包括:
4.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,單類支持向量機模型ocsvm去除特征數據中的異常點,具體包括以下步驟:
5.根據權利要求1所述的用于深度學習模型的流量數據預處理方法,其特征在于,對特征數據中的缺失特征字段進行缺失值處理,具體包括:
6.根據權利要求1所...
【專利技術屬性】
技術研發人員:劉宗敏,劉燚,
申請(專利權)人:北京觀成科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。