System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及網(wǎng)絡(luò)空間安全與人工智能,具體來說是基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法。
技術(shù)介紹
1、如何更有效的識(shí)別惡意流量一向是研究者關(guān)注的重點(diǎn),目前對(duì)惡意流量識(shí)別的研究方法主要分為三類:基于規(guī)則的方法、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法。流量識(shí)別方法也經(jīng)歷了從基于規(guī)則的方法到機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法,再到多種方法并行的發(fā)展。早期的研究主要使用基于規(guī)則的方法來識(shí)別惡意流量,即利用流量數(shù)據(jù)的通訊協(xié)議、端口號(hào)、報(bào)文長(zhǎng)度等基本屬性的特征人工制定安全規(guī)則來檢查異常行為。隨著網(wǎng)絡(luò)環(huán)境的發(fā)展,基于規(guī)則的方法暴露出對(duì)專家知識(shí)需求高,耗時(shí)長(zhǎng),難以反應(yīng)新的流量加密與匿名技術(shù)等缺陷,無(wú)法滿足安全人員對(duì)流量分析的需求。
2、為了適應(yīng)新的網(wǎng)絡(luò)環(huán)境下復(fù)雜的流量數(shù)據(jù),研究者引入機(jī)器學(xué)習(xí)領(lǐng)域的算法來識(shí)別流量數(shù)據(jù)的高維特征。如appscanner采用隨機(jī)森林(random?forest,?rf)對(duì)流量產(chǎn)生的各種統(tǒng)計(jì)特征(最大最小值,平均,方差等)進(jìn)行分析;cumul通過將從原始流量數(shù)據(jù)計(jì)算得到的104個(gè)統(tǒng)計(jì)特征輸入支持向量機(jī)(svm)進(jìn)行流量分類。采用機(jī)器學(xué)習(xí)方法可以對(duì)復(fù)雜的流量數(shù)據(jù)進(jìn)行有效分析,但這些方法依然依賴于專家設(shè)計(jì)的流量統(tǒng)計(jì)特征,且不同實(shí)際應(yīng)用場(chǎng)景下特征的表現(xiàn)不穩(wěn)定,需要手動(dòng)選擇調(diào)節(jié)。
3、與上述方法不同,基于深度學(xué)習(xí)的方法在分析流量時(shí)不需要事先設(shè)定的人為特征,而是利用深度學(xué)習(xí)方法直接進(jìn)行端到端的分析分類,目前已經(jīng)成為自動(dòng)提取流量特征并改進(jìn)流量檢測(cè)效果方向的研究重點(diǎn),應(yīng)用的深度學(xué)習(xí)方法包括卷積神經(jīng)網(wǎng)絡(luò)(cnn)、遞歸神經(jīng)網(wǎng)
4、流量識(shí)別中的深度學(xué)習(xí)方法能夠忽略隨機(jī)流量復(fù)雜的加密情況,最大限度避免采用專家知識(shí)導(dǎo)致的人力損耗與模型遷移問題。然而此類方法目前尚有對(duì)數(shù)據(jù)利用不完善,需求帶標(biāo)簽數(shù)據(jù)量大、訓(xùn)練耗時(shí)長(zhǎng)等缺陷,為這些方法的實(shí)際應(yīng)用造成了阻礙。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的是為了解決現(xiàn)有技術(shù)中難以針對(duì)惡意流量進(jìn)行有效檢測(cè)的缺陷,提供一種基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法來解決上述問題。
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)的技術(shù)方案如下:
3、一種基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,包括以下步驟:
4、數(shù)據(jù)預(yù)處理:將流量數(shù)據(jù)進(jìn)行分類,分成無(wú)標(biāo)記數(shù)據(jù)、帶標(biāo)簽數(shù)據(jù),對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行預(yù)處理為二維表示矩陣;
5、掩碼自動(dòng)編碼器的設(shè)定:設(shè)定掩碼自動(dòng)編碼器包括掩碼模塊、流量特征編碼模塊與投影模塊三部分;
6、進(jìn)行掩碼自動(dòng)編碼器的預(yù)訓(xùn)練:利用二維表示矩陣對(duì)掩碼自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練;利用掩碼模塊生成隨機(jī)掩碼來構(gòu)建增強(qiáng)樣本,再利用流量特征編碼模塊進(jìn)行特征提取,得到特征向量;再將特征向量利用投影模塊輸入并投影至單位球上進(jìn)行對(duì)比學(xué)習(xí);
7、掩碼自動(dòng)編碼器的微調(diào):利用帶標(biāo)簽數(shù)據(jù)對(duì)預(yù)訓(xùn)練后的掩碼自動(dòng)編碼器進(jìn)行微調(diào);
8、待檢測(cè)流量的獲取與惡意流量的檢測(cè):獲取待檢測(cè)流量,形成待檢測(cè)的無(wú)標(biāo)簽數(shù)據(jù),并輸入微調(diào)后的掩碼自動(dòng)編碼器,獲得惡意流量的檢測(cè)結(jié)果。
9、所述數(shù)據(jù)預(yù)處理包括以下步驟:
10、根據(jù)ip地址、端口號(hào)和協(xié)議類型將原始流量數(shù)據(jù)化分成流,然后刪除流級(jí)及以上的封裝信息,將端口號(hào)設(shè)置為零,并將各ip替換為保留收發(fā)方向隨機(jī)地址,生成流量數(shù)據(jù);
11、對(duì)流量數(shù)據(jù)進(jìn)行分類,分成無(wú)標(biāo)記數(shù)據(jù)、帶標(biāo)簽數(shù)據(jù);
12、對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行預(yù)處理:
13、根據(jù)流量數(shù)據(jù)的特性,將表示矩陣分為流量包頭行和負(fù)載行,流量包頭行只包含流量的包頭部分字節(jié),而負(fù)載行只包含流量的負(fù)載部分字節(jié);
14、針對(duì)每個(gè)流量數(shù)據(jù)包進(jìn)行處理:
15、預(yù)設(shè)包級(jí)矩陣大小參數(shù)n、h、w,用每個(gè)流中前n個(gè)數(shù)據(jù)包生成大小固定為h*w的二維矩陣作為該數(shù)據(jù)流的表示矩陣;
16、對(duì)于每條流取其中前n個(gè)數(shù)據(jù)包,每個(gè)數(shù)據(jù)包生成大小固定為h?*?w的包級(jí)矩陣,這個(gè)包級(jí)矩陣由固定大小與位置的報(bào)頭矩陣和有效載荷矩陣組成,如果有效載荷矩陣中有效字節(jié)數(shù)或數(shù)據(jù)包數(shù)不足,在不足位置用零進(jìn)行填充,以確保每個(gè)包級(jí)矩陣的大小一致;
17、將得到的n個(gè)包級(jí)矩陣依序進(jìn)行縱向堆疊,形成整條流最終的二維表示矩陣m,若該流數(shù)據(jù)包不足n個(gè),進(jìn)行用零填充矩陣。
18、所述進(jìn)行掩碼自動(dòng)編碼器的預(yù)訓(xùn)練包括以下步驟:
19、對(duì)二維表示矩陣m,通過生成隨機(jī)掩碼來構(gòu)建增強(qiáng)樣本,進(jìn)行數(shù)據(jù)增強(qiáng)處理:
20、預(yù)設(shè)掩碼率為k,生成與輸入矩陣大小相同的二維屏蔽矩陣mask,在隨機(jī)位置填入k個(gè)零,其余位置皆為1,多次生成屏蔽樣本用來擴(kuò)充表示矩陣的數(shù)量;屏蔽樣本的生成用下式表示:
21、,
22、其中,乘號(hào)為hadamard積;
23、設(shè)定流量特征編碼模塊包括嵌入模塊、包級(jí)提取模型和流級(jí)提取模塊;
24、嵌入模塊用于將屏蔽樣本輸入得到其補(bǔ)丁向量,
25、包級(jí)提取模型用于將嵌入模塊生成的補(bǔ)丁向量輸入包級(jí)提取模塊的自注意編碼器得到包級(jí)特征,
26、流級(jí)提取模塊用于在包級(jí)提取模塊輸出的包級(jí)特征上添加流級(jí)別的特征,將包級(jí)提取模塊的輸出補(bǔ)丁的特征逐行池化生成行補(bǔ)丁,然后將行補(bǔ)丁輸入自注意編碼器得到列級(jí)特征,再將列級(jí)特征逐列池化得到最終的特征向量;
27、嵌入模塊將屏蔽樣本分割為固定大小的不重疊二維矩陣小塊,然后用神經(jīng)網(wǎng)絡(luò)的線性層將這些不重疊二維矩陣小塊映射為d維的嵌入補(bǔ)丁向量,這里d是預(yù)設(shè)的向量維數(shù),最后將不重疊二維小塊在表示矩陣的位置添加到嵌入補(bǔ)丁向量xl以保持位置信息,得到的嵌入補(bǔ)丁向量分為報(bào)頭補(bǔ)丁或負(fù)載補(bǔ)丁;
28、包級(jí)提取模塊的自注意編碼器由多頭自注意層msa和前反饋層交替組成,將嵌入模塊得到的嵌入補(bǔ)丁向量輸入包級(jí)提取模塊以提取包級(jí)特征,
29、多頭自注意層msa利用注意力函數(shù)計(jì)算每個(gè)嵌入補(bǔ)丁向量的頭部,并根據(jù)每個(gè)嵌入補(bǔ)丁向量的頭部學(xué)習(xí)不同補(bǔ)丁之間的關(guān)聯(lián)程度,前反饋層通過線性變換,先映射到高維空間再映射到低維空間的方式提取更深層次的特征;
30、記為預(yù)設(shè)的注意力函數(shù)輸出規(guī)模,wq、wk、wv∈為學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),為嵌入補(bǔ)丁向量,注意力函數(shù)計(jì)算如下所示:
31、
32、,
33、其中,為注意力函數(shù)的中間過程矩陣;
34、流級(jí)提取模塊對(duì)包級(jí)提取模塊輸出的嵌入補(bǔ)丁向量特征逐行池化生成行補(bǔ)丁;
35、將行補(bǔ)丁重新輸入包級(jí)提取模塊的自注意編碼器提取嵌入補(bǔ)丁向量的列級(jí)特征;
36、最后,流級(jí)提取模塊將得到的列級(jí)特征進(jìn)行逐列池化得到整個(gè)表示矩陣的最終特征向量,記為lf;
37、設(shè)定投影模塊,
38、設(shè)定投影模塊包括由兩個(gè)線性層和一個(gè)relu激活函數(shù)層所構(gòu)成的全連接層,在數(shù)據(jù)輸入前與輸出后對(duì)其進(jìn)行歸一化處理;
39、投影模塊將最終特征向量lf進(jìn)行最大最小歸一化,形成一個(gè)標(biāo)準(zhǔn)化的矢本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,其特征在于,所述數(shù)據(jù)預(yù)處理包括以下步驟:
3.根據(jù)權(quán)利要求1所述的基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,其特征在于,所述進(jìn)行掩碼自動(dòng)編碼器的預(yù)訓(xùn)練包括以下步驟:
4.根據(jù)權(quán)利要求1所述的基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,其特征在于,所述掩碼自動(dòng)編碼器的微調(diào)包括以下步驟:
【技術(shù)特征摘要】
1.一種基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于掩碼自動(dòng)編碼器預(yù)訓(xùn)練的惡意流量檢測(cè)方法,其特征在于,所述數(shù)據(jù)預(yù)處理包括以下步驟:
3.根據(jù)權(quán)利要求1所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉宇,丁正,謝飛,楊大偉,李京龍,
申請(qǐng)(專利權(quán))人:合肥城市云數(shù)據(jù)中心股份有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。