System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及加密流量訪問(wèn)行為的識(shí)別領(lǐng)域,尤其是在環(huán)境變化的情況下,如何克服特征漂移問(wèn)題,以提高跨環(huán)境加密流量訪問(wèn)行為識(shí)別的準(zhǔn)確性;具體涉及一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法。
技術(shù)介紹
1、本節(jié)中的陳述僅提供與本公開(kāi)相關(guān)的背景信息,并且可能不構(gòu)成現(xiàn)有技術(shù)。
2、隨著互聯(lián)網(wǎng)的普及,網(wǎng)民的隱私保護(hù)問(wèn)題日益受到重視。shadowsocks和v2ray等加密代理被廣泛用于隱蔽傳輸內(nèi)容或者匿名訪問(wèn)從而保證隱私安全。但另一方面加密代理的使用也帶來(lái)網(wǎng)絡(luò)安全監(jiān)管上的漏洞,不法分子利用其匿名性訪問(wèn)境外非法或敏感網(wǎng)站,發(fā)布傳輸非法信息,躲避?chē)?guó)內(nèi)安全部門(mén)的流量審查,擾亂網(wǎng)絡(luò)秩序,嚴(yán)重威脅國(guó)家網(wǎng)絡(luò)空間的安全。在這種形勢(shì)下,加密流量訪問(wèn)行為識(shí)別顯得尤為重要。
3、現(xiàn)有相關(guān)技術(shù)方案主要利用網(wǎng)站指紋攻擊技術(shù)對(duì)用戶(hù)的網(wǎng)絡(luò)訪問(wèn)行為進(jìn)行分類(lèi)識(shí)別,并且通過(guò)特征工程、特征選擇、模型訓(xùn)練等方式來(lái)提高加密流量分類(lèi)模型的識(shí)別準(zhǔn)確率。然而這些技術(shù)通常是建立在加密流量訪問(wèn)行為識(shí)別模型的訓(xùn)練和測(cè)試環(huán)境一致的情況下,當(dāng)環(huán)境發(fā)生變化,即用于訓(xùn)練加密流量訪問(wèn)行為識(shí)別模型和測(cè)試階段的流量樣本特征分布不一致時(shí),會(huì)出現(xiàn)特征漂移問(wèn)題,使得模型加密流量訪問(wèn)行為識(shí)別性能下降。因此,如何克服跨環(huán)境識(shí)別加密流量訪問(wèn)行為中的特征漂移問(wèn)題,在新環(huán)境變化多樣無(wú)法實(shí)時(shí)獲取當(dāng)前新環(huán)境下標(biāo)記訓(xùn)練樣本時(shí),提高跨環(huán)境加密流量訪問(wèn)行為識(shí)別準(zhǔn)確性,成為網(wǎng)絡(luò)安全領(lǐng)域中一個(gè)亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利技術(shù)的目的在于:針對(duì)訓(xùn)練和測(cè)試環(huán)境變
2、本專(zhuān)利技術(shù)的技術(shù)方案如下:
3、一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,包括:
4、步驟s1:流量預(yù)處理;獲取源環(huán)境、目標(biāo)環(huán)境下的流量pcap包和對(duì)應(yīng)的加密代理日志,對(duì)每個(gè)網(wǎng)站訪問(wèn)的原始pcap文件提取tcp流,并與加密代理日志信息中的域名相關(guān)聯(lián),提取數(shù)據(jù)包到達(dá)時(shí)間、數(shù)據(jù)包大小等統(tǒng)計(jì)特征,生成burst結(jié)構(gòu)流量樣本;
5、步驟s2:高頻公共域名識(shí)別;使用訓(xùn)練網(wǎng)站集的樣本和標(biāo)簽訓(xùn)練高頻公共域名分類(lèi)器,篩選出多個(gè)網(wǎng)站的高頻公共域名信息,過(guò)濾數(shù)據(jù)集中無(wú)法表征訪問(wèn)行為的關(guān)聯(lián)高頻公共域名的數(shù)據(jù);
6、步驟s3:關(guān)鍵域名計(jì)算;使用tf-idf技術(shù)計(jì)算能夠高程度表征待識(shí)別網(wǎng)站的域名信息;tf作為詞頻過(guò)濾出現(xiàn)頻率較高的常見(jiàn)域名,idf賦予更常見(jiàn)域名較小的權(quán)重,賦予更不常見(jiàn)域名較大的權(quán)重,將tf與idf相乘獲得tf-idf標(biāo)識(shí)當(dāng)前待識(shí)別網(wǎng)站的重要性;
7、步驟s4:跨環(huán)境特征選擇;逐輪選取特征,賦予每一維特征不同的權(quán)重,訓(xùn)練跨環(huán)境特征選擇分類(lèi)器,得到跨環(huán)境不變或者變化幅度很小特征作為最佳特征子集;
8、步驟s5:跨環(huán)境網(wǎng)站訪問(wèn)行為識(shí)別;將經(jīng)過(guò)跨環(huán)境特征選擇后的最佳特征子集,與關(guān)鍵域名集關(guān)聯(lián)的樣本數(shù)據(jù)集,輸入分類(lèi)模型訓(xùn)練生成跨環(huán)境網(wǎng)站訪問(wèn)行為分類(lèi)器,對(duì)待識(shí)別樣本進(jìn)行分類(lèi)。
9、進(jìn)一步地,所述步驟s1,包括:
10、步驟s11:獲取源環(huán)境、目標(biāo)環(huán)境下的流量pcap包和對(duì)應(yīng)的加密代理日志,遍歷pcap包提取tcp流五元組信息,并與加密代理日志中的域名信息關(guān)聯(lián),生成[tcp五元組1:[url1],…]格式的流-域名關(guān)聯(lián)數(shù)據(jù);其中tcp五元組指源ip地址,源端口,目的ip地址,目的端口以及傳輸層協(xié)議;url指的是通過(guò)加密代理進(jìn)行網(wǎng)絡(luò)訪問(wèn)行為時(shí),加密代理日志所記錄的交互域名;
11、步驟s12:遍歷數(shù)據(jù)包序列,記錄每個(gè)包的方向和大小;當(dāng)方向發(fā)生變化或包大小超過(guò)指定的閾值時(shí),將當(dāng)前數(shù)據(jù)包作為一個(gè)burst添加到結(jié)果中,并記錄數(shù)據(jù)到達(dá)時(shí)間,最終生成包含方向和大小信息的burst結(jié)構(gòu)流量樣本;burst結(jié)構(gòu)流量樣本格式為[[數(shù)據(jù)包到達(dá)時(shí)間,±數(shù)據(jù)包大小],…],其中±表示流的方向;
12、步驟s13:結(jié)合步驟s11中的流-域名關(guān)聯(lián)數(shù)據(jù),匯總每條tcp流對(duì)應(yīng)的唯一域名信息和burst結(jié)構(gòu)的數(shù)據(jù)包序列,生成[流到達(dá)時(shí)間,burst,流關(guān)聯(lián)域名]格式的流量樣本;由于在每個(gè)網(wǎng)站下有多次訪問(wèn)行為,每次訪問(wèn)中有多個(gè)域名出現(xiàn),每個(gè)域名會(huì)關(guān)聯(lián)1個(gè)或多個(gè)tcp流,在組織數(shù)據(jù)集時(shí),以域名信息進(jìn)行區(qū)分,每一個(gè)訪問(wèn)下均存在其出現(xiàn)的所有域名以及域名對(duì)應(yīng)的流量特征。
13、進(jìn)一步地,所述步驟s2,包括:
14、步驟s21:將源環(huán)境、目標(biāo)環(huán)境下的原始數(shù)據(jù)集分別遍歷并按照相同的域名進(jìn)行統(tǒng)計(jì),得到單個(gè)域名的出現(xiàn)總次數(shù)即域名頻率表,以及單個(gè)域名對(duì)應(yīng)網(wǎng)站集合即域名網(wǎng)站表;
15、步驟s22:計(jì)算源環(huán)境與目標(biāo)環(huán)境下所有域名出現(xiàn)次數(shù)的總和sall_domain,域名在訓(xùn)練網(wǎng)站集出現(xiàn)的比例trdomain,域名在所有域名中出現(xiàn)的比例hrdomain,篩選出trdomain大于等于閾值th的加入高頻公共域名集hostsetcom;
16、步驟s23:將網(wǎng)站集合劃分為訓(xùn)練集和驗(yàn)證集,屬于hostsetcom的為正樣本否則為負(fù)樣本,訓(xùn)練高頻公共域名分類(lèi)器modelch,并不斷遍歷閾值區(qū)間,選擇分類(lèi)效果最好的閾值和分類(lèi)器。
17、進(jìn)一步地,所述步驟s22中的sall_domain、trdomain、hrdomain的計(jì)算過(guò)程如下:
18、
19、
20、其中,ndomain為數(shù)據(jù)集中域名domain出現(xiàn)的次數(shù),tdweb為域名domain在數(shù)據(jù)集中對(duì)應(yīng)的網(wǎng)站數(shù)目,tdallweb為數(shù)據(jù)集中網(wǎng)站總數(shù)。
21、進(jìn)一步地,所述步驟s23,包括:
22、步驟s231:遍歷訓(xùn)練網(wǎng)站集中網(wǎng)站,執(zhí)行步驟s232;
23、步驟s232:遍歷網(wǎng)站對(duì)應(yīng)域名,當(dāng)域名屬于hostsetcom時(shí),將域名對(duì)應(yīng)樣本劃分為訓(xùn)練正樣本,否則劃分為訓(xùn)練負(fù)樣本;
24、步驟s233:對(duì)驗(yàn)證網(wǎng)站集中網(wǎng)站做和步驟s231,步驟s232相同操作,得到驗(yàn)證正負(fù)樣本;
25、步驟s234:使用訓(xùn)練樣本訓(xùn)練隨機(jī)森林模型得到高頻公共域名分類(lèi)器,得到modelch;
26、步驟s235:遍歷閾值區(qū)間,使用驗(yàn)證樣本對(duì)modelch分類(lèi)效果進(jìn)行驗(yàn)證,獲取f1score最高時(shí)的閾值作為bestth。
27、進(jìn)一步地,所述步驟s3,包括:
28、步驟s31:統(tǒng)計(jì)樣本中每個(gè)域名出現(xiàn)的頻率即tf并為每個(gè)樣本i都生成對(duì)應(yīng)的域名頻率字典tfdicti,結(jié)構(gòu)為[域名:tf];保存數(shù)據(jù)集中所有域名并去除重復(fù)域名后組成域名集hostset;
29、步驟s32:計(jì)算域名集hostset中每個(gè)域名的idf;
30、步驟s33:計(jì)算域名集hostset中每個(gè)域名對(duì)應(yīng)的tf-idf;
31、步驟s34:結(jié)合tfdicti和tf-idf生成n×本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S1,包括:
3.根據(jù)權(quán)利要求2所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S2,包括:
4.根據(jù)權(quán)利要求3所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S22中的Sall_domain、TRdomain、HRdomain的計(jì)算過(guò)程如下:
5.根據(jù)權(quán)利要求3所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S23,包括:
6.根據(jù)權(quán)利要求3所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S3,包括:
7.根據(jù)權(quán)利要求6所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S31中TF的計(jì)算過(guò)程如下:
8.根據(jù)權(quán)利要求6所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S4,包括:
9.根據(jù)權(quán)利要求8所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,
10.根據(jù)權(quán)利要求8所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟S5,包括:
...【技術(shù)特征摘要】
1.一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟s1,包括:
3.根據(jù)權(quán)利要求2所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟s2,包括:
4.根據(jù)權(quán)利要求3所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟s22中的sall_domain、trdomain、hrdomain的計(jì)算過(guò)程如下:
5.根據(jù)權(quán)利要求3所述的一種跨環(huán)境的加密流量訪問(wèn)行為識(shí)別方法,其特征在于,所述步驟s23,包括:
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:吉慶兵,談程,馬小博,羅杰,康璐,代誠(chéng)朋,倪綠林,張峻源,
申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)電子科技集團(tuán)公司第三十研究所,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。