System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種流量解析、特征提取以及機器學習知識,基于算法生成域名與良性域名在網絡流量行為中的表現差異,從流量中提取出具有明顯區別的關鍵特征,用機器學習模型實現域名分類的技術,屬于流量分析、人工智能、網絡安全。
技術介紹
1、隨著互聯網的普及,網絡安全問題日益突顯,在這其中,與域名系統相關的網絡安全問題也愈發嚴峻。域名系統是重要的基礎設施,與各種網絡活動密切相關,如電子郵件、網站服務和即時通信等。利用互聯網設計初期的漏洞,域名解析服務成為各種網絡安全威脅的工具,例如攻擊者使用dns技術定位c&c服務器。
2、惡意客戶端通過域名生成算法(dga)隨機產生大量備選域名,并且進行查詢,攻擊者與惡意軟件運行同一套dga算法,生成相同的備選域名列表,當需要發動攻擊的時候,選擇其中少量進行注冊,便可以建立通信,實施攻擊。并且攻擊者還可以對注冊的域名應用速變ip技術(ip-flux),快速變換ip地址,使得基于黑名單的傳統防護手段無法起作用。因此,算法生成域名(dga域名)的使用使得攻擊容易,防守困難。為了抵御基于dga域名的網絡攻擊,及時檢測出dga域名非常關鍵,可以避免攻擊者造成更多安全威脅。
3、近年來,針對dga域名檢測,前人提出過許多優秀的方案,其中圍繞域名自身的名稱字符特征進行檢測的研究非常多。如分析dga域名與良性域名在語言特征和統計特征上的差異、發音及拼寫上的差異,運用到的技術包括了機器學習、神經網絡等,可以快速檢測出dga域名。然而,這些方法大都有一個共同的不足之處,就是對域名的檢測過于側
4、在本專利技術中,我們基于dga域名與良性域名在實際網絡流量中的行為差異,采集域名在dns流量與flow流量中的關鍵信息,計算出8個可以代表兩類域名差異的特征,放入c4.5分類模型中進行分類。c4.5分類模型是一種有監督的機器學習分類模型,所以前期需要有一定數量的已知標簽的域名數據進行訓練。該方案基于的是dga域名在實際網絡中的流量表現,這是在實施網絡攻擊過程中所帶有的,所以很難針對該方案進行對抗性攻擊。同時檢測出來的dga域名一定是進行了惡意活動,導致出現相應流量特征的域名,提高了檢測的精確度,有效維護了網絡的安全。
技術實現思路
1、本專利技術所提出基于流量分析的算法生成域名檢測方法,以檢測的準確性和長期有效性為驅動,從網絡流量中提取出相關特征,放入c4.5分類模型中進行檢測分類。主要解決了在域名生成算法和ip-flux機制下,對算法生成域名的有效檢測問題。域名生成算法可以基于字母表、字典、語音音節等多種規則隨機產生大量域名,而ip-flux可以使得域名所對應的解析ip地址不斷變換,所以傳統的黑名單方案和基于域名名稱字符的檢測方案都有明顯不足。基于流量特征的算法生成域名檢測方案能夠達到較高的準確度和有效性,為網絡安全帶來較大益處。訓練模型階段,收集一批已知分類標簽的良性域名和算法生成域名,在檢測網段中篩選出曾出現過的域名,采集它們的dns流量和flow流量,從中提取出域名的解析ip地址和與用戶ip地址的交互信息,計算出8個特征的值,放入c4.5模型中進行訓練,得到具有分類能力的分類模型。域名檢測階段,從檢測網段中采集帶檢測域名流量,按照與訓練集域名相同的處理方式計算得到特征值,放入c4.5分類模型中進行檢測,從中篩選出判定為算法生成域名的域名。
2、本專利技術充分利用了算法生成域名和良性域名在網絡中流量行為表現上的差異,使得攻擊者難以對本方案實施對抗性攻擊,同時篩選出的域名一般都是當前正活躍的域名,提高了檢測的準確性和有效性。
3、技術方案:為了實現上述目的,本專利技術的技術方案如下,本專利技術所述的算法生成域名檢測方法的流程如下:
4、步驟1)收集已知分類標簽的算法生成域名(dga域名)和良性域名,作為模型的訓練集;
5、步驟2)從檢測網段中采集訓練集域名的流量信息,包括域名的解析ip地址相關信息(來自dns流量)和flow信息;
6、步驟3)對收集到的流量信息進行初步處理,包括統計域名各解析ip地址的出現次數,從flow信息中篩選出源ip地址、目的ip地址、解析具體時間、解析小時值等數據;
7、步驟4)將處理過的流量信息進行計算處理,得到8個流量特征值;
8、步驟5)將所有訓練集域名的特征值和分類標簽放入c4.5分類模型中進行訓練,得到具有分類能力的模型;
9、步驟6)提取待分類域名的流量信息,計算其特征值;
10、步驟7)將待分類域名的特征值放入分類模型中進行分類,得到分類結果。
11、其中,步驟1)收集已知分類標簽的算法生成域名(dga域名)和良性域名,作為模型的訓練集,dga域名來自開源網站提供的dga域名數據集,開源網站包括360netlab、bambenek等,其中bambenek數據庫會每天更新最近檢測到的dga域名,每次新增50萬條左右,還會附帶該dga域名第一次檢測到的時間、所屬的惡意軟件信息,良性域名為檢測網段訪問量靠前的域名,很多大型網絡都會維護一個top?1million的域名集合,表示這是在該網段中訪問量靠前且比較穩定的域名,可以視為良性域名,具體步驟如下:
12、步驟1-1)收集開源網站中提供的dga域名數據集,為了保證其時效性,域名最近一次出現時間需在1年之內;
13、步驟1-2)獲取檢測網段中的top?1million信息,如果沒有則統計檢測網段中所有域名的訪問量,為了保證訓練集覆蓋到所有類型的良性域名,取排名前1,000個域名、中間的1,000個域名以及靠后的1,000個域名作為良性域名訓練集來源;
14、步驟1-3)基于步驟1-1)和步驟1-2)中得到的dga域名和良性域名,在檢測網段中進行匹配查找,將出現在檢測網段中的域名作為訓練集。
15、步驟2)從檢測網段中采集訓練集域名的流量信息,包括域名的解析ip地址和flow信息,具體如下:
16、步驟2-1)分別將dga域名訓練集和良性域名訓練集放入檢測網段的dns流量中進行匹配查找,查找時間段為連續的兩天(48小時),查找方式為該域名名稱與dns請求解析的域名名稱是否對應相同,若相同,則表示該域名出現在該網段中,并從解析信息中取出該域名的解析ip地址;
17、步驟2-2)分別將dga域名訓練集和良性域名訓練集的所有解析ip地址放入檢測網段的flow流量中進行匹配查找,查找時間段為連續的兩天(48小時),查找方式為該ip地址與flow流量中的源ip地址或目的ip地址是否相同,若相同,則表示該ip地址與用戶ip地址有交互,可以視為一條有效交互信息。
18、步驟3)對收集本文檔來自技高網...
【技術保護點】
1.基于流量分析的算法生成域名檢測方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟1)收集已知分類標簽的算法生成域名(DGA域名)和良性域名,作為模型的訓練集,DGA域名來自開源網站提供的DGA域名數據集,具體步驟如下:
3.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟2)從檢測網段中采集訓練集域名的流量信息,包括域名的解析IP地址和Flow信息,具體如下:
4.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟3)對收集到的流量信息進行初步處理,包括統計各解析IP地址的出現次數,從Flow信息中篩選出源IP地址、目的IP地址、解析具體時間、解析小時值數據,具體如下:
5.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟4)將處理過的流量信息進行計算處理,得到8個流量特征值,具體如下:
6.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟5)將所有訓練集域
7.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟6)提取檢測網段中待分類域名的流量信息,計算其特征值,具體的數據處理和計算過程與步驟3)-步驟6)一致。
8.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟7)將待分類域名的特征值放入分類模型中進行分類,得到分類結果,分類結果中包含了分類預測值與置信度。
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于:所述處理器執行所述程序時實現如上述權利要求1至8中的任意一項所述的基于流量分析的算法生成域名檢測方法。
10.一種計算機可讀存儲介質,其上存儲有計算機指令,其特征在于:該計算機指令被處理器執行時實現如權利要求1-8中任一項所述的基于流量分析的算法生成域名檢測方法。
...【技術特征摘要】
1.基于流量分析的算法生成域名檢測方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟1)收集已知分類標簽的算法生成域名(dga域名)和良性域名,作為模型的訓練集,dga域名來自開源網站提供的dga域名數據集,具體步驟如下:
3.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟2)從檢測網段中采集訓練集域名的流量信息,包括域名的解析ip地址和flow信息,具體如下:
4.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟3)對收集到的流量信息進行初步處理,包括統計各解析ip地址的出現次數,從flow信息中篩選出源ip地址、目的ip地址、解析具體時間、解析小時值數據,具體如下:
5.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其特征在于,步驟4)將處理過的流量信息進行計算處理,得到8個流量特征值,具體如下:
6.根據權利要求1所述的基于流量分析的算法生成域名檢測方法,其...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。