當前位置: 首頁 > 專利查詢>中國人民解放軍網絡空間部隊信息工程大學專利>正文

基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法及系統(tǒng)技術方案

技術編號：44500737 閱讀：4 留言：0更新日期：2025-03-04 18:09

本發(fā)明專利技術涉及信息安全技術領域，特別涉及一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法及系統(tǒng)，通過預處理過程將原始數據從比特形式轉換成字節(jié)形式后截取前32字節(jié)，然后對預處理后的數據逐字節(jié)進行頻繁項統(tǒng)計，分別得到每一字節(jié)的頻繁項頻率和頻繁項個數；利用頻率自編碼器和數量自編碼器分別對頻繁項頻率較大和頻繁項個數較大的字節(jié)進行特征提取；將頻率自編碼器提取出的特征進行粗聚類得到粗聚類標簽，將粗聚類標簽和數量自編碼器提取出的特征合并并進行聚類得到最終的細聚類標簽。本發(fā)明專利技術既能保留協(xié)議級聚類的同時，能夠實現(xiàn)類別級的聚類，計算量小，在確保聚類的實時性的同時，能夠有效解決未知協(xié)議聚類的欠分問題，提高聚類的性能。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及信息安全，特別涉及一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法及系統(tǒng)。

技術介紹

1、互聯(lián)網已深深嵌入社會生活的每一角落，網絡安全問題由此成為了守護數字時代下個人與組織信息安全的基石。2023年的數據顯示，各組織平均每周遭遇的網絡攻擊頻次高達1,168次，其中，攻擊者頻繁利用非標準或私有化的網絡協(xié)議，這些協(xié)議因缺乏公開規(guī)范而難以被傳統(tǒng)安全機制有效識別。在此背景下，協(xié)議逆向工程——通過對未知協(xié)議數據包的深度解析來揭示其語法與語義的技術——在網絡安全領域的重要性愈發(fā)凸顯。協(xié)議逆向技術是分析私有協(xié)議的重要途徑，基于少量或零先驗知識推斷私有協(xié)議的約束與規(guī)范。在惡意應用監(jiān)管、協(xié)議模糊測試、脆弱性檢測、通信行為理解等方面均具有較高的實用價值。但在實際網絡情況下，通常存在多種協(xié)議產生的報文數據，而協(xié)議逆向工程往往作用于單一報文數據，這將使得協(xié)議逆向技術在實際網絡情況下受限。因此在進行協(xié)議逆向工作之前需要對報文數據進行聚類，以便對同一類的報文數據進行處理。未知協(xié)議聚類是協(xié)議逆向工程的前置任務，聚類效果的好壞將直接影響協(xié)議逆向工程的性能。

2、傳統(tǒng)基于機器學習、多序列對比及其變體的方法效果顯著。多序列對比將二進制協(xié)議數據幀轉換成四進制基因形式，再通過計算堿基相互組合的k-seed得到距離矩陣，最后進行聚類。傳統(tǒng)的協(xié)議聚類基于頻繁項提取、機器學習算法等方法效果顯著。頻繁項提取使用apriori等算法對數據幀進行頻繁項挖掘生成協(xié)議特征文件，根據特征文件實現(xiàn)未知協(xié)議聚類，但頻繁項提取需要多次掃描數據集且其在處理較長序列時

3、隨著深度學習發(fā)展迅速，深度學習與未知協(xié)議識別領域的交叉應用給未知協(xié)議聚類帶來了新的可能。比如，將協(xié)議數據幀轉換成灰度圖形式，然后將經典卷積神經網絡通過遷移學習對灰度圖進行特征提取，最后將特征進行聚類。但是由于其知識簡單利用預訓練模型而沒有進行模型的微調，導致聚類性能較差。又如，利用自編碼器對未知協(xié)議進行特征提取，其獲得了良好的聚類性的同時在運算時間和計算速度方面也優(yōu)于傳統(tǒng)方法。但是這類方法僅能實現(xiàn)對協(xié)議的粗聚類，而對同一種協(xié)議內還存在不同類型的問題研究較少，而實際網絡接收到的數據幀往往又包含著多種協(xié)議和多種類型，因此利用深度學習處理未知協(xié)議聚類的算法在處理網絡實際流量數據時往往存在欠分類的問題。

技術實現(xiàn)思路

1、為此，本專利技術提供一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法及系統(tǒng)，解決現(xiàn)有未知協(xié)議聚類分析中存在的欠分類、算法復雜度高、無法滿足實時處理需求等問題。

2、按照本專利技術所提供的設計方案，一方面，提供一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，包含：

3、將接收到的比特形式網絡協(xié)議數據幀轉換成字節(jié)表示并進行數據預處理，所述數據預處理包括：數據幀去重處理和數據幀長度對齊處理；

4、將預處理后的數據幀逐字節(jié)進行頻繁項統(tǒng)計，得到數據幀每個字節(jié)頻繁項頻率和頻繁項數量，所述頻繁項為字節(jié)內出現(xiàn)頻率大于預設最小支持度的元素；

5、利用頻繁項頻率篩選出協(xié)議關鍵字節(jié)，利用頻繁項數量篩選出協(xié)議類別關鍵字節(jié)，并利用預訓練的頻率自編碼器和預訓練的數量自編碼器分別對協(xié)議關鍵字節(jié)和協(xié)議類別關鍵字節(jié)進行特征提取；

6、將頻率自編碼器提取的特征進行粗聚類，得到協(xié)議粗聚類標簽，將協(xié)議粗聚類標簽與數量自編碼器提取的特征進行合并，并對合并后的特征進行聚類，得到最終輸出的協(xié)議細聚類標簽，其中，協(xié)議粗聚類標簽使用協(xié)議關鍵字節(jié)聚類得到的包含協(xié)議信息的標簽，協(xié)議細聚類標簽為使用類別關鍵字節(jié)聚類得到的包含協(xié)議類別信息的標簽。

7、作為本專利技術基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，進一步地，對數據幀進行數據預處理，包含：

8、將數據幀以指定比特作為處理單位，以在特征聚類時以多比特為一維特征進行聚類，所述指定比特為單個或多個字節(jié)對應的比特數；

9、通過對每條數據幀進行補零和/或截取來對數據幀長度進行對齊處理。

10、作為本專利技術基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，進一步地，將預處理后的數據幀逐字節(jié)進行頻繁項統(tǒng)計，包含：

11、對每條數據幀每個字節(jié)內包含的所有元素出現(xiàn)的頻率進行統(tǒng)計；

12、若元素出現(xiàn)頻率大于預設最小支持度，則將元素加入頻繁項集，以得到每個字節(jié)的頻繁項集各頻繁項出現(xiàn)的頻率。

13、作為本專利技術基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，進一步地，利用頻繁項頻率篩選出協(xié)議關鍵字節(jié)，利用頻繁項數量篩選出協(xié)議類別關鍵字節(jié)，包含：

14、對數據幀中每一字節(jié)的頻繁項頻率和頻繁項數量進行大小排序；

15、依據排序結果，將最大的頻繁項頻率和最大的頻繁項數量中選取協(xié)議關鍵字節(jié)和協(xié)議類別關鍵字節(jié)。

16、作為本專利技術基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，進一步地，所述頻率自編碼器和所述數量自編碼器均采用五層編碼器結構，所述五層編碼器結構的第一層和最后一層均包含8個神經元，第二層和倒數第二層均包括4個神經元，中間層包括2個神經元，以利用該五層編碼器結構通過縮小重構數據與輸入數據的誤差，使中間層通過學習輸入數據的低維表示來完成數據降維處理。

17、作為本專利技術基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，進一步地，所述頻率自編碼器和所述數量自編碼器的訓練過程，包含：

18、根據協(xié)議數據幀并利用頻繁項元素構建權重矩陣，利用權重矩陣優(yōu)化均方誤差，以得到自編碼損失函數；

19、基于自編碼損失函數并利用樣本數據對自編碼器進行迭代訓練，且在首輪訓練前中使用頻繁項頻率對權重矩陣進行初始化，以使自編碼器學習到關注協(xié)議關鍵字節(jié)的特征。

20、作為本專利技術基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，進一步地，特征聚類時，采用基于密度的聚類算法dbscan對特征進行聚類，聚類過程包含：

21、使用網格搜索并根據輪廓系數設置聚類算法dbscan中的半徑和最小點數兩個最佳參數；

22、從特征集中隨機選擇一個未訪問數據點，獲取未訪問數據點在半徑參數鄰域內的所有鄰居點，如果數據點在鄰域內至少有符合最小點數參數的鄰居點，則將數據點歸類為核心點；

23、將核心點作為聚類中心，從核心點開始，遞歸訪問核心點密度連通的鄰居點，所述密度連通的鄰居點為彼此在半徑參數鄰域內的鄰居點；

...

【技術保護點】

1.一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，包含：

2.根據權利要求1所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，對數據幀進行數據預處理，包含：

3.根據權利要求1所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，將預處理后的數據幀逐字節(jié)進行頻繁項統(tǒng)計，包含：

4.根據權利要求1或3所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，利用頻繁項頻率篩選出協(xié)議關鍵字節(jié)，利用頻繁項數量篩選出協(xié)議類別關鍵字節(jié)，包含：對數據幀中每一字節(jié)的頻繁項頻率和頻繁項數量進行大小排序；

5.根據權利要求1所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，所述頻率自編碼器和所述數量自編碼器均采用五層編碼器結構，所述五層編碼器結構的第一層和最后一層均包含8個神經元，第二層和倒數第二層均包括4個神經元，中間層包括2個神經元，以利用該五層編碼器結構通過縮小重構數據與輸入數據的誤差，使中間層通過學習輸入數據的低維表示來完成數據降維處理。

6.根據權利要求1或5

7.根據權利要求1所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，特征聚類時，采用基于密度的聚類算法DBSCAN對特征進行聚類，聚類過程包含：

8.一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類系統(tǒng)，其特征在于，包含：數據預處理模塊、頻繁項統(tǒng)計模塊、特征提取模塊和聚類分析模塊，其中，

9.一種電子設備，其特征在于，包括：

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質中存儲有計算機程序，當計算機程序被執(zhí)行時，能夠實現(xiàn)如權利要求1～7任一項所述的方法。

...

【技術特征摘要】

1.一種基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，包含：

2.根據權利要求1所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，對數據幀進行數據預處理，包含：

5.根據權利要求1所述的基于頻繁項提取和雙層自編碼器的未知協(xié)議聚類方法，其特征在于，所述頻率自編碼器和所述數量自編碼器均采用五層編碼器結構，所述五層編碼器結構的第一層和最后一層均包含8個神經元，第二層和倒數第二層均包括4個神經元，...

【專利技術屬性】
技術研發(fā)人員：褚瑞娟，任俊康，陳奕凡，樊訊池，吳超逸，李青，沈彩耀，
申請(專利權)人：中國人民解放軍網絡空間部隊信息工程大學，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術