基于詞義聚合和語義分離技術(shù)的加密流量分類方法及系統(tǒng)技術(shù)方案

技術(shù)編號：42512359 閱讀：24 留言：0更新日期：2024-08-27 19:27

本發(fā)明專利技術(shù)公開了基于詞義聚合和語義分離技術(shù)的加密流量分類方法及系統(tǒng)，屬于網(wǎng)絡(luò)空間安全領(lǐng)域，針對目前方法無法有效理解加密流量數(shù)據(jù)的問題，采用詞義聚合和語義分離技術(shù)，通過詞義聚合保留完整詞義，通過語義分離將抽象特征解耦在不同類別空間，增強特征可區(qū)分性，實現(xiàn)更準確的加密流量分類效果。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)屬于網(wǎng)絡(luò)空間安全領(lǐng)域，特別涉及一種基于詞義聚合和語義分離技術(shù)的加密流量分類方法及系統(tǒng)。

技術(shù)介紹

1、加密流量分析是指在不解密實際內(nèi)容的情況下對加密網(wǎng)絡(luò)流量進行監(jiān)測和分析，是網(wǎng)絡(luò)安全和網(wǎng)絡(luò)管理領(lǐng)域的一項重要研究。理解加密流量非常重要，因為這可以為網(wǎng)絡(luò)運營商執(zhí)行網(wǎng)絡(luò)運營和管理活動提供有價值的見解。例如，通過分析加密流量模式中的異常來檢測惡意活動和入侵，從而保證網(wǎng)絡(luò)安全。一些常見的應(yīng)用程序包括加密應(yīng)用程序分類、攻擊檢測、vpn(virtual?private?networks)分類等。

2、網(wǎng)絡(luò)流量往往以數(shù)據(jù)包的形式存在于網(wǎng)絡(luò)空間，包含著豐富的語義信息。數(shù)據(jù)包通常可以分為兩部分。報頭部分主要包括源ip地址、目的地ip地址、源端口、目的地端口、協(xié)議類型等。有效載荷部分是指正在傳輸?shù)膶嶋H數(shù)據(jù)，通常是加密的。如今，加密協(xié)議的發(fā)展趨勢和網(wǎng)絡(luò)流量的快速發(fā)展使傳統(tǒng)的流量分類方法變得過時。這些傳統(tǒng)方法，如端口匹配、服務(wù)器名稱指示匹配、深度包檢測等，主要基于明文字段或有效載荷進行規(guī)則匹配。然而，它們對加密流量中的有效載荷無法進行進一步的特征提取和分析。

3、近年來，隨著深度學習(deep?learning)和預(yù)訓練語言模型(pre-traininglanguage?models)的發(fā)展，越來越多的研究人員專注于利用自然語言處理(naturallanguage?processing)方法直接從原始流量數(shù)據(jù)中學習，進行自動特征提取，將加密數(shù)據(jù)視為文本序列進行語義理解。通過將流量數(shù)據(jù)分析問題作為一個語言建模任務(wù)，長短時記

4、基于字節(jié)的模型直接處理原始流量字節(jié)，并使用卷積神經(jīng)網(wǎng)絡(luò)(cnns)和長短時記憶網(wǎng)絡(luò)等技術(shù)學習流量特征表示。它們可以在無需特征工程的情況下捕獲加密數(shù)據(jù)包中的復(fù)雜模式。根據(jù)這些方法如何理解輸入流量，可以將其分類為基于圖像或基于文本的分類方法。具體而言，基于圖像的模型通過將原始字節(jié)轉(zhuǎn)換為灰度強度值或rgb顏色，將流量數(shù)據(jù)視為2d圖像。然后，他們應(yīng)用現(xiàn)成的的圖像分類cnn架構(gòu)，例如resnet或者inception進行流量分類。基于文本的模型，例如如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent?neural?network)和長短時記憶網(wǎng)絡(luò)，將輸入按順序處理為文本序列。它們可以分析原始流量包中的長舉例依賴關(guān)系。像transformer這樣的自注意模型也被廣泛使用，用于學習加密流量數(shù)據(jù)中的上下文關(guān)系。

5、最近，越來越多的研究人員利用預(yù)訓練語言模型進行加密流量分類。遵循自監(jiān)督預(yù)訓練范式，該范式已被證明對自然語言處理任務(wù)非常有效。模型首先以自監(jiān)督的方式在大量未標記的網(wǎng)絡(luò)流量數(shù)據(jù)上進行訓練，以學習通用流量表示。通過預(yù)定義的任務(wù)，如掩碼令牌預(yù)測、同源burst預(yù)測等進行實現(xiàn)，這些任務(wù)允許模型捕獲原始字節(jié)并挖掘流量的內(nèi)在特性。et-bert通過從大規(guī)模的流量數(shù)據(jù)中進行預(yù)訓練，獲取上下文的數(shù)據(jù)表示。netgpt為流量理解和生成任務(wù)提供了一個生成的預(yù)訓練模型。然而，這種類型的方法需要大量的數(shù)據(jù)和計算資源來重新訓練大型語言模型。在本專利技術(shù)中，所提出的方法有效地利用了在bert的預(yù)訓練階段學習到的一般自然語言知識，而無需重新進行預(yù)訓練。同時通過語義分離技術(shù)，顯式地在不同類別的語義空間中進行獨立的特征學習，從而加強特征的可區(qū)分性。

6、隨著網(wǎng)絡(luò)環(huán)境的變化和加密協(xié)議的快速發(fā)展，傳統(tǒng)基于規(guī)則的方法(例如端口匹配、深度包檢測技術(shù)等)不再適用于加密流量分類任務(wù)。從詞義的角度來說，對流量數(shù)據(jù)的理解和文本中詞語的理解并不一致，尤其是當流量加密之后。目前現(xiàn)有的基于預(yù)訓練語言模型的流量分析方法如bert，主要是理解自然語言層面的信息，直接處理流量信息不一定合適。從語義的角度來說，流量數(shù)據(jù)可以有多種語義。然而現(xiàn)在的方法多是隱式地通過頂層學習的抽象語義特征進行分類，未更進一步解耦不同類別或者任務(wù)下的獨立語義特征，導致樣本的特征區(qū)分性并不明顯。由此可見，目前基于預(yù)訓練語言模型的方法要么直接利用bert處理流量數(shù)據(jù)，要么重新對bert模型進行預(yù)訓練，雖然都能一定程度上提高分類效果。但是直接利用bert處理流量數(shù)據(jù)會破壞流量數(shù)據(jù)中的完整詞義，導致特征失效。重新對bert模型進行預(yù)訓練雖然能保證詞義的完整性，但是需要大量的計算資源和數(shù)據(jù)，同時也未考慮對頂層抽象語義的分離學習。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)的目的是提出一種基于詞義聚合和語義分離技術(shù)的加密流量分類方法及系統(tǒng)，通過詞義聚合保留完整詞義，通過語義分離將抽象特征解耦在不同類別空間，增強特征可區(qū)分性，提高加密流量的分類效果。

2、本專利技術(shù)實現(xiàn)上述目的所采用的技術(shù)方案是：

3、一種基于詞義聚合和語義分離技術(shù)的加密流量分類方法，包括以下步驟：

4、將網(wǎng)絡(luò)流量數(shù)據(jù)通過bert分詞器進行分詞，得到子詞；

5、將子詞通過流量編碼器進行語義特征編碼，得到隱藏狀態(tài)表示；

6、將隱藏狀態(tài)表示通過語義聚合器進行語義聚合，得到包級別的語義特征；

7、設(shè)計具有分類提示的提示模板，在提示模板的引導下將包級別的語義特征通過語義分離器進行語義分離，得到類別級別的語義特征；

8、將類別級別的語義特征輸入到分類器進行分類預(yù)測；

9、將帶有真實類別標簽的訓練數(shù)據(jù)通過上述步驟處理，訓練流量編碼器、語義分離器和分類器，訓練完成后按照上述步驟處理加密流量，得到加密流量的分類結(jié)果。

10、進一步地，bert分詞器使用wordpiece分詞器。

11、進一步地，流量編碼器選用預(yù)訓練的bert編碼器。

12、進一步地，詞義聚合器利用bert分詞器保留的子詞長度信息來聚合隱藏狀態(tài)表示的詞義。

13、進一步地，提示模板由數(shù)據(jù)類別詢問和類別序列組成。

14、進一步地，在提示模板的引導下將包級別的語義特征通過語義分離器進行語義分離的步驟包括：

15、使用與上述流量編碼器相同架構(gòu)的另一個流量編碼器，對提示進行語義特征編碼，得到提示的隱藏狀態(tài)表示；

16、將包級別的語義特征和提示的隱藏狀態(tài)表示一同進行激活處理，將包級別的語義特征分離為各類別對應(yīng)的獨立隱藏狀態(tài)；

17、將包級別的語義特征和對應(yīng)的獨立隱藏狀態(tài)進行平均池化處理，得到類別級別的語義特征。

18、進一步地，將包級別的語義特征和提示的隱藏狀態(tài)表示一同進行激活處理的公式如下：

19、score＝softmax(h·h′t)

20、h″c＝(score·h′)wc+bc

21、其中，h為包級別的語義特征，h′為提示的隱藏狀態(tài)表示，h″c為獨立隱本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于詞義聚合和語義分離技術(shù)的加密流量分類方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的方法，其特征在于，BERT分詞器使用WordPiece分詞器。

3.如權(quán)利要求1所述的方法，其特征在于，流量編碼器選用預(yù)訓練的BERT編碼器。

4.如權(quán)利要求1所述的方法，其特征在于，詞義聚合器利用BERT分詞器保留的子詞長度信息來聚合隱藏狀態(tài)表示的詞義。

5.如權(quán)利要求1所述的方法，其特征在于，在提示模板的引導下將包級別的語義特征通過語義分離器進行語義分離的步驟包括：

6.如權(quán)利要求5所述的方法，其特征在于，將包級別的語義特征和提示的隱藏狀態(tài)表示一同進行激活處理的公式如下：

7.如權(quán)利要求5所述的方法，其特征在于，接利用殘差結(jié)構(gòu)組合包級別的語義特征和對應(yīng)的獨立隱藏狀態(tài)，然后進行平均池化處理，公式如下：

8.如權(quán)利要求1所述的方法，其特征在于，分類器基于多層感知器和sigmoid函數(shù)進行分類預(yù)測，公式如下：

9.如權(quán)利要求1或8所述的方法，其特征在于，訓練時使用如下交叉熵損失函數(shù)對模型進行優(yōu)化：

10.一種基于詞義聚合和語義分離技術(shù)的加密流量分類系統(tǒng)，其特征在于，包括：

...

【技術(shù)特征摘要】

1.一種基于詞義聚合和語義分離技術(shù)的加密流量分類方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的方法，其特征在于，bert分詞器使用wordpiece分詞器。

3.如權(quán)利要求1所述的方法，其特征在于，流量編碼器選用預(yù)訓練的bert編碼器。

4.如權(quán)利要求1所述的方法，其特征在于，詞義聚合器利用bert分詞器保留的子詞長度信息來聚合隱藏狀態(tài)表示的詞義。

5.如權(quán)利要求1所述的方法，其特征在于，在提示模板的引導下將包級別的語義特征通過語義分離器進行語義分離的步驟包括：

6.如權(quán)利...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：彭偉，云曉春，郝志宇，崔磊，蔡瑋，王瑋，
申請(專利權(quán))人：北京中關(guān)村實驗室，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)