System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于網絡安全,具體是一種基于llm增強半監督學習的加密流量檢測方法。
技術介紹
1、隨著互聯網技術的迅猛發展,網絡安全與隱私保護已成為數字時代的核心議題。傳輸層安全(tls)協議作為一種重要的流量加密手段,廣泛應用于保護通信的機密性[1]。然而,加密技術的普及也為惡意行為者提供了掩蓋攻擊活動的手段,導致傳統依賴數據包有效載荷分析的惡意流量檢測方法難以奏效。這一挑戰催生了研究者們對新方法的探索,以期有效識別并攔截隱藏在加密流量中的安全威脅。
2、現有的加密流量檢測研究[2-8]多依賴于公開的數據集,但這些數據集通常僅覆蓋理想化、穩定的單一或部分網絡場景,難以反映真實網絡環境的復雜多樣性。在這些理想條件下訓練的模型,雖然在特定環境中表現良好,但由于難以適應真實網絡環境中的特征模式,在實際應用中誤報率往往顯著上升[9,15]。真實的網絡環境通常伴隨時延、丟包率和動態路由等多種因素的波動,使得檢測模型的輸出難以保持穩定性。由于地理位置跨度大,長距離tcp連接需要穿越多種類型的網絡(如以太網、wi-fi、4g/5g等),這些變化會對用于訓練的流量外部特征(如數據包長度[9-14])產生顯著影響。在長距離傳輸過程中,動態路由變化導致數據包在不同路徑間的切換,產生時延波動和數據包到達順序變化,使得檢測模型難以捕捉到穩定的流量模式。更重要地是,要通過大規模的數據采集來覆蓋所有可能的網絡環境幾乎是不可能的,訓練一個能夠適應各種場景的“全場景模型”不僅成本高昂,還面臨技術、法律和隱私等多重挑戰。因此,如何在有限場景數據的基礎上
3、近年來,大語言模型(llm)作為一種擁有數十億甚至上百億參數的神經網絡,在網絡安全領域展現出巨大的潛力。llm通過從海量數據中學習復雜的模式和關系,具備理解和生成復雜文本數據的能力,這為應對加密流量的復雜性和多樣性提供了新的途徑。然而,llm在垂直領域的泛化能力不足,特別是存在“幻覺”[35,36]問題。部分研究[16-18]嘗試通過重新預訓練或針對性微調來提升其對特定領域的適應性,仍難以全面克服其在專業領域應用時的局限性。此外,由于數據生成延遲和高算力需求,llm難以滿足在線流量檢測的實時性要求,尤其是在高速網絡環境中。
4、半監督學習(ssl)作為一種結合有標簽和無標簽數據的學習范式,在解決數據稀缺和模型泛化問題上展現出獨特優勢。它通過大量未標記的數據來提高模型的泛化能力,同時減少對標記數據的依賴。然而,ssl在面對不同網絡環境時,仍然可能遭遇性能下降的瓶頸,因為它缺乏足夠的領域知識和推理能力,難以適應多變的網絡條件。在這種背景下,llm和ssl在本質上可以形成一種互補關系:llm廣泛的知識和推理能力可以幫助ssl模型更好地適應不同網絡環境,而ssl則通過明確的規則和特征工程,提供更強的確定性和解釋性。
5、如上所述,由于現實世界網絡環境的復雜性、加之現有數據集的局限性,單一或部分場景下訓練的模型難以高效地識別tls惡意加密流量。盡管llm和半監督流量檢測模型的結合有巨大潛力,但也面臨如下挑戰和限制:
6、1)如何利用llm突破ssl的數據限制。這是一個基礎性問題。為突破這種限制,一個自然的步驟是無標簽數據增強。典型的數據增強技術(如隨機掩碼(rm)[46]、隨機交換(rs)[47]、生成對抗網絡(gans)[48]和擴散模型[49])大多專注于單一域(場景)內的泛化性提升,無法適應變化的網絡環境。一些研究嘗試用llm增強數據。llmda[44]利用llm生成軟件安全補丁的解釋和增強數據,從而提高漏洞檢測的精度。dalda[45]結合llm和擴散模型來增強數據,能在數據稀缺情況下提升模型的訓練效率。但這些方法僅把llm作為簡單的數據增強工具,很難做到全場景自適應。在[39-41]中,風格遷移模型被用來增強數據集,以提高圖像分類模型的域泛化性。鑒于llm在文本風格遷移任務中展現的潛力,它們有望以類似方式提升檢測模型的泛化性。cao等人[9]通過模擬tcp傳輸的數據訓練特征提取器,以提高模型對不同網絡環境的適應性。這種方法為流量數據增強提供了一種新的設計思路。然而,如何利用llm的內生知識,實現場景自適應的流量數據增強,仍有待進一步研究。
7、2)如何在ssl中高效利用llm掌握的知識。檢測模型訓練依賴大量數據,但數據標注及llm數據增強的時間成本不容忽視。sohn?et?al.[20]提出一種ssl策略,該策略結合偽標簽、一致正則化和不同強度的數據增強,有效地提升模型性能。mean?teachers[42]通過平均模型權重而非標簽預測來改善ssl,提高了測試準確性。但是,這些方法需要高昂的計算資源以完成多次模型更新和數據增強操作。尤其是在應用llm增強數據時,由于其推理過程需要消耗大量的計算資源和時間,這一問題更為突出。carmon等人[21]通過數據增強和偽標簽技術,在僅有少量標注數據的情況下有效提升了模型的魯棒性,但當無標注數據集與標注數據集的特征差異較大時,預測準確性可能出現顯著下降。因此,如何低成本地從llm中提煉出適用于各種場景的檢測知識,成為一個亟待解決的問題。
8、3)如何讓llm對齊ssl的優化目標。由于llm和ssl在架構設計和數據依賴性方面存在本質差異,傳統的協同訓練方法(如參數的硬共享[50]和軟共享[51])難以實現兩者在優化目標上的對齊。靜態或預設的增強規則往往會導致數據需求與增強結果不一致。在訓練初期,過于復雜的數據增強可能引入噪聲和分布偏移,導致欠擬合[37];而在訓練后期,增強變化不足則可能增加過擬合的風險[38]。對此,一些方法[22-25]依據目標網絡的實時反饋動態調整數據增強強度,從而在訓練的不同階段提供適應性的增強策略。為更好地對齊llm和其他深度學習模型的優化目標,一些研究[52]嘗試對llm進行持續微調,但后期微調容易覆蓋之前訓練的知識,導致“災難性遺忘”問題。模型合并[26-28]通過參數合并減少信息丟失,為緩解這一問題提供了新的可能性。盡管如此,如何實現llm與半監督流量檢測模型的高效協同仍需進一步探索。
技術實現思路
1、為應對上述挑戰,本專利技術提出一種基于llm增強半監督學習的加密流量檢測方法,步驟是先在llm增強的半監督less框架下對用于檢測加密流量的流量檢測模型進行訓練;然后用訓練完成的流量檢測模型對加密流量進行檢測;
2、所述less的組件包括prompt編排器、nssn和llm優化器;這些組件協同工作,利用有標簽和無標簽訓練集訓練檢測模型,其中數據集中的每條數據由網絡流中數據包的長度值順序排列構成;prompt編排器引導llm生成不同場景下的無標簽增強數據;nssn為增強過的無標簽流量數據自動設置偽標簽,并借此學習流量檢測知識;在ssl損失的指導下,llm優化器調整llm的增強策略,以對齊檢測模型的半監督訓練需求;
3、檢測模型的訓練步驟包括:
...
【技術保護點】
1.一種基于LLM增強半監督學習的加密流量檢測方法,其特征是先在LLM增強的半監督LESS框架下對用于檢測加密流量的流量檢測模型進行訓練;然后用訓練完成的流量檢測模型對加密流量進行檢測;
2.根據權利要求1所述的基于LLM增強半監督學習的加密流量檢測方法,其特征是步驟1)中,預微調的目的是賦予LLM基本的TCP加密流量增強能力;
3.根據權利要求1所述的基于LLM增強半監督學習的加密流量檢測方法,其特征是步驟2)中,數據增強的對象為訓練集中所有的無標簽數據;每條待增強數據被嵌入到Prompt模板中的指定位置,以構建一個完整問題;LLM依據Prompt中內嵌的數據包長度序列輸出結果;這些無標簽的增強結果被送入NSSN;
4.根據權利要求1所述的基于LLM增強半監督學習的加密流量檢測方法,其特征是步驟3)中,一個迭代周期結束后,LLM與SSL模型被聯合微調,聯合微調策略關注LLM與SSL優化目標的對齊,分為如下四個步驟:
5.根據權利要求4所述的基于LLM增強半監督學習的加密流量檢測方法,其特征是步驟3.1)中,Question中填充的
6.根據權利要求1所述的基于LLM增強半監督學習的加密流量檢測方法,其特征是加密流量是TLS流量,TLS表示傳輸層安全協議。
...【技術特征摘要】
1.一種基于llm增強半監督學習的加密流量檢測方法,其特征是先在llm增強的半監督less框架下對用于檢測加密流量的流量檢測模型進行訓練;然后用訓練完成的流量檢測模型對加密流量進行檢測;
2.根據權利要求1所述的基于llm增強半監督學習的加密流量檢測方法,其特征是步驟1)中,預微調的目的是賦予llm基本的tcp加密流量增強能力;
3.根據權利要求1所述的基于llm增強半監督學習的加密流量檢測方法,其特征是步驟2)中,數據增強的對象為訓練集中所有的無標簽數據;每條待增強數據被嵌入到prompt模板中的指定位置,以構建一個完整問題;llm依據prompt中內嵌的數據包長度序列輸出結果;這些無標簽的增強結...
【專利技術屬性】
技術研發人員:鄭澤浩,沈航,戴遠飛,王天荊,白光偉,
申請(專利權)人:南京工業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。