System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于惡意url檢測領域,具體涉及基于后訓練的多層次特征自注意力的惡意url檢測方法。
技術介紹
1、惡意url是欺騙性的網絡鏈接,目的是說服用戶泄露敏感和個人信息,點擊這些欺騙性鏈接可能會導致嚴重后果,包括個人數據被盜和網絡攻擊。
2、惡意url檢測是網絡安全的重要組成部分,旨在識別和攔截潛在的網絡威脅;在用戶隱私保護方面,惡意url常用于網絡釣魚和信息竊??;惡意url檢測技術的研究為網絡安全領域提供了堅實的理論基礎和技術支持。惡意url檢測技術最初依賴于基于規則的檢測方法,這些方法通常使用黑名單和簡單的特征工程,無法適應動態變化的網絡威脅。后來,隨著深度學習技術的發展,研究者開始嘗試使用卷積神經網絡(cnn)和循環神經網絡(rnn)等方法,雖然在特征提取上有了進展,但仍然需要手動處理輸入數據。近年來,預訓練語言模型(如bert、gpt等)因其強大的特征學習能力而廣受關注。研究者們開始探索將這些模型應用于url檢測,盡管直接應用仍面臨域適應性和特征提取的挑戰。
3、后訓練策略(post-training?strategy)是一種在預訓練語言模型基礎上進一步優化和調整模型的過程,目的是使其更好地適應特定任務或領域?,F有技術中存在域適應性不足的問題,現有的惡意url檢測模型往往在特定領域的適應性較差,無法有效識別新的惡意url模式。而通過后訓練策略,能夠使預訓練語言模型能夠適應特定任務,從而提升模型對領域特定特征的捕捉能力。
4、多層次特征提取是一種技術方法,旨在從輸入數據中提取不同層次
5、動態注意力機制是一種改進的注意力機制,旨在根據輸入數據的特征和上下文動態調整注意力權重,以更有效地捕捉關鍵信息?,F有技術中通常采用靜態注意力機制,靜態注意力機制具有局限性,靜態注意力機制在處理不同上下文時無法動態調整關注點,可能導致重要信息的忽視。而通過引入動態注意力機制,根據特征層的重要性動態調整權重,能夠增強對關鍵信息的關注。
6、此外,現有技術中缺乏自監督學習任務,許多現有模型依賴于大量標注數據,而標注數據的獲取成本高且耗時,導致模型在新環境中的表現不佳。而通過設計自監督學習任務(如掩碼語言模型、噪聲語言模型和領域判別任務),能夠使模型在缺乏大量標注數據的情況下有效學習。在實際應用中還存在魯棒性不足的問題,現有模型在實際應用中面對小規模數據和類別不平衡時,通常表現不佳,影響檢測的準確性和可靠性。而在多種挑戰性場景下進行全面評估,能夠確保模型在不同環境下的有效性和魯棒性。
技術實現思路
1、為解決現有技術的不足,實現提高惡意url檢測性能、提升檢測效果的目的,本專利技術采用如下的技術方案:
2、基于后訓練的多層次特征自注意力的惡意url檢測方法,包括如下步驟:
3、步驟1:構建數據集;
4、步驟2:構建預訓練語言模型,包括含有字符嵌入模塊和異構交互模塊的骨干網絡;
5、步驟3:預訓練語言模型,通過多階特征提取模塊進行特征提??;通過多層transformer編碼器學習語義知識,但在處理過程中可能導致低中層次特征退化,多階特征提取模塊利用骨干網絡的層次信息,從低到高提取特征;
6、步驟4:基于骨干網絡,通過層感知注意力模塊分配權重;受通道注意力原理啟發,層感知注意力模塊為不同層的特征圖獨立分配權重,提高處理效率和精度;
7、步驟5:空間金字塔池化;將計算機視覺中的空間金字塔池化技術創新地應用于transformer模型中;對于由層感知注意力模塊提取的加權特征結果,采用多級金字塔池化(使用大小為win=[a/n]和步長str=[b/n]的滑動窗口,n×n為金字塔級別,第一級池化操作記為pool1,第二級池化操作記為pool2,第三級池化操作記為pool3);
8、則池化后的結果分別為f1=pool1(fatt),f2=pool2(fatt),f3=pool3(fatt);
9、將池化后的特征圖從細到粗分割為局部空間分區,聚合局部特征;然后,對連接后的特征圖沿固定序列長度維度進行平均池化:
10、ffinal=avgpoolf(concat(f1,f2,f3))
11、最后,通過標準dropout層和全連接層處理,將url特征轉換為二元類表示進行預測,提高了模型對不同尺度特征的適應性,增強了整體預測準確性。
12、設dropout操作記為dropout,全連接層操作記為fc,則預測結果:
13、y=fc(dropout(ffinal))
14、步驟6:后訓練;采用masked?lm和noisy?lm來學習url子詞和字符級表示的上下文語義,采用領域判別任務負責領域適應性學習。
15、進一步地,所述步驟2中的字符嵌入模塊,利用兩層雙向門控循環單元(bigru)網絡對輸入標記中的字符序列進行編碼,通過正向和反向門控循環單元gru處理輸入,整合隱藏層狀態生成上下文感知的字符嵌入;具體計算過程為,對于輸入窗口大小為d的序列,正向gru計算:
16、
17、反向gru計算:
18、
19、最終輸出:
20、
21、在生成字符嵌入時,將輸入序列表示為子詞序列,計算每個子詞中字符的嵌入并通過雙向門控循環單元bigru處理,然后連接每個子詞的首尾字符隱藏狀態得到子詞級嵌入。
22、進一步地,所述步驟2中的異構交互模塊,在每個transformer層后融合和分離子詞與字符表示;先通過不同全連接層分別轉換子詞和字符表示,再用cnn層拼接和整合,然后使用帶有gelu激活的全連接層恢復融合特征到兩個通道,并添加殘差連接保留原始信息,最后進行層歸一化操作,此過程豐富了兩個通道的相互表示,同時保留了各自的特征,預訓練任務還增強了雙通道框架的區分能力。
23、異構交互模塊具體過程,設子詞表示為xs,字符表示為xc,先通過不同全連接層ws1和wc1分別轉換子詞和字符表示:ys=ws1xs,yc=wc1xc。
24、再用cnn層拼接和整合:y=cnn([ys;yc])(其中[;]表示拼接操作)。
25、然后使用帶有gelu激活的全連接層ws2和wc2恢復融合特征到兩個通道:zs=ws2y,zc=wc2y。
26、添加殘差連接保留原始信息:
27、最后進行層歸一化操作:
28、進一步地,所述步驟3中,將骨干網絡的字級和字符級編碼器在各層的輸出(表示為k1,本文檔來自技高網...
【技術保護點】
1.基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于包括如下步驟:
2.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟2中的字符嵌入模塊,利用兩層雙向門控循環單元網絡對輸入標記中的字符序列進行編碼,通過正向和反向門控循環單元處理輸入,整合隱藏層狀態生成上下文感知的字符嵌入;在生成字符嵌入時,將輸入序列表示為子詞序列,計算每個子詞中字符的嵌入并通過雙向門控循環單元處理,然后連接每個子詞的首尾字符隱藏狀態得到子詞級嵌入。
3.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟2中的異構交互模塊,在每個Transformer層后融合和分離子詞與字符表示;先通過不同全連接層分別轉換子詞和字符表示,再用CNN層拼接和整合,然后使用帶有GELU激活的全連接層恢復融合特征到兩個通道,并添加殘差連接保留原始信息,最后進行層歸一化操作。
4.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟3中,將骨干網絡的字級和字符級
5.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟4中,通過對平均池化和最大池化后的特征分別生成空間上下文描述符,然后將它們通過共享多層感知器網絡處理,生成通道注意力圖。
6.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟6中,使用無監督學習任務,對預訓練語言模型進行進一步訓練,以適應URL領域并學習不同層次的上下文信息。
7.根據權利要求6所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述無監督學習任務包括掩碼語言模型任務,是在令牌通道訓練中集成掩碼語言模型,通過預測URL序列中被掩碼的令牌來增強上下文解釋能力;掩碼語言模型任務是基于對輸入URL序列中的部分令牌進行掩碼,然后讓模型預測這些被掩碼的令牌;對于被選中要掩碼的位置,其原始令牌被替換為特殊的掩碼標記,得到掩碼后的序列;模型的目標是根據上下文信息,即序列中未被掩碼的其他令牌,來預測被掩碼位置的原始令牌;模型通過學習大量的URL數據,調整其內部參數,以最大化預測被掩碼令牌的準確性。
8.根據權利要求7所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:將掩碼比例從BERT的默認15%微調為10%。
9.根據權利要求6所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述無監督學習任務包括噪聲語言模型任務,是通過向單詞中引入字符噪聲來捕獲詞匯術語的內部形態特征,迫使模型從擾動后的字符表示中預測原始單詞;為此構建了新的單詞級詞匯作為預測空間,計算預測概率。
10.根據權利要求6所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述無監督學習任務包括域判別任務,基于BERT的下一句預測任務概念,將目標轉變為區分URL域和一般文本域;模型接收格式為[CLS]?A?[SEP]?B?[SEP]的輸入,其中A和B在不同情況下分別從URL域或文本域中隨機選擇;使用域判別器根據[CLS]的隱藏狀態預測樣本域,在判別器前添加梯度反轉層,通過反向傳播優化判別器參數。
...【技術特征摘要】
1.基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于包括如下步驟:
2.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟2中的字符嵌入模塊,利用兩層雙向門控循環單元網絡對輸入標記中的字符序列進行編碼,通過正向和反向門控循環單元處理輸入,整合隱藏層狀態生成上下文感知的字符嵌入;在生成字符嵌入時,將輸入序列表示為子詞序列,計算每個子詞中字符的嵌入并通過雙向門控循環單元處理,然后連接每個子詞的首尾字符隱藏狀態得到子詞級嵌入。
3.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟2中的異構交互模塊,在每個transformer層后融合和分離子詞與字符表示;先通過不同全連接層分別轉換子詞和字符表示,再用cnn層拼接和整合,然后使用帶有gelu激活的全連接層恢復融合特征到兩個通道,并添加殘差連接保留原始信息,最后進行層歸一化操作。
4.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟3中,將骨干網絡的字級和字符級編碼器在各層的輸出,先合并兩個通道并恢復原始維度,然后沿新維度0、堆疊形成張量x,定義置換矩陣p交換維度0和1得到x’,x’作為后續注意力模塊的輸入。
5.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟4中,通過對平均池化和最大池化后的特征分別生成空間上下文描述符,然后將它們通過共享多層感知器網絡處理,生成通道注意力圖。
6.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟6中,使用無監督學習任務,...
【專利技術屬性】
技術研發人員:張麗霞,馮武彤,王辰,洪俊,沈開奎,趙劍峰,李佩泫,
申請(專利權)人:西安西電數字科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。