System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中久无码不卡永久在线观看,少妇仑乱A毛片无码,久久无码人妻一区二区三区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于后訓練的多層次特征自注意力的惡意URL檢測方法技術

    技術編號:44483928 閱讀:3 留言:0更新日期:2025-03-04 17:50
    本發明專利技術公開了基于后訓練的多層次特征自注意力的惡意URL檢測方法,屬于惡意URL檢測領域,通過構建基于后訓練的預訓練語言模型,結合多層次特征提取和動態注意力機制,克服傳統檢測方法在域適應性和特征捕捉上的不足;通過引入掩碼語言模型、噪聲語言模型和領域判別三種自監督學習任務,增強模型對URL特征的理解;通過提取從低階到高階的多層次特征,并動態調整特征層的權重,能夠更精準地識別惡意鏈接;實驗結果表明,本發明專利技術在小規模數據、類別不平衡和對抗攻擊等挑戰性情況下,顯著優于現有的深度學習模型和傳統方法,為網絡安全提供了更有效的技術支持,同時,實驗還評估了模型的通用性、穩健性、可擴展性和對數據變化的響應能力。

    【技術實現步驟摘要】

    本專利技術屬于惡意url檢測領域,具體涉及基于后訓練的多層次特征自注意力的惡意url檢測方法。


    技術介紹

    1、惡意url是欺騙性的網絡鏈接,目的是說服用戶泄露敏感和個人信息,點擊這些欺騙性鏈接可能會導致嚴重后果,包括個人數據被盜和網絡攻擊。

    2、惡意url檢測是網絡安全的重要組成部分,旨在識別和攔截潛在的網絡威脅;在用戶隱私保護方面,惡意url常用于網絡釣魚和信息竊??;惡意url檢測技術的研究為網絡安全領域提供了堅實的理論基礎和技術支持。惡意url檢測技術最初依賴于基于規則的檢測方法,這些方法通常使用黑名單和簡單的特征工程,無法適應動態變化的網絡威脅。后來,隨著深度學習技術的發展,研究者開始嘗試使用卷積神經網絡(cnn)和循環神經網絡(rnn)等方法,雖然在特征提取上有了進展,但仍然需要手動處理輸入數據。近年來,預訓練語言模型(如bert、gpt等)因其強大的特征學習能力而廣受關注。研究者們開始探索將這些模型應用于url檢測,盡管直接應用仍面臨域適應性和特征提取的挑戰。

    3、后訓練策略(post-training?strategy)是一種在預訓練語言模型基礎上進一步優化和調整模型的過程,目的是使其更好地適應特定任務或領域?,F有技術中存在域適應性不足的問題,現有的惡意url檢測模型往往在特定領域的適應性較差,無法有效識別新的惡意url模式。而通過后訓練策略,能夠使預訓練語言模型能夠適應特定任務,從而提升模型對領域特定特征的捕捉能力。

    4、多層次特征提取是一種技術方法,旨在從輸入數據中提取不同層次和粒度的特征,以捕捉更全面的信息。這種方法在深度學習模型中尤為重要,特別是在處理復雜數據(如文本、圖像或音頻)時?,F有技術中仍存在特征提取不全面的問題,傳統的特征提取方法通常僅關注局部特征或全局特征,未能全面反映url的復雜結構和語義信息。而采用多層次特征提取,從低階到高階提取不同層次的特征,能夠確保模型能夠同時關注細節和整體上下文。

    5、動態注意力機制是一種改進的注意力機制,旨在根據輸入數據的特征和上下文動態調整注意力權重,以更有效地捕捉關鍵信息?,F有技術中通常采用靜態注意力機制,靜態注意力機制具有局限性,靜態注意力機制在處理不同上下文時無法動態調整關注點,可能導致重要信息的忽視。而通過引入動態注意力機制,根據特征層的重要性動態調整權重,能夠增強對關鍵信息的關注。

    6、此外,現有技術中缺乏自監督學習任務,許多現有模型依賴于大量標注數據,而標注數據的獲取成本高且耗時,導致模型在新環境中的表現不佳。而通過設計自監督學習任務(如掩碼語言模型、噪聲語言模型和領域判別任務),能夠使模型在缺乏大量標注數據的情況下有效學習。在實際應用中還存在魯棒性不足的問題,現有模型在實際應用中面對小規模數據和類別不平衡時,通常表現不佳,影響檢測的準確性和可靠性。而在多種挑戰性場景下進行全面評估,能夠確保模型在不同環境下的有效性和魯棒性。


    技術實現思路

    1、為解決現有技術的不足,實現提高惡意url檢測性能、提升檢測效果的目的,本專利技術采用如下的技術方案:

    2、基于后訓練的多層次特征自注意力的惡意url檢測方法,包括如下步驟:

    3、步驟1:構建數據集;

    4、步驟2:構建預訓練語言模型,包括含有字符嵌入模塊和異構交互模塊的骨干網絡;

    5、步驟3:預訓練語言模型,通過多階特征提取模塊進行特征提??;通過多層transformer編碼器學習語義知識,但在處理過程中可能導致低中層次特征退化,多階特征提取模塊利用骨干網絡的層次信息,從低到高提取特征;

    6、步驟4:基于骨干網絡,通過層感知注意力模塊分配權重;受通道注意力原理啟發,層感知注意力模塊為不同層的特征圖獨立分配權重,提高處理效率和精度;

    7、步驟5:空間金字塔池化;將計算機視覺中的空間金字塔池化技術創新地應用于transformer模型中;對于由層感知注意力模塊提取的加權特征結果,采用多級金字塔池化(使用大小為win=[a/n]和步長str=[b/n]的滑動窗口,n×n為金字塔級別,第一級池化操作記為pool1,第二級池化操作記為pool2,第三級池化操作記為pool3);

    8、則池化后的結果分別為f1=pool1(fatt),f2=pool2(fatt),f3=pool3(fatt);

    9、將池化后的特征圖從細到粗分割為局部空間分區,聚合局部特征;然后,對連接后的特征圖沿固定序列長度維度進行平均池化:

    10、ffinal=avgpoolf(concat(f1,f2,f3))

    11、最后,通過標準dropout層和全連接層處理,將url特征轉換為二元類表示進行預測,提高了模型對不同尺度特征的適應性,增強了整體預測準確性。

    12、設dropout操作記為dropout,全連接層操作記為fc,則預測結果:

    13、y=fc(dropout(ffinal))

    14、步驟6:后訓練;采用masked?lm和noisy?lm來學習url子詞和字符級表示的上下文語義,采用領域判別任務負責領域適應性學習。

    15、進一步地,所述步驟2中的字符嵌入模塊,利用兩層雙向門控循環單元(bigru)網絡對輸入標記中的字符序列進行編碼,通過正向和反向門控循環單元gru處理輸入,整合隱藏層狀態生成上下文感知的字符嵌入;具體計算過程為,對于輸入窗口大小為d的序列,正向gru計算:

    16、

    17、反向gru計算:

    18、

    19、最終輸出:

    20、

    21、在生成字符嵌入時,將輸入序列表示為子詞序列,計算每個子詞中字符的嵌入并通過雙向門控循環單元bigru處理,然后連接每個子詞的首尾字符隱藏狀態得到子詞級嵌入。

    22、進一步地,所述步驟2中的異構交互模塊,在每個transformer層后融合和分離子詞與字符表示;先通過不同全連接層分別轉換子詞和字符表示,再用cnn層拼接和整合,然后使用帶有gelu激活的全連接層恢復融合特征到兩個通道,并添加殘差連接保留原始信息,最后進行層歸一化操作,此過程豐富了兩個通道的相互表示,同時保留了各自的特征,預訓練任務還增強了雙通道框架的區分能力。

    23、異構交互模塊具體過程,設子詞表示為xs,字符表示為xc,先通過不同全連接層ws1和wc1分別轉換子詞和字符表示:ys=ws1xs,yc=wc1xc。

    24、再用cnn層拼接和整合:y=cnn([ys;yc])(其中[;]表示拼接操作)。

    25、然后使用帶有gelu激活的全連接層ws2和wc2恢復融合特征到兩個通道:zs=ws2y,zc=wc2y。

    26、添加殘差連接保留原始信息:

    27、最后進行層歸一化操作:

    28、進一步地,所述步驟3中,將骨干網絡的字級和字符級編碼器在各層的輸出(表示為k1,本文檔來自技高網...

    【技術保護點】

    1.基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于包括如下步驟:

    2.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟2中的字符嵌入模塊,利用兩層雙向門控循環單元網絡對輸入標記中的字符序列進行編碼,通過正向和反向門控循環單元處理輸入,整合隱藏層狀態生成上下文感知的字符嵌入;在生成字符嵌入時,將輸入序列表示為子詞序列,計算每個子詞中字符的嵌入并通過雙向門控循環單元處理,然后連接每個子詞的首尾字符隱藏狀態得到子詞級嵌入。

    3.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟2中的異構交互模塊,在每個Transformer層后融合和分離子詞與字符表示;先通過不同全連接層分別轉換子詞和字符表示,再用CNN層拼接和整合,然后使用帶有GELU激活的全連接層恢復融合特征到兩個通道,并添加殘差連接保留原始信息,最后進行層歸一化操作。

    4.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟3中,將骨干網絡的字級和字符級編碼器在各層的輸出,先合并兩個通道并恢復原始維度,然后沿新維度0、堆疊形成張量X,定義置換矩陣P交換維度0和1得到X’,X’作為后續注意力模塊的輸入。

    5.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟4中,通過對平均池化和最大池化后的特征分別生成空間上下文描述符,然后將它們通過共享多層感知器網絡處理,生成通道注意力圖。

    6.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述步驟6中,使用無監督學習任務,對預訓練語言模型進行進一步訓練,以適應URL領域并學習不同層次的上下文信息。

    7.根據權利要求6所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述無監督學習任務包括掩碼語言模型任務,是在令牌通道訓練中集成掩碼語言模型,通過預測URL序列中被掩碼的令牌來增強上下文解釋能力;掩碼語言模型任務是基于對輸入URL序列中的部分令牌進行掩碼,然后讓模型預測這些被掩碼的令牌;對于被選中要掩碼的位置,其原始令牌被替換為特殊的掩碼標記,得到掩碼后的序列;模型的目標是根據上下文信息,即序列中未被掩碼的其他令牌,來預測被掩碼位置的原始令牌;模型通過學習大量的URL數據,調整其內部參數,以最大化預測被掩碼令牌的準確性。

    8.根據權利要求7所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:將掩碼比例從BERT的默認15%微調為10%。

    9.根據權利要求6所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述無監督學習任務包括噪聲語言模型任務,是通過向單詞中引入字符噪聲來捕獲詞匯術語的內部形態特征,迫使模型從擾動后的字符表示中預測原始單詞;為此構建了新的單詞級詞匯作為預測空間,計算預測概率。

    10.根據權利要求6所述的基于后訓練的多層次特征自注意力的惡意URL檢測方法,其特征在于:所述無監督學習任務包括域判別任務,基于BERT的下一句預測任務概念,將目標轉變為區分URL域和一般文本域;模型接收格式為[CLS]?A?[SEP]?B?[SEP]的輸入,其中A和B在不同情況下分別從URL域或文本域中隨機選擇;使用域判別器根據[CLS]的隱藏狀態預測樣本域,在判別器前添加梯度反轉層,通過反向傳播優化判別器參數。

    ...

    【技術特征摘要】

    1.基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于包括如下步驟:

    2.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟2中的字符嵌入模塊,利用兩層雙向門控循環單元網絡對輸入標記中的字符序列進行編碼,通過正向和反向門控循環單元處理輸入,整合隱藏層狀態生成上下文感知的字符嵌入;在生成字符嵌入時,將輸入序列表示為子詞序列,計算每個子詞中字符的嵌入并通過雙向門控循環單元處理,然后連接每個子詞的首尾字符隱藏狀態得到子詞級嵌入。

    3.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟2中的異構交互模塊,在每個transformer層后融合和分離子詞與字符表示;先通過不同全連接層分別轉換子詞和字符表示,再用cnn層拼接和整合,然后使用帶有gelu激活的全連接層恢復融合特征到兩個通道,并添加殘差連接保留原始信息,最后進行層歸一化操作。

    4.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟3中,將骨干網絡的字級和字符級編碼器在各層的輸出,先合并兩個通道并恢復原始維度,然后沿新維度0、堆疊形成張量x,定義置換矩陣p交換維度0和1得到x’,x’作為后續注意力模塊的輸入。

    5.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟4中,通過對平均池化和最大池化后的特征分別生成空間上下文描述符,然后將它們通過共享多層感知器網絡處理,生成通道注意力圖。

    6.根據權利要求1所述的基于后訓練的多層次特征自注意力的惡意url檢測方法,其特征在于:所述步驟6中,使用無監督學習任務,...

    【專利技術屬性】
    技術研發人員:張麗霞馮武彤,王辰,洪俊,沈開奎趙劍峰李佩泫
    申請(專利權)人:西安西電數字科技有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲熟妇无码AV| 精品国产aⅴ无码一区二区| 男人av无码天堂| 精品久久久久久无码中文字幕一区| 亚洲中文字幕在线无码一区二区 | 无码国内精品久久综合88| 四虎国产精品永久在线无码| 久久久久久无码国产精品中文字幕 | 国产成人无码区免费内射一片色欲| 欧洲精品久久久av无码电影| 国产在线无码视频一区| 精品无码一区二区三区亚洲桃色 | 亚洲成A人片在线观看无码3D | 久久中文字幕无码一区二区| 国产午夜无码视频在线观看| 无码色AV一二区在线播放| 精品欧洲AV无码一区二区男男 | 无码人妻精品一区二区在线视频| 加勒比无码一区二区三区| 久久综合精品国产二区无码| 亚洲日韩欧洲无码av夜夜摸| 成人无码一区二区三区| 国产成人无码aa精品一区| 色综合无码AV网站| 无码熟妇人妻AV在线影院| 西西444www无码大胆| 亚洲日韩AV无码一区二区三区人| 亚洲2022国产成人精品无码区 | 永久免费av无码网站韩国毛片| 亚洲av无码专区在线播放 | 亚洲精品久久无码| 精品无码人妻一区二区三区品| 亚洲AV中文无码乱人伦下载| 国产精品无码专区| 日韩午夜福利无码专区a| 人妻少妇伦在线无码专区视频| 无码人妻AV免费一区二区三区| 亚洲AV无码成人精品区天堂 | 亚洲AV无码成H人在线观看 | 久久久久无码精品国产h动漫 | 中文字幕无码AV波多野吉衣|