基于元學習的惡意代碼基因信息隱性關聯挖掘方法技術

技術編號：44496882 閱讀：4 留言：0更新日期：2025-03-04 18:04

本發明專利技術提供一種基于元學習的惡意代碼基因信息隱性關聯挖掘方法，通過生成函數調用圖FCG，得到屬性函數調用圖；采用元學習對基于序列到序列機制的特征提取模型進行訓練，由生成的屬性函數調用圖通過訓練后的基于序列到序列機制的特征提取模型得到函數調用圖的關鍵子圖；生成控制流圖CFG，得到屬性控制流圖；對生成的屬性控制流圖使用優化后的基于圖結構的基因特征提取模型得到控制流圖的關鍵子圖；由函數調用圖的關鍵子圖和控制流圖的關鍵子圖，得到微調語料，使用微調后的大語言模型進行惡意代碼基因信息的隱性關聯挖掘。本發明專利技術能夠實現惡意代碼基因信息的隱性關聯的精準挖掘，顯著提升惡意代碼分析的精度和效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種基于元學習的惡意代碼基因信息隱性關聯挖掘方法，屬于信息挖掘。

技術介紹

1、隨著互聯網技術的快速發展，網絡安全問題日益突出，尤其是惡意軟件攻擊已成為影響個人隱私安全和企業數據安全的重大威脅。為了有效對抗惡意軟件，研究者們不斷探索新的檢測技術和方法。近年來，圖神經網絡（graph?neural?networks，?gnns）因其強大的圖結構數據處理能力，在惡意代碼分析領域得到了廣泛應用。圖神經網絡gnns能夠從復雜的圖結構中提取出有價值的信息，幫助識別和理解惡意代碼的行為模式。

2、元學習（meta-learning）是一種讓機器學習算法具備快速適應新任務能力的學習策略，它在少量樣本條件下也能達到良好的泛化效果。在惡意代碼分析領域，元學習被用來提高模型在面對未知惡意代碼時的檢測效率。結合圖神經網絡gnns，元學習可以幫助模型更快地學習到惡意代碼控制流圖和函數調用圖中的關鍵子圖，即那些對于惡意代碼行為具有決定性影響的部分。

3、隨著深度學習技術的發展，大規模預訓練模型在自然語言處理等領域取得了顯著成果。這些大語言模型通常擁有龐大的參數量，能夠捕捉到數據間的復雜關系。然而，直接將這些模型應用于特定任務往往會導致過擬合或泛化能力不足，對惡意代碼的識別準確性和效率較低。

4、綜上所述，現有惡意代碼分析中現存的問題制約了惡意代碼家族行為模式及隱性關聯的有效挖掘。

技術實現思路

1、本專利技術的目的是提供一種基于元學習的惡意代碼基因信息隱性關

2、本專利技術的技術解決方案是：

3、一種基于元學習的惡意代碼基因信息隱性關聯挖掘方法，包括以下步驟，

4、s1、采用反匯編工具識別并標記出惡意代碼中的函數，生成函數調用圖fcg，利用生成的函數調用圖進行特征提取和預處理得到屬性函數調用圖；

5、s2、構建基于序列到序列機制的基因特征提取模型，采用元學習對基于序列到序列機制的特征提取模型進行訓練，得到訓練后的基于序列到序列機制的特征提取模型，由步驟s1生成的屬性函數調用圖通過訓練后的基于序列到序列機制的特征提取模型得到函數調用圖的關鍵子圖；

6、s3、通過反匯編工具解析惡意代碼的二進制文件得到匯編代碼，構建函數間的調用關系，生成控制流圖cfg，從控制流圖cfg中提取語義和結構特征得到屬性控制流圖；

7、s4、構建基于圖結構的基因特征提取模型，利用元學習優化基于圖結構的基因特征提取模型，得到優化后的基于圖結構的基因特征提取模型，對步驟s3生成的屬性控制流圖使用優化后的基于圖結構的基因特征提取模型得到控制流圖的關鍵子圖；

8、s5、由步驟s3得到的函數調用圖的關鍵子圖和步驟s4得到的控制流圖的關鍵子圖，使用基于模板的提示詞自動生成技術，得到微調語料，對大語言模型進行微調，得到微調后的大語言模型，使用微調后的大語言模型進行惡意代碼基因信息的隱性關聯挖掘。

9、進一步地，步驟s2中，基于序列到序列機制的特征提取模型包括圖注意力網絡gat、第一泄露線性整流函數層即第一leakyrelu層、第一全連接層、第二泄露線性整流函數層即第二leakyrelu層、序列到序列模型和第二全連接層，

10、圖注意力網絡gat：對屬性函數調用圖進行分類，得到注意力權重；

11、第一leakyrelu層：由輸入的注意力權重計算得到n個節點的含有鄰居特征的節點嵌入集合；

12、第一全連接層：由輸入的屬性函數調用圖的n個節點的當前屬性節點特征嵌入，得到與節點嵌入集合維度一致的n個節點的當前屬性節點特征嵌入集合；

13、第二leakyrelu層：對輸入含有鄰居特征的節點嵌入集合和當前屬性節點特征嵌入集合分別對應拼接得到n個節點的最終節點特征集合；

14、序列到序列模型：對輸入的n個節點的最終節點特征集合提取全局特征，得到有注意力權重的節點輸出給關鍵子圖構建模塊，并生成全局圖向量，輸出給第二全連接層；

15、關鍵子圖構建模塊：對有注意力權重的節點進行重要性排序，生成重要性排序的子圖序列作為控制流圖的關鍵子圖；

16、第二全連接層：對輸入的全局圖向量計算出分類概率，得到分類結果。

17、進一步地，序列到序列模型包括歸一化指數函數層即softmax層、權重平均模塊、拼接層和長短期記憶網絡lstm，

18、softmax層：由輸入的最終節點特征集合中的最終節點特征和時間步t=0,1,2，...，t時的查詢向量，計算節點的注意力權重；

19、權重平均模塊：生成當前時間步節點特征中聚合的全圖信息；

20、拼接層：將時間步t時的查詢向量和聚合的全圖信息進行拼接concat得到時間步t生成的特征向量，并輸出給長短期記憶網絡lstm；在經過時間步t后，得到全局圖向量輸出給第二全連接層；

21、長短期記憶網絡lstm：由輸入的時間步t生成的特征向量得到時間步t+1時的查詢向量，并輸出給softmax層。

22、進一步地，步驟s2中，采用元學習對基于序列到序列機制的特征提取模型進行訓練，具體為，

23、s21、從屬性函數調用圖中隨機采樣n個類別，每個類別包含k個支持集樣本和若干查詢集樣本；

24、s22、在支持集上，基學習器以元學習器提供的初始的全局元參數θ為起點，優化任務特定參數，其中，α為基學習器學習率，為支持集的對初始化參數θ的損失梯度，為支持集上的損失函數，為基學習器采用基于序列到序列機制的特征提取模型；

25、s23、在查詢集上，元學習器評估基學習器更新后的模型性能，通過查詢集的損失來優化全局元參數：，其中，β為元學習器學習率，為查詢集對全局元參數θ的損失梯度，為查詢集上的損失函數，并更新全局元參數θ，在達到設定訓練次數后完成訓練。

26、進一步地，步驟s4中，基于圖結構的基因特征提取模型包括圖注意力網絡模型分類器、控制流圖解釋器即cfg解釋器和關鍵子圖生成模塊，

27、圖注意力網絡模型分類器：對輸入的屬性控制流圖cfg由節點嵌入生成組件生成節點嵌入，并由分類組件預測每個屬性控制流圖的類別作為類標簽，將節點嵌入與類標簽輸出給cfg解釋器；

28、cfg解釋器：包括初始學習模塊和解釋模塊，

29、初始學習模塊：由節點評分組件對節點嵌入計算節點得分，將節點嵌入與節點得分相乘得到加權嵌入，使用加權嵌入通過分類組件生成分類概率，進而得到每個節點的分類結果；

30、解釋模塊；根據節點得分以及屬性控制流圖的真實節點數量多次逐步修剪屬性控制流圖，分別逐步移除評分最低的設定數量的節點后，由每次剩余節點得到多個子圖，將最重要的子圖作為控制流圖的關鍵子圖。

31、進一步地，解釋模塊中，根據節點得分以及屬性控制流圖的真實本文檔來自技高網...

【技術保護點】

1.一種基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：包括以下步驟，

2.如權利要求1所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟S2中，基于序列到序列機制的特征提取模型包括圖注意力網絡GAT、第一泄露線性整流函數層即第一LeakyRELU層、第一全連接層、第二泄露線性整流函數層即第二LeakyRELU層、序列到序列模型和第二全連接層，

3.如權利要求2所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：序列到序列模型包括歸一化指數函數層即softmax層、權重平均模塊、拼接層和長短期記憶網絡LSTM，

4.如權利要求1所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟S2中，采用元學習對基于序列到序列機制的特征提取模型進行訓練，具體為，

5.如權利要求1-4任一項所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟S4中，基于圖結構的基因特征提取模型包括圖注意力網絡模型分類器、控制流圖解釋器即CFG解釋器和關鍵子圖生成模塊，

6.如權利要

7.如權利要求1-4任一項所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟S5，具體為，

8.如權利要求7所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟S51中，生成提示詞，具體為，通過設計提示詞模板，其中P是預定義的模式，由輸入數據D通過設計提示詞模板映射生成N個提示詞{t1,t2,...,ti,...,tN}。

9.如權利要求7所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟S52，具體為，在微調過程中，微調語料，其中，為生成的第i個提示詞，為第i個目標標簽，使用優化目標函數：，其中，θ為大語言模型Model的模型參數；通過反向傳播不斷更新大語言模型的模型參數θ，直至達到設定的微調次數。

...

【技術特征摘要】

1.一種基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：包括以下步驟，

2.如權利要求1所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟s2中，基于序列到序列機制的特征提取模型包括圖注意力網絡gat、第一泄露線性整流函數層即第一leakyrelu層、第一全連接層、第二泄露線性整流函數層即第二leakyrelu層、序列到序列模型和第二全連接層，

3.如權利要求2所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：序列到序列模型包括歸一化指數函數層即softmax層、權重平均模塊、拼接層和長短期記憶網絡lstm，

4.如權利要求1所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟s2中，采用元學習對基于序列到序列機制的特征提取模型進行訓練，具體為，

5.如權利要求1-4任一項所述的基于元學習的惡意代碼基因信息隱性關聯挖掘方法，其特征在于：步驟s4中，基于圖結構的基因特征提取模型包括圖注意力網絡模型分類器、控制流圖解釋器即cfg解釋器和關鍵子圖生成模塊，

<...

【專利技術屬性】
技術研發人員：李鵬，周昱辰，王汝傳，韓科技，朱楓，孫瑞杰，李東澤，
申請(專利權)人：南京郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術