System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及惡意軟件防御,尤其涉及一種基于靜態多特征優化與融合的惡意軟件家族分類方法。
技術介紹
1、惡意軟件防御領域第一階段的檢查工作,會對現實網絡的海量樣本進行初步篩查,得到的可疑樣本還需要進行進一步的分析,即惡意軟件防御工作的第二階段任務,這個階段的數據量也是十分可觀的,仍然需要高效的方式來進行進一步的處理,在這個階段中,惡意軟件的家族分類是主流的研究方向。
2、研究惡意軟件家族分類對惡意軟件防御領域具有重要的理論價值和現實意義。對于惡意軟件檢測,研究家族分類有助于揭示家族特征,使得識別未知的家族變體成為可能;另一方面,單純檢測和防范始終是被動的,為了更好地從根源上遏制惡意軟件的發展,目前研究機構和安全公司都開展了惡意軟件溯源的分析和研究工作,惡意軟件家族分類是其中家族溯源的重要技術支撐。
3、經過第一階段的檢測,識別出的可疑樣本,通常主要包含以下三類情況:
4、第一類是可以直接實現靜態逆向分析的樣本專利技術件。這是最理想的情況,這類惡意軟件樣本通常是普通的病毒、木馬、蠕蟲等,可能是未經過混淆、加密、加殼等操作的樣本,也可能是使用常見的加殼、加密等技術進行保護,但是可以采用工具實現脫殼解密等操作,通過靜態逆向分析可以獲取其完整的匯編代碼和功能。對于這類樣本,采用靜態分析能夠獲得程序的結構、語義、統計等各種類型的特征,這也一直是惡意軟件分析中最流行、最有效的分析方法之一。因此對此類文件,研究基于靜態分析特征的惡意軟件智能家族分類方法具有重要的理論價值和現實意義。本專利技術的研究工作就是針
5、家族變體是已知惡意軟件經過功能或反檢測技術的進化后生成的新型惡意軟件,現有針對惡意軟件變種的家族溯源工作一般都是通過提取其特征信息或部分原始代碼,通過分析它們與已知家族樣本專利技術件的相似性,實現可疑樣本的家族溯源?,F有研究中借助機器學習技術實現的智能分類工作近年來有所增加,這些工作中對特征的提取主要分為兩類,一類是與傳統檢測工作類似,需要利用惡意軟件的相關先驗知識,通過靜態或動態分析,提取出可讀字符串、文件結構和函數調用圖等特征。文獻[kinable,j.,&kostakis,o.(2011).malware?classification?based?on?call?graph?clustering[j].journal?incomputer?virology,7,233-245.]通過提取惡意軟件樣本的系統調用圖,應用圖匹配的方法分析惡意軟件相似性,從而達到識別其家族同源性的目的。另一類研究工作則不依托惡意軟件先驗知識,直接利用機器學習方法實現家族分類。文獻[nataraj,l.,karthikeyan,s.,jacob,g.,&manjunath,b.s.(2011).malware?images:visualization?and?automaticclassification[c].visualization?for?computer?security.]提出的將惡意軟件直接轉換為灰度圖的方法,開啟了學術界一個新的研究方向,后續研究都沿用了代碼轉換為灰度圖這一思路,在其基礎上進行了各種改進。有的研究對灰度圖進行分割并使用灰度共生矩陣特征(gray?level?cooccurrence?matrix,glcm),有的研究工作引入了信息熵的概念,提出了熵圖的概念,通過比較圖像的熵值來對惡意軟件進行分類等等。
6、這些工作都取得了一定的成績,為惡意軟件家族分類的研究做出了貢獻,但仍然存在一些值得改進的問題:一方面,現有工作大部分還是采用了單一特征或者單一類型的特征,這就使得這些特征只能覆蓋一部分惡意軟件的特征信息,不能充分全面地表征原始樣本所攜帶的信息,即存在一定的信息損失,從而導致最終的分類結果受到影響。另一方面,一些研究工作開始嘗試多個特征的結合,但是大多以簡單拼接的方式實現,沒有對特征進行優化和選擇,易導致特征維度過大,會引起訓練時間開銷的增加,且過多的特征冗余會分散有效特征對分類結果的影響權重,難以聚焦真正起作用的特征。
技術實現思路
1、針對上述問題,本專利技術提出了一種基于靜態多特征優化與融合的惡意軟件家族分類方法,重點從特征提取、特征優化和特征融合三個方面開展研究,重點解決特征類型單一、冗余信息多、分類效率低等問題,包括惡意軟件靜態多類型特征提取、基于深度學習模型的特征優化和基于離散目標變量互信息的特征融合。
2、為了實現上述目的,本專利技術采用以下技術方案:
3、一種基于靜態多特征優化與融合的惡意軟件家族分類方法,包括:
4、步驟1,基于深度神經網絡efficientnet-b3對惡意軟件圖像特征進行提??;采用反匯編器idapro和radare2分別進行靜態api序列提取,并將二者提取的結果進行融合,得到融合后的靜態api序列;提取惡意軟件靜態統計特征,所述靜態統計特征包括匯編程序文件的統計特征,二進制字節文件的統計特征和文件字節序列特征;
5、步驟2,基于輕量級的自然語言處理模型bert-tiny嵌入機制對融合后的靜態api序列進行特征優化;
6、步驟3,基于步驟1提取的代碼圖像特征、惡意軟件靜態統計特征及步驟2優化得到的靜態api序列特征,采用離散目標變量互信息算法計算特征的互信息值,基于特征的互信息值篩選出最優融合特征序列組合;
7、步驟4,將最優融合特征序列組合輸入至分類模型,完成惡意軟件家族分類。
8、進一步地,所述基于深度神經網絡efficientnet-b3對代碼圖像特征進行提取包括:
9、將惡意軟件的二進制文件的每8個比特組成一個向量,將其視為灰度圖像一個像素的灰度值,基于圖幅自適應機制生成高度寬度相等的方形代碼圖像,然后對所有生成的大小不一的方形圖像進行歸一化處理,得到相同大小的灰度圖像;
10、以得到的灰度圖像為輸入,采用efficientnet-b3模型提取惡意軟件圖像特征。
11、進一步地,按照以下方式得到融合后的靜態api序列:
12、采用idapro通過遞歸遍歷讀取匯編文件的形式獲取樣本的靜態api序列,采用radare2通過提取控制流信息,再獲取樣本的靜態api序列,得到同一個文件的兩組靜態api序列,將基于radare2提取的靜態api序列和基于idapro提取的靜態api序列進行雙路融合,得到融合后的靜態api序列。
13、進一步地,按照以下方式提取匯編程序文件的統計特征:
14、構造需要匹配的特征列表,具體包含寄存器、操作碼、關鍵詞和api調用名稱;
15、通過字符串匹配對特征列表中每個特征在每個程序中進行統計,最后對特征向量進行保存。
16、進一步地,按照以下方式提取二進制字節文件的統計特征:
17、對反匯編得到的程序二進制字節文件,提取文件大小和本文檔來自技高網...
【技術保護點】
1.一種基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,包括:
2.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,所述基于深度神經網絡EfficientNet-B3對代碼圖像特征進行提取包括:
3.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式得到融合后的靜態API序列:
4.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式提取匯編程序文件的統計特征:
5.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式提取二進制字節文件的統計特征:
6.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式提取文件字節序列特征:
7.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,所述步驟2包括:
8.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方
9.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,所述基于特征的互信息值篩選出最優融合特征序列組合包括:
10.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,所述分類模型包括決策樹、邏輯回歸和隨機森林。
...【技術特征摘要】
1.一種基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,包括:
2.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,所述基于深度神經網絡efficientnet-b3對代碼圖像特征進行提取包括:
3.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式得到融合后的靜態api序列:
4.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式提取匯編程序文件的統計特征:
5.根據權利要求1所述的基于靜態多特征優化與融合的惡意軟件家族分類方法,其特征在于,按照以下方式提取二進制字節文件的統計特征:
...
【專利技術屬性】
技術研發人員:戚旭衍,唐永鶴,婁睿,劉鐵銘,劉威,朱兵,侯一凡,孫回回,王淑亞,張春艷,
申請(專利權)人:中國人民解放軍網絡空間部隊信息工程大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。