【技術(shù)實現(xiàn)步驟摘要】
一種基于PCA算法的軟件鏡像流量識別分類方法
本專利技術(shù)屬于軟件流量識別
,具體涉及一種基于PCA算法的軟件鏡像流量識別分類方法。
技術(shù)介紹
網(wǎng)絡(luò)資產(chǎn)主要是計算機(或通訊)網(wǎng)絡(luò)中使用的各種設(shè)備,主要包括主機、網(wǎng)絡(luò)設(shè)備(路由器、交換機等)和安全設(shè)備(防火墻等),網(wǎng)絡(luò)的價值與網(wǎng)絡(luò)用戶數(shù)量的平方成正比。網(wǎng)絡(luò)資產(chǎn)存在很大的自由性,安裝部署的應(yīng)用大相徑庭,而且不利于管理,雖然各資產(chǎn)都部署了軟件管理工具,但針對整個網(wǎng)絡(luò)的資產(chǎn)軟件管理工具少之又少。而近年來網(wǎng)絡(luò)技術(shù)發(fā)展非常迅猛,種類繁多的應(yīng)用軟件應(yīng)運而生,網(wǎng)絡(luò)資產(chǎn)中安裝部署的軟件應(yīng)用組合也非常多樣。但由于功能要求不同,軟件產(chǎn)品的質(zhì)量參差不齊,并且由于大數(shù)量的多樣軟件在網(wǎng)絡(luò)資產(chǎn)中堆疊,各類通過網(wǎng)絡(luò)的關(guān)聯(lián)導致網(wǎng)絡(luò)中存在的漏洞越來越多,通過這些漏洞,為有目的性的人提供了通過網(wǎng)絡(luò)資產(chǎn)威脅個人、企業(yè)的信息安全甚至威脅到國家網(wǎng)絡(luò)安全的暗門。而現(xiàn)有技術(shù)中的軟件管理工具,主要都是針對于某單獨或者特定類型的軟件應(yīng)用的,而不能通過網(wǎng)絡(luò)數(shù)據(jù)來獲知掛載在網(wǎng)絡(luò)中的資產(chǎn)都部署了哪些軟件應(yīng)用。這樣就導致當某個資產(chǎn)中部署的某一個軟件應(yīng)用出現(xiàn)漏洞時,現(xiàn)有的軟件管理工具只能以通告的方式告知資產(chǎn)管理者進行完善修復,但對于網(wǎng)絡(luò)中其他資產(chǎn)中部署的軟件是否還存在漏洞就不得而知了,這就導致,現(xiàn)有技術(shù)中的網(wǎng)絡(luò)資產(chǎn)管理方案缺乏對網(wǎng)絡(luò)資產(chǎn)整體的部署數(shù)據(jù)分析歸集,僅各資產(chǎn)能夠?qū)崿F(xiàn)軟件管理,管理者不清楚各資產(chǎn)實際的軟件部署情況,對漏洞發(fā)現(xiàn)和修復不及時。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于針對現(xiàn)有 ...
【技術(shù)保護點】
1.一種基于PCA算法的軟件鏡像流量識別分類方法,其特征在于:包括模型庫生成步驟、測試庫生成步驟以及分類識別步驟;/n所述模型庫生成步驟通過收集、安裝若干不同種類應(yīng)用軟件的安裝包,并采集所述應(yīng)用軟件安裝過程中的流量數(shù)據(jù)并進行解析,收集包括域名和IP數(shù)據(jù),對應(yīng)生成標記了軟件名稱、軟件分類的訓練集合,再通過PCA算法訓練所述訓練集合獲取每個軟件分類的特征矩陣形成軟件分類模型;/n所述測試庫生成步驟,通過獲取并解析網(wǎng)絡(luò)中各資產(chǎn)的鏡像流量數(shù)據(jù)、篩選出符合用于軟件分類的源IP及其IP會話,然后以IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù)的負載組作為測試集合形成測試庫;/n所述分類識別步驟,即將所述測試庫生成步驟中的測試集合與所述模型庫生成步驟中的軟件分類模型進行比對識別,輸出軟件的類別。/n
【技術(shù)特征摘要】
1.一種基于PCA算法的軟件鏡像流量識別分類方法,其特征在于:包括模型庫生成步驟、測試庫生成步驟以及分類識別步驟;
所述模型庫生成步驟通過收集、安裝若干不同種類應(yīng)用軟件的安裝包,并采集所述應(yīng)用軟件安裝過程中的流量數(shù)據(jù)并進行解析,收集包括域名和IP數(shù)據(jù),對應(yīng)生成標記了軟件名稱、軟件分類的訓練集合,再通過PCA算法訓練所述訓練集合獲取每個軟件分類的特征矩陣形成軟件分類模型;
所述測試庫生成步驟,通過獲取并解析網(wǎng)絡(luò)中各資產(chǎn)的鏡像流量數(shù)據(jù)、篩選出符合用于軟件分類的源IP及其IP會話,然后以IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù)的負載組作為測試集合形成測試庫;
所述分類識別步驟,即將所述測試庫生成步驟中的測試集合與所述模型庫生成步驟中的軟件分類模型進行比對識別,輸出軟件的類別。
2.如權(quán)利要求1所述的一種基于PCA算法的軟件鏡像流量識別分類方法,其特征在于:所述模型庫生成步驟包括應(yīng)用軟件收集、軟件流量采集、軟件相關(guān)域名收集、軟件相關(guān)IP收集、訓練集合生成和訓練模型生成的過程;
所述應(yīng)用軟件收集是通過互聯(lián)網(wǎng)途徑收集包括通訊類軟件、傳輸類軟件、辦公軟類件、多媒體軟件在內(nèi)的若干種類應(yīng)用軟件的安裝包;
所述軟件流量采集是采集所述應(yīng)用軟件收集的每一個應(yīng)用軟件在安裝、使用、更新操作過程中自發(fā)的、向外發(fā)起的IP會話流量;
所述軟件相關(guān)域名收集是通過解析每一個應(yīng)用軟件自發(fā)形成的DNS協(xié)議流量,并提取所述DNS協(xié)議流量中用于軟件與軟件服務(wù)器的域名和/或CNAME域名;
所述軟件相關(guān)IP收集是解析每一個應(yīng)用軟件自發(fā)形成的DNS協(xié)議流量中DNS的A命令和/或AAA命令的應(yīng)答數(shù)據(jù),提取出軟件相關(guān)域名的解析IP,或通過互聯(lián)網(wǎng)方式獲取最新的域名解析IP;
所述訓練集合生成是采集每一個應(yīng)用軟件自發(fā)形成的IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù),并為每個應(yīng)用層負載字節(jié)標記軟件名稱、軟件分類,以該負載組最為訓練集合;
所述訓練模型生成步驟,以所述訓練集合作為訓練樣本,以PCA算法對訓練樣本進行訓練,獲取每個軟件分類的特征矩陣。
3.如權(quán)利要求2所述的一種基于P...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳鵬,林鵬,羅鷹,
申請(專利權(quán))人:成都科來軟件有限公司,
類型:發(fā)明
國別省市:四川;51
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。