• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于PCA算法的軟件鏡像流量識別分類方法技術(shù)

    技術(shù)編號:24123716 閱讀:77 留言:0更新日期:2020-05-13 03:53
    本發(fā)明專利技術(shù)屬于軟件流量識別技術(shù)領(lǐng)域,具體涉及一種基于PCA算法的軟件鏡像流量識別分類方法,通過匯聚和核心交換機鏡像采集,解析出流量中各資產(chǎn)有效負載的域名、IP請求,整理出一種特殊的行為時序特征,通過實時和離線DNS數(shù)據(jù)和大量本地軟件的行為特征,最后識別出實時流量中各資產(chǎn)產(chǎn)生網(wǎng)絡(luò)行為的本地軟件名稱。因此,該發(fā)明專利技術(shù)通過構(gòu)建軟件相關(guān)的會話特征,發(fā)現(xiàn)鏡像流量可能存在的軟件分類,幫助用戶掌握各資產(chǎn)都部署了哪類軟件。

    A method of software image traffic identification and classification based on PCA algorithm

    【技術(shù)實現(xiàn)步驟摘要】
    一種基于PCA算法的軟件鏡像流量識別分類方法
    本專利技術(shù)屬于軟件流量識別
    ,具體涉及一種基于PCA算法的軟件鏡像流量識別分類方法。
    技術(shù)介紹
    網(wǎng)絡(luò)資產(chǎn)主要是計算機(或通訊)網(wǎng)絡(luò)中使用的各種設(shè)備,主要包括主機、網(wǎng)絡(luò)設(shè)備(路由器、交換機等)和安全設(shè)備(防火墻等),網(wǎng)絡(luò)的價值與網(wǎng)絡(luò)用戶數(shù)量的平方成正比。網(wǎng)絡(luò)資產(chǎn)存在很大的自由性,安裝部署的應(yīng)用大相徑庭,而且不利于管理,雖然各資產(chǎn)都部署了軟件管理工具,但針對整個網(wǎng)絡(luò)的資產(chǎn)軟件管理工具少之又少。而近年來網(wǎng)絡(luò)技術(shù)發(fā)展非常迅猛,種類繁多的應(yīng)用軟件應(yīng)運而生,網(wǎng)絡(luò)資產(chǎn)中安裝部署的軟件應(yīng)用組合也非常多樣。但由于功能要求不同,軟件產(chǎn)品的質(zhì)量參差不齊,并且由于大數(shù)量的多樣軟件在網(wǎng)絡(luò)資產(chǎn)中堆疊,各類通過網(wǎng)絡(luò)的關(guān)聯(lián)導致網(wǎng)絡(luò)中存在的漏洞越來越多,通過這些漏洞,為有目的性的人提供了通過網(wǎng)絡(luò)資產(chǎn)威脅個人、企業(yè)的信息安全甚至威脅到國家網(wǎng)絡(luò)安全的暗門。而現(xiàn)有技術(shù)中的軟件管理工具,主要都是針對于某單獨或者特定類型的軟件應(yīng)用的,而不能通過網(wǎng)絡(luò)數(shù)據(jù)來獲知掛載在網(wǎng)絡(luò)中的資產(chǎn)都部署了哪些軟件應(yīng)用。這樣就導致當某個資產(chǎn)中部署的某一個軟件應(yīng)用出現(xiàn)漏洞時,現(xiàn)有的軟件管理工具只能以通告的方式告知資產(chǎn)管理者進行完善修復,但對于網(wǎng)絡(luò)中其他資產(chǎn)中部署的軟件是否還存在漏洞就不得而知了,這就導致,現(xiàn)有技術(shù)中的網(wǎng)絡(luò)資產(chǎn)管理方案缺乏對網(wǎng)絡(luò)資產(chǎn)整體的部署數(shù)據(jù)分析歸集,僅各資產(chǎn)能夠?qū)崿F(xiàn)軟件管理,管理者不清楚各資產(chǎn)實際的軟件部署情況,對漏洞發(fā)現(xiàn)和修復不及時。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)的目的在于針對現(xiàn)有技術(shù)中存在的問題,提供一種通過鏡像流量和機器學習方法,依靠軟件在使用過程中自發(fā)產(chǎn)生的IP、域名行為對捕獲到的鏡像流量進行軟件分類的軟件分類方法。本專利技術(shù)的技術(shù)方案,提供了一種基于PCA算法的軟件鏡像流量識別分類方法,包括模型庫生成步驟、測試庫生成步驟以及分類識別步驟;所述模型庫生成步驟通過收集、安裝若干不同種類應(yīng)用軟件的安裝包,并采集所述應(yīng)用軟件安裝過程中的流量數(shù)據(jù)并進行解析,收集包括域名和IP數(shù)據(jù),對應(yīng)生成標記了軟件名稱、軟件分類的訓練集合,再通過PCA算法訓練所述訓練集合獲取每個軟件分類的特征矩陣形成軟件分類模型;所述測試庫生成步驟,通過獲取并解析網(wǎng)絡(luò)中各資產(chǎn)的鏡像流量數(shù)據(jù)、篩選出符合用于軟件分類的源IP及其IP會話,然后以IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù)的負載組作為測試集合形成測試庫;所述分類識別步驟,即將所述測試庫生成步驟中的測試集合與所述模型庫生成步驟中的軟件分類模型進行比對識別,輸出軟件的類別。具體的,所述模型庫生成步驟包括應(yīng)用軟件收集、軟件流量采集、軟件相關(guān)域名收集、軟件相關(guān)IP收集、訓練集合生成和訓練模型生成的過程;所述應(yīng)用軟件收集是通過互聯(lián)網(wǎng)途徑收集包括通訊類軟件、傳輸類軟件、辦公軟類件、多媒體軟件在內(nèi)的若干種類應(yīng)用軟件的安裝包;所述軟件流量采集是采集所述應(yīng)用軟件收集的每一個應(yīng)用軟件在安裝、使用、更新等操作過程中自發(fā)的、向外發(fā)起的IP會話流量;會話完整應(yīng)用負載獲取,客戶端和服務(wù)器在握手過程中會交換大量的主機信息,加密會話也會交換數(shù)字證書。所述軟件相關(guān)域名收集是通過解析每一個應(yīng)用軟件自發(fā)形成的DNS協(xié)議流量,并提取所述DNS協(xié)議流量中用于軟件與軟件服務(wù)器的域名和/或CNAME域名,這類域名主要用于軟件實現(xiàn)資產(chǎn)終端信息上傳、同步、軟件更新、收集用戶操作等信息收集;所述軟件相關(guān)IP收集是解析每一個應(yīng)用軟件自發(fā)形成的DNS協(xié)議流量中DNS的A命令和/或AAA命令的應(yīng)答數(shù)據(jù),提取出軟件相關(guān)域名的解析IP,或通過互聯(lián)網(wǎng)方式獲取最新的域名解析IP,如使用googlepublicdns;所述訓練集合生成是采集每一個應(yīng)用軟件自發(fā)形成的IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù),并為每個應(yīng)用層負載字節(jié)標記軟件名稱、軟件分類,以該負載組最為訓練集合;所述訓練模型生成步驟,以所述訓練集合作為訓練樣本,以PCA算法對訓練樣本進行訓練,獲取每個軟件分類的特征矩陣;使用PCA算法。是降低訓練復雜度,通過降維保留和軟件類別信息量最高的特征,加快了訓練和識別速度;區(qū)別于傳統(tǒng)使用固定特征,利用會話內(nèi)容作為訓練內(nèi)容,能自動化完成特征采集、訓練、識別。所述IP會話流量包括DNS、HTTP、HTTPS協(xié)議在內(nèi)的IP會話。所述應(yīng)用層負載字節(jié)數(shù)據(jù)不少于128個字節(jié),如果應(yīng)用層負載字節(jié)數(shù)據(jù)不足128個字節(jié),以補0的方式填充;所述軟件分類包括通訊類軟件,傳輸類軟件,辦公軟類件,多媒體軟件,開發(fā)類軟件,安全類軟件、郵件類軟件、行業(yè)類軟件、游戲類軟件和手機應(yīng)用類軟件。進一步的,所述測試庫生成步驟包括鏡像流量提取和解析、源IP數(shù)據(jù)提取和測試集合生成的過程;所述鏡像流量提取和解析,是指對網(wǎng)絡(luò)中的資產(chǎn)流量數(shù)據(jù)進行鏡像獲取,然后解析獲取到的鏡像流量,并提取所述鏡像流量的DNS協(xié)議中的源IP,篩選出符合用于軟件分類的源IP及其IP會話;所述源IP數(shù)據(jù)提取是指提取所述源IP中的IP會話;所述測試集合生成是指提取上述源IP中每一個IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù)的負載組,生成測試集合;所述符合用于軟件分類的源IP及其IP會話滿足:DNS協(xié)議流量中DNS的A和/或AAA命令請求會話中包含所述軟件相關(guān)的域名、或者DNS的CNAME請求中包含所述軟件相關(guān)的域名、再或者DNS的A和/或AAA命令響應(yīng)會話中包含所述軟件相關(guān)的IP。所述IP會話包括HTTP、HTTPS的軟件自發(fā)形成的應(yīng)用協(xié)議會話流量;軟件自發(fā)行為包括默認訪問官方網(wǎng)站、更新、錯誤日志上報、統(tǒng)計日志上報、操作備份、配置上傳。這類操作大多基于HTTP、HTTPS完成。所述應(yīng)用層負載字節(jié)數(shù)據(jù)不少于128個字節(jié),如果應(yīng)用層負載字節(jié)數(shù)據(jù)不足128個字節(jié),以補0的方式填充。與現(xiàn)有技術(shù)相比,本專利技術(shù)的技術(shù)方案數(shù)據(jù)通過匯聚和核心交換機鏡像采集,解析出流量中各資產(chǎn)有效負載的域名、IP請求,整理出一種特殊的行為時序特征,通過實時和離線DNS數(shù)據(jù)和大量本地軟件的行為特征,最后識別出實時流量中各資產(chǎn)產(chǎn)生網(wǎng)絡(luò)行為的本地軟件名稱。因此,該專利技術(shù)通過構(gòu)建軟件相關(guān)的會話特征,發(fā)現(xiàn)鏡像流量可能存在的軟件分類,幫助用戶掌握各資產(chǎn)都部署了哪類軟件。附圖說明本專利技術(shù)的前述和下文具體描述在結(jié)合以下附圖閱讀時變得更清楚,附圖中:圖1是本專利技術(shù)一種基本方案的邏輯示意圖。具體實施方式下面通過幾個具體的實施例來進一步說明實現(xiàn)本專利技術(shù)目的技術(shù)方案,需要說明的是,本專利技術(shù)要求保護的技術(shù)方案包括但不限于以下實施例。實施例1作為本專利技術(shù)一種最基本的實施方案,如圖1,本實施例公開的一種基于PCA算法的軟件鏡像流量識別分類方法,包括模型庫生成步驟、測試庫生成步驟以及分類識別步驟。所述模型庫生成步驟通過收集、安裝若干不同種類應(yīng)用軟件的安裝包,并采集所述應(yīng)用軟件安裝過程中的流量數(shù)據(jù)并進行解析,收集包括域名和IP數(shù)據(jù),對應(yīng)生成標記了軟件名稱、軟件分類的訓練集合,再通過PCA算法訓練所述本文檔來自技高網(wǎng)...

    【技術(shù)保護點】
    1.一種基于PCA算法的軟件鏡像流量識別分類方法,其特征在于:包括模型庫生成步驟、測試庫生成步驟以及分類識別步驟;/n所述模型庫生成步驟通過收集、安裝若干不同種類應(yīng)用軟件的安裝包,并采集所述應(yīng)用軟件安裝過程中的流量數(shù)據(jù)并進行解析,收集包括域名和IP數(shù)據(jù),對應(yīng)生成標記了軟件名稱、軟件分類的訓練集合,再通過PCA算法訓練所述訓練集合獲取每個軟件分類的特征矩陣形成軟件分類模型;/n所述測試庫生成步驟,通過獲取并解析網(wǎng)絡(luò)中各資產(chǎn)的鏡像流量數(shù)據(jù)、篩選出符合用于軟件分類的源IP及其IP會話,然后以IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù)的負載組作為測試集合形成測試庫;/n所述分類識別步驟,即將所述測試庫生成步驟中的測試集合與所述模型庫生成步驟中的軟件分類模型進行比對識別,輸出軟件的類別。/n

    【技術(shù)特征摘要】
    1.一種基于PCA算法的軟件鏡像流量識別分類方法,其特征在于:包括模型庫生成步驟、測試庫生成步驟以及分類識別步驟;
    所述模型庫生成步驟通過收集、安裝若干不同種類應(yīng)用軟件的安裝包,并采集所述應(yīng)用軟件安裝過程中的流量數(shù)據(jù)并進行解析,收集包括域名和IP數(shù)據(jù),對應(yīng)生成標記了軟件名稱、軟件分類的訓練集合,再通過PCA算法訓練所述訓練集合獲取每個軟件分類的特征矩陣形成軟件分類模型;
    所述測試庫生成步驟,通過獲取并解析網(wǎng)絡(luò)中各資產(chǎn)的鏡像流量數(shù)據(jù)、篩選出符合用于軟件分類的源IP及其IP會話,然后以IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù)的負載組作為測試集合形成測試庫;
    所述分類識別步驟,即將所述測試庫生成步驟中的測試集合與所述模型庫生成步驟中的軟件分類模型進行比對識別,輸出軟件的類別。


    2.如權(quán)利要求1所述的一種基于PCA算法的軟件鏡像流量識別分類方法,其特征在于:所述模型庫生成步驟包括應(yīng)用軟件收集、軟件流量采集、軟件相關(guān)域名收集、軟件相關(guān)IP收集、訓練集合生成和訓練模型生成的過程;
    所述應(yīng)用軟件收集是通過互聯(lián)網(wǎng)途徑收集包括通訊類軟件、傳輸類軟件、辦公軟類件、多媒體軟件在內(nèi)的若干種類應(yīng)用軟件的安裝包;
    所述軟件流量采集是采集所述應(yīng)用軟件收集的每一個應(yīng)用軟件在安裝、使用、更新操作過程中自發(fā)的、向外發(fā)起的IP會話流量;
    所述軟件相關(guān)域名收集是通過解析每一個應(yīng)用軟件自發(fā)形成的DNS協(xié)議流量,并提取所述DNS協(xié)議流量中用于軟件與軟件服務(wù)器的域名和/或CNAME域名;
    所述軟件相關(guān)IP收集是解析每一個應(yīng)用軟件自發(fā)形成的DNS協(xié)議流量中DNS的A命令和/或AAA命令的應(yīng)答數(shù)據(jù),提取出軟件相關(guān)域名的解析IP,或通過互聯(lián)網(wǎng)方式獲取最新的域名解析IP;
    所述訓練集合生成是采集每一個應(yīng)用軟件自發(fā)形成的IP會話的應(yīng)用層負載字節(jié)數(shù)據(jù),并為每個應(yīng)用層負載字節(jié)標記軟件名稱、軟件分類,以該負載組最為訓練集合;
    所述訓練模型生成步驟,以所述訓練集合作為訓練樣本,以PCA算法對訓練樣本進行訓練,獲取每個軟件分類的特征矩陣。


    3.如權(quán)利要求2所述的一種基于P...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:陳鵬林鵬羅鷹
    申請(專利權(quán))人:成都科來軟件有限公司
    類型:發(fā)明
    國別省市:四川;51

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费无码又爽又刺激高潮| 成人无码午夜在线观看| 99久久人妻无码精品系列蜜桃| 在线A级毛片无码免费真人| 无码国产精品一区二区免费式直播 | 国产午夜av无码无片久久96| 精品无码一级毛片免费视频观看| 97精品人妻系列无码人妻| 日韩AV无码中文无码不卡电影| 无码人妻丰满熟妇区免费| 国产品无码一区二区三区在线蜜桃 | 午夜福利无码不卡在线观看| 国产精品白浆在线观看无码专区| 国精无码欧精品亚洲一区| 久久久精品无码专区不卡| 无码人妻精品一区二区蜜桃网站 | 无码人妻啪啪一区二区| 亚洲AV无码一区二区三区电影| 一本加勒比HEZYO无码人妻| 无码精品人妻一区二区三区AV| 亚洲一级特黄无码片| 国产AV无码专区亚洲精品| 久久久无码精品亚洲日韩蜜桃| 日韩无码系列综合区| 国产成人无码aa精品一区| 日韩精品无码区免费专区| 亚洲成a人片在线观看天堂无码| 亚洲精品无码久久毛片波多野吉衣| 亚洲AV无码乱码在线观看代蜜桃| 亚洲爆乳无码一区二区三区| 中文字幕丰满乱子伦无码专区| 亚洲毛片av日韩av无码| 国产又爽又黄无码无遮挡在线观看| 久久久无码精品人妻一区| 国产成人无码aa精品一区| 亚洲无码精品浪潮| 国产爆乳无码视频在线观看| 红桃AV一区二区三区在线无码AV| 亚洲熟妇无码八AV在线播放| 国产成A人亚洲精V品无码| 亚洲av午夜精品无码专区|