System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術申請屬于航空網絡資產分類,具體涉及一種基于word2vec網絡節點表征方法的網絡未知資產類型識別方法、系統、設備及存儲介質。
技術介紹
1、隨著網絡規模不斷擴大,由于備案不及時,網絡環境中會出現一部分未知類型的資產。未知類型資產的存在,一方面不方便資產的統籌管理,一方面可能是違規資產,威脅整體網絡空間安全。目前的未知資產主要靠運維工程師對網段的劃分或者通過日志相關規則進行分類,這種方法一方面精準度較低,另一方面可移植性較差,過于依賴運維工程師經驗,無法復用。
技術實現思路
1、本專利技術申請提出一種網絡未知資產類型識別方法、系統、設備及存儲介質,用以解決傳統網絡資產維護方法準確度較低、可移植性較差,過于依賴運維工程師經驗且無法復用等問題。
2、為了實現上述專利技術目的,本申請所采取技術方案如下:
3、一種網絡未知資產類型識別方法,其包括如下步驟:
4、通過流量日志提取訪問關系;
5、基于訪問關系建立word2vec節點表征模型;
6、計算其他維度的節點特征;
7、將節點的表征向量和其他維度的特征進行拼接;
8、節點資產類型分類模型訓練;
9、節點資產類型識別。
10、作為本專利技術進一步的方案:所述訪問關系提取具體為:根據流量日志,提取網絡中各節點之間的訪問關系,并形成“源節點、目的節點”格式的訪問關系文檔,并構建網絡拓撲圖。
11、作為本專利技術進一步
12、作為本專利技術進一步的方案:所述其他維度節點特征提取,主要包括:在網絡拓撲圖中計算節點的出度、入度和page?rank值,這三個特征能夠表示節點在網絡中的重要程度和結構相似性。
13、作為本專利技術進一步的方案:所述特征向量拼接,主要包括:對其他維度的特征進行去量綱操作或歸一化操作,然后和語義表征向量以及拓撲鄰接語義表征向量進行拼接,形成最終的特征向量。
14、作為本專利技術進一步的方案:所述的分類模型訓練:根據不同的性能要求,選擇合適的分類模型進行訓練,本方法采用了多分類邏輯回歸模型。
15、作為本專利技術進一步的方案:所述基于word2vec的網絡結點表征方法,具體包括如下步驟:
16、獲取流量數據;
17、提取流量數據中的源ip字段和目的ip字段,并生成網絡節點的拓撲結構;
18、基于源ip字段和目的ip字段,構建樣本數據;
19、基于節點的網絡拓撲結構,采用隨機游走的方式,生成深層鄰接關系樣本數據;
20、基于兩個樣本數據,分別輸入兩個不同的word2vec模型進行訓練,獲得每個ip對應的語義向量和拓撲鄰接語義向量;
21、基于兩個語義向量,進行向量拼接。
22、作為本專利技術進一步的方案:所述提取流量數據中的源ip字段和目的ip字段之后還包括:對源ip和目的ip兩個字段中的缺省值均進行刪除操作。
23、作為本專利技術進一步的方案:所述基于源ip字段和目的ip字段,構建樣本數據具體包括:將源ip字段和目的ip字段以空格為分隔符,成對寫入txt文件,每一條流量記錄單獨一行,構建樣本數據。
24、作為本專利技術進一步的方案:所述基于節點的網絡拓撲結構,生成深層鄰接關系樣本數據包括:以一個節點為起始節點,按照一定的步長,在拓撲圖中隨機游走,生成一定長度的ip序列,以空格為分隔符,寫入txt文件,每一個ip序列為一行,構建樣本數據。
25、一種網絡未知資產類型識別系統,其包括:
26、特征提取模塊,用于獲取流量數據,提取流量數據中的源ip字段和目的ip字段,并生成節點的網絡拓撲圖;
27、數據集構建模塊,基于源ip字段和目的ip字段,樣本數據構建;基于網絡拓撲圖的樣本數據構建;
28、計算與模型提取模塊,基于樣本數據,輸入word2ve模型進行訓練,獲得每個ip對應的語義向量和鄰接語義向量;
29、特征拼接模塊,用于將表征向量以及其他維度向量進行去量綱和拼接;
30、未知資產分類模塊,用于模型訓練和模型預測,模型訓練是以已知類型數據為樣本,訓練一個分類器,并對分類器進行評估;模型預測是將未知類型的數據輸入分類器,輸入預測類型。
31、一種電子設備,其包括:
32、處理器;
33、用于存儲所述處理器可執行指令的存儲器;
34、所述處理器,用于從所述存儲器中讀取所述可執行指令,并執行所述指令以實現上述網絡未知資產類型識別方法的步驟。
35、一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述網絡未知資產類型識別方法的步驟。
36、與現有技術相比,本申請的有益效果是:
37、1、采用無監督的word2vec方法對網絡節點進行語義表征,解決了傳統人工特征依賴運維工程師經驗的問題。
38、2、基于拓撲圖,以隨機游走的方法形成節點的深層鄰接關系文檔,解決了潛層表示學習中無法學習到深層關系的問題。
39、3、特征向量拼接,可以將不同維度、不同量綱、不同方法提取的特征進行結合,可有效的提高分類準確率,解決了分類準確率較低和特征難以擴展的問題。
40、4、網絡節點進行語義表征和page?rank方法都是無監督的,適用于各種網絡中實體表征及分類問題,解決了方法的移植性和復用性問題。
41、5、該方法能夠結合多種分類器使用,應用場景更廣。
42、下面結合附圖和實施例對本申請進一步說明。
本文檔來自技高網...【技術保護點】
1.一種網絡未知資產類型識別方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述訪問關系提取具體為:根據流量日志,提取網絡中各節點之間的訪問關系,并形成“源節點、目的節點”格式的訪問關系文檔,并構建網絡拓撲圖。
3.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述Word2vec節點表征模型的建立:基于訪問關系文檔,利用Word2vec方法,生成節點的語義表征向量,該向量能夠在高維度語義空間中對節點進行映射;基于網絡拓撲圖,以隨機游走的方法形成節點的深層鄰接關系文檔,同樣利用Word2vec方法,在此文檔上計算節點的拓撲鄰接語義表征。
4.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述其他維度節點特征提取,主要包括:在網絡拓撲圖中計算節點的出度、入度和page?rank值,這三個特征能夠表示節點在網絡中的重要程度和結構相似性。
5.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述特征向量拼接,主要包括:對其他維度的特征進行去量綱操作或歸一化操
6.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述的分類模型訓練:根據不同的性能要求,選擇合適的分類模型進行訓練,本方法采用了多分類邏輯回歸模型。
7.根據權利要求3所述的網絡未知資產類型識別方法,其特征在于,所述基于Word2vec的網絡結點表征方法,具體包括如下步驟:
8.一種網絡未知資產類型識別系統,其特征在于,包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述權利要求1-7中任一所述的網絡未知資產類型識別方法的步驟。
...【技術特征摘要】
1.一種網絡未知資產類型識別方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述訪問關系提取具體為:根據流量日志,提取網絡中各節點之間的訪問關系,并形成“源節點、目的節點”格式的訪問關系文檔,并構建網絡拓撲圖。
3.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述word2vec節點表征模型的建立:基于訪問關系文檔,利用word2vec方法,生成節點的語義表征向量,該向量能夠在高維度語義空間中對節點進行映射;基于網絡拓撲圖,以隨機游走的方法形成節點的深層鄰接關系文檔,同樣利用word2vec方法,在此文檔上計算節點的拓撲鄰接語義表征。
4.根據權利要求1所述的網絡未知資產類型識別方法,其特征在于,所述其他維度節點特征提取,主要包括:在網絡拓撲圖中計算節點的出度、入度和page?rank值,這三個特征能夠表示節點在網絡中的重要程度和結...
【專利技術屬性】
技術研發人員:孫武,呂小兵,馮璐,谷玉琦,
申請(專利權)人:中航西安飛機工業集團股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。