System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及流量數據處理領域,特別涉及一種多源異構流量融合的特征提取方法及系統。
技術介紹
1、隨著互聯網規模和復雜程度的日益增加,互聯網流量因其涉及的業務、協議、系統技術架構的不同,其采集、處理、存儲和交換的流量標準存在差異,流量呈現多源性和異構性,這些多源異構流量普遍存在特征高維、特征分散、特征不明顯的特點,導致流量價值密度底,從而給流量表征、聚合關聯及個性化特征提取等帶來阻礙,給互聯網業務和資產的識別及業務檢測等工作帶來困難,因此,需要降低多源異構流量的維度,形成低維的可以融合的流量數據,提取個性化特征,獲取流量中的高價值信息。
2、多源異構流量融合是指將多個來源采集的流量進行降維、表征、聚合、關聯的過程。多源異構流量融合對降低流量特征維度與提高流量類別識別的精度具有重要意義,與單源流量的單一相比,多源異構流量融合所得到的特征表征的精確性與可靠性更高。流量融合過程中要解決的關鍵問題是流量的多樣性、不確定性、噪聲以及流量之間的關聯性分析。國內外有相關研究:研究包括基于jdl、基于計算、基于d-s證據理論的流量融合模型,jdl模型包括感知流量預處理、實體狀態感知預測、關系推斷與預測、行動影響評估、改進感知流程等。由于多源異構高維流量價值密度低,導致流量處理表征、聚合、關聯困難,目前的處理方案識別檢測準確率交底低。
技術實現思路
1、針對現有技術中存在的問題,提供了一種多源異構流量融合的特征提取方法及系統,基于異構圖的特征表征方法、基于多層注意力機制的特征聚合方法、基
2、本專利技術第一方面提出了一種多源異構流量融合的特征提取方法,包括:
3、獲取多源異構流量,并進行降維處理;
4、將多源異構流量及降維后的特征映射為異構圖的節點,并構建節點與對應流量之間的連邊;
5、利用多層注意力機制分別對異構圖中節點進行聚合,實現流量級特征向量的表示,并利用多層感知機完成流量身份關聯;
6、基于深度圖自編碼器構建多源異構流量個性化特征提取模型,基于該模型利用異構圖完成流量的個性化特征提取。
7、作為一種優選方案,所述降維處理采用核主成分分析、監督多為尺度、等距映射或局部線性嵌入實現。
8、作為一種優選方案,所述將多源異構流量及降維后的特征映射為異構圖的節點,并構建節點與對應流量之間的連邊,具體包括:
9、對多源異構的流量屬性信息、流量生成內容、流量關系信息進行特征提取,并以節點、向量的形式在異構圖、潛在特征空間中進行表示;其中,異構圖中節點類型包括流量節點、流量屬性信息節點、流量生成內容節點、流量關系信息節點、行為類別節點、特征節點和關系嵌入節點。
10、作為一種優選方案,所述以節點、向量的形式在異構圖、潛在特征空間中進行表示,具體包括:
11、針對流量屬性信息與流量生成內容的特征提取:直接將簡單維度的流量屬性信息作為特征節點構建在異構圖中;提取流量生成內容特征,并以節點的形式在異構圖中構建特征節點;同時,記錄存在先后順序的特征的順序信息;
12、針對流量關系信息的特征提取:提取每種流量關系信息的特征,并在異構圖中構建關系嵌入節點,在潛在空間中對特征進行向量表示;
13、節點向量化表示:在異構圖中,給定除關系嵌入節點之外的任意節點,使用glorot正態分布對潛在特征空間中的節點進行表示,并進行隨機初始化。
14、作為一種優選方案,所述利用多層注意力機制分別對異構圖中節點進行聚合,具體包括:
15、利用行為類別級注意力層、行為表達級注意力層、流量級注意力層組成的多層注意力機制,在潛在空間中分別聚合特征節點、行為類別節點、關系嵌入節點、流量屬性信息節點、流量生成內容節點和流量關系信息節點對流量節點進行融合表示;其中,特征節點和關系嵌入節點的嵌入向量用于注意力層的輸入;行為類別節點、流量屬性信息節點、流量生成內容節點和流量關系信息節點用于計算注意力權重。
16、作為一種優選方案,在進行融合表示時,從微觀到宏觀依次按行為類別級注意力層、行為表達級注意力層、流量級注意力層的順序進行特征聚合。
17、作為一種優選方案,所述基于輕量級損失補償深度圖自編碼器完成流量的個性化特征提取,具體包括:
18、采集多源異構原始數據,對采集后的原始數據進行數據預處理,并生成異構圖;
19、將處理后的異構圖輸入深度自編碼器進行降維處理與特征提取,并在每個編碼層對編碼損失進行補償;
20、將編碼后的態勢評估要素特征信息傳遞給解碼器進行解碼還原,然后通過最小化mse損失函數評估還原圖數據與原始圖數據差異,對特征提取模型進行訓練;
21、利用訓練好的特征提取模型對異構圖進行特征提取。
22、作為一種優選方案,所述將處理后的異構圖輸入深度自編碼器進行降維處理與特征提取,并在每個編碼層對編碼損失進行補償,具體包括:
23、深度自編碼器的第i編碼層對該層輸入數據進行編碼后,得到初步輸出數據;
24、利用解碼層對初步輸出數據進行還原,得到還原數據;
25、計算還原數據與輸入數據的損失值;
26、將損失值補償回初步輸出數據,得到第i編碼層的最終輸出數據。
27、作為一種優選方案,在利用解碼層對初步輸出數據進行還原時,選取該層編碼層對應的解碼層進行還原。
28、本專利技術第二方面提出了一種系統,包括存儲器和處理器,所述存儲器上存儲有能夠被處理器加載并執行如第一方面所述的多源異構流量融合的特征提取方法對應的計算機程序。
29、與現有技術相比,采用上述技術方案的有益效果為:本專利技術通過對高維數據特征降維,基于異構圖、多層注意力機制、多層感知機、損失補償深度圖自編碼器等技術對高維特征數據進行表征、融合和關聯,最后構建多源異構流量個性化特征提取模型,實現了多源異構網絡環境下多層次、多維度的個性化特征的高效提取,提高了業務識別檢測的準確率。
本文檔來自技高網...【技術保護點】
1.多源異構流量融合的特征提取方法,其特征在于,包括:
2.根據權利要求1所述的多源異構流量融合的特征提取方法,其特征在于,所述降維處理采用核主成分分析、監督多為尺度、等距映射或局部線性嵌入實現。
3.根據權利要求1或2所述的多源異構流量融合的特征提取方法,其特征在于,所述將多源異構流量及降維后的特征映射為異構圖的節點,并構建節點與對應流量之間的連邊,具體包括:
4.根據權利要求3所述的多源異構流量融合的特征提取方法,其特征在于,所述以節點、向量的形式在異構圖、潛在特征空間中進行表示,具體包括:
5.根據權利要求3所述的多源異構流量融合的特征提取方法,其特征在于,所述利用多層注意力機制分別對異構圖中節點進行聚合,具體包括:
6.根據權利要求5所述的多源異構流量融合的特征提取方法,其特征在于,在進行融合表示時,從微觀到宏觀依次按行為類別級注意力層、行為表達級注意力層、流量級注意力層的順序進行特征聚合。
7.根據權利要求1所述的多源異構流量融合的特征提取方法,其特征在于,所述基于輕量級損失補償深度圖自編碼器完成流
8.根據權利要求7所述的多源異構流量融合的特征提取方法,其特征在于,所述將處理后的異構圖輸入深度自編碼器進行降維處理與特征提取,并在每個編碼層對編碼損失進行補償,具體包括:
9.根據權利要求8所述的多源異構流量融合的特征提取方法,其特征在于,在利用解碼層對初步輸出數據進行還原時,選取該層編碼層對應的解碼層進行還原。
10.一種系統,其特征在于,包括存儲器和處理器,所述存儲器上存儲有能夠被處理器加載并執行如權利要求1~9中任一項所述的多源異構流量融合的特征提取方法對應的計算機程序。
...【技術特征摘要】
1.多源異構流量融合的特征提取方法,其特征在于,包括:
2.根據權利要求1所述的多源異構流量融合的特征提取方法,其特征在于,所述降維處理采用核主成分分析、監督多為尺度、等距映射或局部線性嵌入實現。
3.根據權利要求1或2所述的多源異構流量融合的特征提取方法,其特征在于,所述將多源異構流量及降維后的特征映射為異構圖的節點,并構建節點與對應流量之間的連邊,具體包括:
4.根據權利要求3所述的多源異構流量融合的特征提取方法,其特征在于,所述以節點、向量的形式在異構圖、潛在特征空間中進行表示,具體包括:
5.根據權利要求3所述的多源異構流量融合的特征提取方法,其特征在于,所述利用多層注意力機制分別對異構圖中節點進行聚合,具體包括:
6.根據權利要求5所述的多源異構流量融合的特征提取方法,其特征在于,在進行融合表示...
【專利技術屬性】
技術研發人員:羅杰,吉慶兵,代誠朋,張秦,談程,
申請(專利權)人:中國電子科技集團公司第三十研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。