System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于數據挖掘領域,尤其是涉及一種基于fp-growth算法的日志關聯分析方法、裝置及存儲介質。
技術介紹
1、日志關聯分析是指通過分析海量的日志數據,以識別日志事件之間的關聯關系,旨在將看似離散或孤立的日志事件通過某種邏輯或規則連接起來,從而揭示出隱藏在背后的更大規模的事件或行為模式。日志關聯分析技術對于理解系統的整體運行狀況、檢測潛在的安全威脅、優化系統性能等方面具有重要意義。
2、面對海量的日志數據,傳統的人工挖掘關聯規則方法顯得費時費力。首先,日志數據的規模性導致了人工制定規則的不可行性,即使是經驗豐富的運維或安全分析師,也難以在短時間內有效處理數以億計乃至更龐大的日志條目。其次,日志數據的多樣性和復雜性進一步加劇了分析難度,不同系統、應用乃至同一系統內的不同模塊往往會產生格式各異、內容復雜的日志記錄,分析人員需要具備深厚的領域背景和知識儲備,才能發現其中的關聯關系。
3、目前,日志關聯分析方法主要包括聚類關聯分析和規則關聯分析兩個途徑。聚類關聯分析方法是指通過聚類方法將相似的日志事件劃分為同一類,從而認為這些事件之間存在一定的關聯關系。但是基于聚類的關聯分析方法存在一些缺點,第一,其獲得的關聯結果受初始條件和參數選擇的影響,不同的初始條件和參數設置可能導致不同的聚類結果,從而影響關聯分析的準確性與可靠性;第二,聚類算法對噪聲和異常點較為敏感,這導致在關聯分析中可能忽略重要的數據點或錯誤關聯了異常數據;第三,聚類結果解釋性不強,聚類是基于統計數據進行分類,因而可能無法直接解釋某些數據點為何
技術實現思路
1、本專利技術的目的在于提供一種基于fp-growth算法的日志關聯分析方法、裝置及存儲介質,以解決現有技術中存在的問題。
2、為了實現上述目的,本專利技術采用以下技術方案:
3、一種基于fp-growth算法的日志關聯分析方法,所述方法包括:
4、s1:獲取原始日志并生成事件;
5、s2:基于給定的劃分標準,劃分日志事件,構建事務數據集;
6、s3:針對事務數據集,采用fp-growth算法頻繁的事件模式,采用fp-growth算法挖掘頻繁項集;
7、s4:生成強關聯事件規則。
8、進一步地,所述獲取原始日志并生成事件,是獲取單個設備的日志,以syslog轉發或客戶端上報方式收集所需分析設備產生的原始日志,采用基于規則、基于模板或機器學習解析方法進行原始日志解析,并生成事件。
9、進一步地,s2中所述的劃分標準為固定時間窗口是指基于原始日志的發生時間,順序劃分日志事件。
10、進一步地,s2中所述的事務數據集是基于所述日志事件劃分結果,生成事務數據集。
11、進一步地,s3中所述的采用fp-growth算法挖掘頻繁項集,包括:
12、基于獲取的所述的事務數據集構建fp-tree;
13、從fp-tree挖掘頻繁項集,即獲取事件的頻繁模式。
14、進一步地,所述的構建fp-tree,包括:
15、s71:掃描事務數據集,根據預設的最小支持度,生成頻繁1-項集集合:掃描事務數據集,計算每一事件的支持度;設定最小支持度,小于最小支持度的為非頻繁1-項集,根據所述最小支持度刪除非頻繁1-項集,剩余事件支持度均大于最小支持度,為頻繁1-項集;按照頻繁1-項集的支持度進行降序排列,生成頻繁1-項集集合;
16、s72:根據頻繁1-項集集合,對事務數據集排序:針對所述事務數據集的項,對比所述頻繁1-項集集合,刪除不在所述頻繁1-項集集合中的事件;針對所述事務數據集,根據頻繁1-項集集合中的事件對項排序;生成排序后的事務數據集;
17、s73:構建fp-tree,即根據所述生成的排序后的事務數據集構建fp-tree;
18、s74:生成節點鏈表,即根據頻繁1-項集集合與fp-tree對應,連接對應節點,以便于在后續挖掘過程中追溯。
19、進一步地,所述的挖掘頻繁項集,包括:
20、s81:為fp-tree的每個節點生成條件模式基,所述條件模式基是以所查找元素項為結尾的路徑集合,每一條路徑均為一條前綴路徑;
21、s82:根據條件模式基構造對應的條件fp-tree,具體是指將所述條件模式基作為一個子事務數據集,根據所述子事務數據集生成的fp-tree,即為所述的條件fp-tree;
22、s83:遞歸構造條件fp-tree同時增長其包含的頻繁項集,遞歸構造是指針對所述條件fp-tree重復執行s81及s82,直至所述查找節點的條件模式基為“null”;
23、s84:如果條件fp-tree只有一條路徑,則直接生成所包含的頻繁項集,若在步驟s82中構造的fp-tree只有一條路徑,沒有多余的分支,則直接生成頻繁項集。
24、進一步地,所述的支持度是支持度是指包含特定項集的事務個數,是對關聯規則重要性的衡量,即所述關聯規則的支持度越大,關聯規則越重要。
25、進一步地,所述的生成強關聯事件規則是基于預設的最小置信度對生成的頻繁項集進行取舍,進而生成強關聯規則;
26、所述置信度定義如下:
27、
28、其中,c(x→y)表示關聯規則x→y的置信度,s(x,y)表示項集{x,y}的支持度,s(x)表示項集{x}的支持度;
29、置信度是對關聯規則可靠性的衡量,對于給定的規則x→y,置信度越高,y包含在x的事務中出現的可能性就越大;
30、同時滿足最小支持度和最小置信度的規則稱為強關聯規則。
31、本專利技術提供一種基于fp-growth算法的日志關聯分析裝置,所述分析裝置包括:
32、數據收集與事件生成模塊,用于獲取原始日志并生成事件;
33、事件劃分模塊,用于基于給定的劃分標準,劃分日志事件,構建事務數據集;
34、數據挖掘模塊,用于對事務數據集,采用fp-growth算法頻繁的事件模式,采用fp-growth算法挖掘頻繁項集;
35、事件關聯模塊,用于生成強關聯的事件規則。
36、本專利技術還提供一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序指令,所述計算機程序指令被計算機運行時,所述計算機執行如上任一所述的基于fp-growth算法的日志關聯分析方法的步驟。
37、采用上述技術方案,本專利技術具有如下有益效果:
38、1、fp-growth算法具有高效性,只需兩次掃描數據集即可完成頻繁項集的挖掘,并且通過構建一個緊湊的fp-tree來減少內存占用及提高搜索速度。
39、2、fp-growth算法無需生成大量的候選集,直接利用fp-tree的結構信息挖掘頻繁項集,減少了不必要的計算量,提高了算法的執行效率。
...【技術保護點】
1.一種基于FP-Growth算法的日志關聯分析方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,S1中所述獲取原始日志并生成事件,是獲取單個設備的日志,以Syslog轉發或客戶端上報方式收集所需分析設備產生的原始日志,采用基于規則、基于模板或機器學習解析方法進行原始日志解析,并生成事件。
3.根據權利要求1所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,S2中所述的劃分標準為固定時間窗口是指基于原始日志的發生時間,順序劃分日志事件。
4.根據權利要求1所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,S2中所述的事務數據集是基于所述日志事件劃分結果,生成事務數據集。
5.根據權利要求4所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,S3中所述的采用FP-Growth算法挖掘頻繁項集,包括:
6.根據權利要求5所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,所述的構建FP-t
7.根據權利要求5所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,所述的挖掘頻繁項集,包括:
8.根據權利要求5所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,所述的支持度是支持度是指包含特定項集的事務個數,是對關聯規則重要性的衡量,即所述關聯規則的支持度越大,關聯規則越重要。
9.根據權利要求8所述的一種基于FP-Growth算法的日志關聯分析方法,其特征在于,所述的生成強關聯事件規則是基于預設的最小置信度對生成的頻繁項集進行取舍,進而生成強關聯規則;
10.一種基于FP-Growth算法的日志關聯分析裝置,其特征在于,所述分析裝置包括:
11.一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序指令,所述計算機程序指令被計算機運行時,所述計算機執行如權利要求1-9任一所述的基于FP-Growth算法的日志關聯分析方法的步驟。
...【技術特征摘要】
1.一種基于fp-growth算法的日志關聯分析方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于fp-growth算法的日志關聯分析方法,其特征在于,s1中所述獲取原始日志并生成事件,是獲取單個設備的日志,以syslog轉發或客戶端上報方式收集所需分析設備產生的原始日志,采用基于規則、基于模板或機器學習解析方法進行原始日志解析,并生成事件。
3.根據權利要求1所述的一種基于fp-growth算法的日志關聯分析方法,其特征在于,s2中所述的劃分標準為固定時間窗口是指基于原始日志的發生時間,順序劃分日志事件。
4.根據權利要求1所述的一種基于fp-growth算法的日志關聯分析方法,其特征在于,s2中所述的事務數據集是基于所述日志事件劃分結果,生成事務數據集。
5.根據權利要求4所述的一種基于fp-growth算法的日志關聯分析方法,其特征在于,s3中所述的采用fp-growth算法挖掘頻繁項集,包括:
6.根據權利要求5所述的一種基于fp-...
【專利技術屬性】
技術研發人員:陳青民,唐果,楊甜,李呂丹,
申請(專利權)人:北京安信天行科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。