System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機,尤其涉及基于機器學習的日志字段提取方法、裝置、設備及介質。
技術介紹
1、在計算機領域中,不同日志源所生成的日志一般是以不同格式進行約定的。然而,由于不同格式的日志所包含的信息內容不同,因此,對不同格式的日志進行分析存在著很大的困難。
2、現有技術中,大多數日志分析系統依賴于固定的解析規則或需要大量手動配置來提取各個日志的日志字段,以適應不同的日志格式。但是,隨著數據量的增加和格式的多樣化,若使用固定的解析規則進行日志字段提取,會使得對日志數據的解析缺乏靈活性,難以適應復雜或不規則的數據格式;若使用手動配置進行日志字段提取,會降低字段提取的效率并且容易出錯。因此,如何適應不同日志生成源,進行日志字段提取,提高日志字段的準確率及提取效率,是目前亟待解決的問題。
技術實現思路
1、本專利技術提供了一種基于機器學習的日志字段提取方法、裝置、設備及介質,可以解決日志字段的準確率及提取效率較低的問題。
2、根據本專利技術的一方面,提供了一種基于機器學習的日志字段提取方法,包括:
3、獲取目標日志生成源對應的基礎歷史日志數據集;
4、標準化處理所述基礎歷史日志數據集,得到目標歷史日志數據集,并基于預設特征分類模型分析處理所述目標歷史日志數據集,得到所述目標日志生成源對應的共通模式集合;
5、基于預設正則表達式解析處理所述共通模式集合,生成目標日志生成源對應的正則表達式集合;
6、基于所述正則表達式集合
7、根據本專利技術的另一方面,提供了一種基于機器學習的日志字段提取裝置,包括:
8、數據獲取模塊,用于獲取目標日志生成源對應的基礎歷史日志數據集;
9、模式確定模塊,用于標準化處理所述基礎歷史日志數據集,得到目標歷史日志數據集,并基于預設特征分類模型分析處理所述目標歷史日志數據集,得到所述目標日志生成源對應的共通模式集合;
10、正則構建模塊,用于基于預設正則表達式解析處理所述共通模式集合,生成目標日志生成源對應的正則表達式集合;
11、字段提取模塊,用于基于所述正則表達式集合對目標日志生成源對應的當前日志數據進行字段匹配,得到當前日志數據對應的目標字段。
12、根據本專利技術的另一方面,提供了一種電子設備,所述電子設備包括:
13、至少一個處理器;以及
14、與所述至少一個處理器通信連接的存儲器;其中,
15、所述存儲器存儲有可被所述至少一個處理器執行的計算機程序,所述計算機程序被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本專利技術任一實施例所述的基于機器學習的日志字段提取方法。
16、根據本專利技術的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現本專利技術任一實施例所述的基于機器學習的日志字段提取方法。
17、根據本專利技術的另一方面,提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現本專利技術任一實施例所述的基于機器學習的日志字段提取方法。
18、本專利技術實施例的技術方案,通過標準化處理目標日志生成源對應的基礎歷史日志數據集,得到目標歷史日志數據集,并基于預設特征分類模型分析處理目標歷史日志數據集,得到目標日志生成源對應的共通模式集合。進而,基于預設正則表達式解析處理共通模式集合,生成目標日志生成源對應的正則表達式集合。最后,基于正則表達式集合對目標日志生成源對應的當前日志數據進行字段匹配,得到當前日志數據對應的目標字段。由于通過對不同日志生成源的日志特征進行分析,解決了現有字段提取方法無法適應不同日志生成源的問題,能夠對不同日志生成源生成的日志進行日志字段提取,提高了日志字段的準確率及提取效率。
19、應當理解,本部分所描述的內容并非旨在標識本專利技術的實施例的關鍵或重要特征,也不用于限制本專利技術的范圍。本專利技術的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網...【技術保護點】
1.一種基于機器學習的日志字段提取方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述預設特征分類模型包括:預設特征提取模型及預設聚類模型。
3.根據權利要求2所述的方法,其特征在于,所述基于預設特征分類模型分析處理所述目標歷史日志數據集,得到所述目標日志生成源對應的共通模式集合,包括:
4.根據權利要求1所述的方法,其特征在于,所述基于預設正則表達式解析處理所述共通模式集合,生成目標日志生成源對應的正則表達式集合,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述正則表達式集合對目標日志生成源對應的當前日志數據進行字段匹配,得到當前日志數據對應的目標字段,包括:
6.根據權利要求1所述的方法,其特征在于,在所述基于預設正則表達式解析處理所述共通模式集合,生成目標日志生成源對應的正則表達式集合之后,還包括:
7.根據權利要求1所述的方法,其特征在于,在所述獲取目標日志生成源對應的基礎歷史日志數據集之前,還包括:
8.一種基于機器學習的日志字段提取裝置,其特征在于,包
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現權利要求1-7中任一項所述的基于機器學習的日志字段提取方法。
...【技術特征摘要】
1.一種基于機器學習的日志字段提取方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述預設特征分類模型包括:預設特征提取模型及預設聚類模型。
3.根據權利要求2所述的方法,其特征在于,所述基于預設特征分類模型分析處理所述目標歷史日志數據集,得到所述目標日志生成源對應的共通模式集合,包括:
4.根據權利要求1所述的方法,其特征在于,所述基于預設正則表達式解析處理所述共通模式集合,生成目標日志生成源對應的正則表達式集合,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述正則表達式集合對目標日志生成源對應的當前日志數據進行字段匹配,得到當前日志數...
【專利技術屬性】
技術研發人員:尚丹寧,
申請(專利權)人:北京優特捷信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。