基于LSTM和Kmeans的系統日志分類方法技術方案

技術編號：44149092 閱讀：14 留言：0更新日期：2025-01-29 10:23

本發明專利技術涉及數據處理技術領域，特別是基于LSTM和Kmeans的系統日志分類方法。本文主要使用Kmeans聚類算法，該聚類算法在初始化階段進行隨機抽取初始質心，然后計算每個對象與該初始質心的距離，把每個分配給距離它最近的聚類中心。應用該算法不僅能減少人工分類的成本，在大數據量情況下還能顯著提升效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據處理，特別是基于lstm和kmeans的系統日志分類方法。

技術介紹

1、聚類算法旨在找到相似的數據，應用程序在使用過程中通常有可能會產生錯誤日志，這些錯誤日志可以分為不同的類型，通過分析這些不同類型的錯誤日志，可以針對性的給出解決該錯誤的建議。目前，人工進行錯誤日志分類效率低下，如果數據量增大，人員負荷也會進一步增加。

2、另一方面，大量日志的特征對于人工標注來說也是極其耗時的，且容易出錯。而雙向lstm長短時記憶網絡可以對文本數據進行文本向量化，能夠對各文本特征標注，在省去人工標注特征的時間。

技術實現思路

1、針對上述問題，本文主要使用kmeans聚類算法，該聚類算法在初始化階段進行隨機抽取初始質心，然后計算每個對象與該初始質心的距離，把每個分配給距離它最近的聚類中心。應用該算法不僅能減少人工分類的成本，在大數據量情況下還能顯著提升效率。

2、基于lstm和kmeans的系統日志分類方法，包括如下步驟：

3、由雙向lstm網絡構成特征獲取模塊，雙向lstm網絡捕捉文本中局部和位置不變性特征，雙向lstm網絡來獲取上下文關聯語義的特征；

4、kmeans日志分類方法，分為：

5、s1.在目標樣本特征向量集合中利用肘部法則找到合適的k個數據點作為初始的簇心，隨機選取k個樣本點作為初始中心；

6、s2.分配數據點：對于每個數據點，計算其與k個簇心的距離，該距離為每個由雙向lstm提取的特征向量

7、s3.更新簇心：對于每個簇，根據向量簇計算出平均向量，并將該平均向量作為新的簇心；

8、s4.重復執行s2和s3，直到達到停止條件。

9、kmeans日志分類由距離矩陣構建模塊完成，用于確定所述目標樣本集合中各個日志特征向量間的余弦距離，根據所述余弦距離，構建距離矩陣。

10、本專利技術為本專利技術的有益效果：

11、（1）利用lstm對日志進行了向量化，提取文本的特征，提高了系統信息組織能力，不依賴于人工信息提取。

12、（2）使用kmeans直接進行無監督學習，不僅節省人工成本，在數據量大時，也能夠提高分類效率。

本文檔來自技高網...

【技術保護點】

1.基于LSTM和Kmeans的系統日志分類方法，其特征在于包括如下步驟：

【技術特征摘要】

1.基于lstm和kmeans的系統日...

【專利技術屬性】
技術研發人員：賈文杰，蔣永錄，黃濤，田廣華，閆衛兵，王晨水，崔輝，趙帥彥，
申請(專利權)人：中電萬維信息技術有限責任公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術