System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,特別是基于lstm和kmeans的系統日志分類方法。
技術介紹
1、聚類算法旨在找到相似的數據,應用程序在使用過程中通常有可能會產生錯誤日志,這些錯誤日志可以分為不同的類型,通過分析這些不同類型的錯誤日志,可以針對性的給出解決該錯誤的建議。目前,人工進行錯誤日志分類效率低下,如果數據量增大,人員負荷也會進一步增加。
2、另一方面,大量日志的特征對于人工標注來說也是極其耗時的,且容易出錯。而雙向lstm長短時記憶網絡可以對文本數據進行文本向量化,能夠對各文本特征標注,在省去人工標注特征的時間。
技術實現思路
1、針對上述問題,本文主要使用kmeans聚類算法,該聚類算法在初始化階段進行隨機抽取初始質心,然后計算每個對象與該初始質心的距離,把每個分配給距離它最近的聚類中心。應用該算法不僅能減少人工分類的成本,在大數據量情況下還能顯著提升效率。
2、基于lstm和kmeans的系統日志分類方法,包括如下步驟:
3、由雙向lstm網絡構成特征獲取模塊,雙向lstm網絡捕捉文本中局部和位置不變性特征,雙向lstm網絡來獲取上下文關聯語義的特征;
4、kmeans日志分類方法,分為:
5、s1.在目標樣本特征向量集合中利用肘部法則找到合適的k個數據點作為初始的簇心,隨機選取k個樣本點作為初始中心;
6、s2.分配數據點:對于每個數據點,計算其與k個簇心的距離,該距離為每個由雙向lstm提取的特征向量
7、s3.更新簇心:對于每個簇,根據向量簇計算出平均向量,并將該平均向量作為新的簇心;
8、s4.重復執行s2和s3,直到達到停止條件。
9、kmeans日志分類由距離矩陣構建模塊完成,用于確定所述目標樣本集合中各個日志特征向量間的余弦距離,根據所述余弦距離,構建距離矩陣。
10、本專利技術為本專利技術的有益效果:
11、(1)利用lstm對日志進行了向量化,提取文本的特征,提高了系統信息組織能力,不依賴于人工信息提取。
12、(2)使用kmeans直接進行無監督學習,不僅節省人工成本,在數據量大時,也能夠提高分類效率。
本文檔來自技高網...【技術保護點】
1.基于LSTM和Kmeans的系統日志分類方法,其特征在于包括如下步驟:
【技術特征摘要】
1.基于lstm和kmeans的系統日...
【專利技術屬性】
技術研發人員:賈文杰,蔣永錄,黃濤,田廣華,閆衛兵,王晨水,崔輝,趙帥彥,
申請(專利權)人:中電萬維信息技術有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。