本發明專利技術涉及數據處理技術領域,具體涉及一種基于數據聚類的新能源結算數據異常檢測與預警方法,包括:將企業每個歷史時期的新能源結算數據劃分為多個區間;獲取企業每個數據屬性的影響程度值以及每個區間的每個數據屬性的波動特征,進一步得到每個區間的綜合波動特征;根據每個區間的綜合波動特征獲取每個區間的初始K距離鄰域,進一步獲取每個區間的初始離散程度值;根據每個區間的初始離散程度值獲取企業的新能源處理能力向量;根據所有企業的新能源處理向量對所有企業進行層次聚類,獲取每個層次類別的每個數據屬性的波動范圍,根據波動范圍進行當前時期新能源結算數據的異常檢測。本發明專利技術異常檢測結果更加準確。本發明專利技術異常檢測結果更加準確。本發明專利技術異常檢測結果更加準確。
【技術實現步驟摘要】
一種基于數據聚類的新能源結算數據異常檢測與預警方法
[0001]本專利技術涉及數據處理
,具體涉及一種基于數據聚類的新能源結算數據異常檢測與預警方法。
技術介紹
[0002][0003]在新能源結算數智化管理平臺中其中有一個重要的功能為新能源結算數據的異常檢測并進行實時預警。在異常的新能源結算數據監測過程中,傳統方法往往是根據新能源結算數據的異常分布來獲取的,通過人為的設定新能源結算數據的波動范圍來獲取每個新能源結算數據的異常程度,并根據該異常程度值進行異常預警。而由于不同企業的新能源結算數據分布不同,若僅根據人為經驗設置新能源結算數據的各個數據屬性波動范圍,會造成較大的異常檢測的誤差。
技術實現思路
[0004]本專利技術提供一種基于數據聚類的新能源結算數據異常檢測與預警方法,以解決現有的問題。
[0005]本專利技術的一種基于數據聚類的新能源結算數據異常檢測與預警方法采用如下技術方案:本專利技術一個實施例提供了一種基于數據聚類的新能源結算數據異常檢測與預警方法,該方法包括以下步驟:采集每個企業當前時期的新能源結算數據以及歷史時期的新能源結算數據;對任意一個企業,獲取企業的新能源處理能力向量,包括:將企業任意一個歷史時期的新能源結算數據的時間點作為橫坐標,新能源處理量作為縱坐標構建一個數據序列曲線;對每個數據序列曲線進行分割得到趨勢序列,根據趨勢序列獲取區間分段點,將每個歷史時期的新能源結算數據劃分為多個區間;獲取企業所有歷史時期的新能源結算數據中每個數據屬性的影響程度值;根據所有歷史時期以及當前時期每個區間每個數據屬性獲取每個區間的每個數據屬性的波動特征;根據每個數據屬性的影響程度值以及每個區間的每個屬性的波動特征獲取每個區間的綜合波動特征;根據每個區間的綜合波動特征獲取每個區間的初始K距離鄰域;根據每個區間的初始距離鄰域對每個區間內的數據進行異常因子檢測,獲取每個區間內每個數據的局部異常因子值以及異常數據點;將每個區間內排除異常數據點后的所有數據的局部異常因子值的均值作為每個區間的初始離散程度值;根據每個區間的初始離散程度值對每個區間的K距離鄰域進行調整,獲取每個區間的新能源處理能力;根據企業所有區間的新能源處理能力獲取企業的新能源處理能力向量;根據所有企業的新能源處理向量對所有企業進行層次聚類,得到多個層次類別;
根據每個層次類別中包含的企業獲取每個層次類別的每個數據屬性的波動范圍;根據每個數據屬性的波動范圍對企業當前時期的新能源結算數據進行異常檢測。
[0006]優選的,所述根據趨勢序列獲取區間分段點,將每個歷史時期的新能源結算數據劃分為多個區間,包括的具體步驟如下:通過對趨勢序列中所有前后相鄰數據點的斜率差進行線性歸一化,若前后相鄰數據點的斜率差歸一化后的數值大于斜率差閾值,將前一個數據點在數據序列曲線中對應的數據點作為數據序列曲線的區間分段點,將數據序列曲線中第一個數據點和最后一個數據點都作為區間分段點;將所有數據序列曲線的所有區間分段點進行排列,計算相鄰區間分段點在趨勢序列中對應兩個數據點的斜率差的絕對值作為相鄰區間分段點的差距,將差距小于區間分段點閾值的相鄰區間分段點中第二個區間分段點作為最終的區間分段點;根據所有最終的區間分段點將每個歷史時期的新能源結算數據劃分為多個區間。
[0007]優選的,所述影響程度值的表達式為:式中為第個數據屬性的影響程度值;表示一個企業歷史時期的新能源結算數據的數據屬性的個數;表示所有歷史時期的新能源結算數據中數據的個數;表示第個數據屬性中第個數據值;表示第個數據屬性的數據值均值;表示第個數據屬性中第個數據值;表示第個數據屬性的數據值均值。
[0008]優選的,所述根據所有歷史時期以及當前時期每個區間每個數據屬性獲取每個區間的每個數據屬性的波動特征,包括的具體步驟如下:將時間作為橫坐標,將數據屬性的值作為縱坐標,根據企業歷史時期每個區間的每個數據屬性對應的所有歷史數據構造屬性數據分布曲線,將企業當前時期數據對應區間的對應數據屬性與歷史數據對應區間的對應數據屬性結合構成屬性數據分布曲線,計算和的DTW距離,作為企業對應區間對應數據屬性的DTW距離;根據企業每個區間所有數據屬性的DWT距離,對每個區間每個數據屬性的DWT距離進行線性歸一化,將歸一化后的值作為對應區間對應數據屬性的波動特征。
[0009]優選的,所述綜合波動特征的表達式為:其中為第個區間內新能源結算數據的綜合波動特征;表示新能源結算數據的第個數據屬性的影響程度值;表示新能源結算數據第個區間的第個數據屬性的波動特征;表示新能源結算數據的數據屬性的個數。
[0010]優選的,所述初始K距離鄰域的表達式:式中為第個區間內新能源結算數據對應的初始距離鄰域;為第個區間內新能源結算數據的綜合波動特征;為距離鄰域超參數;表示向下取整函數;norm()為歸一化函數。
[0011]優選的,所述根據每個區間的初始離散程度值對每個區間的K距離鄰域進行調整,獲取每個區間的新能源處理能力,包括的具體步驟如下:根據企業每個區間的初始離散程度值獲取每個區間的調整程度值;所述調整程度值的表達式為:式中為第個區間內的調整程度值,表示第個區間的初始離散程度值;表示所有區間中初始離散程度值的最大值;根據調整程度值對每個區間的初始K距離鄰域進行調整,具體為:其中為第個區間調整后的K距離鄰域;為第個區間內的調整程度值;為第個區間的初始距離鄰域;根據所有區間調整后的K距離鄰域進行局部異常因子檢測,獲取每個區間調整后的離散程度值作為每個區間的新能源處理能力。
[0012]優選的,所述根據企業所有區間的新能源處理能力獲取企業的新能源處理能力向量,包括的具體步驟如下:對所有企業的所有區間的新能源處理能力進行線性歸一化處理;將企業的每個區間的歸一化后的新能源處理能力作為區間內每個時間點的新能源處理能力;以時間點為橫軸,新能源處理能力為縱軸,繪制每個企業的新能源處理能力曲線;將所有企業中區間個數最多的企業的新能源處理能力曲線作為標準曲線,根據標準曲線中的區間的范圍對其他所有企業的新能源處理能力曲線重新進行區間劃分;將新的區間中所有時間點的新能源處理能力的均值作為新的區間的第一新能源處理能力;將每個企業所有新的區間的第一新能源處理處理構成每個企業的新能源處理能力向量。
[0013]優選的,所述根據每個層次類別中包含的企業獲取每個層次類別的每個數據屬性的波動范圍,包括的具體步驟如下:將每個層次類別包含的所有企業的同一個數據屬性的最大值作為每個層次類別中對應數據屬性的波動范圍上限值;將每個層次類別包含的所有企業的同一個數據屬性的最小值作為每個層次類別中對應數據屬性的波動范圍下限值;根據所述波動范圍上限值以及所述波動范圍下限值得到每個層次類別中對應數據屬性的波動范圍。
[0014]本專利技術的技術方案的有益效果是:在傳統的異常檢測和預警過程中,根據企業自身的每個年度的新能源結算數據獲取其對新能源的處理能力的變化,無法判斷出企業是否達到其最大的新能源處理能力,若僅根據此進行異常檢測和預警,會造成企業在自己的新
...
【技術保護點】
【技術特征摘要】
1.一種基于數據聚類的新能源結算數據異常檢測與預警方法,其特征在于,該方法包括以下步驟:采集每個企業當前時期的新能源結算數據以及歷史時期的新能源結算數據;對任意一個企業,獲取企業的新能源處理能力向量,包括:將企業任意一個歷史時期的新能源結算數據的時間點作為橫坐標,新能源處理量作為縱坐標構建一個數據序列曲線;對每個數據序列曲線進行分割得到趨勢序列,根據趨勢序列獲取區間分段點,將每個歷史時期的新能源結算數據劃分為多個區間;獲取企業所有歷史時期的新能源結算數據中每個數據屬性的影響程度值;根據所有歷史時期以及當前時期每個區間每個數據屬性獲取每個區間的每個數據屬性的波動特征;根據每個數據屬性的影響程度值以及每個區間的每個屬性的波動特征獲取每個區間的綜合波動特征;根據每個區間的綜合波動特征獲取每個區間的初始K距離鄰域;根據每個區間的初始距離鄰域對每個區間內的數據進行異常因子檢測,獲取每個區間內每個數據的局部異常因子值以及異常數據點;將每個區間內排除異常數據點后的所有數據的局部異常因子值的均值作為每個區間的初始離散程度值;根據每個區間的初始離散程度值對每個區間的K距離鄰域進行調整,獲取每個區間的新能源處理能力;根據企業所有區間的新能源處理能力獲取企業的新能源處理能力向量;根據所有企業的新能源處理向量對所有企業進行層次聚類,得到多個層次類別;根據每個層次類別中包含的企業獲取每個層次類別的每個數據屬性的波動范圍;根據每個數據屬性的波動范圍對企業當前時期的新能源結算數據進行異常檢測。2.根據權利要求1所述的一種基于數據聚類的新能源結算數據異常檢測與預警方法,其特征在于,所述根據趨勢序列獲取區間分段點,將每個歷史時期的新能源結算數據劃分為多個區間,包括的具體步驟如下:通過對趨勢序列中所有前后相鄰數據點的斜率差進行線性歸一化,若前后相鄰數據點的斜率差歸一化后的數值大于斜率差閾值,將前一個數據點在數據序列曲線中對應的數據點作為數據序列曲線的區間分段點,將數據序列曲線中第一個數據點和最后一個數據點都作為區間分段點;將所有數據序列曲線的所有區間分段點進行排列,計算相鄰區間分段點在趨勢序列中對應兩個數據點的斜率差的絕對值作為相鄰區間分段點的差距,將差距小于區間分段點閾值的相鄰區間分段點中第二個區間分段點作為最終的區間分段點;根據所有最終的區間分段點將每個歷史時期的新能源結算數據劃分為多個區間。3.根據權利要求1所述的一種基于數據聚類的新能源結算數據異常檢測與預警方法,其特征在于,所述影響程度值的表達式為:式中為第個數據屬性的影響程度值;表示一個企業歷史時期的新能源結算數據的
數據屬性的個數;表示所有歷史時期的新能源結算數據中數據的個數;表示第個數據屬性中第個數據值;表示第個數據屬性的數據值均值;表示第個數據屬性中第個數據值;表示第個數據屬性的數據值均值。4.根據權利要求1所述的一種基于數據聚類的新能源結算數據異常檢測與預警方法,其特征在于,所述根據所有歷史時期以及當前時期每個區間每個數據屬性獲取每個區間的每個數據屬性的波動特征,包括的具體步驟如下:將時間作為橫坐標,將數據屬性的值作為縱坐標,根據企業歷史時期每個區間的每個數據屬性對應的所有歷史數據構造屬性數據分...
【專利技術屬性】
技術研發人員:張艷玲,羅衛,
申請(專利權)人:北京智蟻楊帆科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。