System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及電力數據處理,具體涉及一種基于聚類分析的電表安裝量預測方法。
技術介紹
1、預測電表安裝量對電力行業的規劃、運營、政策制定和商業決策都具有重要意義。它能夠提供有關未來電表需求的關鍵信息,幫助各方做出合理的決策,并促進電力系統的可持續發展和效率提升。特別是可以指導智能電表的采購和部署策略。智能電表具有數據采集、遠程監測和調控等功能,能夠提高電網的監控和管理水平。準確預測電表安裝量有助于確定采購計劃和布置策略,確保智能電表的覆蓋范圍和數量符合需求。
2、預測電表安裝量是基于歷史數據來進行預測,對于時間序列的預測,無論是工業還是學術上都有大量的預測方法。傳統的時間序列方法有arima,garch模型等,機器學習方法有隨機森林、gbdt等,深度神經網絡有cnn、lstm等。但是,傳統時間序列方法、機器學習方法、深度神經網絡這些方法雖然都適用于電表安裝量的預測,但由于原始數據中劃分電表的指標較多,如地區、電表種類,安裝流程等,使得原始數據中有大量的時間序列。若對每一條時間序列分別建立模型,則計算量較大。且后續若要進一步修正模型,對每條時間序列單獨進行有針對性的修正較為困難。
技術實現思路
1、本專利技術的目的在于提供一種基于聚類分析的電表安裝量預測方法,該方法有利于高效、準確預測未來電表的安裝量。
2、為了實現上述目的,本專利技術采用的技術方案是:一種基于聚類分析的電表安裝量預測方法,包括:
3、s1、對包括多條時間序列的原始數據進行數據預處
4、s2、采用肘部法則確定最佳的聚類數量;
5、s3、采用k-means++算法選擇初始聚類中心,以提高聚類結果的質量;
6、s4、根據確定的聚類數量和初始聚類中心,迭代k-means聚類,得到聚類中心和分類結果;
7、s5、根據得到的分類結果,對每一類的聚類中心分別選定最佳的arima模型的階數;
8、s6、對于同一類的時間序列,根據選定的對應的arima階數,對每一條時間序列分別建立arima模型,得到每一條時間序列的預測結果;
9、s7、評估模型的預測效果;然后用預測效果達標的模型來預測電表安裝量。
10、進一步地,步驟s1中,按照預測需求劃分訓練集和預測集,具體為:如果要預測每條時間序列各自最后n個月的電表安裝量,將除了最后n個月以外的數據作為訓練集,最后n個月的數據作為預測集。
11、進一步地,步驟s1中,如果時間序列的長度不同,通過插值或截斷的方法來使時間序列具有相同的長度,具體為:如果時間序列本身只記錄了電表從第一次安裝到最后一次安裝的數據,可將以前的未記錄的時間點的安裝量記為0;若無法確定以前的未記錄的時間點的安裝量是否為0,也可將所有時間序列都截斷成與最短的時間序列的長度相同的序列,截斷時從時間序列初始部分開始截斷。
12、進一步地,步驟s2中,采用肘部法則確定最佳的聚類數量,具體方法為:計算不同聚類數目下的聚類誤差平方和sse,當聚類數量增加到一定程度時,sse的減小速度急劇變緩,形成一個肘部時,該聚類數量即為最佳的聚類數量。
13、進一步地,步驟s3中,采用k-means++算法選擇初始聚類中心,具體方法為:
14、a1、選擇第一個聚類中心:從訓練集中隨機選擇一條時間序列作為第一個聚類中心;
15、a2、計算距離加權概率:對于每條時間序列,計算其與已選擇的聚類中心之間的距離,并將距離平方作為權重;然后,根據得到的權重計算每條時間序列成為下一個聚類中心的概率分布;越遠離已選擇的聚類中心的時間序列將有越高的概率成為下一個聚類中心;
16、a3、選擇下一個聚類中心:根據計算的距離加權概率分布選擇下一個聚類中心;
17、a4、重復步驟a2和a3,直到選擇了k個聚類中心。
18、進一步地,步驟s4中,迭代k-means聚類,具體方法為:
19、b1、分配數據點到最近的聚類中心:計算每條時間序列與步驟s3選出的聚類中心之間的距離,并將每條時間序列分配給最近的聚類中心;
20、b2、更新聚類中心:對于每個聚類,計算該聚類中所有時間序列的平均值,并將該平均值作為新的聚類中心;
21、b3、重復步驟b1和b2,即重復進行時間序列分配和聚類中心更新的步驟,直到達到停止條件;所述停止條件為達到最大迭代次數或者聚類中心不再變化。
22、進一步地,步驟s5中,對每一類的聚類中心分別選取最佳的arima模型的階數,以此作為對應的各類的時間序列的最佳的arima模型的階數,具體方法為:
23、確定arima模型的階數是選擇適當的自回歸階數p、差分階數d和移動平均階數q的過程;對于差分階數d,對聚類中心進行平穩性檢驗,若不能通過平穩性檢驗,則增加差分階數d直到序列通過平穩性檢驗;在選擇階數p和q時,利用自相關函數和偏自相關函數來確定階數:p由偏自相關函數圖的截尾點確定,q由自相關函數圖截尾點確定。
24、進一步地,步驟s5中,如果自相關和偏自相關函數圖不能判斷出階數p和q,使用子集選擇算法來選擇合適的p和q,具體為:使用貝葉斯信息準則作為評估準則,并通過嘗試不同的p、d和q的組合,選擇具有最小bic值的模型作為最佳模型。
25、進一步地,步驟s6中,通過步驟s5確定的每一類時間序列所使用的arima模型的階數,對每一條時間序列建立相應的arima模型;使用最大似然估計,估計arima模型的參數值,使得模型對觀測數據的擬合程度最大化,由此得到每一條時間序列的最后n個月的預測數據。
26、進一步地,步驟s7中,通過平均相對誤差errorj評估模型的預測誤差:
27、
28、其中,yact(i,j)為預測集中第j條時間序列第i個月真實的電表安裝量數據,ypred(i,j)為基于聚類分析的電表安裝量的預測方法得到的第j條時間序列要預測的第i個月預測數據,n為總預測數目,j為時間序列的總數量;通過errorj反映在第j條時間序列上的預測效果。
29、與現有技術相比,本專利技術具有以下有益效果:本專利技術提供了一種基于聚類分析的電表安裝量預測方法,相比于傳統的直接對每條時間序列建立arima模型進行預測的方法、基于聚類分析的電表安裝量的預測方法,本方法對于有大量的時間序列的情況,在進行k-means聚類以后,聚類中心可以反應出該類別的數據特征,因此只要對聚類中心選擇合適的arima模型的階數,該階數適用于同類別的時間序列的階數。若不分類直接對每一條時間序列選擇arima模型的階數,無論采用什么方法都較為困難。雖然r語言中也有提供自動選擇arima模型的階數的函數,但該函數選擇的階數的預測效果差。因此,本專利技術可以通過多種電表的安裝量的歷史數據,高效、準確地預測未來各種電表的安裝量,具有很強的實用本文檔來自技高網...
【技術保護點】
1.一種基于聚類分析的電表安裝量預測方法,其特征在于,包括:
2.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S1中,按照預測需求劃分訓練集和預測集,具體為:如果要預測每條時間序列各自最后n個月的電表安裝量,將除了最后n個月以外的數據作為訓練集,最后n個月的數據作為預測集。
3.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S1中,如果時間序列的長度不同,通過插值或截斷的方法來使時間序列具有相同的長度,具體為:如果時間序列本身只記錄了電表從第一次安裝到最后一次安裝的數據,可將以前的未記錄的時間點的安裝量記為0;若無法確定以前的未記錄的時間點的安裝量是否為0,也可將所有時間序列都截斷成與最短的時間序列的長度相同的序列,截斷時從時間序列初始部分開始截斷。
4.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S2中,采用肘部法則確定最佳的聚類數量,具體方法為:計算不同聚類數目下的聚類誤差平方和SSE,當聚類數量增加到一定程度時,SSE的減小速度急劇變緩,形成一個肘部時,該聚類數量
5.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S3中,采用K-means++算法選擇初始聚類中心,具體方法為:
6.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S4中,迭代K-means聚類,具體方法為:
7.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S5中,對每一類的聚類中心分別選取最佳的ARIMA模型的階數,以此作為對應的各類的時間序列的最佳的ARIMA模型的階數,具體方法為:
8.根據權利要求7所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S5中,如果自相關和偏自相關函數圖不能判斷出階數p和q,使用子集選擇算法來選擇合適的p和q,具體為:使用貝葉斯信息準則作為評估準則,并通過嘗試不同的p、d和q的組合,選擇具有最小BIC值的模型作為最佳模型。
9.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S6中,通過步驟S5確定的每一類時間序列所使用的ARIMA模型的階數,對每一條時間序列建立相應的ARIMA模型;使用最大似然估計,估計ARIMA模型的參數值,使得模型對觀測數據的擬合程度最大化,由此得到每一條時間序列的最后n個月的預測數據。
10.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟S7中,通過平均相對誤差errorj評估模型的預測誤差:
...【技術特征摘要】
1.一種基于聚類分析的電表安裝量預測方法,其特征在于,包括:
2.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟s1中,按照預測需求劃分訓練集和預測集,具體為:如果要預測每條時間序列各自最后n個月的電表安裝量,將除了最后n個月以外的數據作為訓練集,最后n個月的數據作為預測集。
3.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟s1中,如果時間序列的長度不同,通過插值或截斷的方法來使時間序列具有相同的長度,具體為:如果時間序列本身只記錄了電表從第一次安裝到最后一次安裝的數據,可將以前的未記錄的時間點的安裝量記為0;若無法確定以前的未記錄的時間點的安裝量是否為0,也可將所有時間序列都截斷成與最短的時間序列的長度相同的序列,截斷時從時間序列初始部分開始截斷。
4.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟s2中,采用肘部法則確定最佳的聚類數量,具體方法為:計算不同聚類數目下的聚類誤差平方和sse,當聚類數量增加到一定程度時,sse的減小速度急劇變緩,形成一個肘部時,該聚類數量即為最佳的聚類數量。
5.根據權利要求1所述的基于聚類分析的電表安裝量預測方法,其特征在于,步驟s3中,采用k-means++算法選擇初始...
【專利技術屬性】
技術研發人員:賴國書,張荔鵑,葉強,周厚源,王姣,洪巧文,曹舒,曾清娟,楊涵脂,胡敏賢,林素存,
申請(專利權)人:國網福建省電力有限公司營銷服務中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。