System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于電力系統,具體涉及一種電網運行風險控制策略生成系統及方法,還涉及一種基于深度強化學習與邊界知識混合增強的電網運行風險控制策略生成系統及方法。
技術介紹
1、隨著電力系統運行特性和控制模式的日益復雜,電網運行方式愈加多變,調度控制對象呈指數級增長,源荷雙側不確定性增強,使得調控人員對電網故障處置變得更加困難,需要更加自動化與智能化的方式對電網故障進行處置。
2、目前在如專利公開號為“cn110502604b”所提及的電網調控業務上,普遍還是基于人工的常規處置,而基于人工的常規處置方法存在誤判、漏判和處置效率低下等缺點。
3、因此,為適應復雜不確定性強的電網環境,尋求最優化長期控制目標,實現電網運行的安全性與經濟性,能夠在電網故障發生后實時處置決策,就要提出一種基于強化學習的電網越限自適應決策方法,構建決策智能體,在離線電網仿真環境中學習最優決策,并于電網真實環境中應用學習到的策略,以此來解決基于人工的常規處置方法存在誤判、漏判和處置效率低下等缺點。
技術實現思路
1、為解決現有技術中存在的缺陷,本專利技術提出一種電網運行風險控制策略生成系統及方法,基于越限獎勵函數與負荷平衡后處理引導訓練的電網潮流越限自適應調整智能體可學會保障電網安全穩定經濟性運行的機組出力決策,改善傳統依靠人工經驗調節的低效與不足現象。通過實現對電網真實環境的高度仿真模擬,使得電網越限自適應調整智能體訓練效果得到進一步提升,在后期通過不斷迭代學習與訓練,可逐步替代人工經驗的調節
2、本專利技術運用如下的技術方案。
3、一種電網運行風險控制策略生成方法,包括:
4、步驟1:構造基于深度強化學習的電網潮流越限自適應調整模型;
5、步驟2:構建離線訓練與在線應用一體化框架。
6、優選地,步驟1具體包括:
7、步驟1-1:構建潮流越限消除智能體的動作空間與狀態空間;
8、步驟1-2:構造潮流越限獎勵函數;
9、步驟1-3:出力與負荷平衡后執行處理;
10、步驟1-4:構建電網仿真運行強化學習環境。
11、優選地,在步驟1-1中,構建潮流越限消除智能體的動作空間,也就是確定智能體的動作空間如下公式(1)所示:
12、a={punits}?(1)
13、其中,punits是基于當前時刻電網狀態生成的下一時刻各機組有功出力。
14、優選地,在步驟1-1中,構建潮流越限消除智能體的狀態空間,也就是為智能體構建如下公式(2)所示的狀態空間:
15、s={punits,qunits,ulines,ilines,ploads}?(2)
16、其中,punits是當前時刻電網中的各機組有功出力,qunits是當前時刻電網中的各機組無功出力,ulines是當前時刻電網中的各線路的電壓值,ilines是當前時刻電網中的各線路的電流值,ploads是下一時刻電網中的負荷預測值。
17、優選地,在步驟1-2中,構建如下公式(3)所示的潮流越限獎勵函數:
18、
19、其中,為第n條線路在當前時刻電網潮流中的載流量實際值,為第n條線路在電網潮流中的載流量上限值,為第n條線路在電網潮流中的載流量下限值,n為電網線路的總數量,max()為求取最大值函數,r為安全性目標的獎勵值。
20、優選地,在步驟1-3中,智能體在經過深度神經網絡生成決策之后,屬于歸一化之后范圍在[-1,1]的數值,需要結合機組的可調范圍,再將其映射為具體的機組出力值。
21、優選地,在后處理過程中,以下一時刻預測負荷值之和為調節目標,即作為各機組出力之和,并且根據每臺機組在此時刻的可調節范圍,按設定比例分配調節量,最終實現機組出力之和等于預測負荷值之和。
22、優選地,步驟1-4具體包括對電網運行仿真環境進行潮流計算,以確定電力系統中各個節點的電壓和相角以及各條輸電線路的潮流,而在進行潮流計算時,交互服務模塊實現交互環境與潮流計算模塊的集成,交互服務模塊是一個基于java的軟件程序,它負責與強化學習智能體進行數據通信和控制指令的傳遞。
23、優選地,交互服務模塊的功能如下:
24、接收并解析智能體的動作請求,根據請求中的控制變量,更新電力系統模型中的機組、負荷數據;
25、調用潮流計算模塊,根據電力系統模型中的結構參數和負荷情況,求解各個節點的電壓和各條線路的潮流,并判斷電力系統是否滿足約束條件;
26、生成新的qs文件,將潮流計算結果保存在qs文件中;
27、從qs文件中提取機組、線路、母線設備的相關數據,作為電網狀態返回給智能體,供智能體進行學習和決策。
28、優選地,步驟2具體包括:
29、步驟2-1:仿真環境在讀取此時的網架信息后將智能體狀態空間與動作空間進行初始化,以適應網架結構,同時構造基于深度神經網絡的actor與critic網絡;
30、步驟2-2:確定好訓練數據的時間段、訓練總步數、訓練回合數、回合包含步數智能體訓練條件參數;
31、步驟2-3:在前1000步訓練中,屬于探索階段,每個回合開始時智能體向交互環境服務程序請求隨機時刻的狀態信息;
32、步驟2-4:交互環境服務程序讀取當前時刻的qs文件,以及下一時刻的qs文件,解析其中的數據并返回智能體需要的觀測狀態數據;
33、步驟2-5:智能體收到觀測狀態數據后,將其作為輸入,使用actor網絡得到[-1,1]區間的機組調節輸出值;
34、步驟2-6:對步驟2-5中獲得的輸出值進行后處理,在訓練過程中,直接使用下一時刻的實際負荷值作為下一時刻的負荷預測值,實現機組出力與預測負荷值的平衡調節,得到機組的實際出力值;
35、步驟2-7:智能體將機組的實際出力值返回交互環境服務程序,交互環境服務程序收到機組的實際出力值后,將其直接替換下一時刻qs文件中對應機組的出力值,并進行潮流計算,再將潮流計算后生成的qs文件,以及再下一時刻的qs文件中提取的數據作為下一時刻的觀測狀態返回智能體,同時返回潮流計算后的越限信息;
36、步驟2-8:智能體收到數據后,首先根據越限信息,計算此次動作的獎勵值,并將其與此次動作的當前時刻觀測狀態、當前動作、下一時刻觀測狀態作為一條數據一起存入訓練數據緩存中,以供后續學習使用;
37、步驟2-9:此時智能體次回合的訓練步數加1,總訓練步數加1,回到步驟2-5的操作;當回合步數達到12時則結束此回合,總回合數加1,并開始新回合的訓練。當總訓練數達到步驟2-2中設定的參數時,智能體訓練完成,保存訓練參數,退出程序結束訓練;
38、步驟2-10:當1000步訓練完成后,屬于應用階段,除了每回合開始時按步驟2-3到步驟2-9的流程執本文檔來自技高網...
【技術保護點】
1.一種電網運行風險控制策略生成方法,其特征在于,包括:
2.根據權利要求1所述的電網運行風險控制策略生成方法,其特征在于,步驟1具體包括:
3.根據權利要求2所述的電網運行風險控制策略生成方法,其特征在于,在步驟1-1中,構建潮流越限消除智能體的動作空間,也就是確定智能體的動作空間如下公式(1)所示:
4.根據權利要求3所述的電網運行風險控制策略生成方法,其特征在于,在步驟1-2中,構建如下公式(3)所示的潮流越限獎勵函數:
5.根據權利要求4所述的電網運行風險控制策略生成方法,其特征在于,在步驟1-3中,智能體在經過深度神經網絡生成決策之后,屬于歸一化之后范圍在[-1,1]的數值,需要結合機組的可調范圍,再將其映射為具體的機組出力值。
6.根據權利要求5所述的電網運行風險控制策略生成方法,其特征在于,在后處理過程中,以下一時刻預測負荷值之和為調節目標,即作為各機組出力之和,并且根據每臺機組在此時刻的可調節范圍,按設定比例分配調節量,最終實現機組出力之和等于預測負荷值之和。
7.根據權利要求6所述的電網運行
8.根據權利要求7所述的電網運行風險控制策略生成方法,其特征在于,步驟2具體包括:
9.根據權利要求8所述的電網運行風險控制策略生成方法,其特征在于,電網運行風險控制策略生成方法,還包括:將訓練好的智能體置于在線應用,其在線決策流程如下:
10.一種電網運行風險控制策略生成系統,其特征在于,包括:
...【技術特征摘要】
1.一種電網運行風險控制策略生成方法,其特征在于,包括:
2.根據權利要求1所述的電網運行風險控制策略生成方法,其特征在于,步驟1具體包括:
3.根據權利要求2所述的電網運行風險控制策略生成方法,其特征在于,在步驟1-1中,構建潮流越限消除智能體的動作空間,也就是確定智能體的動作空間如下公式(1)所示:
4.根據權利要求3所述的電網運行風險控制策略生成方法,其特征在于,在步驟1-2中,構建如下公式(3)所示的潮流越限獎勵函數:
5.根據權利要求4所述的電網運行風險控制策略生成方法,其特征在于,在步驟1-3中,智能體在經過深度神經網絡生成決策之后,屬于歸一化之后范圍在[-1,1]的數值,需要結合機組的可調范圍,再將其映射為具體的機組出力值。
6.根據權利要求5所述的電網運行風險控制策略生成方法,其特征在于,在后處理過程中,以下一時刻預測負荷值之和為調...
【專利技術屬性】
技術研發人員:常鵬,王運,蘇波,蒙飛,孫陽,李金東,楊宏,王慶,孫原,徐建忠,
申請(專利權)人:國網寧夏電力有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。