System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及電力系統運行和控制,具體涉及一種基于多智能體深度強化學習的電壓越限控制系統和方法。
技術介紹
1、分布式光伏接入電網導致潮流走向發生改變,可能帶來電壓越限、線路損耗等問題。同時,光伏發電具有間歇性、隨機性、不確定性,其易造成電壓波動,電能質量降低,無法保證用戶負荷的可靠供電。因此,隨著分布式光伏大量接入電網,對電網的安全、穩定運行帶來了巨大挑戰。
2、防止電網電壓越限是實現電網運行風險控制的主要手段之一。電網的電壓越限控制主要目標是將各節點的電壓維持在可行范圍內,并盡可能降低網損,其是通過調整無功設備的出力來實現電壓控制。電網電壓越限控制方法主要包括集中式控制和分布式控制。集中式控制通過采集整個電網的信息,將所采集的信息傳送到中央處理單元,由中央處理單元進行最優潮流計算后發出調度指令;分布式控制主要通過的局部與相鄰區域信息進行交互實現電網的電壓控制。然而,上述方法均是基于精確的物理模型得以實現的,在實際中,電網的運行參數難以精確獲得,由此限制了這些方法的應用。強化學習是一種無模型的數據驅動方法,其不依賴于系統精確化的參數,通過與環境進行交互,不斷試錯,以學習到最優的控制策略。
3、基于傳統強化學習進行電壓越限控制時,通常將所有無功設備視為統一的智能體。然而,由于通信負擔、控制延遲等限制,將無功設備視為統一智能體的方式在進行電網電壓越限控制時,容易導致控制效率低、控制效果差等問題。
技術實現思路
1、本專利技術的目的就是針對現有技術的缺陷,提供一
2、本專利技術提供一種基于多智能體深度強化學習的電壓越限控制系統,包括:
3、電網區域劃分模塊,用于將電網劃分為若干個區域,每個區域內至少包括一個光伏設備;
4、光伏設備控制策略模型建立模塊,用于針對電網各區域的光伏設備,采用部分可觀察馬爾科夫決策過程進行建模,得到光伏設備控制策略模型;
5、光伏設備控制策略輸出模塊,用于將每個區域的電網當前運行參數均輸入光伏設備控制策略模型,使用雙延遲深度確定性策略梯度算法對光伏設備控制策略模型進行求解,得到各光伏逆變器的無功功率并輸出至對應區域的電網以控制各節點的電壓在預設范圍內。
6、進一步的,所述光伏設備控制策略模型建立模塊中,針對電網各區域的光伏設備,采用部分可觀察馬爾科夫決策過程進行建模,得到光伏設備控制策略模型的具體方法為:
7、首先,建立部分可觀察馬爾科夫決策過程:{s,o,a,r,t1,γ},其中,s表示電網的狀態集合,o、a、r分別表示光伏設備的觀測集合、動作集合和獎勵集合,t1為狀態轉移函數,狀態轉移函數t1表示電網根據當前狀態和動作轉移到下一狀態的概率,γ為折扣率,折扣率γ表示光伏設備對未來獎勵的關注度,γ越大則光伏設備越重視未來獎勵;
8、然后,利用光伏逆變器輸出的無功功率解決電壓越限控制問題,電壓越限控制的目標函數f為:
9、
10、式中,t總為總控制周期,m為電網中的節點數量,qpv,n,t為t時刻第n個光伏逆變器的無功功率,vm,t為t時刻節點m的電壓越限量,δ為電壓越限附加懲罰值,ploss,t為t時刻線路損耗,α為網損系數,β為節點電壓越限懲罰系數;
11、再進一步的,所述部分可觀測馬爾科夫決策過程中變量的表示具體如下:
12、電網的狀態集合表示如下:
13、
14、式中:s是電網在t時刻的狀態集合,pl,m,t和ql,m,t分別為t時刻節點m處的有功負荷和無功負荷,如果節點m處沒有負荷或光伏設備,則負荷或光伏設備相應的功率為0,st為電網在t時刻的狀態,ppv,m,t為t時刻節點m處的光伏逆變器的有功功率,qpv,m,t為t時刻節點m處光伏逆變器的無功功率,vm,t和θm,t分別為t時刻節點m處的電壓幅值和向角,t表示矩陣轉置;
15、光伏設備的觀測集合表示如下:
16、
17、式中:o為所有光伏設備在時刻t的觀測集合,on,t表示第n個光伏設備觀測的其所在區域節點m處的有功負荷和無功負荷和節點m處的光伏逆變器的有功功率和無功功率組成的向量,n=1,…,n為光伏設備的數量,單個光伏設備只能觀測該光伏設備所屬區域內的節點的狀態和光伏逆變器的狀態;
18、光伏設備的動作集合表示如下:
19、a={an,t|n=1,2,…,n}
20、式中:a為所有光伏設備在t時刻的動作集合,an,t為第n個光伏設備在t時刻所有可能動作的集合,動作an,t∈at且an,t=qpv,n,t,qpv,n,t為t時刻光伏逆變器n的無功功率;
21、獎勵集合表示如下:
22、rt=-αploss,t-β(vm,t+δ)∈r
23、式中,rt為獎勵函數,vm,t為t時刻節點m的電壓越限量;
24、狀態轉移函數t1:
25、狀態轉移函數t1表示光伏設備在狀態st下執行動作an,t后下一時刻狀態的概率分布,狀態轉移定義為光伏設備根據當前環境觀測并依據自身的策略控制逆變器的輸出進行無功補償,使電網潮流重新分布,節點電壓和線路損耗發生改變,光伏有功功率和負荷功率隨機波動,由此轉移到下一時刻的狀態。
26、還進一步的,所述光伏設備控制策略輸出模塊,將電網當前運行參數輸入光伏設備控制策略模型,使用雙延遲深度確定性策略梯度算法對光伏設備控制策略模型進行求解的具體方法為:
27、雙延遲深度確定性策略梯度算法包括策略網絡和價值網絡,將電網當前運行參數:電網當前狀態st和觀測on,t,作為策略網絡的輸入,輸出為動作an,t,定義動作an,t為光伏逆變器n在時刻t的無功功率,各光伏設備通過與各自所處區域的電網環境持續進行如下交互:光伏逆變器n執行動作an,t之后,狀態由st轉移至st+1,觀測由ot轉移至ot+1并得到當前電網環境下的獎勵rt,將狀態轉移和獎勵反饋給光伏設備,得到{st,ot,at,rt,st+1,ot+1};將{st,ot,at,rt,st+1,ot+1}存放在雙延遲深度確定性策略梯度算法的經驗回放池中,并從經驗回放池中隨機抽取狀態、觀測、動作和獎勵進行訓練,更新策略網絡的參數,策略網絡參數根據最大化累積期望獎勵進行更新;
28、策略網絡用于根據當前電網的狀態輸出光伏設備的動作,策略網絡表示為最大化策略函數j(π),公式如下:
29、j(π)=es,o~ξ[qπ(st,ot,π(st,ot;θ))]
30、式中,最大化策略函數j(π)表示能夠獲得的期望獎勵,ξ表示在當前狀態和觀測下策略π的分布,策略π定義為光伏設備在狀態st下執行動作at,e表示數學期望,s,o~ξ表示狀態和觀測服從分布ξ,qπ(st,ot,π(st,ot;θ))為在當前狀態和觀測下執行策略π的價值,θ為策略網絡的參數;
31、采用梯度本文檔來自技高網...
【技術保護點】
1.一種基于多智能體深度強化學習的電壓越限控制系統,其特征在于,包括:
2.根據權利要求1所述的基于多智能體深度強化學習的電壓越限控制系統,其特征在于:
3.根據權利要求2所述的基于多智能體深度強化學習的電壓越限控制系統,其特征在于:
4.根據權利要求3所述的基于多智能體深度強化學習的電壓越限控制系統,其特征在于:
5.一種基于多智能體深度強化學習的電壓越限控制方法,其特征在于,包括以下步驟:
6.根據權利要求5所述的基于多智能體深度強化學習的電壓越限控制方法,其特征在于:
7.根據權利要求6所述的基于多智能體深度強化學習的電壓越限控制方法,其特征在于:
8.根據權利要求7所述的基于多智能體深度強化學習的電壓越限控制方法,其特征在于:
9.一種電子設備,其特征在于,包括:存儲器和處理器,所述存儲器和所述處理器之間互相通信連接,所述存儲器存儲有計算機指令,所述處理器通過執行所述計算機指令,從而執行如權利要求5-8任一項所述的基于多智能體深度強化學習的電壓越限控制方法。
10.
...【技術特征摘要】
1.一種基于多智能體深度強化學習的電壓越限控制系統,其特征在于,包括:
2.根據權利要求1所述的基于多智能體深度強化學習的電壓越限控制系統,其特征在于:
3.根據權利要求2所述的基于多智能體深度強化學習的電壓越限控制系統,其特征在于:
4.根據權利要求3所述的基于多智能體深度強化學習的電壓越限控制系統,其特征在于:
5.一種基于多智能體深度強化學習的電壓越限控制方法,其特征在于,包括以下步驟:
6.根據權利要求5所述的基于多智能體深度強化學習的電壓越限控制方法,其特征在于:
7.根據權利要求6所述的基...
【專利技術屬性】
技術研發人員:付昊博,翟丙旭,張越,王睿卓,邱威,李遠卓,李膨源,張銳,逯洋,王明軒,高欣,袁漢杰,劉艷,單連飛,張昊,李晶,喬詠田,姜濤,王宇,
申請(專利權)人:國網冀北電力有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。