System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及屬于電力系統運行優化控制和計算機,具體涉及一種基于強化學習的配電網有功無功協同優化方法。
技術介紹
1、雙碳戰略和整縣屋頂光伏政策提出后,分布式屋頂光伏(pv)在配電網中的滲透率不斷增加,對配電系統的運行和控制構成了巨大的挑戰。大量pv的接入改變了傳統配電網的潮流分布,導致潮流倒送,對電壓質量和電力系統可靠性有著很大的影響。由于pv出力具有波動性、隨機性和間歇性,隨著pv的滲透率不斷上升,在眾多的技術挑戰中,電壓質量問題特別值得關注。電壓質量是電力系統電能質量的重要指標之一,在諸多電能質量問題中,電壓波動過大造成的危害最為廣泛:不但直接影響電氣設備的性能,還將給系統的穩定、安全運行帶來困難。伴隨著分布式能源和電動汽車的快速發展,配電網作為分布式能源與電動汽車充電樁等多元源荷接入的主要依托對象,同時也面臨著經濟安全穩定運行的巨大挑戰。無功優化與電壓控制作為配電網運行優化的關鍵技術,其通過對配電網中的無功補償設備的調節優化整體電網的無功潮流,具有優化電壓分布,緩解電壓越限,降低線路損耗,提高電能質量的重要作用。在當前高比例可再生能源接入和多樣化的可調設備參與的背景下,無功電壓優化控制技術的精確性和實時性高低是保證可再生能源接入與消納、維持配電網經濟安全運行的關鍵所在。
2、傳統的配電網電壓控制以電壓無功控制為主,主要通過調節有載調壓變壓器(on-load?tap?changer,oltc)的分接頭位置和電容器組的投切組數等方法來調節配電網的電壓。但oltc和電容器組的響應速度較慢且運維成本較高,不宜頻繁動作
3、傳統的數學優化方法,智能優化算法和隨機規劃方法不能有效地應對高度不確定的環境,并存在計算量大、容易陷入局部最優、依賴于準確的參數和模型和難以實現在線控制等問題。
4、電力系統中蘊含著海量的數據,為實現基于數據驅動的人工智能方法提供了數據支撐。數據驅動技術的內核是通過機器學習方法分析海量歷史數據,提取高密度價值信息,為配電網的規劃運行提供決策輔助。深度強化學習(drl)結合了深度學習的感知優勢和強化學習的決策優勢,屬于序貫決策算法的一種,與配電網無功優化問題的結構契合度較高。drl通過與復雜環境交互來學習具有泛化性的普適策略,不需要調整解析模型和重新求解具體決策。
5、然而,drl對于數據樣本量的需求較高,需要大量的環境互動樣本,一旦樣本量無法滿足要求,應用效果將大打折扣。同時,深度強化學習方法的神經網絡在提取特征方面的能力受限,且由于控制決策由神經網絡直接給出,機理不明,具有一定黑盒性質,drl采用歷史數據離線訓練智能體,完成訓練后將智能體部署在線上,系統在運行過程中可能出現在智能體訓練階段未遇到的極端情況,此時智能體給出的解的可行性和安全性難以保證,限制其在實際電力工程中的應用。
6、現有技術中,如中國專利文獻cn113363998a、cn113363997a、cn111799808a、cn111884213a;以及論文(廖文龍,于贇,王煜森,等.基于圖卷積網絡的配電網無功優化[j].電網技術,2021,45(6):2150-2160.)所公開的現有技術方案中,存在以下缺點:
7、1)傳統的數學優化方法,智能優化算法和隨機規劃方法不能有效地應對高度不確定的環境,并存在計算量大、容易陷入局部最優、依賴于準確的參數和模型和難以實現在線控制等問題;
8、2)基于有監督學習的方法在離線訓練階段需要一定數量的優化方法求出的最優決策作為“標簽”,這個過程通常會耗費較長的時間,計算成本較高;
9、3)ddpg、dqn等強化學習方法將調節設備視作單智能體,難以擴展到較大的系統中,隨著調節設備數量的增多,動作空間的維數呈爆炸式增長,很難有效地提供較優的策略;多智能體強化學習算法中的典型代表maddpg存在q值過高估計和訓練不穩定性等問題,而以多智能體雙延遲深度確定性策略梯度(multi-agent?twin?delayed?deepdeterministic?policy?gradient,matd3)為代表的算法雖然在一定程度上抑制了過估計問題,但當智能體數量增加時,網絡的輸入信息也會隨之增加,當擴展到具有較多智能體的大規模系統時,算法效率低下,表現較差。
10、4)強化學習作為數據驅動方法樣本需求量大、數據收集成本高且采樣效率低。配電網有功無功協同優化通常會面臨復雜的運行場景,例如負荷波動、光伏出力劇烈變化,現有強化學習方法中訓練數據集樣本質量不高,數據分布不均,難以覆蓋各種源荷出力情況,雖然歷史數據可提供部分數據來源,但由于電力系統的結構和規模在持續發生變化,導致有效數據數量少、樣本效率低等問題,使得強化學習模型在多變環境下的適應性較差。而傳統的基于生成對抗網絡的數據生成方法在訓練過程中容易出現模式崩潰,導致訓練失敗。
11、5)現有強化學習方法神經網絡架構的表征能力有限,在面對大規模的配電網時,通常會因為龐大的狀態空間和長時間依賴而難以有效優化;且配電網在實際應用中常面臨環境和負載的變化,而傳統強化學習方法在處理多樣化和變化迅速的環境時常缺乏泛化能力。
12、6)現有強化學習方法難以處理復雜的智能體動作約束,在制定獎勵函數時都是通過添加懲罰項的方式引導智能體尋找可行解,這種方式無法保證解的可行性。同時,由于控制決策由神經網絡直接給出,機理不明,現有強化學習方法一般采用“離線訓練在線執行”框架,離線完成訓練后將智能體部署在線上,系統在運行過程中可能出現在智能體訓練階段未遇到的極端情況,此時智能體給出的解的安全性難以保證。
技術實現思路
1、針對上述問題,本專利技術提出一種基于數據增強和混合增強智能的配電網有功無功協同優化方法。首先,基于生成擴散模型擴充未來調度場景數據,匯聚歷史運行數據,形成高質量的訓練數據集;然后,根據配電網有功功協同優化模型設計部分可觀測馬爾可夫決策過程(partially?observable?markov?decision?process,pomdp),利用嵌入transformer的多智能體演員-注意力-評論家(transformer-based?multi-agent?actor-attention-critic,t-maac)算法對模型進行求解;最后,利用訓練好的模型,在在線執行階段基于混合增強智能范式引入動作安全校核模塊,嚴格保證輸出動作的安全性。擴散模型提高了數據的質量和多樣性,transformer模型幫助提升drl表征能力,大大提高了算法的穩定性和學習效率。通過離線訓練-在線執行的混合智能框架,實現了配電網光伏逆變器、分布式儲能的有功無功協同優化控制。所提方法可以提供實時的電壓控制策略,自適應源荷不確定性,具有良好的實時性和控制經濟性。
2、本專利技術的目的至少通本文檔來自技高網...
【技術保護點】
1.一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S1包括如下步驟:
3.根據權利要求1所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S2中,建立配電網有功無功協同優化的馬爾科夫決策模型,通過優化配電網分布式光伏的無功出力和分布式儲能的有功功率來實現協同優化,具體如下:
4.根據權利要求3所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S2中,在每個時間步中,每個智能體通過動作網絡根據觀測量做出最優動作,然后根據獎勵函數獲得即時的獎勵;每個智能體的目標是學習最優策略以最大化累積獎勵;在所有智能體都執行完最優動作之后,POMDP將轉移到下一個狀態。
5.根據權利要求4所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S3所述T-MAAC離線集中式訓練模型中,將transformer模塊嵌入智能體的動作網絡架構中,將注意力權重機制嵌入智
6.根據權利要求5所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,所述transformer模塊中,將原始狀態特征映射到輸入空間,生成各個智能體的嵌入表示:
7.根據權利要求6所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,智能體評價網絡的值計算公式如下:
8.根據權利要求7所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S3中,通過潮流計算模擬實際配電網的運行環境;采用經驗回放機制構建經驗池,儲存智能體與環境交互得到的樣本,以提高訓練穩定性和學習效率,復制動作網絡構建目標動作網絡,復制評價網絡構建目標評價網絡。
9.根據權利要求8所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S3中,離線訓練具體包括如下步驟:
10.根據權利要求9所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟S4中,利用訓練好的T-MAAC離線集中式訓練模型,在線智能生成優化策略,并通過引入混合增強智能范式的動作安全校核模塊嚴格保證輸出動作的安全性,具體流程如下:
...【技術特征摘要】
1.一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟s1包括如下步驟:
3.根據權利要求1所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟s2中,建立配電網有功無功協同優化的馬爾科夫決策模型,通過優化配電網分布式光伏的無功出力和分布式儲能的有功功率來實現協同優化,具體如下:
4.根據權利要求3所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟s2中,在每個時間步中,每個智能體通過動作網絡根據觀測量做出最優動作,然后根據獎勵函數獲得即時的獎勵;每個智能體的目標是學習最優策略以最大化累積獎勵;在所有智能體都執行完最優動作之后,pomdp將轉移到下一個狀態。
5.根據權利要求4所述的一種基于數據增強及混合增強智能的配電網無功優化方法,其特征在于,步驟s3所述t-maac離線集中式訓練模型中,將transformer模塊嵌入智能體的動作網絡架構中,將注意力權重機制嵌入智能體評價網絡中,動作網絡和評價網絡相互協同作用,各個智能體為合作關系,采取同構智能體參數...
【專利技術屬性】
技術研發人員:全歡,劉肇熙,劉紫罡,王文浩,戴逢哲,肖嘉睿,陳逸凡,祝敬華,
申請(專利權)人:華南理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。