本發(fā)明專利技術(shù)涉及電力系統(tǒng)決策技術(shù)領(lǐng)域,尤其涉及一種基于改進MA?DDQN的發(fā)電商競價決策方法,旨在通過將發(fā)電商建模為多個智能體,利用MA?DDQN模型優(yōu)化其競價策略,以最大化收益,所述方法包括:首先,將發(fā)電商建模為多個智能體,并利用MA?DDQN模型優(yōu)化其競價策略,以最大化收益。其次,通過與獨立系統(tǒng)運營商(ISO)的交互,每個智能體提交報價并根據(jù)反饋調(diào)整策略,模型在模擬競價過程中不斷學(xué)習(xí)。最后,基于該方法,發(fā)電商可以在動態(tài)電力市場中實現(xiàn)智能化決策,從而提高其市場競爭力。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及電力系統(tǒng)決策,尤其涉及一種基于改進ma-ddqn的發(fā)電商競價決策方法。
技術(shù)介紹
1、在電力市場中,發(fā)電商的競價決策是影響市場效率和發(fā)電商收益的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的發(fā)電商競價決策方法通常基于以下幾種:
2、基于博弈論的競價決策方法:在博弈論框架下,發(fā)電商通過分析其他市場參與者的策略和市場狀態(tài),制定自己的報價策略。經(jīng)典的博弈模型包括納什均衡、斯塔克博弈等。然而,博弈論模型通常假設(shè)參與者具有完全理性,并且可以獲取對方的決策信息。在實際電力市場中,信息不完全、不對稱,市場環(huán)境復(fù)雜,導(dǎo)致博弈模型的實際應(yīng)用存在一定局限性,難以有效應(yīng)對市場的不確定性和動態(tài)性。
3、基于線性規(guī)劃或混合整數(shù)規(guī)劃的優(yōu)化方法:這種方法通過建立數(shù)學(xué)優(yōu)化模型,將發(fā)電商的收益最大化或成本最小化作為目標(biāo),考慮發(fā)電成本、市場價格、負(fù)荷需求等約束條件,求解最優(yōu)競價方案。然而,由于電力市場是一個高度動態(tài)和不確定的環(huán)境,傳統(tǒng)的優(yōu)化方法難以處理市場中復(fù)雜的約束條件和非線性特性。同時,隨著市場規(guī)模的增大,計算復(fù)雜性迅速增加,難以在合理的時間內(nèi)獲得最優(yōu)解。
4、基于機器學(xué)習(xí)的競價策略:近年來,隨著人工智能技術(shù)的發(fā)展,機器學(xué)習(xí)方法逐漸應(yīng)用于發(fā)電商競價決策中。例如,q-learning、深度q網(wǎng)絡(luò)(dqn)等強化學(xué)習(xí)方法可以通過與環(huán)境的不斷交互,逐步學(xué)習(xí)最優(yōu)的競價策略。然而,傳統(tǒng)的dqn在多代理場景中存在局限性,難以有效處理多個發(fā)電商之間的協(xié)作與競爭。同時,dqn的訓(xùn)練過程對環(huán)境變化的響應(yīng)較慢,在面對動態(tài)市場環(huán)境時,策略的自適應(yīng)性較差。
5、綜上所述,現(xiàn)有技術(shù)在處理電力市場競價決策時,或因?qū)κ袌霾淮_定性和非線性的應(yīng)對不足,或因難以處理多代理競爭與協(xié)作問題,導(dǎo)致競價策略的效果不夠理想。
技術(shù)實現(xiàn)思路
1、有鑒于此,本專利技術(shù)的目的在于提出一種基于改進ma-ddqn的發(fā)電商競價決策方法,以解決現(xiàn)有方法給出的競價策略的效果不夠理想的問題。
2、基于上述目的,本專利技術(shù)提供了一種基于改進ma-ddqn的發(fā)電商競價決策方法,包括以下步驟:
3、s1、將多個發(fā)電商分別建模為多個獨立的智能體,構(gòu)建多智能體ddqn模型,多智能體ddqn模型包括智能體、環(huán)境、狀態(tài)、動作;
4、s2、在多智能體ddqn模型中構(gòu)建online?network和target?network,并初始化網(wǎng)絡(luò)狀態(tài);
5、s3、輸入當(dāng)前時刻狀態(tài)s,計算各動作對應(yīng)的q值;
6、s4、計算動態(tài)概率ε,并判斷是否大于等于隨機數(shù)random,若是則選擇q值最大的動作a,否則隨機選擇動作a;
7、s5、提交動作給獨立系統(tǒng)運營商,根據(jù)動作a,計算當(dāng)前時刻獎勵r;
8、s6、執(zhí)行動作a,更新狀態(tài)s,得到下一時刻狀態(tài)s’,將(s,a,r,s’)存儲到經(jīng)驗池;
9、s7、重復(fù)步驟s3-s6達到預(yù)先設(shè)定的m次;
10、s8、從經(jīng)驗池中隨機抽取樣本訓(xùn)練ddqn網(wǎng)絡(luò),計算損失函數(shù),并進行梯度下降,每隔n次更新targetnetwork;
11、s9、重復(fù)步驟s3-s8達到訓(xùn)練次數(shù)上限,得到最終選擇的動作,即得到發(fā)電商報價結(jié)果。
12、優(yōu)選的,多智能體ddqn模型中;
13、環(huán)境為整個電力市場,iso是環(huán)境的反饋者,iso根據(jù)所有發(fā)電商提交的競價曲線進行出清,并向所有發(fā)電商反饋系統(tǒng)負(fù)荷總水平、該發(fā)電商中標(biāo)電量和節(jié)點電價;
14、狀態(tài)為在計算某一時段的發(fā)電商報價系數(shù)時,基于前一次競價的歷史數(shù)據(jù),將前一個時段的系統(tǒng)負(fù)荷和節(jié)點電價、當(dāng)前時段的系統(tǒng)負(fù)荷和節(jié)點電價共四個已知量;
15、動作為發(fā)電商i在時段h選擇的三段式報價系數(shù)khin,其中n取1或2或3;
16、獎勵為通過發(fā)電商出清計算得到的收益fgi;
17、
18、其中,fgi為發(fā)電商i的收益,ci為發(fā)電商i的燃料成本函數(shù),λh為g個發(fā)電商h時刻的出清價格,phgi為發(fā)電商i在h時刻的出清電量,為發(fā)電商i在h時刻的第n段申報電量,其中ai、bi是發(fā)電商i成本的二次項和一次項系數(shù)。
19、優(yōu)選的,步驟s2中,初始化網(wǎng)絡(luò)狀態(tài)包括:
20、初始化兩個網(wǎng)絡(luò)參數(shù),online?network的網(wǎng)絡(luò)參數(shù)記為θ,targetnetwork的網(wǎng)絡(luò)參數(shù)記為θ’,初始化狀態(tài)s=(0,0,λ0,p0gi),將前一個時段的系統(tǒng)負(fù)荷和節(jié)點電價、當(dāng)前時段的系統(tǒng)負(fù)荷和節(jié)點電價設(shè)置為初始值,其中λ0為g個發(fā)電商0時刻的出清價格,p0gi為發(fā)電商i在0時刻的出清電量。
21、優(yōu)選的,步驟s3中,輸入當(dāng)前時刻狀態(tài)s,計算各動作對應(yīng)的q值包括:
22、輸入當(dāng)前時刻狀態(tài)s,計算各動作a在n時刻對應(yīng)的q值qn(s,a|θ)。
23、優(yōu)選的,步驟s4中,根據(jù)以下公式計算動態(tài)概率ε:
24、
25、tk=δk*t0
26、q(s,ar)為根據(jù)均勻隨機策略選擇的動作ar對應(yīng)的q值,q(s,ag)為當(dāng)前環(huán)境下的最大q值,tk為第k次模擬退火過程對應(yīng)的溫度,t0為初始溫度,δ為降溫系數(shù)。
27、優(yōu)選的,步驟s6中,執(zhí)行動作a,更新狀態(tài)s,得到下一時刻狀態(tài)s’包括:將h更新為下一個時刻,iso根據(jù)的出清模型計算當(dāng)前節(jié)點電價λh和出清電量phgi
28、s‘=(λh-1,ph-1gi,λh,phgi)。
29、優(yōu)選的,步驟s8中,計算損失函數(shù)的公式為:
30、l(θ)=([rn+γmaxqn(sn+1,a′∣θ′)]-qn(s,a∣θ))2。
31、其中,l(θ)表示損失函數(shù),rn表示第n時刻的獎勵,γ表示折扣因子,θ為onlinenetwork的網(wǎng)絡(luò)參數(shù),θ'為targetnetwork的網(wǎng)絡(luò)參數(shù),qn(s,a|θ)為動作a在n時刻對應(yīng)的q值,qn(sn+1,a'|θ')為在n+1時刻,在狀態(tài)為sn+1下選擇動作a'對應(yīng)的targetnetwork網(wǎng)絡(luò)的q值。
32、本專利技術(shù)的有益效果:本專利技術(shù)通過ma-ddqn模型在發(fā)電商競價決策場景下的應(yīng)用,能夠幫助發(fā)電商通過模擬多輪競價過程,學(xué)習(xí)到最優(yōu)的報價策略。通過將發(fā)電商的收益函數(shù)作為獎勵機制,ma-ddqn可以逐步調(diào)整各智能體的競價行為,使其在復(fù)雜的市場環(huán)境中提高收益。同時,雙網(wǎng)絡(luò)結(jié)構(gòu)(online?network和targetnetwork)的引入,可以進一步提高模型的穩(wěn)定性,減少策略更新過程中的振蕩和過估計問題。這種基于ma-ddqn的發(fā)電商競價決策方法為發(fā)電商提供了一個智能化的競價工具,有望在未來的電力市場中得到廣泛應(yīng)用。
本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,所述多智能體DDQN模型中;
3.根據(jù)權(quán)利要求1所述的基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,步驟S2中,初始化網(wǎng)絡(luò)狀態(tài)包括:
4.根據(jù)權(quán)利要求1所述的基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,步驟S3中,輸入當(dāng)前時刻狀態(tài)s,計算各動作對應(yīng)的Q值包括:
5.根據(jù)權(quán)利要求1所述的基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,步驟S4中,根據(jù)以下公式計算動態(tài)概率ε:
6.根據(jù)權(quán)利要求1所述的基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,步驟S6中,執(zhí)行動作a,更新狀態(tài)s,得到下一時刻狀態(tài)s’包括:將h更新為下一個時刻,ISO根據(jù)的出清模型計算當(dāng)前節(jié)點電價λh和出清電量PhGi
7.根據(jù)權(quán)利要求1所述的基于改進MA-DDQN的發(fā)電商競價決策方法,其特征在于,步驟S8中,計算損失函數(shù)的公式為:
【技術(shù)特征摘要】
1.一種基于改進ma-ddqn的發(fā)電商競價決策方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于改進ma-ddqn的發(fā)電商競價決策方法,其特征在于,所述多智能體ddqn模型中;
3.根據(jù)權(quán)利要求1所述的基于改進ma-ddqn的發(fā)電商競價決策方法,其特征在于,步驟s2中,初始化網(wǎng)絡(luò)狀態(tài)包括:
4.根據(jù)權(quán)利要求1所述的基于改進ma-ddqn的發(fā)電商競價決策方法,其特征在于,步驟s3中,輸入當(dāng)前時刻狀態(tài)s,計算各動作對應(yīng)的q值包括:
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張曄,蒯繼鵬,夏楠楠,趙適宜,張凱,
申請(專利權(quán))人:遼寧電力交易中心有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。