基于混合動作空間的電動汽車充放電決策方法技術

技術編號：43771686 閱讀：16 留言：0更新日期：2024-12-24 16:11

本發明專利技術提供基于混合動作空間的電動汽車充放電決策方法，涉及電動汽車技術領域。該方法具體包括：構建包括若干個電動汽車充電模型的多智能體充電系統；分別構建狀態空間、混合動作空間和獎賞函數；采用混合動作空間多智能體軟動作?評論算法為多智能體充電系統構建多智能體強化學習框架并進行初始化；獲取t時刻電動汽車的狀態，再利用初始化后的多智能體強化學習框架得到t時刻電動汽車選擇的連續動作、t時刻電動汽車的瞬時獎勵和t+1時刻電動汽車的狀態，并放入經驗池；從經驗池從隨機抽取數據樣本并輸入到多智能體強化學習框架中訓練網絡參數，得到訓練好的多智能體強化學習框架，用于解決電動汽車的充放電決策問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及電動汽車，尤其涉及一種基于混合動作空間的電動汽車充放電決策方法。

技術介紹

1、電動汽車是一種以電池為動力的汽車，與傳統的內燃機汽車相比，電動汽車在環保、能源利用、經濟性和技術發展等方面都具有重要優勢。

2、電動汽車數量的激增給充電設施的加強帶來了新的挑戰。然而，現有的公共充電基礎設施遠遠不能滿足現有的充電需求，很大一部分用戶仍然選擇家庭充電樁進行充電。電動汽車與電網之間的電能交換涉及到電網到車輛(grid-to-vehicle，g2v)和車輛到電網(vehicle-to-grid，v2g)兩種模式，其中前者是從電網獲取電能的充電模式，而后者是在放電模式下將電能傳輸到電網。合理控制電動汽車的充放電功率對用戶和電網都能帶來一定的經濟效益，因此，對電動汽車實施充電管理是十分必要的。

3、在電動汽車充電管理問題中，用戶行為的隨機性包括充電開始時間、充電結束時間和電池狀態等變量，這種隨機性增加了電動汽車充電管理系統的不確定性和解決問題的難度。此外，電動汽車的充電管理問題很難用一個準確的數學模型來描述，因此傳統優化方法很難進行求解。針對不確定環境且難以建模的順序決策問題，強化學習算法將成為一種非常有效的解決方法，但是現有研究并未考慮交通擁堵對于充電周期的影響，且傳統強化學習算法僅針對電動汽車充電功率進行控制，并不適用于離散-連續混合控制問題。

技術實現思路

1、針對上述現有技術的不足，本專利技術基于多智能體強化學習，提出了一種基于混合動作空間的電動汽車充

2、本專利技術提出的一種基于混合動作空間的電動汽車充放電決策方法，該方法包括如下步驟：

3、步驟1：將一個電動汽車視為一個智能體，構建包括若干個電動汽車充電模型的多智能體充電系統；

4、步驟2：構建狀態空間；

5、步驟3：構建混合動作空間；

6、步驟4：構建獎賞函數；

7、步驟5：采用混合動作空間多智能體軟動作-評論has-masac算法為多智能體充電系統構建多智能體強化學習框架并進行初始化；

8、步驟6：獲取t時刻電動汽車的狀態，再利用初始化后的多智能體強化學習框架得到t時刻電動汽車選擇的連續動作、t時刻電動汽車的瞬時獎勵和t+1時刻電動汽車的狀態，并將上述數據放入經驗池d；

9、步驟7：從經驗池d從隨機抽取數據樣本，并將抽取到的數據樣本輸入到多智能體強化學習框架，對多智能體強化學習框架中的網絡參數進行訓練，得到訓練好的多智能體強化學習框架；

10、步驟8：調用訓練好的多智能體強化學習框架解決電動汽車的充放電決策問題；

11、步驟1中所述電動汽車充電模型，包括：電動汽車充電行為選擇和充電結束時間行為選擇；

12、所述電動汽車充電行為選擇為：根據電價和電動汽車電池電量選擇由電網到車輛g2v的充電模式或由車輛到電網v2g的放電模式，并且連續控制電動汽車的充電功率或放電功率；

13、所述充電模式為從電網獲取電力以補充電動汽車的電池電量；所述放電模式為電動汽車通過向電網反饋電能來獲得利潤；

14、所述充電結束時間行為選擇為：在一個充電周期內包含若干個充電時隙，計算電動汽車在一個充電周期內獲取的總利潤，所述總利潤為電動汽車在放電模式下獲取的利潤與電動汽車在充電模式下產生的成本之間的差值，當總利潤在該充電周期內實現最大化時，結束電動汽車的充電動作；

15、步驟2中所述狀態空間為：假設狀態空間內包括n個電動汽車的狀態，對于任意一個電動汽車i，t時刻電動汽車i的狀態包括：環境狀態和電動汽車狀態；所述環境狀態，包括：t時刻的實時電價、以t時刻為基準過去的若干個小時內的歷史電價以及根據電動汽車i所在地區在t時刻的交通擁堵情況計算出的inrix指數；所述電動汽車狀態，包括：電動汽車i在t時刻的荷電狀態soc和電動汽車i的預期剩余充電時長，所述預期剩余充電時長為電動汽車i的預期充電結束時間與當前t時刻的差值；

16、所述t時刻電動汽車i的狀態用一個向量表示為：

17、

18、其中表示t時刻電動汽車i的環境狀態；pt表示t時刻的實時電價；pt-23表示以t時刻為基準過去23小時內的歷史電價；表示t時刻電動汽車i的荷電狀態；表示t時刻電動汽車i的預期剩余充電時長；it表示電動汽車i所在地區在t時刻的inrix指數；

19、步驟3中所述混合動作空間的構建方法為：假設混合動作空間內包括n個電動汽車選擇的動作，定義離散動作空間k，用于描述當前時刻電動汽車是否結束充電，記為k＝{0,1}，其中1表示當前時刻電動汽車結束充電；0表示當前時刻電動汽車未結束充電；對于任意一個電動汽車i，t時刻電動汽車i選擇的動作表示為：

20、

21、其中為t時刻電動汽車i選擇的動作；為t時刻電動汽車i的離散動作，用于表示t時刻電動汽車i的充電狀態，且其中表示電動汽車結束當前充電回合；反之，則表示電動汽車繼續當前充電回合；為t時刻電動汽車i的連續動作，用于表示t時刻電動汽車i的充放電功率，即作為一個連續變量，且其中cmax是充電設備的最大充放電功率邊界；

22、步驟4中所述獎賞函數表示為：

23、

24、其中rit表示t時刻電動汽車i的瞬時獎勵值；po是過載懲罰，用于協調多個電動汽車的充電功率，防止過載；aci是由于交通擁堵對電動汽車i造成的焦慮程度；ati是由于電動汽車i的實際充電結束時間與預期充電結束時間之間的偏差而造成的時間焦慮；ari是電動汽車i的里程焦慮；pci是t時刻電動汽車i的充電成本；socmax表示電動汽車的最大電池容量；kpo表示變壓器過載懲罰系數；pomax表示變壓器最大容量；為用于反映電動汽車i對電價的關注程度的參數；為用于反映電動汽車i對交通擁堵的關注程度的參數；為用于反映電動汽車i對時間偏差的關注程度的參數；為用于反映電動汽車i對里程焦慮的關注程度的參數；

25、步驟5中所述多智能體強化學習框架為：對于多智能體充電系統中的n個電動汽車，為每一個電動汽車構建一個強化學習網絡，所述多智能體強化學習框架由n個強化學習網絡共同組成；所述強化學習網絡由actor網絡、第一critic網絡、第二critic網絡、第一目標critic網絡和第二目標critic網絡構成；

26、所述對多智能體強化學習框架進行初始化的方法為：分別初始化多智能體強化學習框架中的n個actor網絡n個第一critic網絡n個第二critic網絡n個第一目標critic網絡和n個第二目標critic網絡其中i＝1,2,…,n；θ表示actor網絡的網絡參數；φ表示critic網絡的網絡參數；表示目標critic網絡的網絡參數；

27、所述步驟6進一步包括：

28、步驟6.1：獲取t時刻電動汽車本文檔來自技高網...

【技術保護點】

1.一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，該方法包括如下步驟：

2.根據權利要求1所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟1中所述電動汽車充電模型，包括：電動汽車充電行為選擇和充電結束時間行為選擇；

3.根據權利要求1所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟2中所述狀態空間為：假設狀態空間內包括N個電動汽車的狀態，對于任意一個電動汽車i，t時刻電動汽車i的狀態包括：環境狀態和電動汽車狀態；所述環境狀態，包括：t時刻的實時電價、以t時刻為基準過去的若干個小時內的歷史電價以及根據電動汽車i所在地區在t時刻的交通擁堵情況計算出的INRIX指數；所述電動汽車狀態，包括：電動汽車i在t時刻的荷電狀態SoC和電動汽車i的預期剩余充電時長，所述預期剩余充電時長為電動汽車i的預期充電結束時間與當前t時刻的差值；

4.根據權利要求3所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟3中所述混合動作空間的構建方法為：假設混合動作空間內包括N個電動汽車選擇的動作，定義離散動作空間

5.根據權利要求4所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟4中所述獎賞函數表示為：

6.根據權利要求5所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟5中所述多智能體強化學習框架為：對于多智能體充電系統中的N個電動汽車，為每一個電動汽車構建一個強化學習網絡，所述多智能體強化學習框架由N個強化學習網絡共同組成；所述強化學習網絡由Actor網絡、第一Critic網絡、第二Critic網絡、第一目標Critic網絡和第二目標Critic網絡構成；

7.根據權利要求6所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，所述步驟6進一步包括：

8.根據權利要求7所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，所述步驟7進一步包括：

9.根據權利要求8所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟7.2中所述兩個Critic網絡的網絡參數的更新均采用Critic網絡的損失函數實現，該損失函數表示為：

10.根據權利要求9所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟7.3中所述連續動作的對應Q值的表達式為：

...

【技術特征摘要】

1.一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，該方法包括如下步驟：

3.根據權利要求1所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟2中所述狀態空間為：假設狀態空間內包括n個電動汽車的狀態，對于任意一個電動汽車i，t時刻電動汽車i的狀態包括：環境狀態和電動汽車狀態；所述環境狀態，包括：t時刻的實時電價、以t時刻為基準過去的若干個小時內的歷史電價以及根據電動汽車i所在地區在t時刻的交通擁堵情況計算出的inrix指數；所述電動汽車狀態，包括：電動汽車i在t時刻的荷電狀態soc和電動汽車i的預期剩余充電時長，所述預期剩余充電時長為電動汽車i的預期充電結束時間與當前t時刻的差值；

4.根據權利要求3所述一種基于混合動作空間的電動汽車充放電決策方法，其特征在于，步驟3中所述混合動作空間的構建方法為：假設混合動作空間內包括n個電動汽車選擇的動作，定義離散動作空間k，用于描述當前時刻電動汽車是否結束充電，記為k＝{0,1}，其中1表示當前時刻電動汽車結束充電；0表示當前時刻電動汽車未結束充電；對于任意一個...

【專利技術屬性】
技術研發人員：趙強，劉慧，韓英華，
申請(專利權)人：東北大學秦皇島分校，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術