結合元學習和近端策略優化算法的能源管理方法技術

技術編號：44160928 閱讀：18 留言：0更新日期：2025-01-29 10:32

本發明專利技術公開了一種結合元學習和近端策略優化算法的能源管理方法，屬于自動化技術領域。本發明專利技術在一系列不同的鋰電池/超級電容混動車任務上由內循環進行梯度更新，得到一組具有高度適應和泛化能力的參數；當內循環完成后，在外循環中通過整合多個任務的反饋重新更新基礎EMS控制器的全局參數，以使其能夠適應該輛新鋰電池/超級電容混動車的特征。在元測試階段進行參數微調，快速生成針對新的HEV控制對象且控制性能優良的新能源管理策略。在面對新的混合能源系統時，本發明專利技術的方法只需進行少量梯度下降計算步驟即可實現與基于傳統強化學習的能源管理策略相似的控制性能，為開發高適應性和高工業效率的混合動力系統能源管理策略提供了解決方案。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于自動化，尤其涉及一種結合元學習和近端策略優化算法的能源管理方法。

技術介紹

1、對于新能源混動車而言，合理的能源管理策略(ems)有助于節能降耗提高電池壽命。常用的能源管理策略設計算法包括模糊邏輯、動態規劃(dp)、模型預測控制(mpc)、強化學習(rl)等只能面對單一任務，即在算法訓練完成后，只能用于控制特定的車輛。如果將能源管理策略應用于其他車輛，即使僅僅是能源的參數發生細微變化，如鋰電池容量變化、鋰電池最大輸出功率約束變化等，整個控制策略也需要完全重新訓練。這些算法多次訓練的過程相互獨立，無法積累從先前訓練過程中獲得的經驗，重復而冗長的訓練過程導致效率低下。為了解決該問題，亟需將基于元強化學習算法的元能源管理策略快速適應到新的應用場景中，以便快速生成新的混動車能源管理策略。

技術實現思路

1、本專利技術的目的在于解決傳統能源管理策略無法適應新應用場景的限制，過程相互獨立，無法積累從先前訓練過程中獲得的經驗，重復而冗長的訓練過程導致效率低下的問題，并提供一種結合元學習和近端策略優化算法的能源管理方法。本專利技術的方法通過模型無關元學習算法(model-agnostic?meta-learning，maml)和近端策略優化(proximalpolicy?optimization，ppo)強化學習算法，設計一個能夠快速適應新控制對象的元能源管理策略，這種策略能夠在面對新的混合能源系統時，僅通過少量的梯度下降步驟實現控制性能，從而顯著提高控制系統的適應性和工業應用的效率。

2、為了實現上述專利技術目的，本專利技術具體采用如下技術方案：

3、一種結合元學習和近端策略優化算法的能源管理方法，其包括以下步驟：

4、s1.構建基礎ems控制器，將其作為能夠適應多種鋰電池和超級電容混合動力車的基礎控制器；

5、s2.在元訓練任務集準備階段，對不同電池和超級電容器的一組鋰電池和超級電容器混合動力車任務根據分布進行采樣形成一個任務集合，并根據鋰電池和超級電容器混合動力車的關鍵變量設置實際混動車鋰電池的額定容量變化范圍、超級電容器的額定容量變化范圍、鋰電池的峰值功率變化范圍以及超級電容器的峰值功率變化范圍，在設定的四種變化范圍內，隨機選擇若干種不同的參數組合，每種參數組合用于描述一輛鋰電池和超級電容器混合動力車；

6、s3.在元訓練階段，從任務集合中隨機抽樣選擇多個不同的鋰電池和超級電容混動車任務組成一個批次，在每個批次上由內循環操作更新基礎ems控制器參數；

7、s4.當內循環操作完成后，利用內循環操作更新后的基礎ems控制器參數在外循環操作中通過整合多個任務的反饋重新更新基礎ems控制器的全局參數，將外循環操作更新后的基礎ems控制器全局參數作為最終的基礎ems控制器參數，得到訓練好的基礎ems控制器；

8、s5.在元測試階段，對不同電池和超級電容器的一組鋰電池和超級電容器混合動力車任務根據分布進行采樣形成一個新的任務集合，從新的任務集合中隨機選擇測試任務，為每個測試任務生成一個不同于元訓練階段的新的參數組合，在每個新的參數組合上微調訓練好的基礎ems控制器進行能源管理，微調后形成對應每個測試任務的新能源管理策略。

9、在上述方案基礎上，各步驟可以采用如下優選的具體方式實現。

10、作為優選，步驟s1中，構建卷積神經網絡強化學習控制器，將其作為鋰電池和超級電容混合動力車的主控制器，其包括輸入層、第一卷積層、第二卷積層、全連接層以及輸出層；

11、在所述卷積神經網絡強化學習控制器中，輸入層用于獲取輸入特征，第一卷積層對輸入特征進行淺層的特征提取，得到第一輸出特征，第二卷積層對第一輸出特征進行深層的特征提取，得到第二輸出特征，將第二輸出特征展平后輸入所述全連接層，得到第三輸出特征，由所述輸出層將第三輸出特征輸出；

12、所述輸入特征中包含車輛速度、加速度、電池電量狀態、超級電容電量狀態、當前需求功率、車輛位置、車輛加速度方向、車輛轉向角度、車輛負載狀態以及外部溫度。

13、作為優選，步驟s2中，所述關鍵變量包括鋰電池的額定容量、超級電容器的額定容量、鋰電池的峰值和超級電容器的峰值功率，將鋰電池的等效電阻作為一個相關的依賴變量。

14、作為優選，為不同類型的鋰電池和超級電容器混合動力車的基礎ems控制器，均設定相同的獎勵函數：

15、rt＝ω1r1+ω2r2+ω3r3+ω4r4+ω5r5

16、

17、r2＝bsoct-bsoc0

18、

19、其中，rt表示在整個過程中第t個時間節點的獎勵函數；ω1,ω2,ω3,ω4,ω5表示獎勵函數中每部分的權重參數；r1,r2,r3,r4,r5分別表示鋰電池和超級電容器混合動力車中不同性能指標的反饋；表示第t個時間節點車輛對總功率的需求；pt表示第t個時間節點鋰電池和超級電容器實際提供的輸出功率；bsoct表示第t個時間節點鋰電池的荷電狀態；bsoc0表示電池的初始荷電量；表示第t個時間節點鋰電池的輸出電流；表示第t-1個時間節點鋰電池的輸出電流；表示第t個時間節點超級電容器的荷電狀態變化情況；usoct表示第t個時間節點超級電容器的荷電狀態；usocmin和usocmax分別表示電容荷電量的上下限。

20、作為優選，步驟s3中，由內循環操作更新基礎ems控制器參數的具體過程如下：

21、s31.隨機初始化基礎ems控制器參數，包括所有神經網絡層的權重和偏差；

22、s32.從預設的任務集合中隨機選擇一個批次，一個批次上的每個任務代表一種特定的車輛配置和駕駛環境；

23、s33：對于第i個批次bi中的第j個鋰電池和超級電容器混合動力車任務hj，基于當前參數θ，運行基礎ems控制器t個時間步長，獲取環境的反饋數據dij<st,at,rt>，其中，st,at,rt分別表示第t個時間步長的狀態、動作以及獎勵；

24、s34：基于所述反饋數據計算每個時間步長下的優勢函數，所述優勢函數用來表示當前策略在每個時間步長的相對表現；

25、第t個時間步長的優勢函數的計算公式為：

26、

27、其中，γi-t表示第i個時間步長的獎勵相對于第t個時間步長的折扣權重；ri表示第i個時間步長獲得的獎勵；vφ(st)是第t個時間步長的狀態st下的值函數；

28、s35：基于優勢函數和所述反饋數據使用最大化公式進行梯度更新，將當前參數θ更新至θ′ij：

29、

30、其中，|dij|表示反饋數據dij的大小；fθ(ai|si)表示給定狀態si時基于策略θ執行動作ai的概率；表示給定狀態si時基于策略θij執行動作ai的概率；表示在狀態si下執行動作ai時基于當前策略的優勢函數；θ′ij表示第i個批次bi中的第j個鋰電池和超級電容器混合動力車任務的梯度更新后的參數；α表示本文檔來自技高網...

【技術保護點】

1.一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，包括以下步驟：

2.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，步驟S1中，構建卷積神經網絡強化學習控制器，將其作為鋰電池和超級電容混合動力車的主控制器，其包括輸入層、第一卷積層、第二卷積層、全連接層以及輸出層；

3.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，步驟S2中，所述關鍵變量包括鋰電池的額定容量、超級電容器的額定容量、鋰電池的峰值和超級電容器的峰值功率，將鋰電池的等效電阻作為一個相關的依賴變量。

4.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，為不同類型的鋰電池和超級電容器混合動力車的基礎EMS控制器，均設定相同的獎勵函數：

5.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法，步驟S3中，由內循環操作更新基礎EMS控制器參數的具體過程如下：

6.如權利要求5所述的一種結合元學習和近端策略優化算法的能源管理方法，步驟S4中，由外循環

7.如權利要求6所述的一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，步驟S5中，元測試階段中微調的具體過程如下：

...

【技術特征摘要】

1.一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，包括以下步驟：

2.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，步驟s1中，構建卷積神經網絡強化學習控制器，將其作為鋰電池和超級電容混合動力車的主控制器，其包括輸入層、第一卷積層、第二卷積層、全連接層以及輸出層；

3.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法，其特征在于，步驟s2中，所述關鍵變量包括鋰電池的額定容量、超級電容器的額定容量、鋰電池的峰值和超級電容器的峰值功率，將鋰電池的等效電阻作為一個相關的依賴變量。

4.如權利要...

【專利技術屬性】
技術研發人員：陶吉利，王孝龍，張婧怡，許澤江，徐鳴，馬龍華，
申請(專利權)人：浙大寧波理工學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術