System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 黑人巨大无码中文字幕无码,午夜麻豆国产精品无码,精品无码黑人又粗又大又长
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    結合元學習和近端策略優化算法的能源管理方法技術

    技術編號:44160928 閱讀:18 留言:0更新日期:2025-01-29 10:32
    本發明專利技術公開了一種結合元學習和近端策略優化算法的能源管理方法,屬于自動化技術領域。本發明專利技術在一系列不同的鋰電池/超級電容混動車任務上由內循環進行梯度更新,得到一組具有高度適應和泛化能力的參數;當內循環完成后,在外循環中通過整合多個任務的反饋重新更新基礎EMS控制器的全局參數,以使其能夠適應該輛新鋰電池/超級電容混動車的特征。在元測試階段進行參數微調,快速生成針對新的HEV控制對象且控制性能優良的新能源管理策略。在面對新的混合能源系統時,本發明專利技術的方法只需進行少量梯度下降計算步驟即可實現與基于傳統強化學習的能源管理策略相似的控制性能,為開發高適應性和高工業效率的混合動力系統能源管理策略提供了解決方案。

    【技術實現步驟摘要】

    本專利技術屬于自動化,尤其涉及一種結合元學習和近端策略優化算法的能源管理方法


    技術介紹

    1、對于新能源混動車而言,合理的能源管理策略(ems)有助于節能降耗提高電池壽命。常用的能源管理策略設計算法包括模糊邏輯、動態規劃(dp)、模型預測控制(mpc)、強化學習(rl)等只能面對單一任務,即在算法訓練完成后,只能用于控制特定的車輛。如果將能源管理策略應用于其他車輛,即使僅僅是能源的參數發生細微變化,如鋰電池容量變化、鋰電池最大輸出功率約束變化等,整個控制策略也需要完全重新訓練。這些算法多次訓練的過程相互獨立,無法積累從先前訓練過程中獲得的經驗,重復而冗長的訓練過程導致效率低下。為了解決該問題,亟需將基于元強化學習算法的元能源管理策略快速適應到新的應用場景中,以便快速生成新的混動車能源管理策略。


    技術實現思路

    1、本專利技術的目的在于解決傳統能源管理策略無法適應新應用場景的限制,過程相互獨立,無法積累從先前訓練過程中獲得的經驗,重復而冗長的訓練過程導致效率低下的問題,并提供一種結合元學習和近端策略優化算法的能源管理方法。本專利技術的方法通過模型無關元學習算法(model-agnostic?meta-learning,maml)和近端策略優化(proximalpolicy?optimization,ppo)強化學習算法,設計一個能夠快速適應新控制對象的元能源管理策略,這種策略能夠在面對新的混合能源系統時,僅通過少量的梯度下降步驟實現控制性能,從而顯著提高控制系統的適應性和工業應用的效率。

    2、為了實現上述專利技術目的,本專利技術具體采用如下技術方案:

    3、一種結合元學習和近端策略優化算法的能源管理方法,其包括以下步驟:

    4、s1.構建基礎ems控制器,將其作為能夠適應多種鋰電池和超級電容混合動力車的基礎控制器;

    5、s2.在元訓練任務集準備階段,對不同電池和超級電容器的一組鋰電池和超級電容器混合動力車任務根據分布進行采樣形成一個任務集合,并根據鋰電池和超級電容器混合動力車的關鍵變量設置實際混動車鋰電池的額定容量變化范圍、超級電容器的額定容量變化范圍、鋰電池的峰值功率變化范圍以及超級電容器的峰值功率變化范圍,在設定的四種變化范圍內,隨機選擇若干種不同的參數組合,每種參數組合用于描述一輛鋰電池和超級電容器混合動力車;

    6、s3.在元訓練階段,從任務集合中隨機抽樣選擇多個不同的鋰電池和超級電容混動車任務組成一個批次,在每個批次上由內循環操作更新基礎ems控制器參數;

    7、s4.當內循環操作完成后,利用內循環操作更新后的基礎ems控制器參數在外循環操作中通過整合多個任務的反饋重新更新基礎ems控制器的全局參數,將外循環操作更新后的基礎ems控制器全局參數作為最終的基礎ems控制器參數,得到訓練好的基礎ems控制器;

    8、s5.在元測試階段,對不同電池和超級電容器的一組鋰電池和超級電容器混合動力車任務根據分布進行采樣形成一個新的任務集合,從新的任務集合中隨機選擇測試任務,為每個測試任務生成一個不同于元訓練階段的新的參數組合,在每個新的參數組合上微調訓練好的基礎ems控制器進行能源管理,微調后形成對應每個測試任務的新能源管理策略。

    9、在上述方案基礎上,各步驟可以采用如下優選的具體方式實現。

    10、作為優選,步驟s1中,構建卷積神經網絡強化學習控制器,將其作為鋰電池和超級電容混合動力車的主控制器,其包括輸入層、第一卷積層、第二卷積層、全連接層以及輸出層;

    11、在所述卷積神經網絡強化學習控制器中,輸入層用于獲取輸入特征,第一卷積層對輸入特征進行淺層的特征提取,得到第一輸出特征,第二卷積層對第一輸出特征進行深層的特征提取,得到第二輸出特征,將第二輸出特征展平后輸入所述全連接層,得到第三輸出特征,由所述輸出層將第三輸出特征輸出;

    12、所述輸入特征中包含車輛速度、加速度、電池電量狀態、超級電容電量狀態、當前需求功率、車輛位置、車輛加速度方向、車輛轉向角度、車輛負載狀態以及外部溫度。

    13、作為優選,步驟s2中,所述關鍵變量包括鋰電池的額定容量、超級電容器的額定容量、鋰電池的峰值和超級電容器的峰值功率,將鋰電池的等效電阻作為一個相關的依賴變量。

    14、作為優選,為不同類型的鋰電池和超級電容器混合動力車的基礎ems控制器,均設定相同的獎勵函數:

    15、rt=ω1r1+ω2r2+ω3r3+ω4r4+ω5r5

    16、

    17、r2=bsoct-bsoc0

    18、

    19、其中,rt表示在整個過程中第t個時間節點的獎勵函數;ω1,ω2,ω3,ω4,ω5表示獎勵函數中每部分的權重參數;r1,r2,r3,r4,r5分別表示鋰電池和超級電容器混合動力車中不同性能指標的反饋;表示第t個時間節點車輛對總功率的需求;pt表示第t個時間節點鋰電池和超級電容器實際提供的輸出功率;bsoct表示第t個時間節點鋰電池的荷電狀態;bsoc0表示電池的初始荷電量;表示第t個時間節點鋰電池的輸出電流;表示第t-1個時間節點鋰電池的輸出電流;表示第t個時間節點超級電容器的荷電狀態變化情況;usoct表示第t個時間節點超級電容器的荷電狀態;usocmin和usocmax分別表示電容荷電量的上下限。

    20、作為優選,步驟s3中,由內循環操作更新基礎ems控制器參數的具體過程如下:

    21、s31.隨機初始化基礎ems控制器參數,包括所有神經網絡層的權重和偏差;

    22、s32.從預設的任務集合中隨機選擇一個批次,一個批次上的每個任務代表一種特定的車輛配置和駕駛環境;

    23、s33:對于第i個批次bi中的第j個鋰電池和超級電容器混合動力車任務hj,基于當前參數θ,運行基礎ems控制器t個時間步長,獲取環境的反饋數據dij<st,at,rt>,其中,st,at,rt分別表示第t個時間步長的狀態、動作以及獎勵;

    24、s34:基于所述反饋數據計算每個時間步長下的優勢函數,所述優勢函數用來表示當前策略在每個時間步長的相對表現;

    25、第t個時間步長的優勢函數的計算公式為:

    26、

    27、其中,γi-t表示第i個時間步長的獎勵相對于第t個時間步長的折扣權重;ri表示第i個時間步長獲得的獎勵;vφ(st)是第t個時間步長的狀態st下的值函數;

    28、s35:基于優勢函數和所述反饋數據使用最大化公式進行梯度更新,將當前參數θ更新至θ′ij:

    29、

    30、其中,|dij|表示反饋數據dij的大小;fθ(ai|si)表示給定狀態si時基于策略θ執行動作ai的概率;表示給定狀態si時基于策略θij執行動作ai的概率;表示在狀態si下執行動作ai時基于當前策略的優勢函數;θ′ij表示第i個批次bi中的第j個鋰電池和超級電容器混合動力車任務的梯度更新后的參數;α表示本文檔來自技高網...

    【技術保護點】

    1.一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,包括以下步驟:

    2.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,步驟S1中,構建卷積神經網絡強化學習控制器,將其作為鋰電池和超級電容混合動力車的主控制器,其包括輸入層、第一卷積層、第二卷積層、全連接層以及輸出層;

    3.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,步驟S2中,所述關鍵變量包括鋰電池的額定容量、超級電容器的額定容量、鋰電池的峰值和超級電容器的峰值功率,將鋰電池的等效電阻作為一個相關的依賴變量。

    4.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,為不同類型的鋰電池和超級電容器混合動力車的基礎EMS控制器,均設定相同的獎勵函數:

    5.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法,步驟S3中,由內循環操作更新基礎EMS控制器參數的具體過程如下:

    6.如權利要求5所述的一種結合元學習和近端策略優化算法的能源管理方法,步驟S4中,由外循環操作更新基礎EMS控制器參數的具體過程如下:

    7.如權利要求6所述的一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,步驟S5中,元測試階段中微調的具體過程如下:

    ...

    【技術特征摘要】

    1.一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,包括以下步驟:

    2.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,步驟s1中,構建卷積神經網絡強化學習控制器,將其作為鋰電池和超級電容混合動力車的主控制器,其包括輸入層、第一卷積層、第二卷積層、全連接層以及輸出層;

    3.如權利要求1所述的一種結合元學習和近端策略優化算法的能源管理方法,其特征在于,步驟s2中,所述關鍵變量包括鋰電池的額定容量、超級電容器的額定容量、鋰電池的峰值和超級電容器的峰值功率,將鋰電池的等效電阻作為一個相關的依賴變量。

    4.如權利要...

    【專利技術屬性】
    技術研發人員:陶吉利,王孝龍,張婧怡,許澤江徐鳴馬龍華,
    申請(專利權)人:浙大寧波理工學院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 东京热无码一区二区三区av| 国产精品无码一区二区三区不卡| 亚洲中文字幕无码爆乳av中文| 国产自无码视频在线观看| 日韩精品无码一本二本三本| 激情无码亚洲一区二区三区| 亚洲精品无码久久久久| 午夜福利无码一区二区| 午夜人性色福利无码视频在线观看 | 久久久久琪琪去精品色无码| 亚洲AV色无码乱码在线观看| 亚洲AV无码一区二区乱孑伦AS| 永久免费av无码网站大全| 中文字幕无码日韩欧毛| 中文字幕AV中文字无码亚 | 免费a级毛片无码a∨免费软件| 亚洲av无码专区在线观看亚| 亚洲av无码不卡| 亚洲色偷拍另类无码专区| 亚洲AⅤ永久无码精品AA| 亚洲αⅴ无码乱码在线观看性色| 人妻无码一区二区不卡无码av| 免费人妻av无码专区| 日韩免费a级毛片无码a∨ | 亚洲AV日韩AV永久无码久久 | 无码不卡亚洲成?人片| 免费无码精品黄AV电影| 亚洲av无码一区二区三区天堂| 久久久久亚洲av无码专区导航| 亚洲国产综合无码一区 | 国99精品无码一区二区三区 | 91精品国产综合久久四虎久久无码一级 | 蕾丝av无码专区在线观看| 亚洲a∨无码精品色午夜| 亚洲AV无码一区二区三区久久精品| 亚洲av无码一区二区三区观看| 无码av人妻一区二区三区四区| 精品久久无码中文字幕| 亚洲AV无码一区二区三区久久精品| 无码少妇A片一区二区三区| 本道久久综合无码中文字幕|