【技術實現步驟摘要】
一種基于DPPO算法的混合動力系統能量管理方法
[0001]本專利技術屬于混合動力汽車能量管理領域,尤其涉及一種基于DPPO算法的混合動力系統能量管理方法。
技術介紹
[0002]為了緩解世界能源短缺和全球變暖,在汽車領域的節能研究已成為重點,其中混合動力汽車也越來越受到關注?;旌蟿恿ζ囉邪l動機,發電機等多個動力源,協調分配輸出用以減少能耗和污染。然而,對于復雜的動力傳動系統,開發一種高效的能量管理控制器來協調混合儲能系統的工作是一項挑戰。
[0003]現如今,在HEV上應用的能量管理策略大致可以分為三類:基于規則的方法,基于優化的方法和基于學習的方法;基于規則的能量管理策略對專家經驗的過于依賴使得它的進一步應用受到限制,難以達到最佳節能的效果;二是基于優化的能量管理策略,分為基于全局優化和基于實時優化的方法,基于全局優化的方法會過度消耗計算資源,難以在線應用;而基于實時優化的方法駕駛條件的預測精度和模型參數設置較為依賴,計算成本較高,容易出現局部最優的問題。伴隨著機器學習和人工智能的發展,基于學習尤其是強化學習的方法在各種能量管理優化問題中表現出良好效果。例如基于策略梯度(Policy
?
Gradient)的一類方法,但是基于策略梯度的方法對于迭代步驟的數量非常敏感,同時這類方法的采樣效率也是非常低,學習簡單的任務就需要百萬級甚至以上的總迭代次數。因此,提高算法采樣效率和策略性能表現可以實現神經網絡的快速收斂,同時可以有效提高基于深度強化學習能量管理策略的最優策略效果,提高汽車整車性能。 ...
【技術保護點】
【技術特征摘要】 【專利技術屬性】
1.一種基于DPPO算法的混合動力系統能量管理方法,其特征在于,包括以下步驟:步驟1:建立DPPO代理模型;步驟2:設置DPPO代理模型的狀態、動作和回報,得到設置后的DPPO代理模型;步驟3:獲取相關訓練數據集,根據獲得的相關訓練數據集訓練所述DPPO代理模型得到訓練后的DPPO代理模型;步驟4:使用訓練后的DPPO代理模型進行混合動力車輛的能量管理。2.根據權利要求1所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟1中所述DPPO代理模型包括:全局神經網絡與局部神經網絡。3.根據權利要求1所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟2中所述狀態量為:汽車車速v,汽車加速度Acc和動力電池SOC,狀態變量向量為s={v,Acc,SOC}
T
;選取發動機功率P
e
為動作變量,動作變量向量為a={P
e
}
T
;獎勵函數用于評價在當前狀態s
t
下執行動作a
t
的表現性能,所述獎勵函數定義為成本函數的負值。4.根據權利要求3所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,所述獎勵函數如公式(1)所示:r=
?
{fuel(t)+α[SOC
ref
?
SOC(t)]2}
?????????????
(1)其中,fuel(t)為當前時刻汽車的燃油消耗,SOC
ref
為期望SOC的參考值,SOC(t)為當前時刻電池SOC值,α為電池充電維持的權重。5.根據權利要求1所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟3具體包括以下步驟:步驟A:初始化所述設定后的DPPO代理模型參數,得到初始化后的DPPO代理模型;步驟B:將初始化后的DPPO代理模型應用于混合動力汽車模型,在駕駛循環中進行交互;步驟C:根據梯度更新法不斷進行網絡更新和同步參數收集數據,直到達到能量管理最優策略的訓練要求,收斂后最新網絡參數下的模型即為最終得到訓練后的DPPO代理模型。6.根據權利要求5所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟A具體包括:分別初始化所述設定后全局神經網絡參數θ與局部神經網絡參數ω,累計梯度dθ
←
0和dω
←
0,最終得到初始化后的DPPO代理模型。7.根據權利要求5所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟B具體包括:Actor網絡與駕駛環境進行交互,將當前狀態集合s
t
={v,Acc,SOC}
T
輸入Actor神經網絡,Actor網絡通過激活函數輸出一個正態分布的均值μ(s
t
;θ)和標準差σ(s
t
;θ),即為策略π的分布,調用函數對策略π隨機取樣,得到動作a
t
,將當前動作a
t
作用于混合動力汽車得到當前回報r
t
以及下一時刻的狀態集合s
t+1
;最后,根據上述的相關數據s
t
技術研發人員:李超雄,周健豪,趙萬忠,徐達,吳旭陽,
申請(專利權)人:南京航空航天大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。