• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于DPPO算法的混合動力系統能量管理方法技術方案

    技術編號:35938558 閱讀:32 留言:0更新日期:2022-12-14 10:26
    本發明專利技術公開了一種基于DPPO算法的混合動力系統能量管理方法,屬于混合動力汽車能量管理領域,在保證汽車動力性的前提下,通過并行訓練技術的使用,可以在理論上增加模型的探索范圍,提高算法的最優性能和收斂效率,在保證穩定的SOC控制目標的基礎上,實現神經網絡的快速收斂,并獲得良好的燃油經濟性能。本發明專利技術方法主要包括:建立DPPO代理模型;設置DPPO代理模型的狀態、動作和回報,得到設置后的DPPO代理模型;獲取相關訓練數據集,根據獲得的相關訓練數據集訓練所述DPPO代理模型得到訓練后的DPPO代理模型;使用訓練后的DPPO代理模型進行Prius混合動力車輛的能量管理。進行Prius混合動力車輛的能量管理。進行Prius混合動力車輛的能量管理。

    【技術實現步驟摘要】
    一種基于DPPO算法的混合動力系統能量管理方法


    [0001]本專利技術屬于混合動力汽車能量管理領域,尤其涉及一種基于DPPO算法的混合動力系統能量管理方法。

    技術介紹

    [0002]為了緩解世界能源短缺和全球變暖,在汽車領域的節能研究已成為重點,其中混合動力汽車也越來越受到關注?;旌蟿恿ζ囉邪l動機,發電機等多個動力源,協調分配輸出用以減少能耗和污染。然而,對于復雜的動力傳動系統,開發一種高效的能量管理控制器來協調混合儲能系統的工作是一項挑戰。
    [0003]現如今,在HEV上應用的能量管理策略大致可以分為三類:基于規則的方法,基于優化的方法和基于學習的方法;基于規則的能量管理策略對專家經驗的過于依賴使得它的進一步應用受到限制,難以達到最佳節能的效果;二是基于優化的能量管理策略,分為基于全局優化和基于實時優化的方法,基于全局優化的方法會過度消耗計算資源,難以在線應用;而基于實時優化的方法駕駛條件的預測精度和模型參數設置較為依賴,計算成本較高,容易出現局部最優的問題。伴隨著機器學習和人工智能的發展,基于學習尤其是強化學習的方法在各種能量管理優化問題中表現出良好效果。例如基于策略梯度(Policy
    ?
    Gradient)的一類方法,但是基于策略梯度的方法對于迭代步驟的數量非常敏感,同時這類方法的采樣效率也是非常低,學習簡單的任務就需要百萬級甚至以上的總迭代次數。因此,提高算法采樣效率和策略性能表現可以實現神經網絡的快速收斂,同時可以有效提高基于深度強化學習能量管理策略的最優策略效果,提高汽車整車性能。

    技術實現思路

    [0004]本專利技術提供了一種基于DPPO算法的混合動力系統能量管理方法,在保證汽車動力性的前提下,通過并行訓練技術的使用,在理論上增加模型的探索范圍,提高算法的最優性能和收斂效率,同時重要性采樣和小批次更新技術能夠在平衡采樣效率和調試難度的同時提升算法的表現性能,減少次優策略問題的產生,在保證了穩定的SOC控制目標的基礎上,實現神經網絡的快速收斂,并獲得良好的燃油經濟性能。
    [0005]為了實現以上目的,本專利技術采用以下技術方案:
    [0006]一種基于DPPO算法的混合動力系統能量管理方法,包括以下步驟:
    [0007]步驟1:建立DPPO代理模型;
    [0008]步驟2:設置DPPO代理模型的狀態、動作和回報,得到設置后的DPPO代理模型;
    [0009]步驟3:獲取相關訓練數據集,根據獲得的相關訓練數據集訓練所述DPPO代理模型得到訓練后的DPPO代理模型;
    [0010]步驟4:使用訓練后的DPPO代理模型進行混合動力車輛的能量管理。
    [0011]以上所述步驟中,步驟1中所述DPPO代理模型包括:全局神經網絡與局部神經網絡,所述局部神經網絡在子進程中負責與環境進行交互收集數據,并將收集的數據傳回主
    進程中的全局神經網絡,所述全局神經網絡利用收集的數據進行網絡參數更新,更新完成后再將參數同步給局部神經網絡;
    [0012]步驟2中所述狀態量為:汽車車速v,汽車加速度Acc和動力電池SOC,狀態變量向量為s={v,Acc,SOC}
    T
    ;由于被控對象是混合動力汽車,選取發動機功率P
    e
    為動作變量,動作變量向量為a={P
    e
    }
    T
    ;獎勵函數被用于評價在當前狀態s
    t
    下執行動作a
    t
    的表現性能,目標有兩個:第一,為了避免電池過充過放,需要保證SOC維持在一定范圍內;第二,在保證電池穩定工作的基礎上,燃油消耗最小,從而保證發動機的燃油經濟性,另外由于深度強化學習是根據最大累計獎勵優化的確定最優控制策略,所以獎勵函數定義為成本函數的負值,獎勵函數如公式(1)所示:
    [0013]r=
    ?
    {fuel(t)+α[SOC
    ref
    ?
    SOC(t)]2}
    ?????????????
    (1)
    [0014]其中,fuel(t)為當前時刻汽車的燃油消耗,SOC
    ref
    為期望SOC的參考值,SOC(t)為當前時刻電池SOC值,α為電池充電維持的權重;
    [0015]步驟3中獲取相關訓練數據集,根據獲得的相關訓練數據集訓練所述DPPO代理模型得到訓練后的DPPO代理模型,具體包括以下步驟:
    [0016]步驟A:初始化所述設定后的DPPO代理模型參數,得到初始化后的DPPO代理模型;
    [0017]步驟B:將初始化后的DPPO代理模型應用于混合動力汽車模型,在駕駛循環中進行交互;
    [0018]步驟C:根據梯度更新法不斷進行網絡更新和同步參數收集數據,直到達到能量管理最優策略的訓練要求,收斂后最新網絡參數下的模型即為最終得到訓練后的DPPO代理模型。
    [0019]上述步驟A具體包括:分別初始化所述設定后全局神經網絡參數θ與局部神經網絡參數ω,累計梯度dθ

    0和dω

    0,最終得到初始化后的DPPO代理模型;
    [0020]上述步驟B將初始化后的DPPO代理模型與混合動力汽車進行交互,得到訓練數據集,具體包括:Actor網絡與駕駛環境進行交互,將當前狀態集合s
    t
    ={v,Acc,SOC}
    T
    輸入Actor神經網絡,Actor網絡通過激活函數輸出一個正態分布的均值μ(s
    t
    ;θ)和標準差σ(s
    t
    ;θ)即為策略π的分布,調用函數對策略π隨機取樣,得到動作a
    t
    ,將當前動作a
    t
    作用于混合動力汽車得到當前回報r
    t
    以及下一時刻的狀態集合s
    t+1
    ;最后,根據上述的相關數據s
    t
    ,a
    t
    ,r
    t
    和s
    t+1
    ,得到訓練數據集(s
    t
    ,a
    t
    ,r
    t
    ),當存儲量達到一個batch后,計算折扣獎勵R和優勢函數Adv,然后將數據集清零。
    [0021]上述步驟C中根據所述方法對DPPO代理模型進行訓練更新,最終得到訓練后的DPPO代理模型,具體包括以下步驟:
    [0022]步驟(I):在局部神經網絡運行步數達到一定步數N后,全局神經網絡開始進行N步更新,將目標策略π的參數賦值給行為策略π
    old
    ;
    [0023]步驟(Ⅱ):采用梯度上升更新Actor網絡的參數,更新公式為:
    [0024][0025]其中,π和π
    old
    分別表示兩個Actor網絡所生成的需要更新的目標策略和當前行為策略,使用KL[π
    old
    |π]即KL散度來衡量兩種策略之間的差異,λ為動態調整的系數,通過調整λ從而控制兩個分布之間的距離;
    [0026]步驟(Ⅲ):采用梯度下降法更新Critic網絡策略參數,本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于DPPO算法的混合動力系統能量管理方法,其特征在于,包括以下步驟:步驟1:建立DPPO代理模型;步驟2:設置DPPO代理模型的狀態、動作和回報,得到設置后的DPPO代理模型;步驟3:獲取相關訓練數據集,根據獲得的相關訓練數據集訓練所述DPPO代理模型得到訓練后的DPPO代理模型;步驟4:使用訓練后的DPPO代理模型進行混合動力車輛的能量管理。2.根據權利要求1所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟1中所述DPPO代理模型包括:全局神經網絡與局部神經網絡。3.根據權利要求1所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟2中所述狀態量為:汽車車速v,汽車加速度Acc和動力電池SOC,狀態變量向量為s={v,Acc,SOC}
    T
    ;選取發動機功率P
    e
    為動作變量,動作變量向量為a={P
    e
    }
    T
    ;獎勵函數用于評價在當前狀態s
    t
    下執行動作a
    t
    的表現性能,所述獎勵函數定義為成本函數的負值。4.根據權利要求3所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,所述獎勵函數如公式(1)所示:r=
    ?
    {fuel(t)+α[SOC
    ref
    ?
    SOC(t)]2}
    ?????????????
    (1)其中,fuel(t)為當前時刻汽車的燃油消耗,SOC
    ref
    為期望SOC的參考值,SOC(t)為當前時刻電池SOC值,α為電池充電維持的權重。5.根據權利要求1所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟3具體包括以下步驟:步驟A:初始化所述設定后的DPPO代理模型參數,得到初始化后的DPPO代理模型;步驟B:將初始化后的DPPO代理模型應用于混合動力汽車模型,在駕駛循環中進行交互;步驟C:根據梯度更新法不斷進行網絡更新和同步參數收集數據,直到達到能量管理最優策略的訓練要求,收斂后最新網絡參數下的模型即為最終得到訓練后的DPPO代理模型。6.根據權利要求5所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟A具體包括:分別初始化所述設定后全局神經網絡參數θ與局部神經網絡參數ω,累計梯度dθ

    0和dω

    0,最終得到初始化后的DPPO代理模型。7.根據權利要求5所述的基于DPPO算法的混合動力系統能量管理方法,其特征在于,步驟B具體包括:Actor網絡與駕駛環境進行交互,將當前狀態集合s
    t
    ={v,Acc,SOC}
    T
    輸入Actor神經網絡,Actor網絡通過激活函數輸出一個正態分布的均值μ(s
    t
    ;θ)和標準差σ(s
    t
    ;θ),即為策略π的分布,調用函數對策略π隨機取樣,得到動作a
    t
    ,將當前動作a
    t
    作用于混合動力汽車得到當前回報r
    t
    以及下一時刻的狀態集合s
    t+1
    ;最后,根據上述的相關數據s
    t

    【專利技術屬性】
    技術研發人員:李超雄,周健豪趙萬忠,徐達,吳旭陽,
    申請(專利權)人:南京航空航天大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 欧美性生交xxxxx无码影院∵| 中文字幕丰满乱孑伦无码专区| 中文字幕人妻无码一夲道| 亚洲国产av无码精品| 少妇无码一区二区三区免费| 无码av人妻一区二区三区四区| 国产午夜无码福利在线看网站 | 日韩欧精品无码视频无删节 | 亚洲国产成人精品无码区在线网站| 日韩加勒比一本无码精品| 日韩乱码人妻无码系列中文字幕 | 精品久久久久久无码中文字幕一区| 日韩va中文字幕无码电影| 亚洲a∨无码一区二区| 亚洲av永久无码制服河南实里| 成人免费无遮挡无码黄漫视频| 日韩精品中文字幕无码一区| 亚洲VA中文字幕不卡无码| 国产网红主播无码精品| 九九无码人妻一区二区三区| 中文字幕人成无码免费视频| 亚洲日产无码中文字幕| 国模无码一区二区三区不卡| 亚洲av中文无码| 丰满少妇人妻无码专区| 亚洲精品av无码喷奶水糖心| 无码国产精品一区二区免费式影视 | 在线播放无码后入内射少妇| 免费无码午夜福利片| 粉嫩大学生无套内射无码卡视频 | 永久免费av无码网站大全| 精品久久久无码人妻中文字幕| 久久精品中文字幕无码| 亚洲国产精品无码久久一线| 亚洲中文字幕无码久久2017| 2014AV天堂无码一区| 亚洲精品成人无码中文毛片不卡| 久久精品无码av| 亚洲午夜国产精品无码| 无码伊人66久久大杳蕉网站谷歌| 一本无码中文字幕在线观|