• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法技術(shù)

    技術(shù)編號:35945982 閱讀:23 留言:0更新日期:2022-12-14 10:36
    本發(fā)明專利技術(shù)提供了一種多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,包括基于所研究的實際問題,建立智能體與環(huán)境交互的仿真環(huán)境模型;將實際問題劃分為多個子目標(biāo),通過分配不同的目標(biāo)權(quán)重建立多個獎勵函數(shù)模型;基于獎勵函數(shù)模型建立對應(yīng)的多個DDPG模型;將各DDPG模型的對應(yīng)策略視為離散動作建立對應(yīng)的DDQN模型;將DDPG模型作為底層決策模型,DDQN模型作為選擇底層決策模型的頂層決策模型,構(gòu)建分層強化學(xué)習(xí)框架;基于分層強化學(xué)習(xí)框架和仿真環(huán)境模型進(jìn)行交互并存儲經(jīng)驗;依照設(shè)定的模型訓(xùn)練頻率訓(xùn)練DDPG模型和DDQN模型,判斷模型是否滿足需求,若滿足需求則退出訓(xùn)練過程,否則重新存儲經(jīng)驗、訓(xùn)練模型。構(gòu)建能更快接近最終目標(biāo)的分布式?jīng)Q策模型,生成最優(yōu)連續(xù)策略組合。生成最優(yōu)連續(xù)策略組合。生成最優(yōu)連續(xù)策略組合。

    【技術(shù)實現(xiàn)步驟摘要】
    用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法


    [0001]本專利技術(shù)涉及復(fù)雜問題的決策
    ,尤其涉及一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法。

    技術(shù)介紹

    [0002]現(xiàn)實的決策問題多屬于多目標(biāo)優(yōu)化的復(fù)雜決策問題,不僅僅要考慮到當(dāng)前狀態(tài)下的最優(yōu)策略,而且要考慮在不同狀態(tài)下所追求目標(biāo)之間的動態(tài)權(quán)重分配問題。傳統(tǒng)的方法雖然能解決一般的決策問題,但其優(yōu)化目標(biāo)通常只考慮一種要素或多目標(biāo)要素之間采用固定權(quán)重,導(dǎo)致由于獎勵函數(shù)的限制在決策過程中不能以最快的速度接近目標(biāo)。
    [0003]以無人機對戰(zhàn)為例,對戰(zhàn)的目的是從目標(biāo)飛機的后方接近目標(biāo)飛機,即在決策的過程中要綜合考慮角度和距離等因素。現(xiàn)有算法在設(shè)計獎勵函數(shù)模型時對各因素考慮采用固定權(quán)重,沒有考慮在不同態(tài)勢下基于短期目的的不同,應(yīng)該對獎勵函數(shù)模型的各因素權(quán)重進(jìn)行調(diào)整。另外,本申請的方法還可應(yīng)用于路徑規(guī)劃、游戲等領(lǐng)域。
    [0004]因此,有必要開發(fā)一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,利用不同的目標(biāo)之間動態(tài)權(quán)重分配設(shè)計不同的獎勵函數(shù)模型并訓(xùn)練不同的決策模型,通過自主的進(jìn)行決策模型切換,實現(xiàn)不同決策模型之間協(xié)同決策,最終獲取最優(yōu)的連續(xù)策略。

    技術(shù)實現(xiàn)思路

    [0005]本專利技術(shù)旨在解決現(xiàn)有技術(shù)或相關(guān)技術(shù)中存在的技術(shù)問題之一。
    [0006]有鑒于此,本專利技術(shù)提出了一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,所述分層強化學(xué)習(xí)框架訓(xùn)練方法包括如下步驟:
    [0007]基于所研究的實際問題,建立智能體與環(huán)境交互的仿真環(huán)境模型,使所述智能體生成策略后能夠?qū)幼髟谒龇抡姝h(huán)境模型中執(zhí)行;
    [0008]將所述實際問題劃分為多個子目標(biāo),針對多個所述子目標(biāo),通過分配不同的目標(biāo)權(quán)重建立多個獎勵函數(shù)模型;
    [0009]基于多個所述獎勵函數(shù)模型,建立對應(yīng)的多個DDPG模型;
    [0010]將多個所述DDPG模型的對應(yīng)策略視為離散動作,建立對應(yīng)的DDQN模型;
    [0011]將所述DDPG模型作為底層決策模型,所述DDQN模型作為選擇所述底層決策模型的頂層決策模型,構(gòu)建基于兩層決策過程的分層強化學(xué)習(xí)框架;
    [0012]基于所述分層強化學(xué)習(xí)框架和所述仿真環(huán)境模型進(jìn)行交互并存儲經(jīng)驗;
    [0013]存儲所述經(jīng)驗后,依照設(shè)定的模型訓(xùn)練頻率訓(xùn)練所述DDPG模型和所述DDQN模型,判斷訓(xùn)練后的所述DDPG模型和所述DDQN模型是否滿足應(yīng)用需求,若滿足需求則退出訓(xùn)練過程,否則重新存儲經(jīng)驗和重新訓(xùn)練所述DDPG模型和所述DDQN模型;
    [0014]在應(yīng)用階段,將所述智能體所處狀態(tài)輸入訓(xùn)練好的所述DDPG模型和所述DDQN模型,由所述頂層決策模型輸出各底層決策模型被選擇后所獲得的獎勵,激活最大獎勵對應(yīng)的所述底層決策模型,生成連續(xù)激動動作序列。
    [0015]進(jìn)一步地,所述獎勵函數(shù)模型作為所述智能體在所述仿真環(huán)境模型中執(zhí)行所述動作a
    t
    后,所述仿真環(huán)境模型對所述智能體的反饋r
    t

    [0016]所述DDPG模型的輸入為所述智能體當(dāng)前所處的狀態(tài)S
    t
    ,輸出為在當(dāng)前狀態(tài)下所產(chǎn)生的動作a
    t

    [0017]所述DDQN模型的輸入為所述智能體當(dāng)前所處的狀態(tài)S
    t
    ,輸出為各所述DDPG模型被選擇的所獲得的獎勵p
    t

    [0018]進(jìn)一步地,通過分配不同的目標(biāo)權(quán)重建立多個所述獎勵函數(shù)模型:
    [0019][0020]其中,不同的所述權(quán)重W
    i
    滿足其中,n為獎勵函數(shù)模型影響因素的個數(shù);r
    i
    為第i個獎勵函數(shù)模型對應(yīng)的獎勵。
    [0021]進(jìn)一步地,所述DDPG模型包括Actor網(wǎng)絡(luò)θ、Actor目標(biāo)網(wǎng)絡(luò)θ'、Critic網(wǎng)絡(luò)ω和Critic目標(biāo)網(wǎng)絡(luò)ω',所述Actor網(wǎng)絡(luò)用于生成策略,所述Actor目標(biāo)網(wǎng)絡(luò)用于指導(dǎo)所述Critic網(wǎng)絡(luò)的更新,所述Critic網(wǎng)絡(luò)用于評價所述策略,所述Critic目標(biāo)網(wǎng)絡(luò)用于計算Q值,其中,Q值為動作價值函數(shù),即在當(dāng)前狀態(tài)下執(zhí)行該動作對應(yīng)的獎勵值。
    [0022]進(jìn)一步地,所述Actor網(wǎng)絡(luò)θ的目標(biāo)是輸出最優(yōu)策略使所述Critic網(wǎng)絡(luò)ω的輸出最大,因此所述Actor網(wǎng)絡(luò)θ的目標(biāo)輸出為:
    [0023][0024]其中,Δa為動作a的增量,q(S
    t
    ,ω)為當(dāng)前狀態(tài)下Critic網(wǎng)絡(luò)的評價;表示Critic網(wǎng)絡(luò)對a的偏導(dǎo),r
    a
    為Actor網(wǎng)絡(luò)的學(xué)習(xí)率;a為當(dāng)前狀態(tài)下所產(chǎn)生的策略。
    [0025]所述Critic網(wǎng)絡(luò)ω的目標(biāo)是擬合當(dāng)前狀態(tài)下執(zhí)行該策略所帶來的累計獎勵,即動作價值函數(shù),所述Critic網(wǎng)絡(luò)ω的目標(biāo)輸出為:
    [0026]q(S
    t
    ,a
    t
    )=r
    t
    +γr
    t+1
    +γ2r
    t+2
    +

    =r
    t
    +γ(r
    t+1
    +γr
    t+2
    +

    )=r
    t
    +γq(S
    t+1
    ,a
    t+1
    )
    ……
    (3)
    [0027]其中,r
    t
    為當(dāng)前狀態(tài)S
    t
    執(zhí)行動作a
    t
    所獲得的獎勵;γ表示獎勵的衰減因子;q(S
    t+1
    ,a
    t+1
    )表示下一狀態(tài)獲得的獎勵;
    [0028]計算所述Actor網(wǎng)絡(luò)θ的目標(biāo)輸出和所述Critic網(wǎng)絡(luò)ω的目標(biāo)輸后,使用MSE作為損失函數(shù)分別訓(xùn)練所述Actor網(wǎng)絡(luò)和所述Critic網(wǎng)絡(luò)。
    [0029]進(jìn)一步地,所述Actor目標(biāo)網(wǎng)絡(luò)θ'由所述Actor網(wǎng)絡(luò)θ軟更新得到:
    [0030]θ'=θ'τ+θ(1
    ?
    τ)
    ……
    (4)
    [0031]所述Critic目標(biāo)網(wǎng)絡(luò)ω'由所述Critic網(wǎng)絡(luò)ω軟更新得到:
    [0032]ω'=ω'τ+ω(1
    ?
    τ)
    ……
    (5)
    [0033]其中,τ為軟更新率。
    [0034]進(jìn)一步地,所述DDQN模型包括Q網(wǎng)絡(luò)η和目標(biāo)Q網(wǎng)絡(luò)η',所述Q網(wǎng)絡(luò)η擬合選擇所述DDPG模型獲得的累計獎勵目標(biāo),所述Q網(wǎng)絡(luò)η計算下一時刻的Q值,所述Q網(wǎng)絡(luò)η的目標(biāo)輸出
    為:
    [0035][0036]其中,j=1

    m,m為DDPG模型個數(shù);(S
    t+1
    )
    j
    為選擇第j個DDPG模型對應(yīng)的下一狀態(tài);r
    j
    為選擇第j個DDPG模型所得到的獎勵,maxQ((S
    t+1
    )
    j
    ,η')為目標(biāo)Q網(wǎng)絡(luò)η'對狀態(tài)(S
    t+1
    )
    j
    所對應(yīng)Q值中的最大值;
    [0037]計算出所述Q網(wǎng)絡(luò)η的目標(biāo)輸出本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點】

    【技術(shù)特征摘要】
    1.一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述分層強化學(xué)習(xí)框架訓(xùn)練方法包括如下步驟:基于所研究的實際問題,建立智能體與環(huán)境交互的仿真環(huán)境模型,使所述智能體生成策略后能夠?qū)幼髟谒龇抡姝h(huán)境模型中執(zhí)行;將所述實際問題劃分為多個子目標(biāo),針對多個所述子目標(biāo),通過分配不同的目標(biāo)權(quán)重建立多個獎勵函數(shù)模型;基于多個所述獎勵函數(shù)模型,建立對應(yīng)的多個DDPG模型;將多個所述DDPG模型的對應(yīng)策略視為離散動作,建立對應(yīng)的DDQN模型;將所述DDPG模型作為底層決策模型,所述DDQN模型作為選擇所述底層決策模型的頂層決策模型,構(gòu)建基于兩層決策過程的分層強化學(xué)習(xí)框架;基于所述分層強化學(xué)習(xí)框架和所述仿真環(huán)境模型進(jìn)行交互并存儲經(jīng)驗;存儲所述經(jīng)驗后,依照設(shè)定的模型訓(xùn)練頻率訓(xùn)練所述DDPG模型和所述DDQN模型,判斷訓(xùn)練后的所述DDPG模型和所述DDQN模型是否滿足應(yīng)用需求,若滿足需求則退出訓(xùn)練過程,否則重新存儲經(jīng)驗和重新訓(xùn)練所述DDPG模型和所述DDQN模型;在應(yīng)用階段,將所述智能體所處狀態(tài)輸入訓(xùn)練好的所述DDPG模型和所述DDQN模型,由所述頂層決策模型輸出各底層決策模型被選擇后所獲得的獎勵,激活最大獎勵對應(yīng)的所述底層決策模型,生成連續(xù)機動動作序列。2.根據(jù)權(quán)利要求1所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述獎勵函數(shù)模型作為所述智能體在所述仿真環(huán)境模型中執(zhí)行所述動作a
    t
    后,所述仿真環(huán)境模型對所述智能體的反饋r
    t
    ;所述DDPG模型的輸入為所述智能體當(dāng)前所處的狀態(tài)S
    t
    ,輸出為在當(dāng)前狀態(tài)下所產(chǎn)生的動作a
    t
    ;所述DDQN模型的輸入為所述智能體當(dāng)前所處的狀態(tài)S
    t
    ,輸出為各所述DDPG模型被選擇的所獲得的獎勵p
    t
    。3.根據(jù)權(quán)利要求2所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,通過分配不同的目標(biāo)權(quán)重建立多個所述獎勵函數(shù)模型:其中,不同的權(quán)重W
    i
    滿足:其中,n為獎勵函數(shù)模型影響因素的個數(shù);r
    i
    為第i個獎勵函數(shù)模型對應(yīng)的獎勵。4.根據(jù)權(quán)利要求2所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述DDPG模型包括Actor網(wǎng)絡(luò)θ、Actor目標(biāo)網(wǎng)絡(luò)θ'、Critic網(wǎng)絡(luò)ω和Critic目標(biāo)網(wǎng)絡(luò)ω',所述Actor網(wǎng)絡(luò)用于生成策略,所述Actor目標(biāo)網(wǎng)絡(luò)用于指導(dǎo)所述Critic網(wǎng)絡(luò)的更新,所述Critic網(wǎng)絡(luò)用于評價所述策略,所述Critic目標(biāo)網(wǎng)絡(luò)用于計算Q值,其中,Q值為動作價值函數(shù),即在當(dāng)前狀態(tài)下執(zhí)行該動作對應(yīng)的獎勵值。5.根據(jù)權(quán)利要求4所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述Actor網(wǎng)絡(luò)θ的目標(biāo)是輸出最優(yōu)策略使所述Critic網(wǎng)絡(luò)ω的輸出最大,因此所述Actor網(wǎng)絡(luò)θ的目標(biāo)輸出為:
    其中,Δa為動作a的增量,q(S
    t
    ,a,ω)為當(dāng)前狀態(tài)下Critic網(wǎng)絡(luò)的評價;為Critic網(wǎng)絡(luò)對a的偏導(dǎo),r
    a
    為Actor網(wǎng)絡(luò)的學(xué)習(xí)率;a為當(dāng)前狀態(tài)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王昱任田君關(guān)智慧
    申請(專利權(quán))人:沈陽航空航天大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻一区二区三区兔费| 无码人妻精品内射一二三AV| 国模无码一区二区三区不卡| 国产aⅴ激情无码久久| 人妻丰满熟妇AV无码片| 爽到高潮无码视频在线观看| 国模吧无码一区二区三区| 无码国内精品久久综合88| 国产成人AV片无码免费| 色综合无码AV网站| 精品亚洲成在人线AV无码| 无码av中文一二三区| 亚洲精品无码久久久久APP | 亚洲真人无码永久在线| 精品亚洲成A人无码成A在线观看| 亚洲人成无码www久久久| 99久久国产热无码精品免费| 中文字幕丰满伦子无码| 人妻丰满?V无码久久不卡| 无码国产精品一区二区免费I6 | 亚洲AV无码一区二区乱子伦| 精品少妇人妻AV无码专区不卡| 亚洲av无码成h人动漫无遮挡| 国产精品亚洲αv天堂无码| 男人av无码天堂| 无码人妻一区二区三区免费 | 国产精品无码翘臀在线观看| 亚洲精品无码久久毛片波多野吉衣 | 一区二区三区无码被窝影院| 亚洲欧洲日产国码无码久久99| 国产午夜无码视频免费网站| 亚洲最大无码中文字幕| 中文字幕AV无码一区二区三区| 日韩免费人妻AV无码专区蜜桃| 亚洲AV无码国产精品麻豆天美| 中出人妻中文字幕无码 | 一本无码中文字幕在线观| 中文有码vs无码人妻| 亚洲av无码成人黄网站在线观看 | 久久久久av无码免费网| 中字无码av电影在线观看网站|