【技術(shù)實現(xiàn)步驟摘要】
用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法
[0001]本專利技術(shù)涉及復(fù)雜問題的決策
,尤其涉及一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法。
技術(shù)介紹
[0002]現(xiàn)實的決策問題多屬于多目標(biāo)優(yōu)化的復(fù)雜決策問題,不僅僅要考慮到當(dāng)前狀態(tài)下的最優(yōu)策略,而且要考慮在不同狀態(tài)下所追求目標(biāo)之間的動態(tài)權(quán)重分配問題。傳統(tǒng)的方法雖然能解決一般的決策問題,但其優(yōu)化目標(biāo)通常只考慮一種要素或多目標(biāo)要素之間采用固定權(quán)重,導(dǎo)致由于獎勵函數(shù)的限制在決策過程中不能以最快的速度接近目標(biāo)。
[0003]以無人機對戰(zhàn)為例,對戰(zhàn)的目的是從目標(biāo)飛機的后方接近目標(biāo)飛機,即在決策的過程中要綜合考慮角度和距離等因素。現(xiàn)有算法在設(shè)計獎勵函數(shù)模型時對各因素考慮采用固定權(quán)重,沒有考慮在不同態(tài)勢下基于短期目的的不同,應(yīng)該對獎勵函數(shù)模型的各因素權(quán)重進(jìn)行調(diào)整。另外,本申請的方法還可應(yīng)用于路徑規(guī)劃、游戲等領(lǐng)域。
[0004]因此,有必要開發(fā)一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,利用不同的目標(biāo)之間動態(tài)權(quán)重分配設(shè)計不同的獎勵函數(shù)模型并訓(xùn)練不同的決策模型,通過自主的進(jìn)行決策模型切換,實現(xiàn)不同決策模型之間協(xié)同決策,最終獲取最優(yōu)的連續(xù)策略。
技術(shù)實現(xiàn)思路
[0005]本專利技術(shù)旨在解決現(xiàn)有技術(shù)或相關(guān)技術(shù)中存在的技術(shù)問題之一。
[0006]有鑒于此,本專利技術(shù)提出了一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,所述分層強化學(xué)習(xí)框架訓(xùn)練方法包括如下步驟:
[0007]基于所研究的實際問題,建立智能體與環(huán)境交互的仿真環(huán)境模型,使所述 ...
【技術(shù)保護(hù)點】
【技術(shù)特征摘要】
1.一種用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述分層強化學(xué)習(xí)框架訓(xùn)練方法包括如下步驟:基于所研究的實際問題,建立智能體與環(huán)境交互的仿真環(huán)境模型,使所述智能體生成策略后能夠?qū)幼髟谒龇抡姝h(huán)境模型中執(zhí)行;將所述實際問題劃分為多個子目標(biāo),針對多個所述子目標(biāo),通過分配不同的目標(biāo)權(quán)重建立多個獎勵函數(shù)模型;基于多個所述獎勵函數(shù)模型,建立對應(yīng)的多個DDPG模型;將多個所述DDPG模型的對應(yīng)策略視為離散動作,建立對應(yīng)的DDQN模型;將所述DDPG模型作為底層決策模型,所述DDQN模型作為選擇所述底層決策模型的頂層決策模型,構(gòu)建基于兩層決策過程的分層強化學(xué)習(xí)框架;基于所述分層強化學(xué)習(xí)框架和所述仿真環(huán)境模型進(jìn)行交互并存儲經(jīng)驗;存儲所述經(jīng)驗后,依照設(shè)定的模型訓(xùn)練頻率訓(xùn)練所述DDPG模型和所述DDQN模型,判斷訓(xùn)練后的所述DDPG模型和所述DDQN模型是否滿足應(yīng)用需求,若滿足需求則退出訓(xùn)練過程,否則重新存儲經(jīng)驗和重新訓(xùn)練所述DDPG模型和所述DDQN模型;在應(yīng)用階段,將所述智能體所處狀態(tài)輸入訓(xùn)練好的所述DDPG模型和所述DDQN模型,由所述頂層決策模型輸出各底層決策模型被選擇后所獲得的獎勵,激活最大獎勵對應(yīng)的所述底層決策模型,生成連續(xù)機動動作序列。2.根據(jù)權(quán)利要求1所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述獎勵函數(shù)模型作為所述智能體在所述仿真環(huán)境模型中執(zhí)行所述動作a
t
后,所述仿真環(huán)境模型對所述智能體的反饋r
t
;所述DDPG模型的輸入為所述智能體當(dāng)前所處的狀態(tài)S
t
,輸出為在當(dāng)前狀態(tài)下所產(chǎn)生的動作a
t
;所述DDQN模型的輸入為所述智能體當(dāng)前所處的狀態(tài)S
t
,輸出為各所述DDPG模型被選擇的所獲得的獎勵p
t
。3.根據(jù)權(quán)利要求2所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,通過分配不同的目標(biāo)權(quán)重建立多個所述獎勵函數(shù)模型:其中,不同的權(quán)重W
i
滿足:其中,n為獎勵函數(shù)模型影響因素的個數(shù);r
i
為第i個獎勵函數(shù)模型對應(yīng)的獎勵。4.根據(jù)權(quán)利要求2所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述DDPG模型包括Actor網(wǎng)絡(luò)θ、Actor目標(biāo)網(wǎng)絡(luò)θ'、Critic網(wǎng)絡(luò)ω和Critic目標(biāo)網(wǎng)絡(luò)ω',所述Actor網(wǎng)絡(luò)用于生成策略,所述Actor目標(biāo)網(wǎng)絡(luò)用于指導(dǎo)所述Critic網(wǎng)絡(luò)的更新,所述Critic網(wǎng)絡(luò)用于評價所述策略,所述Critic目標(biāo)網(wǎng)絡(luò)用于計算Q值,其中,Q值為動作價值函數(shù),即在當(dāng)前狀態(tài)下執(zhí)行該動作對應(yīng)的獎勵值。5.根據(jù)權(quán)利要求4所述的用于多目標(biāo)決策的分層強化學(xué)習(xí)框架訓(xùn)練方法,其特征在于,所述Actor網(wǎng)絡(luò)θ的目標(biāo)是輸出最優(yōu)策略使所述Critic網(wǎng)絡(luò)ω的輸出最大,因此所述Actor網(wǎng)絡(luò)θ的目標(biāo)輸出為:
其中,Δa為動作a的增量,q(S
t
,a,ω)為當(dāng)前狀態(tài)下Critic網(wǎng)絡(luò)的評價;為Critic網(wǎng)絡(luò)對a的偏導(dǎo),r
a
為Actor網(wǎng)絡(luò)的學(xué)習(xí)率;a為當(dāng)前狀態(tài)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王昱,任田君,關(guān)智慧,
申請(專利權(quán))人:沈陽航空航天大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。