System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別是涉及一種基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法。
技術(shù)介紹
1、強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)是一種通過智能體與環(huán)境交互學(xué)習(xí)最優(yōu)策略的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于機(jī)器人控制、游戲ai、自動駕駛等領(lǐng)域。強(qiáng)化學(xué)習(xí)并不直接從數(shù)據(jù)中學(xué)習(xí)知識,而是基于環(huán)境的反饋來采取行動,該過程是一個持續(xù)交互的過程,目的是在從開始和環(huán)境交互到交互結(jié)束的時刻能獲得最大的累計獎勵。深度強(qiáng)化學(xué)習(xí)將傳統(tǒng)的基于馬爾可夫決策過程的傳統(tǒng)強(qiáng)化學(xué)習(xí)方法與深度學(xué)習(xí)技術(shù)結(jié)合,大幅度的提升了強(qiáng)化學(xué)習(xí)解決復(fù)雜問題的能力,如今已經(jīng)在諸如游戲、機(jī)器人控制等多個現(xiàn)實應(yīng)用中落地并取得了令人矚目的成果。然而強(qiáng)化學(xué)習(xí)的落地卻始終存在著一定阻力,例如傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常需要智能體與仿真環(huán)境進(jìn)行不停的交互,需要通過試錯的方式來學(xué)習(xí)最優(yōu)策略。然而,這種實時交互的方式在現(xiàn)實任務(wù)中可能存在很多挑戰(zhàn),如收集數(shù)據(jù)成本高,仿真效率低下、安全風(fēng)險、以及因為仿真不能完全等價于現(xiàn)實情況所以導(dǎo)致的仿真和真實應(yīng)用的領(lǐng)域差異等問題都對在線強(qiáng)化學(xué)習(xí)的落地造成了一定挑戰(zhàn)。
2、離線強(qiáng)化學(xué)習(xí)(rl),也稱批量強(qiáng)化學(xué)習(xí),是強(qiáng)化學(xué)習(xí)的一個熱門的下屬研究領(lǐng)域,它要求智能體從一個靜態(tài)的、確定的數(shù)據(jù)集中訓(xùn)練智能體,并且在整個策略訓(xùn)練階段都不允許和環(huán)境有任何額外的探索。這在許多現(xiàn)實世界的領(lǐng)域中非常有吸引力,例如機(jī)器人學(xué)、物流和運籌學(xué)等領(lǐng)域,因為在這些領(lǐng)域中,使用未訓(xùn)練策略進(jìn)行現(xiàn)實世界探索的代價高昂或危險,而已有數(shù)據(jù)是可用的。然而,由于無法與環(huán)境交互并收集新數(shù)據(jù),在離
3、為了解決這個問題,以往的離線強(qiáng)化學(xué)習(xí)主流的方法可分為兩大類,一種是通過對離線的學(xué)習(xí)策略添加顯式的或隱式的散度約束來防止學(xué)習(xí)策略和行為策略分布偏移過遠(yuǎn)的基于散度約束的方法。而另一類是對策略函數(shù)的q值進(jìn)行抑制以解決分布外動作高估問題,比如其中一種方法是直接利用神經(jīng)網(wǎng)絡(luò)自身泛化性的特點,使用集成式的q價值網(wǎng)絡(luò)對于離線數(shù)據(jù)集中狀態(tài)動作對的q價值的預(yù)測誤差來擬合狀態(tài)動作的不確定性,從而無需對策略添加約束,直接通過估計的不確定性來懲罰策略學(xué)習(xí)的基于集成的離線強(qiáng)化學(xué)習(xí)方法。策略約束可以解決分布外動作高估問題,但是由于其將學(xué)習(xí)策略限制在行為策略周圍,這會使得學(xué)習(xí)策略極大的受限于行為策略的好壞。價值約束雖然同樣可以解決分布外動作高估問題,但由于策略學(xué)習(xí)和價值學(xué)習(xí)是相互進(jìn)行的,在抑制價值函數(shù)的同時,同樣也會對策略函數(shù)產(chǎn)生約束,導(dǎo)致學(xué)習(xí)策略的次優(yōu)性。
技術(shù)實現(xiàn)思路
1、有鑒于現(xiàn)有技術(shù)的上述的一部分缺陷,本專利技術(shù)所要解決的技術(shù)問題是提供一種基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,旨在通過擴(kuò)散模型生成行為動作進(jìn)行評估當(dāng)前策略輸出的偏移程度。偏移程度的高低反應(yīng)了當(dāng)前策略與離線數(shù)據(jù)集分布之間的差異,偏移程度越高,對應(yīng)價值函數(shù)給予更高的抑制,可以有效解決了現(xiàn)有離線強(qiáng)化學(xué)習(xí)中抑制效果太大導(dǎo)致策略學(xué)習(xí)過于保守的問題。
2、為實現(xiàn)上述目的,本專利技術(shù)開了一種基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,一種基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述方法包括:
3、步驟s1、采集智能體的第一數(shù)據(jù)集并進(jìn)行預(yù)處理,獲得離線數(shù)據(jù)集;其中,所述離線數(shù)據(jù)集中的每個數(shù)據(jù)包括智能體的當(dāng)前狀態(tài)、當(dāng)前執(zhí)行動作、當(dāng)前獎勵和下一時刻狀態(tài);
4、步驟s2、構(gòu)建第一擴(kuò)散模型,并對所述第一擴(kuò)散模型進(jìn)行初始化;使用所述離線數(shù)據(jù)集對所述第一擴(kuò)散模型進(jìn)行訓(xùn)練,獲得最終擴(kuò)散模型;
5、步驟s3、針對所述離線數(shù)據(jù)集中的每個狀態(tài),從所述最終擴(kuò)散模型中采集m個與所述狀態(tài)相對應(yīng)的動作,構(gòu)成所述狀態(tài)的支持動作集;將各個所述支持動作集進(jìn)行組合,構(gòu)成支持動作數(shù)據(jù)集;其中,所述狀態(tài)包括所述當(dāng)前狀態(tài)和所述下一時刻狀態(tài);
6、步驟s4、基于深度確定性策略梯度算法構(gòu)建策略網(wǎng)絡(luò)、n個價值網(wǎng)絡(luò)、與所述策略網(wǎng)絡(luò)結(jié)構(gòu)一致的目標(biāo)策略網(wǎng)絡(luò)以及與n個所述價值網(wǎng)絡(luò)結(jié)構(gòu)一致的n個目標(biāo)價值網(wǎng)絡(luò);
7、步驟s5、使用所述離線數(shù)據(jù)集和所述支持動作數(shù)據(jù)集對所述策略網(wǎng)絡(luò)和所述價值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并同時更新所述目標(biāo)策略網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和目標(biāo)價值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);
8、步驟s6、使用學(xué)習(xí)到的最優(yōu)所述目標(biāo)策略網(wǎng)絡(luò)進(jìn)行決策,以使所述智能體在離線環(huán)境下進(jìn)行強(qiáng)化學(xué)習(xí)任務(wù)。
9、可選的,所述步驟s3具體包括:
10、針對所述離線數(shù)據(jù)集中的每個所述狀態(tài),在所述最終擴(kuò)散模型βw(·∣s)中采樣m次,生成的動作集合表示為{a1,a2,a3,...,am|βw(·∣s)};其中βw(·∣s)表示擴(kuò)散模型在給定狀態(tài)s下行為動作的分布,w為擴(kuò)散模型的網(wǎng)絡(luò)參數(shù),所述動作集合構(gòu)成了所述支持動作集
11、將所述離線數(shù)據(jù)集中的所有所述狀態(tài)對應(yīng)的所述支持動作集進(jìn)行組合,形成所述支持動作數(shù)據(jù)集其中m表示離線數(shù)據(jù)集的每個狀態(tài)采樣次數(shù),βw表示用于生成動作的擴(kuò)散模型。
12、可選的,所述步驟s5中使用所述離線數(shù)據(jù)集和所述支持動作數(shù)據(jù)集對所述價值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:
13、采用所述離線數(shù)據(jù)集和所述支持動作數(shù)據(jù)集中的經(jīng)驗樣本(s,a,s′)對n個所述價值網(wǎng)絡(luò)進(jìn)行更新,其損失函數(shù)由td損失函數(shù)和正則化損失函數(shù)組成,更新方法為通過梯度下降法最小化如下的損失函數(shù):
14、
15、其中,表示所述價值網(wǎng)絡(luò)的總體損失函數(shù),表示所述價值網(wǎng)絡(luò)的td損失函數(shù),表示所述價值網(wǎng)絡(luò)的正則化損失函數(shù),表示第n個所述價值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),n∈{1,...,n},s表示所述當(dāng)前狀態(tài),a表示當(dāng)前執(zhí)行動作,s′表示下一時刻狀態(tài)。
16、可選的,所述方法還包括:
17、運用所述支持動作集將連續(xù)動作離散化以適配td損失函數(shù),所述td損失函數(shù)中的更新目標(biāo)為對所述支持動作集的每個動作進(jìn)行評估選取最優(yōu)動作,更新方法為通過梯度下降法最小化的如下?lián)p失函數(shù):
18、
19、其中,表示第n個所述價值網(wǎng)絡(luò)的所述td損失函數(shù),表示第n個所述價值網(wǎng)絡(luò)參數(shù),n∈{1,...,n},表示所述價值網(wǎng)絡(luò)n在輸入為(s,a)時的輸出,r(s,a)表示當(dāng)前(s,a)的獎勵值,γ表示回報折扣值,表示第n′個所述目標(biāo)價值網(wǎng)絡(luò),n′∈{1,...,n},表示在狀態(tài)s′下,從支持動作集中選擇使n個所述價值網(wǎng)絡(luò)的期望q值最大的動作a*,
20、表示從n個所述目標(biāo)價值網(wǎng)絡(luò)中取最小的目標(biāo)價值網(wǎng)絡(luò)值。
21、可選的,所述正則化損失函數(shù)用于抑制分布外動作的值,同時避免在訓(xùn)練所述價值網(wǎng)絡(luò)時對所述離線數(shù)據(jù)集中的數(shù)據(jù)輸出值產(chǎn)生影響,所述正則化損失函數(shù)公式如下:
22、
23、其中,表示狀態(tài)為s時所述目標(biāo)策略網(wǎng)絡(luò)的輸出值為a′,(本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S3具體包括:
3.根據(jù)權(quán)利要求1所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S5中使用所述離線數(shù)據(jù)集和所述支持動作數(shù)據(jù)集對所述價值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:
4.根據(jù)權(quán)利要求3所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求3所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述正則化損失函數(shù)用于抑制分布外動作的值,同時避免在訓(xùn)練所述價值網(wǎng)絡(luò)時對所述離線數(shù)據(jù)集中的數(shù)據(jù)輸出值產(chǎn)生影響,所述正則化損失函數(shù)公式如下:
6.根據(jù)權(quán)利要求5所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述距離函數(shù)用于計算所述支持動作集與所述策略網(wǎng)絡(luò)輸出動作a′之間的最小距離值,所述距離函數(shù)如下所示:
7.根據(jù)權(quán)利要求1所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S5中使用所述離線數(shù)據(jù)集和所述支持動作數(shù)據(jù)
8.根據(jù)權(quán)利要求1-7中任一項所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,通過交替優(yōu)化的方式來尋找所述離線數(shù)據(jù)集中的動作-狀態(tài)空間的最優(yōu)值,在確保所述價值網(wǎng)絡(luò)對于所述離線數(shù)據(jù)集數(shù)據(jù)估計準(zhǔn)確的同時,降低所述價值網(wǎng)絡(luò)對分布外動作的估計值,從而探索高獎勵動作。
9.根據(jù)權(quán)利要求1所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述智能體包括機(jī)器人和自動駕駛裝置。
...【技術(shù)特征摘要】
1.一種基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟s3具體包括:
3.根據(jù)權(quán)利要求1所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟s5中使用所述離線數(shù)據(jù)集和所述支持動作數(shù)據(jù)集對所述價值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:
4.根據(jù)權(quán)利要求3所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求3所述的基于行為動作生成的離線強(qiáng)化學(xué)習(xí)方法,其特征在于,所述正則化損失函數(shù)用于抑制分布外動作的值,同時避免在訓(xùn)練所述價值網(wǎng)絡(luò)時對所述離線數(shù)據(jù)集中的數(shù)據(jù)輸出值產(chǎn)生影響,所述正則化損失函數(shù)公式如下:
6.根據(jù)權(quán)利要求5所述的基于...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張永愛,李海峰,吳朝興,周雄圖,郭太良,
申請(專利權(quán))人:福州大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。