System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及強(qiáng)化學(xué)習(xí),尤其涉及一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法。
技術(shù)介紹
1、束線站是同步輻射光源裝置中的關(guān)鍵組成部分,負(fù)責(zé)將儲(chǔ)存環(huán)中高速運(yùn)動(dòng)的電子產(chǎn)生的同步輻射光引導(dǎo)至特定的實(shí)驗(yàn)站。同步輻射光源是一種極為重要的科學(xué)研究工具,能夠提供高亮度、高分辨率的光源,廣泛應(yīng)用于材料科學(xué)、生命科學(xué)、化學(xué)和物理等多個(gè)領(lǐng)域。在束線站中,光束經(jīng)過(guò)一系列光學(xué)元件的調(diào)控,如聚焦、單色化和準(zhǔn)直等,旨在滿足不同實(shí)驗(yàn)的需求。每條束線站通常針對(duì)特定的實(shí)驗(yàn)技術(shù)或研究領(lǐng)域進(jìn)行設(shè)計(jì),例如x射線吸收譜學(xué)、x射線衍射、光電子能譜等。在實(shí)施中需要對(duì)束線站參數(shù)進(jìn)行優(yōu)化以實(shí)現(xiàn)對(duì)束線站中光學(xué)元件的高精度調(diào)控,從而確保光束特性能夠滿足實(shí)驗(yàn)要求,因此如何優(yōu)化束線站參數(shù),以提高實(shí)驗(yàn)精度和效率,是當(dāng)前研究的重點(diǎn)之一。
2、目前,強(qiáng)化學(xué)習(xí)、貝葉斯優(yōu)化算法和粒子群算法等優(yōu)化方法已經(jīng)廣泛應(yīng)用在束線站的參數(shù)優(yōu)化中。上述方法能夠通過(guò)不斷試驗(yàn)和調(diào)整,優(yōu)化束線站的參數(shù)組合,以實(shí)現(xiàn)最佳的實(shí)驗(yàn)效果。然而,在實(shí)際操作中設(shè)備存在誤差,誤差會(huì)導(dǎo)致狀態(tài)估計(jì)與實(shí)際設(shè)備的真實(shí)狀態(tài)之間出現(xiàn)偏差,使得強(qiáng)化學(xué)習(xí)策略在稀疏獎(jiǎng)勵(lì)場(chǎng)景下更難以學(xué)習(xí)有效的策略。尤其在靠近物理邊界的區(qū)域,由于狀態(tài)估計(jì)的誤差擴(kuò)大,強(qiáng)化學(xué)習(xí)難以獲取高精度的策略。這一偏差在策略優(yōu)化過(guò)程中逐步放大。具體而言,強(qiáng)化學(xué)習(xí)依賴對(duì)設(shè)備狀態(tài)的準(zhǔn)確感知來(lái)評(píng)估動(dòng)作與獎(jiǎng)勵(lì)的對(duì)應(yīng)關(guān)系,而當(dāng)狀態(tài)估計(jì)不準(zhǔn)確時(shí),策略可能偏向于對(duì)錯(cuò)誤狀態(tài)進(jìn)行優(yōu)化,這種偏差影響了策略的更新方向,使得實(shí)際學(xué)到的策略無(wú)法準(zhǔn)確反映設(shè)備的真實(shí)情況,進(jìn)而容易導(dǎo)致策略的學(xué)習(xí)出現(xiàn)
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,使用卡爾曼濾波和強(qiáng)化學(xué)習(xí)結(jié)合的方法,來(lái)緩解設(shè)備參數(shù)調(diào)優(yōu)過(guò)程中系統(tǒng)誤差帶來(lái)的影響,提高狀態(tài)估計(jì)的準(zhǔn)確性,從而使得策略的學(xué)習(xí)更為精準(zhǔn)。本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:
2、第一方面,本申請(qǐng)?zhí)峁┮环N基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,所述方法包括:
3、基于初始策略和預(yù)設(shè)的目標(biāo)狀態(tài),從環(huán)境中隨機(jī)選擇若干初始狀態(tài)并進(jìn)行采樣,收集多條由連續(xù)經(jīng)驗(yàn)四元組組成的軌跡數(shù)據(jù);
4、在第一輪采樣中,使用收集到的軌跡數(shù)據(jù)訓(xùn)練概率神經(jīng)網(wǎng)絡(luò)得到狀態(tài)轉(zhuǎn)移模型;
5、對(duì)于每條軌跡數(shù)據(jù),結(jié)合所述狀態(tài)轉(zhuǎn)移模型開展擴(kuò)展卡爾曼濾波,使用濾波后的下一時(shí)刻狀態(tài)替換進(jìn)每條軌跡數(shù)據(jù)的經(jīng)驗(yàn)四元組中并將新的經(jīng)驗(yàn)四元組保存進(jìn)經(jīng)驗(yàn)回放池;
6、使用ddpg算法從所述經(jīng)驗(yàn)回放池中隨機(jī)采樣經(jīng)驗(yàn)四元組并對(duì)當(dāng)前策略進(jìn)行學(xué)習(xí)更新,獲得新的策略,依此循環(huán)直至策略學(xué)習(xí)完成。
7、在一個(gè)具體的可實(shí)施方案中,所述使用收集到的軌跡數(shù)據(jù)訓(xùn)練概率神經(jīng)網(wǎng)絡(luò)得到狀態(tài)轉(zhuǎn)移模型包括:
8、第一輪采樣結(jié)束收集得到多條軌跡數(shù)據(jù)之后,使用收集得到的多條軌跡數(shù)據(jù)訓(xùn)練預(yù)設(shè)的概率神經(jīng)網(wǎng)絡(luò)得到狀態(tài)轉(zhuǎn)移模型,狀態(tài)轉(zhuǎn)移模型如下:
9、;
10、其中,和分別代表當(dāng)前狀態(tài)和當(dāng)前動(dòng)作,為概率神經(jīng)網(wǎng)絡(luò)的模型參數(shù),為均值向量,為方差向量。
11、在一個(gè)具體的可實(shí)施方案中,所述對(duì)于每條軌跡數(shù)據(jù),結(jié)合所述狀態(tài)轉(zhuǎn)移模型開展擴(kuò)展卡爾曼濾波,使用濾波后的下一時(shí)刻狀態(tài)替換進(jìn)每條軌跡數(shù)據(jù)的經(jīng)驗(yàn)四元組中并將新的經(jīng)驗(yàn)四元組保存進(jìn)經(jīng)驗(yàn)回放池包括:
12、通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣;
13、引入觀測(cè)值和卡爾曼增益,對(duì)預(yù)測(cè)狀態(tài)值和誤差協(xié)方差矩陣進(jìn)行修正;
14、完成修正后,更新誤差協(xié)方差矩陣,并將修正后的預(yù)測(cè)狀態(tài)值作為下一時(shí)刻狀態(tài)值替換進(jìn)原有的經(jīng)驗(yàn)四元組中形成新的經(jīng)驗(yàn)四元組。
15、在一個(gè)具體的可實(shí)施方案中,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣包括:
16、使用狀態(tài)轉(zhuǎn)移模型預(yù)測(cè)當(dāng)前時(shí)刻的狀態(tài)如下:
17、;
18、為當(dāng)前時(shí)刻的預(yù)測(cè)值,誤差協(xié)方差的預(yù)測(cè)公式如下:
19、;
20、其中,是狀態(tài)轉(zhuǎn)移模型關(guān)于狀態(tài)在當(dāng)前時(shí)刻的雅可比矩陣,是協(xié)方差矩陣,是上一時(shí)刻更新階段的誤差協(xié)方差矩陣,是當(dāng)前時(shí)刻預(yù)測(cè)階段的協(xié)方差矩陣,是過(guò)程噪聲協(xié)方差矩陣,表示轉(zhuǎn)置操作。
21、在一個(gè)具體的可實(shí)施方案中,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣還包括:
22、利用當(dāng)前軌跡中n條連續(xù)的經(jīng)驗(yàn)四元組以及狀態(tài)轉(zhuǎn)移模型計(jì)算每一個(gè)經(jīng)驗(yàn)四元組的誤差如下:
23、;
24、;
25、其中,,計(jì)算所有經(jīng)驗(yàn)四元組的平均誤差如下:
26、;
27、使用以下公式計(jì)算出:
28、;
29、其中,表示轉(zhuǎn)置操作,代表軌跡數(shù)據(jù)中第個(gè)四元組樣本,和分別代表經(jīng)驗(yàn)四元組中上一時(shí)刻和當(dāng)前時(shí)刻。
30、在一個(gè)具體的可實(shí)施方案中,所述引入觀測(cè)值和卡爾曼增益,對(duì)預(yù)測(cè)狀態(tài)值和誤差協(xié)方差矩陣進(jìn)行修正包括:
31、計(jì)算觀測(cè)值和預(yù)測(cè)值的差值如下:
32、;
33、使用以下公式計(jì)算卡爾曼增益:
34、;
35、其中,是利用經(jīng)驗(yàn)回放池中的連續(xù)的軌跡數(shù)據(jù)使用動(dòng)態(tài)估計(jì)的方式計(jì)算并構(gòu)建的對(duì)角矩陣,利用當(dāng)前軌跡中采樣n條連續(xù)的經(jīng)驗(yàn)樣本,取其中的,假設(shè)有個(gè)維度的分量,計(jì)算每個(gè)分量的標(biāo)準(zhǔn)差,的計(jì)算公式如下:
36、;
37、預(yù)測(cè)狀態(tài)值的修正公式如下:
38、;
39、為預(yù)測(cè)修正后的狀態(tài)值;誤差協(xié)方差矩陣的修正公式如下:
40、;
41、為修正后的誤差協(xié)方差矩陣。
42、在一個(gè)具體的可實(shí)施方案中,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣還包括:
43、誤差協(xié)方差急診需要進(jìn)行初始化操作,使用當(dāng)前軌跡中n個(gè)連續(xù)的經(jīng)驗(yàn)四元組的軌跡數(shù)據(jù),假設(shè)有個(gè)維度的分量,,計(jì)算n個(gè)的每個(gè)分量的標(biāo)準(zhǔn)差,誤差協(xié)方差的初始值計(jì)算公式如下:
44、;
45、;
46、其中,表示第一個(gè)分量的均值,表示第條軌跡數(shù)據(jù)中狀態(tài)的第一個(gè)分量的值,分別計(jì)算每個(gè)經(jīng)驗(yàn)四元組觀測(cè)值和預(yù)測(cè)值的協(xié)方差矩陣,求取平均值作為預(yù)測(cè)階段誤差協(xié)方差的初始值。
47、第二方面,本申請(qǐng)?zhí)峁┮环N基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化系統(tǒng),采用如下的技術(shù)方案:
48、一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化系統(tǒng),包括:
49、軌跡數(shù)據(jù)采集模塊,用于基于初始策略和預(yù)設(shè)的目標(biāo)狀態(tài),從環(huán)境中隨機(jī)選擇若干初始狀態(tài)并進(jìn)行采樣,收集多條由連續(xù)經(jīng)驗(yàn)四元組組成的軌跡數(shù)據(jù);
50、狀態(tài)轉(zhuǎn)移模型生成模塊,用于在第一輪采樣中,使用收集到的軌跡數(shù)據(jù)訓(xùn)練概率神經(jīng)網(wǎng)絡(luò)得到狀態(tài)轉(zhuǎn)移模型;
51、擴(kuò)展卡爾曼濾波模塊,用于對(duì)于每條軌跡數(shù)據(jù),結(jié)合所述狀態(tài)轉(zhuǎn)移模型開展擴(kuò)展卡爾曼濾波,本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述使用收集到的軌跡數(shù)據(jù)訓(xùn)練概率神經(jīng)網(wǎng)絡(luò)得到狀態(tài)轉(zhuǎn)移模型包括:
3.根據(jù)權(quán)利要求2所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述對(duì)于每條軌跡數(shù)據(jù),結(jié)合所述狀態(tài)轉(zhuǎn)移模型開展擴(kuò)展卡爾曼濾波,使用濾波后的下一時(shí)刻狀態(tài)替換進(jìn)每條軌跡數(shù)據(jù)的經(jīng)驗(yàn)四元組中并將新的經(jīng)驗(yàn)四元組保存進(jìn)經(jīng)驗(yàn)回放池包括:
4.根據(jù)權(quán)利要求3所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣包括:
5.根據(jù)權(quán)利要求4所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣還包括:
6.根據(jù)權(quán)利要求4所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述引入觀測(cè)值和卡爾曼增益,對(duì)預(yù)
7.根據(jù)權(quán)利要求3所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣還包括:
8.一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述設(shè)備包括處理器和存儲(chǔ)器;所述存儲(chǔ)器中存儲(chǔ)有程序,所述程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有程序,所述程序被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法。
...【技術(shù)特征摘要】
1.一種基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述使用收集到的軌跡數(shù)據(jù)訓(xùn)練概率神經(jīng)網(wǎng)絡(luò)得到狀態(tài)轉(zhuǎn)移模型包括:
3.根據(jù)權(quán)利要求2所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述對(duì)于每條軌跡數(shù)據(jù),結(jié)合所述狀態(tài)轉(zhuǎn)移模型開展擴(kuò)展卡爾曼濾波,使用濾波后的下一時(shí)刻狀態(tài)替換進(jìn)每條軌跡數(shù)據(jù)的經(jīng)驗(yàn)四元組中并將新的經(jīng)驗(yàn)四元組保存進(jìn)經(jīng)驗(yàn)回放池包括:
4.根據(jù)權(quán)利要求3所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣包括:
5.根據(jù)權(quán)利要求4所述的基于擴(kuò)展卡爾曼濾波和強(qiáng)化學(xué)習(xí)的束線站參數(shù)優(yōu)化方法,其特征在于,所述通過(guò)狀態(tài)轉(zhuǎn)移模型對(duì)當(dāng)前時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)并計(jì)算該狀態(tài)的誤差協(xié)方差矩陣還...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:戴圣然,王思宇,蔣建慧,張俊斌,方子君,吳爽,
申請(qǐng)(專利權(quán))人:材料科學(xué)姑蘇實(shí)驗(yàn)室,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。