System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及智能應(yīng)急救援,尤其是指基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法、系統(tǒng)及裝置。
技術(shù)介紹
1、隨著自然災(zāi)害和社會(huì)突發(fā)事件的頻繁發(fā)生,如何高效地進(jìn)行應(yīng)急救援已成為全球關(guān)注的重要課題。傳統(tǒng)的應(yīng)急救援方式往往依賴于人工經(jīng)驗(yàn)和指揮調(diào)度,這種方式在面對(duì)復(fù)雜多變的災(zāi)害場(chǎng)景時(shí),可能存在響應(yīng)速度慢、資源配置不合理等問題。特別是在災(zāi)難發(fā)生初期,如何快速有效地分配有限的救援資源,以最大限度地挽救生命,是一個(gè)亟待解決的問題。
2、近年來,隨著人工智能技術(shù)的發(fā)展,尤其是強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)技術(shù)的進(jìn)步,人們開始探索將其應(yīng)用于應(yīng)急救援領(lǐng)域。強(qiáng)化學(xué)習(xí)是一種使智能體通過與環(huán)境互動(dòng)學(xué)習(xí)最優(yōu)行為策略的方法,它能夠適應(yīng)動(dòng)態(tài)變化的環(huán)境,并且不需要大量的歷史數(shù)據(jù)作為訓(xùn)練前提,這使得它非常適合應(yīng)用于應(yīng)急救援這樣的非結(jié)構(gòu)化、不確定性強(qiáng)的場(chǎng)景。
3、在應(yīng)急救援場(chǎng)景中,強(qiáng)化學(xué)習(xí)可以通過模擬各種可能的情況,自動(dòng)學(xué)習(xí)出一套最優(yōu)的救援方案,以提高救援效率和效果。例如,它可以自動(dòng)識(shí)別哪些傷員最需要緊急救助,并規(guī)劃出最有效的救援路徑。然而,實(shí)際應(yīng)用中仍存在一些挑戰(zhàn),比如如何準(zhǔn)確地評(píng)估傷員的生存概率,如何有效地將復(fù)雜的現(xiàn)實(shí)情況轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)模型可以處理的狀態(tài)空間和動(dòng)作空間,以及如何設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)學(xué)習(xí)等。
4、因此,提出一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法和技術(shù)方案顯得尤為重要。該方法不僅需要考慮如何獲取受災(zāi)現(xiàn)場(chǎng)的有效數(shù)據(jù),還需要設(shè)計(jì)合理的模型訓(xùn)練流程和救援方案計(jì)算機(jī)制,以期在實(shí)際救援行動(dòng)中發(fā)揮積
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本專利技術(shù)提供了一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,包括以下步驟:
2、s1:獲取受災(zāi)現(xiàn)場(chǎng)的所有傷員數(shù)據(jù)和可支配救援車輛數(shù)據(jù);
3、s2:將所述傷員數(shù)據(jù)和所述可支配救援車輛數(shù)據(jù)作為救援狀態(tài)輸入到強(qiáng)化學(xué)習(xí)模型中,基于傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù),以最大化所述獎(jiǎng)勵(lì)函數(shù)的值為目標(biāo)進(jìn)行迭代訓(xùn)練,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型;
4、s3:基于所述訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型,輸入當(dāng)前救援狀態(tài),得到獎(jiǎng)勵(lì)值最大的動(dòng)作,即最佳傷員救援方案。
5、在本專利技術(shù)的一個(gè)實(shí)施例中,所述傷員數(shù)據(jù)包括傷員的位置數(shù)據(jù)和受傷時(shí)間,所述可支配救援車輛數(shù)據(jù)包括受災(zāi)現(xiàn)場(chǎng)當(dāng)前可支配救援車輛的數(shù)量和位置數(shù)據(jù)。
6、在本專利技術(shù)的一個(gè)實(shí)施例中,s2中,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型的方法如下:
7、s21:定義狀態(tài)空間s,其中st∈s表示當(dāng)前時(shí)間t的傷員和可支配救援車輛的數(shù)據(jù),包括傷員位置(xi,yi)、傷員編號(hào)i、受傷時(shí)間ti、車輛數(shù)量num和車輛位置(xv,yv),以及動(dòng)作空間a,其中ai∈a表示選擇某個(gè)傷員進(jìn)行救援的動(dòng)作;
8、s22:初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)θ、經(jīng)驗(yàn)回放池β,設(shè)置折扣因子γ,優(yōu)勢(shì)估計(jì)系數(shù)λ,以及多步更新的批次大小n;
9、s23:所述神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)st輸出動(dòng)作分布πθ(·|st),在動(dòng)作空間a里采樣動(dòng)作at,在環(huán)境中執(zhí)行動(dòng)作at生成即時(shí)獎(jiǎng)勵(lì)rt+1和下個(gè)決策點(diǎn)狀態(tài)st+1,將序列(st,at,rt+1,st+1)存入所述經(jīng)驗(yàn)回放池β;
10、s24:從所述經(jīng)驗(yàn)回放池β中采樣m個(gè)序列(st,at,rt+1,st+1)組成集合dt使用廣義優(yōu)勢(shì)估計(jì)計(jì)算各序列的優(yōu)勢(shì)函數(shù)at;
11、s25:基于優(yōu)勢(shì)函數(shù)at構(gòu)建損失函數(shù)lclip(θ),通過所述損失函數(shù)lclip(θ)使用梯度上升法更新參數(shù)θ:其中α為學(xué)習(xí)率;
12、s26:判斷是否達(dá)到設(shè)置的最大迭代次數(shù)或者網(wǎng)絡(luò)收斂:
13、若否,返回步驟s23;
14、若是,輸出當(dāng)前迭代訓(xùn)練參數(shù),將所述當(dāng)前迭代訓(xùn)練參數(shù)加載在強(qiáng)化學(xué)習(xí)模型中,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。
15、在本專利技術(shù)的一個(gè)實(shí)施例中,所述優(yōu)勢(shì)函數(shù)at的表達(dá)式為:
16、
17、其中,表示t時(shí)刻的a動(dòng)作估計(jì)的優(yōu)勢(shì)函數(shù)值;πθ(at|st)表示在參數(shù)θ下,t時(shí)刻s狀態(tài)執(zhí)行動(dòng)作a的策略;表示t時(shí)刻s狀態(tài)執(zhí)行a動(dòng)作的策略估計(jì);表示t時(shí)刻的優(yōu)勢(shì)函數(shù)估計(jì)值;
18、在本專利技術(shù)的一個(gè)實(shí)施例中,所述損失函數(shù)lclip(θ)的表達(dá)式如下:
19、
20、其中,表示期望,min表示取第一項(xiàng)和第二項(xiàng)的值較小的式子的運(yùn)算操作;clip函數(shù)確保新舊策略比例不超過[1-ε,1+ε]的范圍,表示對(duì)于括號(hào)中的三項(xiàng),如果第一項(xiàng)小于第二項(xiàng),那么就輸出1-ε;如果第一項(xiàng)大于第三項(xiàng),那么就輸出1+ε。
21、在本專利技術(shù)的一個(gè)實(shí)施例中,s2中,根據(jù)傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)的方法如下:
22、根據(jù)任意一位傷員i送往醫(yī)院的運(yùn)送時(shí)間t1和任意一位傷員i的受傷時(shí)間t2,得到任意一位傷員i的等待救治時(shí)間ti;
23、基于所述等待救治時(shí)間ti,得到任意一位傷員i的生存概率p(ti);
24、基于所述的生存概率p(ti),構(gòu)建獎(jiǎng)勵(lì)函數(shù)。
25、在本專利技術(shù)的一個(gè)實(shí)施例中,所述生存概率p(ti)的計(jì)算公式為:
26、
27、其中,α和γ均為超參數(shù),b0和b1均為擬合參數(shù)。
28、在本專利技術(shù)的一個(gè)實(shí)施例中,所述獎(jiǎng)勵(lì)函數(shù)r(s,a)的表達(dá)式為:
29、
30、其中,i表示傷員集合,s為當(dāng)前救援狀態(tài),a為當(dāng)前救援狀態(tài)s對(duì)應(yīng)的動(dòng)作。
31、本專利技術(shù)還提供了一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng),用于實(shí)現(xiàn)上述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法的步驟,包括以下模塊:
32、數(shù)據(jù)采集模塊,用于獲取受災(zāi)現(xiàn)場(chǎng)的所有傷員數(shù)據(jù)和可支配救援車輛數(shù)據(jù);
33、模型訓(xùn)練模塊,用于將所述傷員數(shù)據(jù)和所述可支配救援車輛數(shù)據(jù)作為救援狀態(tài)輸入到強(qiáng)化學(xué)習(xí)模型中,基于傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù),以最大化所述獎(jiǎng)勵(lì)函數(shù)的值為目標(biāo)進(jìn)行迭代訓(xùn)練,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型;
34、救援方案生成模塊,用于基于所述訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型,輸入當(dāng)前救援狀態(tài),得到獎(jiǎng)勵(lì)值最大的動(dòng)作,即最佳傷員救援方案。
35、本專利技術(shù)還提供了一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成裝置,該裝置包括上述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng)、實(shí)時(shí)數(shù)據(jù)接口模塊、動(dòng)態(tài)資源調(diào)度模塊和人機(jī)交互界面;
36、其中,所述實(shí)時(shí)數(shù)據(jù)接口模塊從外部數(shù)據(jù)源獲取設(shè)備實(shí)時(shí)獲取最新的傷員數(shù)據(jù)和救援車輛數(shù)據(jù);所述動(dòng)態(tài)資源調(diào)度模塊根據(jù)所述系統(tǒng)生成的救援方案規(guī)劃出最優(yōu)路徑,并自動(dòng)調(diào)度救援車輛前往最佳救援位置;所述人機(jī)交互界面包括輸入指令、查看救援狀態(tài)和接收最佳救援方案的可操作圖形接口。
37、本專利技術(shù)的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn):
38、本專利技術(shù)實(shí)現(xiàn)了應(yīng)急救援方案的智能化生成,能夠根據(jù)實(shí)時(shí)的傷員數(shù)據(jù)和救援車輛數(shù)據(jù)動(dòng)態(tài)調(diào)整救援策略,最大化傷員的生存概率,從而本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述傷員數(shù)據(jù)包括傷員的位置數(shù)據(jù)和受傷時(shí)間,所述可支配救援車輛數(shù)據(jù)包括受災(zāi)現(xiàn)場(chǎng)當(dāng)前可支配救援車輛的數(shù)量和位置數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:S2中,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型的方法如下:
4.根據(jù)權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述優(yōu)勢(shì)函數(shù)At的表達(dá)式為:
5.根據(jù)權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述損失函數(shù)LCLIP(θ)的表達(dá)式如下:
6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:S2中,根據(jù)傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)的方法如下:
7.根據(jù)權(quán)利要求6所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于,所述生存概率P(ti)的計(jì)算公式為:
8.根據(jù)權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述獎(jiǎng)勵(lì)函數(shù)
9.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng),其特征在于,用于實(shí)現(xiàn)如權(quán)利要求1~8任意一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法的步驟,包括以下模塊:
10.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成裝置,其特征在于,包括如權(quán)利要求9所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng)、實(shí)時(shí)數(shù)據(jù)接口模塊、動(dòng)態(tài)資源調(diào)度模塊和人機(jī)交互界面;
...【技術(shù)特征摘要】
1.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述傷員數(shù)據(jù)包括傷員的位置數(shù)據(jù)和受傷時(shí)間,所述可支配救援車輛數(shù)據(jù)包括受災(zāi)現(xiàn)場(chǎng)當(dāng)前可支配救援車輛的數(shù)量和位置數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:s2中,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型的方法如下:
4.根據(jù)權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述優(yōu)勢(shì)函數(shù)at的表達(dá)式為:
5.根據(jù)權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法,其特征在于:所述損失函數(shù)lclip(θ)的表達(dá)式如下:
6.根據(jù)權(quán)利要求1所述的基于...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳重,王昊,秋淵根,陳青云,張虎,伯婉,廉琦,
申請(qǐng)(專利權(quán))人:蘇州江南航天機(jī)電工業(yè)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。