當(dāng)前位置: 首頁 > 專利查詢>蘇州江南航天機(jī)電工業(yè)有限公司專利>正文

基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法、系統(tǒng)及裝置制造方法及圖紙

技術(shù)編號(hào)：44285740 閱讀：9 留言：0更新日期：2025-02-14 22:21

本發(fā)明專利技術(shù)涉及智能應(yīng)急救援技術(shù)領(lǐng)域，尤其是指基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法、系統(tǒng)及裝置，所述方法包括：S1：獲取受災(zāi)現(xiàn)場(chǎng)的所有傷員數(shù)據(jù)和可支配救援車輛數(shù)據(jù)；S2：將所述傷員數(shù)據(jù)和所述可支配救援車輛數(shù)據(jù)作為救援狀態(tài)輸入到強(qiáng)化學(xué)習(xí)模型中，基于傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)，以最大化所述獎(jiǎng)勵(lì)函數(shù)的值為目標(biāo)進(jìn)行迭代訓(xùn)練，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型；S3：基于所述訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型，輸入當(dāng)前救援狀態(tài)，得到獎(jiǎng)勵(lì)值最大的動(dòng)作，即最佳傷員救援方案。本發(fā)明專利技術(shù)不僅能夠提高救援效率，減少傷亡，還能夠優(yōu)化資源配置，減輕救援人員的工作負(fù)擔(dān)，對(duì)于提升應(yīng)急救援的整體水平具有重要意義。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及智能應(yīng)急救援，尤其是指基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法、系統(tǒng)及裝置。

技術(shù)介紹

1、隨著自然災(zāi)害和社會(huì)突發(fā)事件的頻繁發(fā)生，如何高效地進(jìn)行應(yīng)急救援已成為全球關(guān)注的重要課題。傳統(tǒng)的應(yīng)急救援方式往往依賴于人工經(jīng)驗(yàn)和指揮調(diào)度，這種方式在面對(duì)復(fù)雜多變的災(zāi)害場(chǎng)景時(shí)，可能存在響應(yīng)速度慢、資源配置不合理等問題。特別是在災(zāi)難發(fā)生初期，如何快速有效地分配有限的救援資源，以最大限度地挽救生命，是一個(gè)亟待解決的問題。

2、近年來，隨著人工智能技術(shù)的發(fā)展，尤其是強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)技術(shù)的進(jìn)步，人們開始探索將其應(yīng)用于應(yīng)急救援領(lǐng)域。強(qiáng)化學(xué)習(xí)是一種使智能體通過與環(huán)境互動(dòng)學(xué)習(xí)最優(yōu)行為策略的方法，它能夠適應(yīng)動(dòng)態(tài)變化的環(huán)境，并且不需要大量的歷史數(shù)據(jù)作為訓(xùn)練前提，這使得它非常適合應(yīng)用于應(yīng)急救援這樣的非結(jié)構(gòu)化、不確定性強(qiáng)的場(chǎng)景。

3、在應(yīng)急救援場(chǎng)景中，強(qiáng)化學(xué)習(xí)可以通過模擬各種可能的情況，自動(dòng)學(xué)習(xí)出一套最優(yōu)的救援方案，以提高救援效率和效果。例如，它可以自動(dòng)識(shí)別哪些傷員最需要緊急救助，并規(guī)劃出最有效的救援路徑。然而，實(shí)際應(yīng)用中仍存在一些挑戰(zhàn)，比如如何準(zhǔn)確地評(píng)估傷員的生存概率，如何有效地將復(fù)雜的現(xiàn)實(shí)情況轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)模型可以處理的狀態(tài)空間和動(dòng)作空間，以及如何設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)學(xué)習(xí)等。

4、因此，提出一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法和技術(shù)方案顯得尤為重要。該方法不僅需要考慮如何獲取受災(zāi)現(xiàn)場(chǎng)的有效數(shù)據(jù)，還需要設(shè)計(jì)合理的模型訓(xùn)練流程和救援方案計(jì)算機(jī)制，以期在實(shí)際救援行動(dòng)中發(fā)揮積

技術(shù)實(shí)現(xiàn)思路

1、為解決上述技術(shù)問題，本專利技術(shù)提供了一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，包括以下步驟：

2、s1：獲取受災(zāi)現(xiàn)場(chǎng)的所有傷員數(shù)據(jù)和可支配救援車輛數(shù)據(jù)；

3、s2：將所述傷員數(shù)據(jù)和所述可支配救援車輛數(shù)據(jù)作為救援狀態(tài)輸入到強(qiáng)化學(xué)習(xí)模型中，基于傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)，以最大化所述獎(jiǎng)勵(lì)函數(shù)的值為目標(biāo)進(jìn)行迭代訓(xùn)練，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型；

4、s3：基于所述訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型，輸入當(dāng)前救援狀態(tài)，得到獎(jiǎng)勵(lì)值最大的動(dòng)作，即最佳傷員救援方案。

5、在本專利技術(shù)的一個(gè)實(shí)施例中，所述傷員數(shù)據(jù)包括傷員的位置數(shù)據(jù)和受傷時(shí)間，所述可支配救援車輛數(shù)據(jù)包括受災(zāi)現(xiàn)場(chǎng)當(dāng)前可支配救援車輛的數(shù)量和位置數(shù)據(jù)。

6、在本專利技術(shù)的一個(gè)實(shí)施例中，s2中，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型的方法如下：

7、s21：定義狀態(tài)空間s，其中st∈s表示當(dāng)前時(shí)間t的傷員和可支配救援車輛的數(shù)據(jù)，包括傷員位置(xi,yi)、傷員編號(hào)i、受傷時(shí)間ti、車輛數(shù)量num和車輛位置(xv,yv)，以及動(dòng)作空間a，其中ai∈a表示選擇某個(gè)傷員進(jìn)行救援的動(dòng)作；

8、s22：初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)θ、經(jīng)驗(yàn)回放池β，設(shè)置折扣因子γ，優(yōu)勢(shì)估計(jì)系數(shù)λ，以及多步更新的批次大小n；

9、s23：所述神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)st輸出動(dòng)作分布πθ(·|st)，在動(dòng)作空間a里采樣動(dòng)作at，在環(huán)境中執(zhí)行動(dòng)作at生成即時(shí)獎(jiǎng)勵(lì)rt+1和下個(gè)決策點(diǎn)狀態(tài)st+1，將序列(st,at,rt+1,st+1)存入所述經(jīng)驗(yàn)回放池β；

10、s24：從所述經(jīng)驗(yàn)回放池β中采樣m個(gè)序列(st,at,rt+1,st+1)組成集合dt使用廣義優(yōu)勢(shì)估計(jì)計(jì)算各序列的優(yōu)勢(shì)函數(shù)at；

11、s25：基于優(yōu)勢(shì)函數(shù)at構(gòu)建損失函數(shù)lclip(θ)，通過所述損失函數(shù)lclip(θ)使用梯度上升法更新參數(shù)θ：其中α為學(xué)習(xí)率；

12、s26：判斷是否達(dá)到設(shè)置的最大迭代次數(shù)或者網(wǎng)絡(luò)收斂：

13、若否，返回步驟s23；

14、若是，輸出當(dāng)前迭代訓(xùn)練參數(shù)，將所述當(dāng)前迭代訓(xùn)練參數(shù)加載在強(qiáng)化學(xué)習(xí)模型中，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。

15、在本專利技術(shù)的一個(gè)實(shí)施例中，所述優(yōu)勢(shì)函數(shù)at的表達(dá)式為：

16、

17、其中，表示t時(shí)刻的a動(dòng)作估計(jì)的優(yōu)勢(shì)函數(shù)值；πθ(at|st)表示在參數(shù)θ下，t時(shí)刻s狀態(tài)執(zhí)行動(dòng)作a的策略；表示t時(shí)刻s狀態(tài)執(zhí)行a動(dòng)作的策略估計(jì)；表示t時(shí)刻的優(yōu)勢(shì)函數(shù)估計(jì)值；

18、在本專利技術(shù)的一個(gè)實(shí)施例中，所述損失函數(shù)lclip(θ)的表達(dá)式如下：

19、

20、其中，表示期望，min表示取第一項(xiàng)和第二項(xiàng)的值較小的式子的運(yùn)算操作；clip函數(shù)確保新舊策略比例不超過[1-ε,1+ε]的范圍，表示對(duì)于括號(hào)中的三項(xiàng)，如果第一項(xiàng)小于第二項(xiàng)，那么就輸出1-ε；如果第一項(xiàng)大于第三項(xiàng)，那么就輸出1+ε。

21、在本專利技術(shù)的一個(gè)實(shí)施例中，s2中，根據(jù)傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)的方法如下：

22、根據(jù)任意一位傷員i送往醫(yī)院的運(yùn)送時(shí)間t1和任意一位傷員i的受傷時(shí)間t2，得到任意一位傷員i的等待救治時(shí)間ti；

23、基于所述等待救治時(shí)間ti，得到任意一位傷員i的生存概率p(ti)；

24、基于所述的生存概率p(ti)，構(gòu)建獎(jiǎng)勵(lì)函數(shù)。

25、在本專利技術(shù)的一個(gè)實(shí)施例中，所述生存概率p(ti)的計(jì)算公式為：

26、

27、其中，α和γ均為超參數(shù)，b0和b1均為擬合參數(shù)。

28、在本專利技術(shù)的一個(gè)實(shí)施例中，所述獎(jiǎng)勵(lì)函數(shù)r(s,a)的表達(dá)式為：

29、

30、其中，i表示傷員集合，s為當(dāng)前救援狀態(tài)，a為當(dāng)前救援狀態(tài)s對(duì)應(yīng)的動(dòng)作。

31、本專利技術(shù)還提供了一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng)，用于實(shí)現(xiàn)上述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法的步驟，包括以下模塊：

32、數(shù)據(jù)采集模塊，用于獲取受災(zāi)現(xiàn)場(chǎng)的所有傷員數(shù)據(jù)和可支配救援車輛數(shù)據(jù)；

33、模型訓(xùn)練模塊，用于將所述傷員數(shù)據(jù)和所述可支配救援車輛數(shù)據(jù)作為救援狀態(tài)輸入到強(qiáng)化學(xué)習(xí)模型中，基于傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)，以最大化所述獎(jiǎng)勵(lì)函數(shù)的值為目標(biāo)進(jìn)行迭代訓(xùn)練，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型；

34、救援方案生成模塊，用于基于所述訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型，輸入當(dāng)前救援狀態(tài)，得到獎(jiǎng)勵(lì)值最大的動(dòng)作，即最佳傷員救援方案。

35、本專利技術(shù)還提供了一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成裝置，該裝置包括上述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng)、實(shí)時(shí)數(shù)據(jù)接口模塊、動(dòng)態(tài)資源調(diào)度模塊和人機(jī)交互界面；

36、其中，所述實(shí)時(shí)數(shù)據(jù)接口模塊從外部數(shù)據(jù)源獲取設(shè)備實(shí)時(shí)獲取最新的傷員數(shù)據(jù)和救援車輛數(shù)據(jù)；所述動(dòng)態(tài)資源調(diào)度模塊根據(jù)所述系統(tǒng)生成的救援方案規(guī)劃出最優(yōu)路徑，并自動(dòng)調(diào)度救援車輛前往最佳救援位置；所述人機(jī)交互界面包括輸入指令、查看救援狀態(tài)和接收最佳救援方案的可操作圖形接口。

37、本專利技術(shù)的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn)：

38、本專利技術(shù)實(shí)現(xiàn)了應(yīng)急救援方案的智能化生成，能夠根據(jù)實(shí)時(shí)的傷員數(shù)據(jù)和救援車輛數(shù)據(jù)動(dòng)態(tài)調(diào)整救援策略，最大化傷員的生存概率，從而本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：所述傷員數(shù)據(jù)包括傷員的位置數(shù)據(jù)和受傷時(shí)間，所述可支配救援車輛數(shù)據(jù)包括受災(zāi)現(xiàn)場(chǎng)當(dāng)前可支配救援車輛的數(shù)量和位置數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：S2中，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型的方法如下：

4.根據(jù)權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：所述優(yōu)勢(shì)函數(shù)At的表達(dá)式為：

5.根據(jù)權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：所述損失函數(shù)LCLIP(θ)的表達(dá)式如下：

6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：S2中，根據(jù)傷員生存概率構(gòu)建獎(jiǎng)勵(lì)函數(shù)的方法如下：

7.根據(jù)權(quán)利要求6所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于，所述生存概率P(ti)的計(jì)算公式為：

8.根據(jù)權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：所述獎(jiǎng)勵(lì)函數(shù)R(s,a)的表達(dá)式為：

9.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng)，其特征在于，用于實(shí)現(xiàn)如權(quán)利要求1～8任意一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法的步驟，包括以下模塊：

10.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成裝置，其特征在于，包括如權(quán)利要求9所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成系統(tǒng)、實(shí)時(shí)數(shù)據(jù)接口模塊、動(dòng)態(tài)資源調(diào)度模塊和人機(jī)交互界面；

...

【技術(shù)特征摘要】

1.一種基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于，包括以下步驟：

3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：s2中，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型的方法如下：

4.根據(jù)權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：所述優(yōu)勢(shì)函數(shù)at的表達(dá)式為：

5.根據(jù)權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急救援方案生成方法，其特征在于：所述損失函數(shù)lclip(θ)的表達(dá)式如下：

6.根據(jù)權(quán)利要求1所述的基于...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：陳重，王昊，秋淵根，陳青云，張虎，伯婉，廉琦，
申請(qǐng)(專利權(quán))人：蘇州江南航天機(jī)電工業(yè)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)