一種面向動態威脅與局部感知的智能體路徑實時決策方法技術

技術編號：44497123 閱讀：6 留言：0更新日期：2025-03-04 18:04

本發明專利技術提供了一種面向動態威脅與局部感知的智能體路徑實時決策方法，智能體路徑規劃技術領域，包括采集自身狀態數據以及環境中的局部障礙物感知數據，再進行預處理，之后拼接預處理后的數據得到總體特征信息，將其轉換為27維Q值之后輸入至當前Q網絡中得到最佳動作，再執行最佳動作。當前Q網絡利用歷史經驗數據更新歷史Q網絡得到，在更新過程中采用多個維度的密集獎勵函數引導Q網絡向獎勵增加的方向選擇動作。本發明專利技術基于局部態勢感知的多源數據的路徑規劃思路，允許智能體根據實時環境動態調整路徑，增強智能體對動態復雜場景的適應能力，并且密集獎勵機制能夠激勵智能體以更精細的方式避開障礙，顯著提升了智能體避障的靈活性與精確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于智能體路徑規劃，具體涉及一種面向動態威脅與局部感知的智能體路徑實時決策方法。

技術介紹

1、傳統的智能體路徑規劃方法大多依賴于經典的路徑搜索和優化算法，如算法、dijkstra（迪杰斯特拉）算法和其他基于圖搜索的策略，這些算法在已知、靜態的環境中表現良好，但是在處理復雜、動態的環境時存在著一定的局限性。傳統的智能體路徑規劃通常基于全局環境信息進行規劃，在飛行中無法適應實時環境的動態變化，且缺乏根據實際環境進行自我調整與學習優化的能力，研究人員為了緩解這種問題，引入了深度強化學習方法。

2、深度強化學習是一種通過與環境交互來學習最優策略的機器學習方法，智能體通過不斷試錯來學習做出能夠最大化累積回報的行為決策，然而對于復雜的智能體路徑規劃問題，環境空間龐大復雜，因此研究人員引入深度強化學習方法提高智能體路徑規劃的適應性與魯棒性，應用dqn（深度q網絡）、per-d3qn（對立雙重深度q網絡）、pso-prm（近端策略優化算法）。

3、在文獻1（李延儒,左鐵東,王婧.基于dqn深度強化學習的智能體智能路徑規劃方法研究[j].電子技術與軟件工程，2022，(18):5-8.）中，作者應用基于ppo算法的深度強化學習網絡構建功能模塊，并在ppo算法支持下訓練dqn深度強化學習，結合多次迭代更新優化策略參數，最終輸出最優策略，實現基于dqn深度強化學習的智能體智能軌跡規劃。在文獻2（畢文豪,段曉波.基于深度強化學習的智能體路徑規劃算法研究[j].航空科學技術,2023,34(12):118-124.do

4、當前智能體路徑規劃的許多傳統方法都是假設環境是靜態的，依賴于預先已知的全局環境信息進行規劃，使得智能體在遇上復雜、動態的環境時對態勢應對能力有限，難以有效實時調整路徑實現魯棒路徑規劃。其二，現有的經典路徑規劃算法在復雜環境中的計算量大，在動態環境中往往無法充分利用局部感知信息導致路徑規劃缺乏對實時態勢的充分理解，全局式感知信息選擇路徑效率低下，且耗時較長，難以滿足實時性要求。其三，單一的數據源往往只能獲取特定類型的信息，導致對環境感知不全面，精度與魯棒性較低，路徑規劃系統容易出現感知盲區，大大降低可靠性。其四，多數路徑規劃算法采用稀疏避障獎勵，需要進行大量探索才能找到有效的避障策略，且容易陷入一個次優的避障策略并停留，難以學習有效且復雜的避障策略。

技術實現思路

1、為了解決現有技術中存在的上述問題，本專利技術提供了一種面向動態威脅與局部感知的智能體路徑實時決策方法。本專利技術要解決的技術問題通過以下技術方案實現：

2、一種面向動態威脅與局部感知的智能體路徑實時決策方法，應用在智能體上，所述面向動態威脅與局部感知的智能體路徑實時決策方法包括：

3、s100，采集當前時間的自身狀態數據以及環境中的局部障礙物感知數據；

4、s200，對所述局部障礙物感知數據和自身狀態數據進行預處理，再拼接預處理后的數據得到當前時間的總體特征信息；

5、s300，將當前時間的總體特征信息轉換為27維q值，并將該27維q值輸入至當前q網絡中，以使當前q網絡從經驗池中選擇出最佳動作；所述當前q網絡利用經驗池內當前時間前的歷史經驗數據更新歷史q網絡得到，在更新過程中采用多個維度的密集獎勵函數引導q網絡向獎勵增加的方向選擇動作；

6、s400，執行所述最佳動作。

7、有益效果：

8、本專利技術提供了一種面向動態威脅與局部感知的智能體路徑實時決策方法，應用在智能體上，方法包括：采集當前時間的自身狀態數據以及環境中的局部障礙物感知數據；對所述局部障礙物感知數據和自身狀態數據進行預處理，之后拼接預處理后的數據得到當前時間的總體特征信息；將當前時間的總體特征信息轉換為27維q值，并將該27維q值輸入至當前q網絡中，以使當前q網絡從經驗池中選擇出最佳動作；當前q網絡利用經驗池內當前時間前的經驗數據更新歷史q網絡得到，在更新過程中采用多個維度的密集獎勵函數引導q網絡向獎勵增加的方向選擇動作，再執行該最佳動作。本專利技術基于局部態勢感知的多源數據的路徑規劃思路，允許智能體隨時根據實時環境動態調整路徑，增強智能體對動態復雜場景的適應能力；并且本專利技術設計的密集獎勵機制能夠激勵智能體以更精細的方式避開障礙，為智能體提供更多的反饋信號，加速智能體學習進程，顯著提升智能體避障的靈活性與精確性，幫助其針對多個任務目標進行協同優化，使智能體能夠同時優化完成多種任務需求。

9、以下將結合附圖及實施例對本專利技術做進一步詳細說明。

本文檔來自技高網...

【技術保護點】

1.一種面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，應用在智能體上，所述面向動態威脅與局部感知的智能體路徑實時決策方法包括：

2.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，所述自身狀態數據包括：智能體的三維位置坐標、目的地坐標、當前時間智能體與目的地之間的曼哈頓距離、初始智能體與目的地之間的曼哈頓距離、智能體已走步長與智能體水平運動方向；所述局部障礙物感知數據包括：障礙物所在的柵格以及對應的柵格的三維坐標。

3.根據權利要求2所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，S200包括：

4.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，所述歷史Q網絡為前一時間點更新后的Q網絡，所述Q網絡包括本地網絡和目標網絡，所述本地網絡用于輸入27維Q值，并輸出選擇出的動作；所述目標網絡用于輸入選擇出的動作，并輸出Q值。

5.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，S300包括：

6.根據

7.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，利用經驗池內的歷史經驗數據更新歷史Q網絡的過程包括：

8.根據權利要求7所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，所述多個維度的密集獎勵函數包括：通過計算智能體與最近的障礙物的距離給予智能體的避障獎勵、通過計算智能體在z軸的坐標與目的地在z軸的坐標給予智能體的爬升獎勵、通過計算初始狀態和當前狀態下智能體距離目的地的距離與距離變化量給予智能體的目標獎勵；

9.根據權利要求8所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，e包括：

10.根據權利要求9所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，所述損失函數用公式表示為：

...

【技術特征摘要】

3.根據權利要求2所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，s200包括：

4.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征在于，所述歷史q網絡為前一時間點更新后的q網絡，所述q網絡包括本地網絡和目標網絡，所述本地網絡用于輸入27維q值，并輸出選擇出的動作；所述目標網絡用于輸入選擇出的動作，并輸出q值。

5.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法，其特征...

【專利技術屬性】
技術研發人員：范曉龍，周宇，李晟之，劉潔怡，喬文遠，張明陽，蔣祥明，蔣汾龍，李海林，吳虎勝，
申請(專利權)人：西安電子科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術