System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费无码午夜福利片,亚洲精品中文字幕无码蜜桃,亚洲日韩精品A∨片无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種面向動態威脅與局部感知的智能體路徑實時決策方法技術

    技術編號:44497123 閱讀:6 留言:0更新日期:2025-03-04 18:04
    本發明專利技術提供了一種面向動態威脅與局部感知的智能體路徑實時決策方法,智能體路徑規劃技術領域,包括采集自身狀態數據以及環境中的局部障礙物感知數據,再進行預處理,之后拼接預處理后的數據得到總體特征信息,將其轉換為27維Q值之后輸入至當前Q網絡中得到最佳動作,再執行最佳動作。當前Q網絡利用歷史經驗數據更新歷史Q網絡得到,在更新過程中采用多個維度的密集獎勵函數引導Q網絡向獎勵增加的方向選擇動作。本發明專利技術基于局部態勢感知的多源數據的路徑規劃思路,允許智能體根據實時環境動態調整路徑,增強智能體對動態復雜場景的適應能力,并且密集獎勵機制能夠激勵智能體以更精細的方式避開障礙,顯著提升了智能體避障的靈活性與精確性。

    【技術實現步驟摘要】

    本專利技術屬于智能體路徑規劃,具體涉及一種面向動態威脅與局部感知的智能體路徑實時決策方法


    技術介紹

    1、傳統的智能體路徑規劃方法大多依賴于經典的路徑搜索和優化算法,如算法、dijkstra(迪杰斯特拉)算法和其他基于圖搜索的策略,這些算法在已知、靜態的環境中表現良好,但是在處理復雜、動態的環境時存在著一定的局限性。傳統的智能體路徑規劃通常基于全局環境信息進行規劃,在飛行中無法適應實時環境的動態變化,且缺乏根據實際環境進行自我調整與學習優化的能力,研究人員為了緩解這種問題,引入了深度強化學習方法。

    2、深度強化學習是一種通過與環境交互來學習最優策略的機器學習方法,智能體通過不斷試錯來學習做出能夠最大化累積回報的行為決策,然而對于復雜的智能體路徑規劃問題,環境空間龐大復雜,因此研究人員引入深度強化學習方法提高智能體路徑規劃的適應性與魯棒性,應用dqn(深度q網絡)、per-d3qn(對立雙重深度q網絡)、pso-prm(近端策略優化算法)。

    3、在文獻1(李延儒,左鐵東,王婧.基于dqn深度強化學習的智能體智能路徑規劃方法研究[j].電子技術與軟件工程,2022,(18):5-8.)中,作者應用基于ppo算法的深度強化學習網絡構建功能模塊,并在ppo算法支持下訓練dqn深度強化學習,結合多次迭代更新優化策略參數,最終輸出最優策略,實現基于dqn深度強化學習的智能體智能軌跡規劃。在文獻2(畢文豪,段曉波.基于深度強化學習的智能體路徑規劃算法研究[j].航空科學技術,2023,34(12):118-124.doi:10.19452/j.issn1007-5453.2023.12.014.)中,作者將競爭網絡模型引入dqn算法中,提升算法的收斂效果與穩定性的同時結合double?dqn(雙重深度q網絡)和優先級重現策略的深度強化學習算法構建per-d3qn,使智能體能夠根據當前戰場狀態有效實現避障,實現全局路徑規劃。在文獻3(趙冬梅.智能體路徑規劃技術研究[d].電子科技大學,2012)中,作者提出了一種改進的prm算法用于啟發式節點增強,使航跡路線更加平滑;針對在線航跡規劃,提出pso-prm算法,利用pso算法進行全局航跡規劃,prm算法用于局部航跡規劃,同時提出一種基于通視圖法的航跡優化方法,在滿足智能體性能約束的前提下獲取從起點到終點的最短平滑路徑。

    4、當前智能體路徑規劃的許多傳統方法都是假設環境是靜態的,依賴于預先已知的全局環境信息進行規劃,使得智能體在遇上復雜、動態的環境時對態勢應對能力有限,難以有效實時調整路徑實現魯棒路徑規劃。其二,現有的經典路徑規劃算法在復雜環境中的計算量大,在動態環境中往往無法充分利用局部感知信息導致路徑規劃缺乏對實時態勢的充分理解,全局式感知信息選擇路徑效率低下,且耗時較長,難以滿足實時性要求。其三,單一的數據源往往只能獲取特定類型的信息,導致對環境感知不全面,精度與魯棒性較低,路徑規劃系統容易出現感知盲區,大大降低可靠性。其四,多數路徑規劃算法采用稀疏避障獎勵,需要進行大量探索才能找到有效的避障策略,且容易陷入一個次優的避障策略并停留,難以學習有效且復雜的避障策略。


    技術實現思路

    1、為了解決現有技術中存在的上述問題,本專利技術提供了一種面向動態威脅與局部感知的智能體路徑實時決策方法。本專利技術要解決的技術問題通過以下技術方案實現:

    2、一種面向動態威脅與局部感知的智能體路徑實時決策方法,應用在智能體上,所述面向動態威脅與局部感知的智能體路徑實時決策方法包括:

    3、s100,采集當前時間的自身狀態數據以及環境中的局部障礙物感知數據;

    4、s200,對所述局部障礙物感知數據和自身狀態數據進行預處理,再拼接預處理后的數據得到當前時間的總體特征信息;

    5、s300,將當前時間的總體特征信息轉換為27維q值,并將該27維q值輸入至當前q網絡中,以使當前q網絡從經驗池中選擇出最佳動作;所述當前q網絡利用經驗池內當前時間前的歷史經驗數據更新歷史q網絡得到,在更新過程中采用多個維度的密集獎勵函數引導q網絡向獎勵增加的方向選擇動作;

    6、s400,執行所述最佳動作。

    7、有益效果:

    8、本專利技術提供了一種面向動態威脅與局部感知的智能體路徑實時決策方法,應用在智能體上,方法包括:采集當前時間的自身狀態數據以及環境中的局部障礙物感知數據;對所述局部障礙物感知數據和自身狀態數據進行預處理,之后拼接預處理后的數據得到當前時間的總體特征信息;將當前時間的總體特征信息轉換為27維q值,并將該27維q值輸入至當前q網絡中,以使當前q網絡從經驗池中選擇出最佳動作;當前q網絡利用經驗池內當前時間前的經驗數據更新歷史q網絡得到,在更新過程中采用多個維度的密集獎勵函數引導q網絡向獎勵增加的方向選擇動作,再執行該最佳動作。本專利技術基于局部態勢感知的多源數據的路徑規劃思路,允許智能體隨時根據實時環境動態調整路徑,增強智能體對動態復雜場景的適應能力;并且本專利技術設計的密集獎勵機制能夠激勵智能體以更精細的方式避開障礙,為智能體提供更多的反饋信號,加速智能體學習進程,顯著提升智能體避障的靈活性與精確性,幫助其針對多個任務目標進行協同優化,使智能體能夠同時優化完成多種任務需求。

    9、以下將結合附圖及實施例對本專利技術做進一步詳細說明。

    本文檔來自技高網...

    【技術保護點】

    1.一種面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,應用在智能體上,所述面向動態威脅與局部感知的智能體路徑實時決策方法包括:

    2.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述自身狀態數據包括:智能體的三維位置坐標、目的地坐標、當前時間智能體與目的地之間的曼哈頓距離、初始智能體與目的地之間的曼哈頓距離、智能體已走步長與智能體水平運動方向;所述局部障礙物感知數據包括:障礙物所在的柵格以及對應的柵格的三維坐標。

    3.根據權利要求2所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,S200包括:

    4.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述歷史Q網絡為前一時間點更新后的Q網絡,所述Q網絡包括本地網絡和目標網絡,所述本地網絡用于輸入27維Q值,并輸出選擇出的動作;所述目標網絡用于輸入選擇出的動作,并輸出Q值。

    5.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,S300包括:

    6.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述經驗池中存儲有包含每個歷史時間點的智能體狀態、動作、獎勵、下一個時間點智能體的狀態與是否達到目的地的經驗元組。

    7.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,利用經驗池內的歷史經驗數據更新歷史Q網絡的過程包括:

    8.根據權利要求7所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述多個維度的密集獎勵函數包括:通過計算智能體與最近的障礙物的距離給予智能體的避障獎勵、通過計算智能體在z軸的坐標與目的地在z軸的坐標給予智能體的爬升獎勵、通過計算初始狀態和當前狀態下智能體距離目的地的距離與距離變化量給予智能體的目標獎勵;

    9.根據權利要求8所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,e包括:

    10.根據權利要求9所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述損失函數用公式表示為:

    ...

    【技術特征摘要】

    1.一種面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,應用在智能體上,所述面向動態威脅與局部感知的智能體路徑實時決策方法包括:

    2.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述自身狀態數據包括:智能體的三維位置坐標、目的地坐標、當前時間智能體與目的地之間的曼哈頓距離、初始智能體與目的地之間的曼哈頓距離、智能體已走步長與智能體水平運動方向;所述局部障礙物感知數據包括:障礙物所在的柵格以及對應的柵格的三維坐標。

    3.根據權利要求2所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,s200包括:

    4.根據權利要求1所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征在于,所述歷史q網絡為前一時間點更新后的q網絡,所述q網絡包括本地網絡和目標網絡,所述本地網絡用于輸入27維q值,并輸出選擇出的動作;所述目標網絡用于輸入選擇出的動作,并輸出q值。

    5.根據權利要求4所述的面向動態威脅與局部感知的智能體路徑實時決策方法,其特征...

    【專利技術屬性】
    技術研發人員:范曉龍周宇李晟之劉潔怡喬文遠張明陽蔣祥明蔣汾龍李海林吳虎勝
    申請(專利權)人:西安電子科技大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久久亚洲AV片无码下载蜜桃| 日韩精品少妇无码受不了| 日韩国产成人无码av毛片| 无码中文人妻视频2019| 在线看片无码永久免费aⅴ| 午夜福利av无码一区二区| 无码人妻丰满熟妇啪啪网站牛牛| 免费精品无码AV片在线观看| 精品人妻中文无码AV在线| 国产精品无码一区二区三区免费| 最新高清无码专区| 亚洲2022国产成人精品无码区| 亚洲成av人片天堂网无码】| 无码视频一区二区三区| 无码国模国产在线无码精品国产自在久国产 | 在线高清无码A.| 国产精品午夜无码体验区| 精品亚洲成在人线AV无码| 久久久无码精品亚洲日韩京东传媒| 无码国产成人午夜电影在线观看| 亚洲av无码兔费综合| 久久国产亚洲精品无码 | 国产精品无码无卡在线观看久| 国产精品亚韩精品无码a在线 | 中文字幕无码免费久久99| 一本大道在线无码一区| 国产精品午夜无码AV天美传媒| 久久精品亚洲中文字幕无码麻豆| 亚洲av无码成h人动漫无遮挡| 亚洲中文久久精品无码ww16| 中文字幕精品无码一区二区| 人妻无码一区二区不卡无码av| 国产乱子伦精品无码码专区| 亚洲午夜国产精品无码 | 黄色成人网站免费无码av| 亚洲欧洲av综合色无码| 性色AV蜜臀AV人妻无码| 无码人妻H动漫中文字幕| 精品无码国产一区二区三区51安| 亚洲av中文无码乱人伦在线观看| 亚洲国产成人精品无码区花野真一|