基于深度強化學習的多AGV路徑規劃方法及系統技術方案

技術編號：43658603 閱讀：18 留言：0更新日期：2024-12-13 12:50

本發明專利技術屬于AGV路徑規劃技術領域。提供了一種基于深度強化學習的多AGV路徑規劃方法及系統，建立了AGV路徑規劃問題的MDP模型，采取獎勵重塑的方式構造獎勵函數，引導AGV更加準確地評估實時動作；提出了一種改進的PPO算法，針對AGV路徑規劃問題建立Actor?Critic網絡，并使用同步策略更新的方式更新策略網絡；經過不同規模的任務測試，證明本發明專利技術所提出的MAPPO算法在大規模倉儲環境下與PPO算法相比具有更好的求解性能；此外，與傳統的路徑規劃方法相比，本發明專利技術所求解的平均路徑長度更短，拐點數量更少，具有更高的求解質量。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及agv路徑規劃，具體涉及一種基于深度強化學習的多agv路徑規劃方法及系統。

技術介紹

1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
，并不必然構成現有技術。

2、移動互聯網技術迅速發展，引領了電子商務的深刻變革。電子商務的蓬勃發展，對物流行業尤其是倉儲系統的服務水平提出了更高的要求。企業在保證服務質量的同時，還面臨著降低服務成本和提高服務效率的雙重挑戰。

3、自動導引車(automated?guided?vehicle，agv)通過自主執行貨物裝卸和搬運任務，顯著減少了人力資源的使用并提高了貨物搬運效率。agv配備了高精度導航系統，確保了其在倉庫內能夠快速精確移動，其在倉儲系統中的大規模使用有助于提高倉庫空間利用率。agv系統的高效運行及其與先進物流管理系統的無縫集成，為智能倉儲系統中的搬運任務提供了可靠而高效的解決方案。

4、路徑規劃是agv完成搬運工作過程中至關重要的一環，涉及多目標的權衡，如行駛距離、時間、能耗等，其準確性與效率直接決定了倉儲系統中搬運工作的完成質量。因此在復雜多變的倉儲環境中，研究如何高效地為agv規劃無沖突路徑具有重要意義。目前已有多種算法成功應用于agv路徑規劃問題，例如a*算法、群體智能算法等，但這些方法在面臨復雜環境時效率低下，且容易陷入局部最優解，缺乏足夠的靈活性和適應性。

技術實現思路

1、為了解決現有技術的不足，本專利技術提供了一種基于深度強化學習的多agv路徑規劃方法及系統，建立了ag

2、為了實現上述目的，本專利技術采用如下技術方案：

3、第一方面，本專利技術提供了一種基于深度強化學習的多agv路徑規劃方法。

4、一種基于深度強化學習的多agv路徑規劃方法，包括以下過程：

5、獲取agv局部環境觀察信息以及路徑規劃相關信息，根據卷積神經網絡提取局部環境觀察信息中的空間特征，根據多層感知器提取路徑規劃相關信息中的路徑特征，所述空間特征和所述路徑特征通過全連接層進行組合，形成觀察編碼；

6、根據所述觀察編碼以及預訓練的深度強化學習算法，得到每個agv的執行策略，以使得各個agv根據所述執行策略執行對應的動作，得到獎勵以及下一個時刻的狀態，直至到達控制周期。

7、作為本專利技術第一方面進一步的限定，預訓練的深度強化學習算法，包括策略網絡和價值網絡，所述策略網絡根據所述觀察編碼，經過多層感知器處理后，生成可能動作的概率分布，每個agv根據所述概率分布選擇最優動作，引導agv在環境中的移動；所述價值網絡根據所述觀察編碼，經過多層感知器處理后，輸出當前狀態的估計價值，用于指導策略網絡的策略更新。

8、作為本專利技術第一方面更進一步的限定，所述策略網絡與所述價值網絡共享部分參數，所有agv共享相同的策略網絡，在每個時間步所有智能體基于同一策略進行決策。

9、作為本專利技術第一方面更進一步的限定，預訓練的深度強化學習算法的目標是尋找一個最佳的策略函數使得agv獲得最大的累計折扣獎勵gt：其中，rt表示時刻t的即時獎勵，rt+1表示時刻t+1的即時獎勵，rt+2表示時刻t+2的即時獎勵，rt+k表示時刻t+k的即時獎勵，γ∈[0,1]，為折扣因子，表示未來狀態對當前決策的影響程度。

10、作為本專利技術第一方面更進一步的限定，任意時刻的即時獎勵為基本獎勵與重塑獎勵的加和：r(s,a)＝rbase(s,a)+rreshape(s,a)，其中，rbase(s,a)為狀態s和動作a下的基本獎勵，rreshape(s,a)為狀態s和動作a下的重塑獎勵。

11、作為本專利技術第一方面更進一步的限定，所述重塑獎勵rreshape(s,a)為潛在獎勵f(s,a,s′)與好奇心獎勵rcuriosity(s,a)的加和；

12、其中，是折扣因子，φ(s)是狀態s的潛在函數，φ(s′)是狀態s′的潛在函數；

13、其中，λ是好奇心獎勵的權重，是智能體對下一狀態的預測概率，p(s′|s,a)是實際觀察到的狀態轉移概率，s′為狀態s的下一個狀態。

14、作為本專利技術第一方面更進一步的限定，φ(s)＝dist(pcurrent,pgoal)＝|xcurrent-xgoal|+|ycurrent-ygoal|，其中，pcurrent為agv的當前位置，pgoal為agv的目標位置，xcurrent與ycurrent為agv的當前位置的坐標，xgoal與ygoal為agv的目標位置的坐標。

15、第二方面，本專利技術提供了一種基于深度強化學習的多agv路徑規劃系統。

16、一種基于深度強化學習的多agv路徑規劃系統，包括：

17、觀察編碼生成單元，被配置為：獲取agv局部環境觀察信息以及路徑規劃相關信息，根據卷積神經網絡提取局部環境觀察信息中的空間特征，根據多層感知器提取路徑規劃相關信息中的路徑特征，所述空間特征和所述路徑特征通過全連接層進行組合，形成觀察編碼；

18、路徑規劃單元，被配置為：根據所述觀察編碼以及預訓練的深度強化學習算法，得到每個agv的執行策略，以使得各個agv根據所述執行策略執行對應的動作，得到獎勵以及下一個時刻的狀態，直至到達控制周期。

19、第三方面提供了一種計算機設備，包括：處理器和計算機可讀存儲介質；

20、處理器，適于執行計算機程序；

21、計算機可讀存儲介質，所述計算機可讀存儲介質中存儲有計算機程序，所述計算機程序被所述處理器執行時，實現如本專利技術第一方面所述的基于深度強化學習的多agv路徑規劃方法。

22、第四方面，本專利技術提供了一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序適于被處理器加載并執行如本專利技術第一方面所述的基于深度強化學習的多agv路徑規劃方法。

23、第五方面，本專利技術提供了一種計算機程序產品，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時，實現如本專利技術第一方面所述的基于深度強化學習的多agv路徑規劃方法。

24、與現有技術相比，本專利技術的有益效果是：

25、本專利技術創新的提出了一種基于深度強化學習的多agv路徑規劃策略，建立了agv路徑規劃問題的mdp模型，采取獎勵重塑的方式構造獎勵函數，引導agv更加準確地評估實時動作；提出了一種改進的ppo算法，針對agv路徑規劃問題建立actor-critic網絡，并使用同步策略更新的方式更新策略網絡；經過不同規模的任務測試，證明了本專利技術所提出的mappo算法在大規模倉儲環境下與ppo算法相比具有更好的求解性能；此外，與傳統的路徑規劃方法相比，基于深度強化學習的路徑規劃方法本文檔來自技高網...

【技術保護點】

1.一種基于深度強化學習的多AGV路徑規劃方法，其特征在于，包括以下過程：

2.如權利要求1所述的基于深度強化學習的多AGV路徑規劃方法，其特征在于，

3.如權利要求2所述的基于深度強化學習的多AGV路徑規劃方法，其特征在于，

4.如權利要求3所述的基于深度強化學習的多AGV路徑規劃方法，其特征在于，

5.如權利要求4所述的基于深度強化學習的多AGV路徑規劃方法，其特征在于，

6.如權利要求5所述的基于深度強化學習的多AGV路徑規劃方法，其特征在于，

7.一種基于深度強化學習的多AGV路徑規劃系統，其特征在于，包括：

8.一種計算機設備，其特征在于，包括：處理器和計算機可讀存儲介質；

9.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序適于被處理器加載并執行如權利要求1至6任一項所述的基于深度強化學習的多AGV路徑規劃方法。

10.一種計算機程序產品，其特征在于，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時，實現如

...

【技術特征摘要】

1.一種基于深度強化學習的多agv路徑規劃方法，其特征在于，包括以下過程：

2.如權利要求1所述的基于深度強化學習的多agv路徑規劃方法，其特征在于，

3.如權利要求2所述的基于深度強化學習的多agv路徑規劃方法，其特征在于，

4.如權利要求3所述的基于深度強化學習的多agv路徑規劃方法，其特征在于，

5.如權利要求4所述的基于深度強化學習的多agv路徑規劃方法，其特征在于，

6.如權利要求5所述的基于深度強化學習的多agv路徑規劃方法，其特征在于，

7...

【專利技術屬性】
技術研發人員：王艷艷，王澤豐，許子健，
申請(專利權)人：山東大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術