System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及智能移動載體領域,具體為一種多移動載體秩序化作業控制方法。
技術介紹
1、在諸如航站樓等大型公共場所,移動載體需要為旅客提供便捷搭乘服務,在多移動載體系統中,移動載體通過協同編隊可以高效地執行單一移動載體難以完成的任務。
2、但是現有技術在實際使用時,多移動載體系統作業與移動過程中,傳統的協同編隊控制和避障算法在處理已知環境或靜態障礙物時表現良好,但在面對動態、未知或復雜環境時存在局限性。
技術實現思路
1、本專利技術的目的在于提供一種多移動載體秩序化作業控制方法,以解決傳統的協同編隊控制和避障算法在處理復雜、動態環境時存在局限性的問題。
2、為實現上述目的,本專利技術提供如下技術方案:一種多移動載體秩序化作業控制方法,包括以下步驟:
3、s1、模擬真實環境構建仿真環境與移動載體模型,定義每個移動載體的觀測空間和動作空間;
4、s2、根據移動載體編隊與舒適性任務分階段設計時序獎勵函數,所述獎勵函數包括移動獎勵、編隊獎勵、狀態獎勵、加速度獎勵以及角加速度獎勵;
5、s3、構建包括actor網絡和critic網絡的強化學習網絡框架,其中actor網絡用于輸出移動載體的速度和角速度信息,critic網絡用于輸出在當前狀態下獲得的獎勵數據;
6、s4、在步驟s1中的仿真環境中進行編隊仿真訓練,根據步驟s3中的強化學習網絡框架采樣仿真環境與移動載體的交互數據,對移動載體的動作進行決策,并收集經驗數據;
>7、s5、當收集步驟s4中經驗數據的經驗存儲器的值到達預設值時,開始更新優化策略,基于maddpg算法,利用經驗池中的數據對步驟s3中actor網絡和critic網絡進行更新,將新的網絡參數部署到移動載體,保證多移動載體采用最新的策略;
8、s6、在無障礙物、固定障礙物和隨機生成障礙物位置的環境中,導入步驟s5得到理想的編隊模型繼續訓練,直至整體獎勵函數收斂且完成編隊任務,完成所有階段性訓練,重復步驟s5和步驟s6,直到獲得理想的編隊模型;
9、s7、在實際環境中,將步驟s6訓練好的編隊模型部署到每個移動載體上,調用激光雷達的點云信息和里程計信息,根據每個移動載體所處的位置與姿態通過調用模型輸出對應的策略與動作指令,完成編隊任務。
10、優選的,所述步驟s1中仿真環境是基于航站樓內部真實環境搭建的,并結合航站樓內部固定障礙物和一些隨機障礙物生成模擬現實的仿真環境。
11、優選的,所述步驟s2中:
12、移動獎勵表示移動載體與目標點之間的距離變化,保證移動載體朝著目標點移動;
13、編隊獎勵表示移動載體之間的位置關系是否為設定值;
14、狀態獎勵表示當移動載體到達目標點或者發生碰撞時仿真結束;
15、加速度獎勵和角加速度獎勵分別對移動載體的速度和角速度進行舒適性限制。
16、優選的,所述步驟s3中構建包括actor網絡和critic網絡的強化學習網絡框架具體為:
17、建立actor網絡以獲取激光雷達點云數據、里程計信息,并輸出移動載體的速度和角速度信息;
18、建立critic網絡以獲取當前移動載體的相對位置和速度信息,并輸出在當前狀態下所獲得的獎勵數據。
19、優選的,所述步驟s4中采樣過程包括對多移動載體與仿真環境的交互進行采樣,每個移動載體將自己的觀察數據輸入自己的actor網絡中生成下一步的動作,并使用critic網絡對移動載體的狀態進行價值評估獲得獎勵數據,將所有移動載體的經驗保存至經驗池中。
20、優選的,所述步驟s5中maddpg算法是在ddpg算法的基礎上從單個智能體擴展至多個智能體,并加入集中式訓練和分布式執行的思想,對所有移動載體的整體獎勵數據進行評估,并將采樣的動作速度和角速度值限制在一定范圍內。
21、優選的,所述步驟s6中導入步驟s5得到理想的編隊模型繼續訓練具體為:
22、s61、在無障礙物場景中進行訓練,此階段的獎勵函數只包括移動獎勵和編隊獎勵,直至獎勵收斂且完成編隊任務,開始進入下一階段訓練;
23、s62、在固定障礙物場景中進行訓練,此階段的獎勵函數包含移動獎勵、編隊獎勵、狀態獎勵、加速度獎勵以及角加速度獎勵,直至整體獎勵函數收斂且完成編隊任務后,開始進入下一階段訓練;
24、s63、在固定障礙物場景的基礎上加入多個隨機生成的動態障礙物進行訓練,此階段的獎勵函數與步驟s63相同,直至整體獎勵函數收斂且完成編隊任務時,結束訓練。
25、與現有技術相比,本專利技術的有益效果是:
26、本專利技術通過模擬航站樓內部環境構建仿真環境與移動載體模型,并結合強化學習框架,使得移動載體能夠在接近真實場景的環境中進行訓練,設計了不同的秩序化獎勵函數,以隨機生成障礙物的位置進行訓練,最終得到每個移動載體的神經網絡模型,不僅有效解決了多移動載體秩序化算法在復雜環境中收斂速度慢的問題,還顯著提高了多移動載體秩序化的魯棒性和安全性,采用了分階段的思想,從簡單的無障礙物場景開始,逐步過渡到包含固定障礙物和動態障礙物的復雜場景,確保了模型在不同環境下的適應性和穩定性,同時,通過設計包含移動獎勵、編隊獎勵、狀態獎勵、加速度獎勵以及角加速度獎勵的獎勵函數,能夠引導移動載體朝著目標點移動,保持隊形,避免碰撞,并在保證效率的同時提升乘客的舒適性。
27、本專利技術還采用了集中式訓練、分布式執行的思想,利用maddpg算法對所有移動載體的整體獎勵數據進行評估,從而更新網絡參數,這一策略避免了局部收斂問題,提高了算法的穩定性,同時,分階段訓練的思想也使得編隊模型能夠逐步適應從簡單到復雜的訓練環境,最終在有隨機生成障礙物位置的環境中也能實現理想的編隊效果。
本文檔來自技高網...【技術保護點】
1.一種多移動載體秩序化作業控制方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟S1中仿真環境是基于航站樓內部真實環境搭建的,并結合航站樓內部固定障礙物和一些隨機障礙物生成模擬現實的仿真環境。
3.根據權利要求2所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟S2中:
4.根據權利要求3所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟S3中構建包括actor網絡和critic網絡的強化學習網絡框架具體為:
5.根據權利要求4所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟S4中采樣過程包括對多移動載體與仿真環境的交互進行采樣,每個移動載體將自己的觀察數據輸入自己的actor網絡中生成下一步的動作,并使用critic網絡對移動載體的狀態進行價值評估獲得獎勵數據,將所有移動載體的經驗保存至經驗池中。
6.根據權利要求5所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟S5中MADDPG算法是在DDPG算法的基礎上從單
7.根據權利要求6所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟S6中導入步驟S5得到理想的編隊模型繼續訓練具體為:
...【技術特征摘要】
1.一種多移動載體秩序化作業控制方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟s1中仿真環境是基于航站樓內部真實環境搭建的,并結合航站樓內部固定障礙物和一些隨機障礙物生成模擬現實的仿真環境。
3.根據權利要求2所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟s2中:
4.根據權利要求3所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟s3中構建包括actor網絡和critic網絡的強化學習網絡框架具體為:
5.根據權利要求4所述的一種多移動載體秩序化作業控制方法,其特征在于:所述步驟s4中采樣過程包括...
【專利技術屬性】
技術研發人員:高慶吉,曹文博,牛國臣,張高巍,
申請(專利權)人:中國民航大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。