System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自動駕駛,特別是涉及一種無人車自主路徑規劃方法、設備、介質及產品。
技術介紹
1、無人車是室外移動機器人在交通領域的重要應用。無人車作為應用最為廣泛的無人系統之一能夠完成大部分部分地面任務,具體包括目標搜尋、災難救援、物流運輸等,在絕大多數的地面任務中,都需要無人車具備路徑規劃的能力,因此,路徑規劃是無人車完成復雜任務必須具備的一項基本功能,也是最為重要的能力之一。
2、a*算法是在路徑規劃領域中應用較為廣泛的啟發式算法,很多研究人員根據無人車的運動學特性對上述算法進行了改進。但是無人車的實際任務環境復雜多變,這些傳統算法難以準確描述其動態模型。另外,當環境的復雜程度增大時,此類算法也需要更多的計算資源。
3、因此,無人車的路徑規劃面臨著運動學和動力學建模困難、控制器參數動態變化等問題,而強化學習技術的發展為解決無人車的路徑規劃問題開辟了新的道路。強化學習不需要對無人車進行運動學和動力學建模,可以通過智能體與環境不斷交互,并借助獎勵函數對智能體的執行動作進行評估,進而逐步學習到一個完備的控制策略。但是在強化學習框架中,智能體的狀態轉移符合馬爾可夫性是確保訓練過程收斂的前提,然而在真實的控制任務中,有很多因素會導致智能體的狀態轉移不滿足馬爾可夫性;一方面,策略生成執行動作本身需要一定的計算時間,當策略越復雜或者環境越復雜時往往需要更多的計算資源和計算時間來生成執行動作。另一方面,無人車獲得動作指令后對動作進行響應也需要一定的時間,進而導致無人車的狀態轉移不符合馬爾可夫性,進一步導致網絡收斂速度慢,
4、因此,為提高無人車的路徑規劃能力,亟需提供一種無人車自主路徑規劃方法或設備。
技術實現思路
1、本申請的目的是提供一種無人車自主路徑規劃方法、設備、介質及產品,能夠提高無人車的路徑規劃能力。
2、為實現上述目的,本申請提供了如下方案:
3、第一方面,本申請提供了一種無人車自主路徑規劃方法,所述無人車自主路徑規劃方法包括:
4、構建狀態融合修正框架;所述狀態融合修正框架包括:動作預測網絡、狀態預測網絡和狀態融合模塊;所述動作預測網絡用于根據t時刻的狀態輸出預測的動作;所述狀態預測網絡用于根據t時刻的狀態和預測的動作輸出預測狀態;所述狀態融合模塊用于將t時刻的狀態與預測狀態融合,得到融合狀態;狀態包括:無人車與目標的距離、目標位置在無人車的方位以及雷達點云信息;
5、基于深度增強學習算法,構建策略網絡;所述策略網絡用于根據融合狀態輸出執行的動作;
6、根據狀態融合修正框架和策略網絡確定路徑規劃模型;所述路徑規劃模型以當前的狀態為輸入,以執行的動作為輸出;
7、根據目標位置、無人車位置以及雷達點云信息確定待規劃無人車的狀態;
8、根據待規劃無人車的狀態,采用訓練好的路徑規劃模型,得到執行的動作。
9、可選地,所述策略網絡的獎勵函數rt表示為:
10、
11、其中,rd表示距離獎勵,rd=tand(dt-1-dt),tanh函數用于進行歸一化,dt表示t時刻無人車與目標的距離,dt-1表示t-1時刻無人車與目標的距離,xg表示目標位置的橫坐標,yg表示目標位置的縱坐標,表示無人車位置的橫坐標,表示無人車位置的縱坐標,rv表示線速度獎勵,vt表示線速度,vmin表示線速度最小值,vmax表示線速度最大值,rω表示角速度獎勵,ωt表示角速度,ωmax表示角速度最大值,rc表示狀態誤差獎勵,rc=-tanh(|st+1-s′t+1|),st+1表示t+1時刻的狀態,s′t+1表示t+1時刻的預測狀態。
12、可選地,所述策略網絡的目標函數j(θ)表示為:
13、
14、其中,pθ(at|st)表示策略網絡的動作輸出概率,表示更新前策略網絡的動作輸出概率,θ表示策略網絡的參數,τ表示采樣的一批樣本,b表示獎勵的期望,γ為超參數,k表示每批樣本更新模型的次數,表示中間參數,r(τ)=r1+γr2+γ2r3+...+γn-1rn,clip()表示程序函數,ε表示超參數,r(τ)表示無人車每一次從啟動到找到目標或者從啟動到撞到障礙物獲得的總獎勵值,r1、r2、r3以及rn表示無人車執行相應的動作獲得的獎勵值,n表示無人車從啟動到找到目標或者從啟動到撞到障礙物執行的動作的個數。
15、可選地,所述路徑規劃模型的訓練過程為:
16、創建地面訓練及驗證仿真環境;
17、初始化策略網絡、狀態融合修正框架中的網絡參數;
18、獲取無人車t時刻的原始狀態;
19、將t時刻的原始狀態輸入到狀態融合修正框架中,通過動作預測網絡、狀態預測網絡以及狀態融合模塊獲得融合狀態;
20、將融合狀態輸入到策略網絡中,策略網絡輸出執行的動作,無人車執行相應的動作,并返回獎勵值;
21、獲得t+1時刻的融合狀態,并將t時刻的融合狀態、執行的動作、獎勵值以及t+1時刻的融合狀態儲存在經驗回放池中;直至獲取設定數量的樣本,更新路徑規劃模型的參數;
22、直至無人車的平均獎勵值到達設定閾值,完成訓練。
23、可選地,創建地面訓練及驗證仿真環境,包括:
24、利用linux系統下的gazebo創建地面訓練及驗證仿真環境。
25、可選地,所述根據目標位置、無人車位置以及雷達點云信息確定待規劃無人車的狀態,具體包括:
26、根據目標位置和無人車位置確定無人車與目標的距離;
27、利用公式確定t時刻目標位置在無人車的方位ρt,xg表示目標位置的橫坐標,yg表示目標位置的縱坐標,表示無人車位置的橫坐標,表示無人車位置的縱坐標。
28、第二方面,本申請提供了一種無人車自主路徑規劃設備,所述無人車自主路徑規劃設備包括:
29、狀態融合修正框架構建單元,用于構建狀態融合修正框架;所述狀態融合修正框架包括:動作預測網絡、狀態預測網絡和狀態融合模塊;所述動作預測網絡用于根據t時刻的狀態輸出預測的動作;所述狀態預測網絡用于根據t時刻的狀態和預測的動作輸出預測狀態;所述狀態融合模塊用于將t時刻的狀態與預測狀態融合,得到融合狀態;狀態包括:無人車與目標的距離、目標位置在無人車的方位以及雷達點云信息;
30、策略網絡構建單元,用于基于深度增強學習算法,構建策略網絡;所述策略網絡用于根據融合狀態輸出執行的動作;
31、路徑規劃模型確定單元,用于根據狀態融合修正框架和策略網絡確定路徑規劃模型;所述路徑規劃模型以當前的狀態為輸入,以執行的動作為輸出;
32、無人車的狀態確定單元,用于根據目標位置、無人車位置以及雷達點云信息確定待規劃無人車的狀態;
33、路徑規劃單元,用于根據待規劃無人車的狀態,采用訓練好的路徑規劃模型,得到執行的動作。
34本文檔來自技高網...
【技術保護點】
1.一種無人車自主路徑規劃方法,其特征在于,所述無人車自主路徑規劃方法包括:
2.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述策略網絡的獎勵函數rt表示為:
3.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述策略網絡的目標函數J(θ)表示為:
4.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述路徑規劃模型的訓練過程為:
5.根據權利要求4所述的無人車自主路徑規劃方法,其特征在于,創建地面訓練及驗證仿真環境,包括:
6.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述根據目標位置、無人車位置以及雷達點云信息確定待規劃無人車的狀態,具體包括:
7.一種無人車自主路徑規劃設備,其特征在于,所述無人車自主路徑規劃設備包括:
8.一種計算機設備,包括:存儲器、處理器以存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現權利要求1-6中任一項所述的無人車自主路徑規劃方法。
9.一種計算機可讀存儲介質,其
10.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1-6中任一項所述的無人車自主路徑規劃方法。
...【技術特征摘要】
1.一種無人車自主路徑規劃方法,其特征在于,所述無人車自主路徑規劃方法包括:
2.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述策略網絡的獎勵函數rt表示為:
3.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述策略網絡的目標函數j(θ)表示為:
4.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述路徑規劃模型的訓練過程為:
5.根據權利要求4所述的無人車自主路徑規劃方法,其特征在于,創建地面訓練及驗證仿真環境,包括:
6.根據權利要求1所述的無人車自主路徑規劃方法,其特征在于,所述根據目標位置、無人車位置以及雷達點云信息確定...
【專利技術屬性】
技術研發人員:李恒宇,翟長攀,劉靖逸,謝燮,彭艷,謝少榮,羅均,
申請(專利權)人:上海大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。