System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及機器學習相關(guān),尤其涉及基于rrt路徑智引無人船強化學習的路徑規(guī)劃方法及裝置。
技術(shù)介紹
1、在無人船自主學習規(guī)劃路徑的強化學習應(yīng)用中,通過引入無人船運動參考坐標系,在相應(yīng)坐標系下建立無人船運動學模型和動力學模型,讓無人船能夠在坐標對應(yīng)的環(huán)境中進行強化學習,并在其強化學習的過程中給予一定的獎勵和懲罰來加快其學習效率。rrt*(rapidly-exploring?random?tree?star)在rrt的基礎(chǔ)上增加了對路徑的優(yōu)化過程。在構(gòu)建隨機樹的過程中,每當有新的節(jié)點被添加到樹中時,算法會檢查其鄰域內(nèi)的節(jié)點,并嘗試找到一條從起點到該新節(jié)點的更短路徑。如果找到這樣的路徑,算法會更新樹的結(jié)構(gòu),以確保樹中的路徑始終是最優(yōu)的(或接近最優(yōu)的)。
2、在一個強化學習訓練的過程中,無人船往往需要經(jīng)過大量的探索,花費大量的時間,而通過引入合適的獎勵函數(shù)可以有效減少無人船探索次數(shù)和時間。在現(xiàn)有技術(shù)中,怎樣找到一個合適的獎勵函數(shù)是目前無人船發(fā)展遇到的一大難題。
3、而rrt*算法在現(xiàn)有路徑規(guī)劃算法中具有優(yōu)勢的同時,也有其缺陷:
4、計算復雜度高:由于rrt*算法在搜索過程中需要進行大量的隨機采樣和路徑優(yōu)化,因此其計算復雜度較高。這可能導致在實時性要求較高的應(yīng)用場景中,rrt*算法的性能受到限制。
5、容易陷入局部最優(yōu)解:rrt*算法在搜索過程中可能會陷入局部最優(yōu)解,即找到的路徑在局部范圍內(nèi)是最優(yōu)的,但在全局范圍內(nèi)可能不是最優(yōu)的。這可能導致無人船在航行過程中錯過更好的路徑選擇。
7、對參數(shù)敏感:rrt*算法的性能受到其參數(shù)設(shè)置的影響較大。如果參數(shù)設(shè)置不當,可能會導致算法的性能下降或無法找到可行路徑。因此,在實際應(yīng)用中需要對算法的參數(shù)進行仔細的調(diào)整和優(yōu)化。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)的目的是為了至少解決現(xiàn)有技術(shù)的不足之一,提供基于rrt路徑智引無人船強化學習的路徑規(guī)劃方法及裝置。
2、為了實現(xiàn)上述目的,本專利技術(shù)采用以下的技術(shù)方案:
3、具體的,提出基于rrt路徑智引無人船強化學習的路徑規(guī)劃方法,包括以下:
4、步驟s1、確定編程軟件及其關(guān)聯(lián)的庫;
5、步驟s2、設(shè)定無人船的狀態(tài)空間以及動作空間,設(shè)定無人船可視化的探索環(huán)境以及無人船運動模型;
6、步驟s3、初始化無人船狀態(tài)和動作,采集無人船探索狀態(tài)和動作;
7、步驟s4、判斷探索環(huán)境中是否存在rrt*路徑,若不存在rrt*路徑則通過rrt*算法進行探索得到一條rrt*路徑記為路徑path,并加入探索環(huán)境返回步驟s3執(zhí)行,若存在rrt*路徑則轉(zhuǎn)至步驟s5;
8、步驟s5、通過sarsa算法進行探索,創(chuàng)建并初始化一個q表,所述q表隨著無人船運動而更新;
9、步驟s6、在通過sarsa算法進行探索時,每次探索均計算當前探索位置與路徑path的水平距離,并將所述水平距離帶入n-距離衰減獎勵方程進行計算得到獎勵值,以所述獎勵值對無人船進行獎勵;
10、步驟s7、判斷探索是否完成,若是則轉(zhuǎn)至步驟s8,若否則轉(zhuǎn)至步驟s5執(zhí)行;
11、步驟s8、輸出探索完成后所得到的最優(yōu)路徑。
12、進一步,具體的,確定的編程軟件為pycharm軟件及其關(guān)聯(lián)的庫包括pandas,numpy,matolotlib,math,time,sys,tkinter。
13、進一步,具體的,所述步驟s2包括,
14、s2-1,設(shè)定無人船的判定程序,通過判斷來確定其處于環(huán)境中的什么位置,會獲得怎樣的獎勵,并決定接下來是回到起點重新探索還是繼續(xù)當前的探索,所述位置包括正常航道、危險區(qū)以及目的地,對應(yīng)的獎勵分別是m、-m和m,若處于危險區(qū)或到達目的地,則返回起點繼續(xù)探索學習,反之則繼續(xù)當前探索;
15、s2-2,設(shè)定無人船運動方程,在設(shè)定方程時需要保證船能夠正常航行,且不會發(fā)生打舵。
16、進一步,具體的,通過rrt*算法進行探索得到一條rrt*路徑,包括,
17、s11,對rrt*算法進行初始化,為其設(shè)定起點start和終點goal,并創(chuàng)建一個只包含start的rrt搜索樹t,即令搜索樹t從start開始生長;
18、s12,rrt*開始隨機采樣,以探索環(huán)境中的某個隨機點p作為搜索樹t的候選擴展方向,p為非起點和終點;
19、s13,rrt*算法的節(jié)點選擇,在rrt*已構(gòu)建的搜索樹t中,找到一個與p點距離最近的點,記為q點;
20、s14,rrt*算法的節(jié)點擴展,以q點為起點,向p點所在方向延伸一定的距離,得到新節(jié)點r,這個節(jié)點是搜索樹t向終點方向的擴展;
21、s15,判斷q與r之間的延伸路徑是否與障礙物發(fā)生碰撞,如果發(fā)生碰撞,則返回s11,進行下一次迭代;
22、s16,rrt*算法的成本計算,計算起點到r點的路徑成本,其中還包括了路徑的長度、沿該路徑所需時間或其他目標函數(shù);
23、s17,選擇父節(jié)點,在r點附近找到一組節(jié)點q’,并嘗試將其中某些節(jié)點作為q的父節(jié)點,選擇能夠使得從start到q的總成本最低的節(jié)點q’作為q的父節(jié)點;
24、s18,rrt*算法的路徑迭代,每當新節(jié)點被添加到搜索樹中時,算法會檢查并優(yōu)化從起點到該節(jié)點的路徑,這意味著算法不會立即停止在找到第一條到達終點的路徑時,而是會繼續(xù)搜索和優(yōu)化路徑;
25、s19,rrt*算法的迭代過程,重復上述步驟s11到s16,直到找到一條滿足要求的最優(yōu)路徑,或者達到設(shè)定的最大迭代次數(shù)。
26、進一步,具體的,所述步驟s6,包括,
27、s6-1,獲取無人船初狀態(tài),記初狀態(tài)無人船中心坐標(x0,y0),以path[0]和path[1]分別表示path上任意一點的橫坐標和縱坐標;
28、s6-2,獲取每一次運動時無人船中心坐標(x1,y1);
29、s6-3,當y1=path[1]時;
30、s6-4,計算δxt=x1-path[0],將δxt代入n-距離衰減獎勵方程,求得獎勵rt,并將rt給予無人船。
31、進一步,具體的,所述n-距離衰減獎勵方程具體如下式:
32、
33、其中,rt是當前探索位置的獎勵值,δxt是當前探索位置無人船與path的水平距離,n為預(yù)設(shè)常數(shù)。
34、本專利技術(shù)還提出基于rrt路徑智引無人船強化學習的路徑規(guī)劃裝置,其特征在于,包括:
35、軟件選擇模塊,用于確定編程軟件及其關(guān)聯(lián)的庫;
36、參數(shù)設(shè)定模塊,用于設(shè)定無人船的狀態(tài)空間以及動作空間,設(shè)定無人船可視化的探索環(huán)境以及無人船運動模型;
37、初始化模塊,用于初始化本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.基于RRT路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,包括以下:
2.根據(jù)權(quán)利要求1所述的基于RRT路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,確定的編程軟件為Pycharm軟件及其關(guān)聯(lián)的庫包括pandas,numpy,matolotlib,math,time,sys,tkinter。
3.根據(jù)權(quán)利要求1所述的基于RRT路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,所述步驟S2包括,
4.根據(jù)權(quán)利要求1所述的基于RRT路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,通過RRT*算法進行探索得到一條RRT*路徑,包括,
5.根據(jù)權(quán)利要求1所述的基于RRT路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,所述步驟S6,包括,
6.根據(jù)權(quán)利要求5所述的基于RRT路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,所述N-距離衰減獎勵方程具體如下式:
7.基于RRT路徑智引無人船強化學習的路徑規(guī)劃裝置,其特征在于,包括:
【技術(shù)特征摘要】
1.基于rrt路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,包括以下:
2.根據(jù)權(quán)利要求1所述的基于rrt路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,確定的編程軟件為pycharm軟件及其關(guān)聯(lián)的庫包括pandas,numpy,matolotlib,math,time,sys,tkinter。
3.根據(jù)權(quán)利要求1所述的基于rrt路徑智引無人船強化學習的路徑規(guī)劃方法,其特征在于,具體的,所述步驟s2包括,
4.根據(jù)權(quán)利要求1...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王樹燦,李佳文,張浩,石琦琦,詹俊權(quán),馮逸晨,朱智軒,黃技,陳吉,黃喬裕,張益錕,鄭任楷,許福臨,李翔,
申請(專利權(quán))人:廣東海洋大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。