System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及組合優化,尤其涉及基于跨尺度深度強化學習的旅行商問題求解方法與裝置。
技術介紹
1、旅行商問題(traveling?salesman?problem,tsp)是組合優化領域中的一個基本問題,其要求從一個城市出發遍歷所有城市回到起始點,要求路徑盡可能短。在各個領域均有廣泛的應用,包括車輛運輸、無人機路徑規劃、在線規劃、電路布局等。多年來,由于tsp固有的np(nondeterministic?polynominal,非確定性多項式)-hard問題的復雜性和相關的指數計算要求,研究人員進行了廣泛的研究,為求解tsp設計有效的求解方法。近年來,深度強化學習(deep?reinforcement?learning,drl)的出現為求解tsp帶來了新的思路和方法。研究人員采用了各種網絡架構,如指針網絡、transformer網絡和圖神經網絡來對tsp進行建模求解。這些模型使用強化學習或強化學習和監督學習的組合進行訓練,來求解旅行商問題。此外,還有一些方法將傳統的啟發式因素與強化學習相結合以解決tsp。
2、在實際場景中,在利用無人機對地面上的待監測地點的地面情況進行監測的場景下,使用無人機去各個待監測地點搜索采集信息可以視為旅行商問題,但是無人機在完成監測任務的過程中,由于無人機能量的限制、監測點壽命周期或監測點情況變化的限制,規劃的監測點的數量也是變化的,tsp的求解算法模型中大多數drl方法都是在固定節點數量的數據集上訓練的,并在相應的節點數據集上進行測試,導致模型泛化能力有限,并且缺乏對大規模實際問題的復用性。
3、為提高模型跨尺度泛化能力,提出的解決方案在具有不同尺度的數據集上訓練模型并不可行,或采用元學習技術存在計算時間過長的局限性。
4、因此,無人機對地面情況進行監測時,由于監測點環境復雜多變,可能導致監測點及其數量變化的情況,需要對跨尺度的無人機的監測地點進行有效規劃,但目前轉換為tsp問題進行求解,存在無法求解、低效或者求解時間耗費很長的問題。無人機的待監測路徑的規劃問題需要得到進一步的優化。
技術實現思路
1、為了解決無人機對地面情況進行監測時,對不斷變化的待監測地的路徑規劃的技術問題,本公開的目的在于提供一種基于跨尺度深度強化學習的旅行商問題求解方法與裝置。
2、本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
3、根據本公開的一個方面,提供一種基于跨尺度深度強化學習的旅行商問題求解方法,包括:
4、獲取無人機的待監測地信息;
5、將所述無人機的待監測地路徑規劃問題轉換為tsp問題;
6、根據所述待監測地信息,在所述tsp問題的drl模型訓練中,基于各待監測地路徑規劃實例通過bhh定理確定最佳路徑長度與待監測地數量之間的比率關系;
7、根據所述比率關系調整獎勵函數;
8、根據調整后的獎勵函數和改進后的reinforce算法得到訓練后的drl模型,并通過所述訓練后的drl模型求解所述待監測地路徑規劃問題。
9、在本公開一個實施例中,所述方法還包括:
10、獲取所述待監測地路徑規劃問題的數學表示,其中,將所述待監測地路徑規劃的過程表示為無向完整圖,并獲得所述待監測地點間的歐幾里得距離,以及所述待監測地路徑規劃對應解的總長度,其中,表示待監測地集,表示所述待監測地之間路徑的集合,表示所述所述待監測地路徑規劃的解,表示的總長度,表達式如下:
11、
12、其中,表示上的第個待監測地,是的長度;
13、將所述待監測地路徑規劃問題轉化為馬爾可夫決策過程,獲取待監測地路徑規劃問題生成解的策略和所述獎勵函數;
14、構建神經網絡模型實現所述馬爾可夫決策過程。
15、在本公開一個實施例中,所述待監測地路徑規劃問題生成解的策略表達式如下:
16、
17、其中,s表示待監測地路徑規劃實例;
18、所述獎勵函數的表達式如下:
19、
20、其中,。
21、在本公開一個實施例中,所述根據所述待監測地信息,在所述tsp問題的drl模型訓練中,基于各待監測地路徑規劃實例通過bhh定理確定最佳路徑長度與待監測地數量之間的比率關系,包括:
22、在所述待監測地路徑規劃實例中的點在單位平方內隨機均勻分布的條件下,所述最佳路徑長度與涉及的待監測地數量之間存在關系表達式:
23、
24、其中,表示所述單位平方內的點,表示所述待監測地數量,是貫穿所有點的最短路徑長度,c1和c2為常數;
25、確定所述各待監測地路徑規劃的所述最佳路徑長度與所述待監測地數量之間的比率關系β的范圍,公式如下:
26、。
27、在本公開一個實施例中,所述根據所述比率關系調整獎勵函數,包括:
28、根據所述比率關系中的縮減對drl中的獎勵函數進行調整,調整后的獎勵函數表達式如下:
29、
30、其中表示的待監測地數量。
31、在本公開一個實施例中,預設梯度更新算法為改進后的reinforce算法,其中,所述改進后的reinforce算法的計算公式如下:
32、
33、其中,b表示每個批次里的所述待監測地路徑規劃實例的數量。
34、在本公開一個實施例中,所述方法,還包括:
35、采用蒙特卡羅的對所述各待監測地路徑規劃實例隨機選擇起始待監測地進行路徑采樣。
36、根據本公開的另一個方面,提供一種旅行商問題求解裝置,包括:
37、信息獲取模塊,用于獲取無人機的待監測地信息;
38、tsp轉換模塊,用于將所述無人機的待監測地路徑規劃問題轉換為tsp問題;
39、關系確定模塊,用于根據所述無人機待監測地信息,在所述tsp問題的drl模型訓練中,基于各待監測地路徑規劃實例通過bhh定理確定最佳路徑長度與待監測地數量之間的比率關系;
40、獎勵調整模塊,用于根據所述比率關系調整獎勵函數;
41、求解模塊,用于根據調整后的獎勵函數和改進后的reinforce算法得到訓練后的drl模型,并通過所述訓練后的drl模型求解所述無人機待監測地路徑規劃。
42、根據本公開的又一個方面,提供一種電子設備,包括:處理器;以及
43、存儲器,用于存儲所述處理器的可執行指令;
44、其中,所述處理器配置為經由執行所述可執行指令來執行上述任意一項所述的基于跨尺度深度強化學習的旅行商問題求解方法。
45、根據本公開的再一個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述任意一項所述的基于跨尺度深度強化學習的旅行商問本文檔來自技高網...
【技術保護點】
1.一種基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,包括:
2.根據權利要求1所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述待監測地路徑規劃問題生成解的策略表達式如下:
4.根據權利要求3所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述根據所述待監測地信息,在所述TSP問題的DRL模型訓練中,基于各待監測地路徑規劃實例通過BHH定理確定最佳路徑長度與待監測地數量之間的比率關系,包括:
5.根據權利要求4所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述根據所述比率關系調整獎勵函數,包括:
6.根據權利要求5所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述改進后的REINFORCE算法的計算公式如下:
7.如權利要求1所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述方法,還包括:
8.一種旅行商問題求解
9.一種電子設備,其特征在于,包括:處理器;以及
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求?1~7中任意一項所述的基于跨尺度深度強化學習的旅行商問題求解方法。
...【技術特征摘要】
1.一種基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,包括:
2.根據權利要求1所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述待監測地路徑規劃問題生成解的策略表達式如下:
4.根據權利要求3所述的基于跨尺度深度強化學習的旅行商問題求解方法,其特征在于,所述根據所述待監測地信息,在所述tsp問題的drl模型訓練中,基于各待監測地路徑規劃實例通過bhh定理確定最佳路徑長度與待監測地數量之間的比率關系,包括:
5.根據權利要求4所述的基于跨尺度深度強化學習的旅...
【專利技術屬性】
技術研發人員:肖開明,段浩鵬,馬一鳴,黃宏斌,張航,劉麗華,
申請(專利權)人:中國人民解放軍國防科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。