System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及水下無線傳感網絡,特別涉及一種基于深度強化學習的水下多auv任務分配方法及設備。
技術介紹
1、目前,水下無線傳感器網絡(uwsn)由具有水聲通信能力和計算能力的節點組成。由于其具有實時、便捷、易擴展的優點,近年來被廣泛應用于水下預警、目標探測、環境監測等領域,幫助人們對海洋展開系統的監測與研究。它一般由各種傳感器節點和其他設備組成。水下傳感器節點感知周圍環境并收集相應數據。這些數據經過處理后及時轉發到鄰近的傳感器節點或表面聚合傳感器節點,為上層應用決策提供迅速必要的信息。然而,由于水下環境的不確定性和復雜性,uwsn中低時延的數據收集是一項非常具有挑戰性的任務。
2、本專利技術應用場景為多自主水下航行器(auv)輔助收集數據方式的水下無線傳感器網絡。考慮到水下傳感器節點和auv大多布置在真實海洋環境中,洋流的復雜性和多auv合理協作收集數據的困難給低時延的數據采集帶來了天然的挑戰。這一挑戰具體有兩個方面:一方面,海洋環境中復雜的洋流將會阻礙auv在傳感器節點間的航行并導致航行時延的增加,甚至在洋流速度過大時auv將無法前進;而另一方面,水下傳感器節點在水下位置和生成的數據量都不同,不合理的auv任務分配將無法發揮多auv的協作能力,也無法降低采集時延。因此,如何避免auv在航行時少受洋流的影響甚至利用洋流,如何為多auv合理任務分配,最終降低數據的收集時延是一項十分有趣的挑戰。
3、近年來,水下傳感器網絡中的數據采集得到了人們廣泛的討論。主要有多跳傳輸和auv輔助采集兩類。多跳傳輸即海底深
技術實現思路
1、針對上述問題,本專利技術提出了一種基于深度強化學習的水下多auv任務分配方法及設備,能夠顯著提高數據采集的時延。
2、本專利技術為解決公知技術中存在的技術問題所采取的技術方案是:
3、一種基于深度強化學習的水下多auv任務分配方法,將水下區域進行網格化處理,并使用真實洋流數據進行填充;設auv在網格間航行;建立基于深度強化學習算法的優化分配策略,對多個auv的任務進行分配,確定每個auv需要收集數據的傳感器節點以及沿傳感器節點的訪問路徑;設定目標函數為總任務完成的路徑時延最小,設置當前最優任務分配策略為策略φ;令從第一個傳感器節點開始,以ε的概率隨機分配傳感器節點,以1-ε的概率按照策略φ分配傳感器節點;重復上述過程至傳感器節點分配完畢;計算auv在兩個傳感器節點間行駛的時延,并將其定義為邊時延;將auv訪問所負責多個節點的順序定義為一個非對稱tsp問題;采用lkh算法解決該問題;計算auv在所有傳感器節點間航行的邊時延矩陣,并將其輸入優化分配策略中;使用ga算法生成初始策略φ,再利用深度強化學習算法迭代優化策略φ,直至得到目標函數的最優解。
4、進一步地,將水下區域劃分為多個3d網格,其中傳感器節點和auv隨機部署在網格質心處;將每個網格被視為圖中的一個點,將auv在相鄰網格之間的行進時延作為邊的權重,得到3d網格加權圖。
5、進一步地,設:xyz三維坐標中的x軸、y軸方向平行于水平面,z軸方向垂直于水平面;t為時間變量;傳感器節點在x軸方向速度為傳感器節點在y軸方向速度為傳感器節點在x軸坐標為xm(t),傳感器節點在y軸坐標為ym(t),傳感器節點在z軸坐標為zm(t);m表示傳感器節點編號;
6、構建傳感器節點漂移速度模型如下:
7、
8、其中k1,k2,k3,λ,μ′是與洋流密切相關的參數,k4,k5是隨機變量;假設節點在z軸方向上主要以由水下噪聲引起的浮動為主,傳感器節點的坐標漂移模型如下:
9、
10、其中τt是一個服從正態分布的隨機噪聲變量。
11、進一步地,auv從網格a前往鄰近網格b,由于網格中填充了真實洋流,所以auv行駛的速度是auv靜水速度和洋流速度的合成;構建auv靜水速度分量模型如下:
12、
13、根據上式解方程可以求出auv在網格a中實際速度在三個坐標軸上的分量分別為:
14、
15、根據上式解方程可以求出auv在網格b中實際速度在三個坐標軸上的分量分別為:
16、
17、最終可得auv在網格a中的實際速度為
18、最終可得auv在網格b中的實際速度為
19、auv從網格a的中心點a到網格b的中心點b的時延計算為:
20、
21、上式中:
22、表示auv在網格a中的x軸靜水速度分量;
23、表示auv在網格a中的y軸靜水速度分量;
24、表示auv在網格a中的z軸靜水速度分量;
25、表示a網格中x軸方向上的洋流分量;
26、表示a網格中y軸方向上的洋流分量;
27、表示a網格中z軸方向上的洋流分量;
28、表示auv在網格b中的x軸靜水速度分量;
29、表示auv在網格b中的y軸靜水速度分量;
30、表示auv在網格b中的z軸靜水速度分量;
31、表示b網格中x軸方向上的洋流分量;
32、表示b網格中y軸方向上的洋流分量;
33、表示b網格中z軸方向上的洋流分量;
34、v表示auv的靜水速度;
35、no?r()表示標準化操作函數;
36、o表示網格a和網格b接觸面中心點;
37、a表示網格a的中心點;
38、b表示網格b的中心點;
39、dcao表示auv從點a行進到點o的預定方向向量;
40、ta,b表示從網格a到網格b的時延;
41、disao表示點a到點o的距離;
42、disob表示點o到點b的距離;
43、表示auv在網格a的實際速度;
44、表示auv在網格b的實際速度。
45、進一步地,設網格αu和網格βu為auv在一對傳感器節點ni和nj之間行駛時經過的第u對相鄰網格;表示從網格αu到網格βu的時延;ni為該對傳感器節點中的第一個傳感器節點編號;nj為該對傳感器節點中的第二個傳感器節點編號;
46、定義auv在一對傳感器節點ni和nj之間行駛的延遲為傳感器節點ni和nj之間的邊延遲權重,則傳感器節點ni和nj之間的邊延遲權重本文檔來自技高網...
【技術保護點】
1.一種基于深度強化學習的水下多AUV任務分配方法,其特征在于,將水下區域進行網格化處理,并使用真實洋流數據進行填充;設AUV在網格間航行;建立基于深度強化學習算法的優化分配策略,對多個AUV的任務進行分配,確定每個AUV需要收集數據的傳感器節點以及沿傳感器節點的訪問路徑;設定目標函數為總任務完成的路徑時延最小,設置當前最優任務分配策略為策略φ;令從第一個傳感器節點開始,以ε的概率隨機分配傳感器節點,以1-ε的概率按照策略φ分配傳感器節點;重復上述過程至傳感器節點分配完畢;計算AUV在兩個傳感器節點間行駛的時延,并將其定義為邊時延;將AUV訪問所負責多個節點的順序定義為一個非對稱TSP問題;采用LKH算法解決該問題;計算AUV在所有傳感器節點間航行的邊時延矩陣,并將其輸入優化分配策略中;使用GA算法生成初始策略φ,再利用深度強化學習算法迭代優化策略φ,直至得到目標函數的最優解。
2.根據權利要求1所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,將水下區域劃分為多個3D網格,其中傳感器節點和AUV隨機部署在網格質心處;將每個網格被視為圖中的一個點,將AUV
3.根據權利要求1所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,設:XYZ三維坐標中的X軸、Y軸方向平行于水平面,Z軸方向垂直于水平面;t為時間變量;傳感器節點在X軸方向速度為傳感器節點在Y軸方向速度為傳感器節點在X軸坐標為Xm(t),傳感器節點在Y軸坐標為Ym(t),傳感器節點在Z軸坐標為Zm(t);m表示傳感器節點編號;
4.根據權利要求3所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,AUV從網格A前往鄰近網格B,由于網格中填充了真實洋流,所以AUV行駛的速度是AUV靜水速度和洋流速度的合成;構建AUV靜水速度分量模型如下:
5.根據權利要求4所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,設網格αu和網格βu為AUV在一對傳感器節點ni和nj之間行駛時經過的第u對相鄰網格;表示從網格αu到網格βu的時延;ni為該對傳感器節點中的第一個傳感器節點編號;nj為該對傳感器節點中的第二個傳感器節點編號;
6.根據權利要求1所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,該方法包括如下步驟:
7.根據權利要求6所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,步驟1包括如下方法步驟:
8.根據權利要求6所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,步驟2包括如下方法步驟:
9.根據權利要求6所述的基于深度強化學習的水下多AUV任務分配方法,其特征在于,步驟3包括如下方法步驟:
10.一種基于深度強化學習的水下多AUV任務分配方法的設備,包括存儲器和處理器,其特征在于,所述存儲器用于存儲計算機程序;所述處理器,用于執行所述計算機程序并在執行所述計算機程序時實現如權利要求1至9中任一項所述的基于深度強化學習的水下多AUV任務分配方法步驟。
...【技術特征摘要】
1.一種基于深度強化學習的水下多auv任務分配方法,其特征在于,將水下區域進行網格化處理,并使用真實洋流數據進行填充;設auv在網格間航行;建立基于深度強化學習算法的優化分配策略,對多個auv的任務進行分配,確定每個auv需要收集數據的傳感器節點以及沿傳感器節點的訪問路徑;設定目標函數為總任務完成的路徑時延最小,設置當前最優任務分配策略為策略φ;令從第一個傳感器節點開始,以ε的概率隨機分配傳感器節點,以1-ε的概率按照策略φ分配傳感器節點;重復上述過程至傳感器節點分配完畢;計算auv在兩個傳感器節點間行駛的時延,并將其定義為邊時延;將auv訪問所負責多個節點的順序定義為一個非對稱tsp問題;采用lkh算法解決該問題;計算auv在所有傳感器節點間航行的邊時延矩陣,并將其輸入優化分配策略中;使用ga算法生成初始策略φ,再利用深度強化學習算法迭代優化策略φ,直至得到目標函數的最優解。
2.根據權利要求1所述的基于深度強化學習的水下多auv任務分配方法,其特征在于,將水下區域劃分為多個3d網格,其中傳感器節點和auv隨機部署在網格質心處;將每個網格被視為圖中的一個點,將auv在相鄰網格之間的行進時延作為邊的權重,得到3d網格加權圖。
3.根據權利要求1所述的基于深度強化學習的水下多auv任務分配方法,其特征在于,設:xyz三維坐標中的x軸、y軸方向平行于水平面,z軸方向垂直于水平面;t為時間變量;傳感器節點在x軸方向速度為傳感器節點在y軸方向速度為傳感器節點在x軸坐標為xm(t),傳感器節點在y軸坐標為ym(...
【專利技術屬性】
技術研發人員:劉治彬,劉春鳳,曲雯毓,胡彥盛,董慧勇,
申請(專利權)人:天津大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。