System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及網絡通信,特別涉及一種多路徑路由方法、裝置、介質和設備。
技術介紹
1、近年來,隨著互聯網技術的不斷發展,云計算和大數據等新興產業迅速崛起,導致數據流量大量集中在數據中心進行存儲和管理。數據中心網絡(data?centernetwork,dcn)作為數據中心基礎設施的重要組成部分,負責實現數據中心內部大量計算資源之間的通信。因此,數據中心網絡需要高效、靈活的路由算法以應對大規模的流量傳輸。然而,傳統的靜態路由算法,如最短路徑路由(shortest?path?routing,spr)或等價多路徑路由(equal-cost?multi-path?routing,ecmp),通常未能充分考慮實際流量特性。這些算法的路由規則建立與網絡中的流量分布無關,無法實現最佳性能水平。
2、軟件定義網絡(software-definednetworking,sdn)擴展了解決相關問題的視野,通過解耦網絡中的控制平面和數據平面,使得有效監控網絡狀態和動態部署網絡策略成為可能。因此,sdn非常適合用于實現流路由的優化。然而,流路由算法相對復雜,盡管近幾十年來取得了重大進展,但流路由仍然是一種復雜的路由方法,需要詳細的通信網絡和流量模型。近年來,基于強化學習的無模型人工智能技術已成功應用于各種復雜的控制和優化問題。因此,最近大量研究將強化學習方法應用于路由優化問題。這些研究展示了強化學習在動態環境中自適應和優化決策的潛力,為流路由算法提供了新的解決方案。
3、但是,當網絡規模擴大,即網絡拓撲結構復雜或節點數量較多時,
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種多路徑路由方法、裝置、介質和設備。
2、本專利技術采用下述技術方案:
3、本專利技術提供了一種多路徑路由方法,包括:
4、獲取當前時刻各網絡節點的拓撲信息、各網絡節點的狀態信息和各待轉發的數據流的源網絡節點與目標網絡節點,形成當前時刻的狀態空間;
5、針對每個待進行數據流轉發的網絡節點,根據當前時刻該網絡節點的度,確定該網絡節點轉發動作的動作空間;
6、根據當前時刻的狀態空間和該網絡節點的動作空間,通過預先訓練后并部署在該網絡節點的強化學習模型,確定該網絡節點在當前時刻所要轉發的數據流的下一途徑網絡節點,以形成該網絡節點的轉發動作;
7、根據各網絡節點的轉發動作確定下一時刻各網絡節點的狀態信息,以得到下一時刻的狀態空間,并重新確定下一時刻待進行數據流轉發的網絡節點,通過逐時刻多輪迭代確定各待轉發的數據流從源網絡節點到目標網絡節點的路由路徑。
8、可選地,訓練所述強化學習模型,具體包括:
9、針對每個網絡節點,通過下式根據歷史時刻的狀態空間和該網絡節點的動作空間,確定該網絡節點執行動作空間中每個轉發動作后轉換到下一時刻的狀態空間的獎勵:
10、
11、根據歷史時刻的狀態空間、該網絡節點的動作空間以及該網絡節點執行動作空間中每個轉發動作后轉換到下一時刻的狀態空間的獎勵,通過下式確定該網絡節點執行動作空間中每個轉發動作的價值:
12、
13、通過多輪迭代得到不同狀態空間經各網絡節點的動作空間中每個轉發動作實現狀態轉換對應的價值表;
14、其中,為t時刻第n個網絡節點執行轉發動作的獎勵,α1、α2、β1、β2和β3為不同的調節參數,為t時刻全局感知獎勵,為t時刻局部感知獎勵,thruputflow為各數據流的平均傳輸速率,latencyflow為各數據流的平均延遲,lossflow為各數據流的平均丟包率,dist[dpid][dst]為第n個網絡節點到其所轉發的數據流的目標網絡節點的最短距離,dist[nextdpid][dst]為第n個網絡節點執行轉發動作后下一途徑節點到其所轉發的數據流的目標網絡節點的最短距離,為t時刻第n個網絡節點在狀態空間st時執行動作的價值,α為學習率,γ為折扣因子,為t+1時刻第n個網絡節點在狀態空間st+1時執行最優動作的最大估計價值。
15、可選地,訓練所述強化學習模型,具體包括:
16、針對每個網絡節點,生成隨機值,當隨機值大于或等于預設的探索或利用策略的邊界值時,確定預設的價值表中最大價值對應的轉發動作,作為該網絡節點所要執行的轉發動作;所述價值表包括不同狀態空間經各網絡節點的動作空間中每個轉發動作實現狀態轉換對應的價值;
17、當隨機值小于預設的探索或利用策略的邊界值時,根據價值表確定該網絡節點執行其動作空間中各轉發動作的概率,并通過隨機算法基于各轉發動作的概率選取一個轉發動作作為該網絡節點所要執行的轉發動作;
18、確定該網絡節點執行確定得到的轉發動作后轉換到下一時刻的狀態空間的獎勵;根據歷史時刻的狀態空間、該網絡節點的動作空間以及該網絡節點執行確定得到的轉發動作后轉換到下一時刻的狀態空間的獎勵,確定該網絡節點執行確定得到的轉發動作的價值;通過多輪迭代更新價值表。
19、可選地,所述根據當前時刻的狀態空間和該網絡節點的動作空間,通過預先訓練后并部署在該網絡節點的強化學習模型,確定該網絡節點在當前時刻所要轉發的數據流的下一途徑網絡節點,具體包括:
20、根據當前時刻的狀態空間和該網絡節點的動作空間,通過查詢不同狀態空間經各網絡節點的動作空間中每個轉發動作實現狀態轉換對應的價值表,確定當前時刻的狀態空間下最大價值對應的轉發動作;
21、根據轉發動作,確定該網絡節點在當前時刻所要轉發的數據流的下一途徑網絡節點。
22、可選地,所述通過逐時刻多輪迭代確定各待轉發的數據流從源網絡節點到目標網絡節點的路由路徑,具體包括:
23、通過逐時刻多輪迭代確定各待轉發的數據流的待選路由路徑,判斷每條待選路由路徑是否為有效路徑;其中,路由路徑無環路、無黑洞時為有效路徑;
24、若是,則將各待選路徑作為對應各待轉發的數據流的路由路徑;
25、若否,則根據對應無效路徑的待轉發數據流的源網絡節點和目標網絡節點,確定從源網絡節點到目標網絡節點的最大可用帶寬路徑,并將其作為對應無效路徑的待轉發數據流的路由路徑。
26、可選地,所述方法還包括:
27、針對每個網絡節點,保存逐時刻每輪迭代過程中當前時刻的狀態空間、該網絡節點的轉發動作、該網絡節點的轉發動作對應的獎勵以及各網絡節點執行對應轉發動作后轉換到下一時刻的狀態空間形成對應該網絡節點的訓練數據;
28、通過云端服務器基于網絡節點的數量和拓撲信息,實例化多個待訓練強化學習模型,并根據各待訓練強化學習模型與各網絡節點的對應關系,通過對應網絡節點的訓練數據對各待訓練強化本文檔來自技高網...
【技術保護點】
1.一種多路徑路由方法,其特征在于,包括:
2.如權利要求1所述的多路徑路由方法,其特征在于,訓練所述強化學習模型,具體包括:
3.如權利要求2所述的多路徑路由方法,其特征在于,訓練所述強化學習模型,具體包括:
4.如權利要求2所述的多路徑路由方法,其特征在于,所述根據當前時刻的狀態空間和該網絡節點的動作空間,通過預先訓練后并部署在該網絡節點的強化學習模型,確定該網絡節點在當前時刻所要轉發的數據流的下一途徑網絡節點,具體包括:
5.如權利要求1所述的多路徑路由方法,其特征在于,所述通過逐時刻多輪迭代確定各待轉發的數據流從源網絡節點到目標網絡節點的路由路徑,具體包括:
6.如權利要求2所述的多路徑路由方法,其特征在于,所述方法還包括:
7.如權利要求1所述的多路徑路由方法,其特征在于,所述各網絡節點的狀態信息包括:各網絡節點間鏈路的剩余帶寬、傳輸時延和丟包率。
8.一種多路徑路由方法裝置,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機
10.一種計算機設備,其特征在于,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如權利要求1~7任一所述的方法。
...【技術特征摘要】
1.一種多路徑路由方法,其特征在于,包括:
2.如權利要求1所述的多路徑路由方法,其特征在于,訓練所述強化學習模型,具體包括:
3.如權利要求2所述的多路徑路由方法,其特征在于,訓練所述強化學習模型,具體包括:
4.如權利要求2所述的多路徑路由方法,其特征在于,所述根據當前時刻的狀態空間和該網絡節點的動作空間,通過預先訓練后并部署在該網絡節點的強化學習模型,確定該網絡節點在當前時刻所要轉發的數據流的下一途徑網絡節點,具體包括:
5.如權利要求1所述的多路徑路由方法,其特征在于,所述通過逐時刻多輪迭代確定各待轉發的數據流從源網絡節點到目標網絡節點的路由路徑,具...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。