System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及網絡路由,具體而言,涉及一種基于強化學習的智能路由方法、裝置及設備。
技術介紹
1、路由是為網絡中的數據包選擇傳輸路徑的過程,是網絡通信中的核心環節。網絡規模的不斷擴大以及網絡狀態的復雜性給數據包路由帶來了效率、可靠性等問題。因此,如何實現提高數據包路由效率,降低傳輸時延,一直備受研究人員的矚目。
2、目前的動態路由算法通常基于某些優化準則,例如最少跳數或最小代價,來計算到達目的地的最佳路徑。此外,為了能夠自適應網絡狀態的變化,計算出最佳路由,往往需要定期與周圍甚至更遠的節點進行本地數據庫的交換,產生一定的帶寬壓力,同時路由策略不具備時效性。這類算法通常具有如下兩個問題:1)網絡狀態感知的限制:在網絡規模較大時,由于節點眾多且分布廣泛,單個節點很難全面感知整個網絡的實時狀態,包括路徑擁塞等情況;2)路徑選擇的單一性:由于數據包都基于相同的規則選擇路徑,某一類流量的激增可能會導致一條路徑過載而其他路徑上的節點資源閑置。
技術實現思路
1、本申請實施例提供了一種基于強化學習的智能路由方法、裝置及設備,以至少解決相關技術中路由效率低,傳輸時延大的技術問題。
2、根據本申請實施例的一個方面,提供了一種基于強化學習的智能路由方法,包括:
3、構建通信網絡模型圖,所述通信網絡模型圖包括多個網絡節點,其中,每個網絡節點為一個智能體;
4、在任意時刻,每個網絡節點獲取當前與環境交互后得到的網絡狀態信息;
5、將所述網絡狀態信息輸
6、根據輸出的動作信息確定數據包路由的下一網絡節點,將數據包發送到選定的下一網絡節點。
7、在一個可選地實施例中,所述網絡狀態信息包括數據包的起始節點、數據包的目標節點、當前網絡節點的歷史三個動作以及相鄰網絡節點的當前排隊的數據包數量。
8、在一個可選地實施例中,每個網絡節點獲取當前與環境交互后得到的網絡狀態信息之后,還包括:
9、獲取當前智能體所在網絡節點的所有相鄰網絡節點集合;
10、根據所述所有相鄰網絡節點集合生成所述智能體的動作空間。
11、在一個可選地實施例中,將所述網絡狀態信息輸入所述智能體的策略網絡中之前,還包括:
12、構建智能體的網絡模型;
13、所述智能體的網絡模型包括策略網絡和評價網絡;
14、所述策略網絡由輸入層、隱藏層以及輸出層組成,用于決策在當前網絡狀態下應該采取哪個動作;
15、所述評價網絡由輸入層、隱藏層以及輸出層組成,用于評估當前策略下動作的價值。
16、在一個可選地實施例中,根據輸出的動作信息確定數據包路由的下一網絡節點之后,還包括:
17、判斷所述數據包路由的下一網絡節點是否為目標節點;
18、若不是目標節點,記錄數據包的跳數、傳輸成本、排隊時延以及在該網絡節點的狀態價值;
19、若是目標節點,計算從起始節點到目標節點整個傳輸路徑上的各個節點的獎勵值。
20、在一個可選地實施例中,計算節點的獎勵值,包括:
21、基于下一跳節點的獎勵值減去傳輸成本減去當前節點的排隊時延,得到當前節點的獎勵值。
22、在一個可選地實施例中,計算網絡節點的狀態價值,包括:
23、將所述網絡狀態信息輸入智能體的評價網絡,得到當前策略下的狀態價值。
24、在一個可選地實施例中,還包括:
25、根據所述狀態價值以及獎勵值,計算任意節點的評價網絡和策略網絡的損失值;
26、基于所述評價網絡和策略網絡的損失值更新所述評價網絡和策略網絡。
27、根據本申請實施例的另一方面,還提供了一種基于強化學習的智能路由裝置,包括:
28、網絡圖構建模塊,用于構建通信網絡模型圖,所述通信網絡模型圖包括多個網絡節點,其中,每個網絡節點為一個智能體;
29、狀態空間獲取模塊,用于在任意時刻,每個網絡節點獲取當前與環境交互后得到的網絡狀態信息;
30、決策模塊,用于將所述網絡狀態信息輸入所述智能體的策略網絡中,輸出概率最大的動作;
31、執行模塊,用于根據輸出的動作信息確定數據包路由的下一網絡節點,將數據包發送到選定的下一網絡節點。
32、根據本申請實施例的又一方面,還提供了一種電子設備,包括存儲器和處理器,上述存儲器中存儲有計算機程序,上述處理器被設置為通過上述計算機程序執行上述的基于強化學習的智能路由方法。
33、本申請實施例提供的技術方案可以包括以下有益效果:
34、本申請實施例提供了一種基于強化學習的智能路由方法,將每個網絡節點視為獨立的智能體,并通過單獨的模型進行路由決策,根據當前實時網絡狀態,給出最優動作。使智能體能夠根據當前的網絡狀態動態調整路由決策,以實現負載均衡,避免單一路徑過載,提高了路由的靈活性。有效降低數據包在網絡中傳輸的平均時延,滿足實時性要求高的應用場景需求,提高了數據包的路由效率。
本文檔來自技高網...【技術保護點】
1.一種基于強化學習的智能路由方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,
3.根據權利要求1所述的方法,其特征在于,每個網絡節點獲取當前與環境交互后得到的網絡狀態信息之后,還包括:
4.根據權利要求1所述的方法,其特征在于,將所述網絡狀態信息輸入所述智能體的策略網絡中之前,還包括:
5.根據權利要求1所述的方法,其特征在于,根據輸出的動作信息確定數據包路由的下一網絡節點之后,還包括:
6.根據權利要求5所述的方法,其特征在于,計算節點的獎勵值,包括:
7.根據權利要求5所述的方法,其特征在于,計算網絡節點的狀態價值,包括:
8.根據權利要求5所述的方法,其特征在于,還包括:
9.一種基于強化學習的智能路由裝置,其特征在于,包括:
10.一種電子設備,其特征在于,包括處理器和存儲有程序指令的存儲器,所述處理器被配置為在執行所述程序指令時,執行如權利要求1至8任一項所述的基于強化學習的智能路由方法。
【技術特征摘要】
1.一種基于強化學習的智能路由方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,
3.根據權利要求1所述的方法,其特征在于,每個網絡節點獲取當前與環境交互后得到的網絡狀態信息之后,還包括:
4.根據權利要求1所述的方法,其特征在于,將所述網絡狀態信息輸入所述智能體的策略網絡中之前,還包括:
5.根據權利要求1所述的方法,其特征在于,根據輸出的動作信息確定數據包路由的下一網絡節點之后,還包括:
<...【專利技術屬性】
技術研發人員:呂昕晨,張晨宇,任奕霖,崔琪楣,陶小峰,
申請(專利權)人:北京郵電大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。