System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及網(wǎng)絡(luò)管理,更具體地,涉及一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法及裝置。
技術(shù)介紹
1、隨著數(shù)字經(jīng)濟(jì)迅速增長,數(shù)據(jù)中心已成為人工智能、大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)等領(lǐng)域重要基礎(chǔ)設(shè)施。數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)(data?center?network,dcn)的研究,如今已成為技術(shù)創(chuàng)新和應(yīng)用的熱點。傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)在大規(guī)模、高密度流量的數(shù)據(jù)中心網(wǎng)絡(luò)中難以靈活并實時地配置資源。軟件定義網(wǎng)絡(luò)(softwaredefinednetwork,sdn)技術(shù)解耦控制平面和數(shù)據(jù)轉(zhuǎn)發(fā)平面,增強了網(wǎng)絡(luò)結(jié)構(gòu)的靈活性。在sdn架構(gòu)下的dcn中,要求路由算法能夠獲取全局網(wǎng)絡(luò)的狀態(tài)信息和在動態(tài)變化的復(fù)雜網(wǎng)絡(luò)拓?fù)渲兄贫ǜ呙芏攘髁康霓D(zhuǎn)發(fā)路徑規(guī)劃,且能夠針對突發(fā)事件進(jìn)行實時靈活的調(diào)整。傳統(tǒng)路由優(yōu)化算法受其算法基礎(chǔ)和工作原理的限制存在收斂時間長、資源占用率高等問題,導(dǎo)致網(wǎng)絡(luò)利用率低下,產(chǎn)生擁塞和延時,難以滿足上述需求。因此,迫切需要創(chuàng)新研究,解決新形勢下sdn架構(gòu)下dcn的路由優(yōu)化問題。
2、深度強化學(xué)習(xí)(deep?reinforcement?learning,drl),作為一種新興的機器學(xué)習(xí)技術(shù),通過結(jié)合深度學(xué)習(xí)的表征學(xué)習(xí)能力和強化學(xué)習(xí)的決策能力,為sdn路由優(yōu)化提供了新思路。drl能不斷地與環(huán)境交互學(xué)習(xí),自動優(yōu)化路由策略,適應(yīng)網(wǎng)絡(luò)流量的動態(tài)變化,展現(xiàn)出更高的靈活性和自適應(yīng)性。
3、然而,相關(guān)路由優(yōu)化方法雖具有理論優(yōu)勢,但在數(shù)據(jù)中心網(wǎng)絡(luò)的應(yīng)用場景下存在挑戰(zhàn):首先,ddpg算法對超參數(shù)的選擇極為敏感,不恰當(dāng)?shù)膮?shù)設(shè)置可能顯著降低算法性能;其次,該方法
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的至少一個缺陷或改進(jìn)需求,本專利技術(shù)提供了一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法及裝置,解決了傳統(tǒng)路由優(yōu)化算法受其算法基礎(chǔ)和工作原理的限制存在收斂時間長、資源占用率高,導(dǎo)致網(wǎng)絡(luò)利用率低下,產(chǎn)生擁塞和延時等問題,實現(xiàn)了數(shù)據(jù)中心網(wǎng)絡(luò)中路由效率、網(wǎng)絡(luò)利用率的提升。
2、為實現(xiàn)上述目的,按照本專利技術(shù)的第一個方面,提供了一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,該方法包括:采集數(shù)據(jù)中心網(wǎng)絡(luò)中的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù),對所述網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,其中,所述網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)包括源主機和目的主機地ip地址、數(shù)據(jù)流大小、數(shù)據(jù)流類型、數(shù)據(jù)流權(quán)重;對目標(biāo)算法模型進(jìn)行訓(xùn)練,通過貝葉斯優(yōu)化技術(shù)優(yōu)化調(diào)整超參數(shù)組合,形成路由優(yōu)化模型;利用所述路由優(yōu)化模型進(jìn)行路由計算,得到路由計算結(jié)果;基于所述路由計算結(jié)果中做出路由優(yōu)化決策。
3、在一個示例性實施例中,所述采集數(shù)據(jù)中心網(wǎng)絡(luò)中的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理包括:對原始數(shù)組中的每個元素應(yīng)用指數(shù)函數(shù),將任意實數(shù)映射到正實數(shù)范圍得到目標(biāo)數(shù)組;計算所述目標(biāo)數(shù)組中所有元素的總和,將所述原始數(shù)組中的每個元素除以所有元素指數(shù)和,得到每個元素的softmax值;將所述原始數(shù)組轉(zhuǎn)換為目標(biāo)概率分布,其中,每個元素的概率與在原始數(shù)組中的相對大小成正比。
4、在一個示例性實施例中,所述對目標(biāo)算法模型進(jìn)行訓(xùn)練,通過貝葉斯優(yōu)化技術(shù)優(yōu)化調(diào)整超參數(shù)組合,形成路由優(yōu)化模型包括:采取經(jīng)驗回放技術(shù),使用td誤差值衡量每條歷史數(shù)據(jù)的學(xué)習(xí)價值;選擇高獎勵值或高懲罰值的歷史數(shù)據(jù)對所述目標(biāo)算法模型進(jìn)行訓(xùn)練更新。
5、在一個示例性實施例中,所述利用所述路由優(yōu)化模型進(jìn)行路由計算,得到路由計算結(jié)果包括:在actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的第一個線性層之前的lstm層處理狀態(tài)序列,生成隱含狀態(tài)并輸出一個固定維度的向量;將所述向量作為后續(xù)線性層的輸入,輸入至actor和critic架構(gòu)中的神經(jīng)網(wǎng)絡(luò),其中,所述actor網(wǎng)絡(luò)用于確定各狀態(tài)下的行動策略。
6、在一個示例性實施例中,在所述應(yīng)用程序接收到所述信號后注冊中斷服務(wù)函數(shù)在產(chǎn)生隨機數(shù)的線程之后,所述方法還包括:通過均勻分布進(jìn)行critic網(wǎng)絡(luò)權(quán)重的初始化,隱藏層使用修正線性單元激活函數(shù);actor網(wǎng)絡(luò)的輸出層使用雙曲正切函數(shù)限制動作的輸出范圍,將動作值映射到目標(biāo)范圍內(nèi)。
7、在一個示例性實施例中,所述基于所述路由計算結(jié)果中做出路由優(yōu)化決策包括:使用目標(biāo)函數(shù)創(chuàng)建生成器,所述生成器會生成從源節(jié)點到目的節(jié)點的所有最短簡單路徑,其中,所述簡單路徑是不包含重復(fù)節(jié)點的路徑;對所述最短簡單路徑進(jìn)行存儲,結(jié)合目標(biāo)網(wǎng)絡(luò)狀態(tài),得到所述路由優(yōu)化決策。
8、按照本專利技術(shù)的第二個方面,還提供了一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化裝置,其包括:預(yù)處理單元,用于采集數(shù)據(jù)中心網(wǎng)絡(luò)中的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù),對所述網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,其中,所述網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)包括源主機和目的主機地ip地址、數(shù)據(jù)流大小、數(shù)據(jù)流類型、數(shù)據(jù)流權(quán)重;訓(xùn)練單元,用于對目標(biāo)算法模型進(jìn)行訓(xùn)練,通過貝葉斯優(yōu)化技術(shù)優(yōu)化調(diào)整超參數(shù)組合,形成路由優(yōu)化模型;計算單元,用于利用所述路由優(yōu)化模型進(jìn)行路由計算,得到路由計算結(jié)果;優(yōu)化決策單元,用于基于所述路由計算結(jié)果中做出路由優(yōu)化決策。
9、按照本專利技術(shù)的第三個方面,還提供了一種計算機可讀的存儲介質(zhì),該計算機可讀的存儲介質(zhì)中存儲有計算機程序,其中,該計算機程序被設(shè)置為運行時執(zhí)行上述基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法。
10、按照本專利技術(shù)的第四個方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,上述處理器通過計算機程序執(zhí)行上述的基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法。
11、總體而言,通過本專利技術(shù)所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
12、(1)本專利技術(shù)提供了一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,在數(shù)據(jù)輸入階段,通過softmax函數(shù)對網(wǎng)絡(luò)狀態(tài)原始數(shù)據(jù)進(jìn)行預(yù)處理,統(tǒng)一數(shù)據(jù)格式,便利特征提取,能夠有效提高算法模型處理數(shù)據(jù)的速度,加速整個路由優(yōu)化過程;在模型訓(xùn)練階段,通過引入貝葉斯優(yōu)化技術(shù),使用高斯過程作為先驗?zāi)P停瑑?yōu)化模型中的學(xué)習(xí)率、折扣因子、經(jīng)驗回放池大小組成的超參數(shù)組合,解決ddpg基本模型對超參數(shù)調(diào)整的敏感問題。
13、(2)通過采用本專利技術(shù)提供的一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,在數(shù)據(jù)處理階段,通過優(yōu)先經(jīng)驗回放池設(shè)計,基于時序差分誤差(temporal?difference?error,td誤差),為樣本分配不同的代表重要性的采樣概率,使系統(tǒng)能夠更多地關(guān)注于那些對性能提升有顯著影響的經(jīng)驗樣本,進(jìn)而幫助系統(tǒng)更迅速地收斂到更佳的路由策略上。這種學(xué)習(xí)機制有助于模型更加有效地利用歷史數(shù)據(jù),提高學(xué)習(xí)效率。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點】
1.一種基于深度強化學(xué)習(xí)的SDN路由優(yōu)化方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的SDN路由優(yōu)化方法,其特征在于,所述采集數(shù)據(jù)中心網(wǎng)絡(luò)中的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理包括:
3.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的SDN路由優(yōu)化方法,其特征在于,所述對目標(biāo)算法模型進(jìn)行訓(xùn)練,通過貝葉斯優(yōu)化技術(shù)優(yōu)化調(diào)整超參數(shù)組合,形成路由優(yōu)化模型包括:
4.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的SDN路由優(yōu)化方法,其特征在于,所述利用所述路由優(yōu)化模型進(jìn)行路由計算,得到路由計算結(jié)果包括:
5.如權(quán)利要求4所述的基于深度強化學(xué)習(xí)的SDN路由優(yōu)化方法,其特征在于,在所述應(yīng)用程序接收到所述信號后注冊中斷服務(wù)函數(shù)在產(chǎn)生隨機數(shù)的線程之后,所述方法還包括:
6.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的SDN路由優(yōu)化方法,其特征在于,所述基于所述路由計算結(jié)果中做出路由優(yōu)化決策包括:
7.一種基于深度強化學(xué)習(xí)的SDN路由優(yōu)化裝置,其特征在于,包括:
8.如權(quán)利要求7所述的基于深度強化學(xué)習(xí)的SDN路由優(yōu)化裝置,其特征在
9.一種計算機可讀的存儲介質(zhì),其特征在于,所述計算機可讀的存儲介質(zhì)包括存儲的程序,其中,所述程序運行時執(zhí)行權(quán)利要求1至6中任一項所述的方法。
10.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設(shè)置為通過所述計算機程序執(zhí)行權(quán)利要求1至6中任一項所述的方法。
...【技術(shù)特征摘要】
1.一種基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,其特征在于,所述采集數(shù)據(jù)中心網(wǎng)絡(luò)中的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理包括:
3.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,其特征在于,所述對目標(biāo)算法模型進(jìn)行訓(xùn)練,通過貝葉斯優(yōu)化技術(shù)優(yōu)化調(diào)整超參數(shù)組合,形成路由優(yōu)化模型包括:
4.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,其特征在于,所述利用所述路由優(yōu)化模型進(jìn)行路由計算,得到路由計算結(jié)果包括:
5.如權(quán)利要求4所述的基于深度強化學(xué)習(xí)的sdn路由優(yōu)化方法,其特征在于,在所述應(yīng)用程序接收到所述信號后注冊中斷服務(wù)函數(shù)在產(chǎn)生隨機數(shù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:余瑞豐,申雨,王杰,韓悅,楊洋,閆帥,白文華,范程博,
申請(專利權(quán))人:中國人民解放軍國防科技大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。