System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機網絡技術,尤其涉及基于強化學習的私域直播帶寬資源分配與路由方法及系統。
技術介紹
1、傳統私域直播的帶寬分配方法通常采用靜態分配或基于規則的動態分配方式。靜態分配方式無法根據直播間的實時情況進行調整,容易造成帶寬資源的浪費或不足。基于規則的動態分配方式依賴于預先設定的規則,難以適應復雜的網絡環境和多變的用戶需求,往往導致帶寬分配不合理,影響用戶觀看體驗。此外,傳統的路由策略也大多是靜態配置,缺乏靈活性,無法根據網絡狀況動態調整數據傳輸路徑,容易造成網絡擁塞和延遲。
2、帶寬分配缺乏靈活性:傳統的帶寬分配方法難以適應私域直播場景下多直播間并發、用戶規模波動等動態變化,導致帶寬資源利用率低,部分直播間用戶體驗質量差。
3、路由策略不夠智能:靜態路由或簡單的動態路由策略無法根據網絡實時狀況進行優化,容易導致數據傳輸路徑不佳,增加網絡延遲和丟包率,影響直播質量。
4、缺乏用戶體驗質量的精細化控制:傳統的帶寬分配和路由方法缺乏對用戶體驗質量的有效評估和控制,難以根據不同用戶的需求和網絡條件提供差異化的服務,導致用戶滿意度不高。
技術實現思路
1、本專利技術實施例提供基于強化學習的私域直播帶寬資源分配與路由方法及系統,能夠解決現有技術中的問題。
2、本專利技術實施例的第一方面,
3、提供基于強化學習的私域直播帶寬資源分配與路由方法,包括:
4、采集私域直播網絡中多個直播間的實時數據信息,所述實時數據信息
5、基于所述強化學習模型對所述實時數據信息進行處理,通過深度神經網絡提取特征,結合帶寬資源約束條件,采用策略梯度算法生成帶寬分配策略和路由策略,其中所述策略梯度算法包括:構建雙層神經網絡作為策略網絡,所述策略網絡的輸入層接收所述狀態空間中的狀態值,隱藏層采用lstm單元進行時序特征提取,輸出層生成帶寬分配概率分布和路由決策概率分布;基于所述帶寬分配概率分布和路由決策概率分布采樣得到決策動作,計算決策動作執行后的獎勵值,所述獎勵值由用戶體驗質量指標和系統資源利用率的加權值構成;根據所述獎勵值計算策略梯度,并通過反向傳播更新所述策略網絡的參數;
6、根據所述帶寬分配策略和路由策略,通過軟件定義網絡控制器實時調整網絡中的帶寬分配參數和路由表配置,對各直播間進行差異化帶寬分配并優化數據傳輸路徑,所述軟件定義網絡控制器基于用戶地理分布建立就近接入的邊緣節點,并在網絡擁塞時動態調整數據傳輸路徑。
7、在一種可選的實施方式中,
8、基于所述強化學習模型對所述實時數據信息進行處理,通過深度神經網絡提取特征,結合帶寬資源約束條件,采用策略梯度算法生成帶寬分配策略和路由策略,其中所述策略梯度算法包括:構建雙層神經網絡作為策略網絡,所述策略網絡的輸入層接收所述狀態空間中的狀態值,隱藏層采用lstm單元進行時序特征提取,輸出層生成帶寬分配概率分布和路由決策概率分布的步驟包括:
9、將直播網絡中的帶寬資源分配狀態、網絡拓撲狀態和用戶體驗質量狀態的狀態向量輸入至特征重要性評估層,通過特征工程將所述狀態向量轉化為狀態特征,所述特征重要性評估層基于歷史決策數據構建狀態特征與網絡性能指標間的相關性矩陣,基于所述相關性矩陣分析每個狀態特征對網絡性能的影響程度得到特征重要性權重,并根據實時的決策反饋信息優化所述特征重要性權重,基于優化后的特征重要性權重對輸入的狀態特征進行自適應選擇,將選擇后的狀態特征輸入至多層感知機的輸入層,所述多層感知機的隱藏層通過relu激活函數對狀態特征進行壓縮并通過殘差連接,得到低維壓縮特征向量;
10、將所述低維壓縮特征向量輸入至時空注意力模塊,所述時空注意力模塊的空間注意力子模塊通過計算不同網絡節點和鏈路的狀態特征相似度得到空間維度注意力權重,所述時空注意力模塊的時間注意力子模塊通過計算不同時間步長特征向量與當前狀態的關聯度得到時間維度注意力權重;將空間維度注意力權重和時間維度注意力權重分別與對應特征進行加權融合,得到增強后的特征表示,將增強后的特征表示輸入至長短期記憶網絡單元,所述長短期記憶網絡單元包含遺忘門、輸入門和輸出門,其中所述遺忘門用于控制歷史狀態信息的遺忘程度,所述輸入門用于控制當前狀態信息的輸入程度,所述輸出門用于控制記憶單元狀態的輸出程度;所述長短期記憶網絡單元基于門控結構對所述低維壓縮特征向量進行時序特征提取,輸出隱狀態;
11、將所述隱狀態輸入至雙層策略網絡,所述雙層策略網絡包括帶寬分配層和路由決策層,其中所述帶寬分配層通過全連接結構和softmax函數生成帶寬分配概率分布,所述路由決策層通過全連接結構和softmax函數生成路由決策概率分布。
12、在一種可選的實施方式中,
13、所述強化學習模型的訓練的步驟包括:
14、構建經驗回放池存儲訓練樣本,所述訓練樣本為包含狀態向量、動作向量和獎勵值的三元組,其中狀態向量包含帶寬資源分配狀態、網絡拓撲狀態和用戶體驗質量狀態,動作向量包含帶寬分配決策和路由決策,獎勵值通過用戶體驗質量指標和系統資源利用率指標計算得到;
15、采集歷史決策數據對所述狀態向量進行預處理得到狀態特征,構建狀態特征與網絡性能指標間的相關性矩陣,通過對所述相關性矩陣進行奇異值分解得到特征重要性權重;根據所述特征重要性權重構建帶殘差連接的多層感知機自編碼器,將所述狀態向量壓縮為低維壓縮特征向量并進行重建,通過最小化重建誤差和稀疏正則化項的加權和訓練所述多層感知機自編碼器;
16、從所述經驗回放池中隨機采樣一批訓練數據,基于所述低維壓縮特征向量和動作向量計算當前策略的對數似然概率,將所述對數似然概率與獎勵值相乘得到策略目標函數,通過最大化所述策略目標函數的期望值更新策略網絡參數;設置目標網絡,采用動量累積方式計算目標網絡的參數更新量,基于當前訓練損失自適應調整參數更新步長;
17、根據所述策略分布計算策略熵值,基于所述策略熵值自適應調整探索概率,并對所述獎勵值進行短期和長期雙尺度指數移動平均平滑;基于所述特征重要性權重計算狀態重要性得分,根據所述狀態重要性得分動態調整用戶體驗質量指標和系統資源利用率指標的線性融合權重,將所述線性融合權重投影至預設權重區間內進行歸一化處理,得到平滑后的獎勵值重新存入所述經驗回放池。
18、在一種可選的實施方式中,
19、基于所述帶寬分配概率分布和路由決策概率分布采樣得到決策動作,計算決策動作執行后的獎勵值,所述獎勵值由用戶體驗質量指標和系統資源利用率的加權值構成的步驟包括:
20、對所述帶寬分配概率分布進行重要性采樣得到候選帶寬分配集合,對所述候選帶寬分配集合中的每個帶寬分配方案結本文檔來自技高網...
【技術保護點】
1.基于強化學習的私域直播帶寬資源分配與路由方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,基于所述強化學習模型對所述實時數據信息進行處理,通過深度神經網絡提取特征,結合帶寬資源約束條件,采用策略梯度算法生成帶寬分配策略和路由策略,其中所述策略梯度算法包括:構建雙層神經網絡作為策略網絡,所述策略網絡的輸入層接收所述狀態空間中的狀態值,隱藏層采用LSTM單元進行時序特征提取,輸出層生成帶寬分配概率分布和路由決策概率分布的步驟包括:
3.根據權利要求2所述的方法,其特征在于,所述強化學習模型的訓練的步驟包括:
4.根據權利要求1所述的方法,其特征在于,基于所述帶寬分配概率分布和路由決策概率分布采樣得到決策動作,計算決策動作執行后的獎勵值,所述獎勵值由用戶體驗質量指標和系統資源利用率的加權值構成的步驟包括:
5.根據權利要求4所述的方法,其特征在于,對所述帶寬分配概率分布進行重要性采樣得到候選帶寬分配集合,對所述候選帶寬分配集合中的每個帶寬分配方案結合所述路由決策概率分布采用Gumbel-Softmax重參數化技術進行
6.根據權利要求1所述的方法,其特征在于,根據所述帶寬分配策略和路由策略,通過軟件定義網絡控制器實時調整網絡中的帶寬分配參數和路由表配置,對各直播間進行差異化帶寬分配并優化數據傳輸路徑,所述軟件定義網絡控制器基于用戶地理分布建立就近接入的邊緣節點,并在網絡擁塞時動態調整數據傳輸路徑的步驟包括:
7.根據權利要求6所述的方法,其特征在于,采用考慮節點權重和鏈路權重的最短路徑算法計算最優路由路徑的步驟包括:
8.基于強化學習的私域直播帶寬資源分配與路由系統,用于實現前述權利要求1-7中任一項所述的方法,其特征在于,包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其上存儲有計算機程序指令,其特征在于,所述計算機程序指令被處理器執行時實現權利要求1至7中任意一項所述的方法。
...【技術特征摘要】
1.基于強化學習的私域直播帶寬資源分配與路由方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,基于所述強化學習模型對所述實時數據信息進行處理,通過深度神經網絡提取特征,結合帶寬資源約束條件,采用策略梯度算法生成帶寬分配策略和路由策略,其中所述策略梯度算法包括:構建雙層神經網絡作為策略網絡,所述策略網絡的輸入層接收所述狀態空間中的狀態值,隱藏層采用lstm單元進行時序特征提取,輸出層生成帶寬分配概率分布和路由決策概率分布的步驟包括:
3.根據權利要求2所述的方法,其特征在于,所述強化學習模型的訓練的步驟包括:
4.根據權利要求1所述的方法,其特征在于,基于所述帶寬分配概率分布和路由決策概率分布采樣得到決策動作,計算決策動作執行后的獎勵值,所述獎勵值由用戶體驗質量指標和系統資源利用率的加權值構成的步驟包括:
5.根據權利要求4所述的方法,其特征在于,對所述帶寬分配概率分布進行重要性采樣得到候選帶寬分配集合,對所述候選帶寬分配集合中的每個帶寬分配方...
【專利技術屬性】
技術研發人員:于驚濤,廣宇昊,曾黎,傅強,
申請(專利權)人:北京易匯眾盟網絡技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。