基于資源預測與動作突變的強化學習調度方法及系統技術方案

技術編號：44455372 閱讀：4 留言：0更新日期：2025-02-28 19:01

本發明專利技術提供了一種異構云環境下基于資源預測與動作突變的強化學習調度方法及系統，該方法包括：獲取任務等待隊列中任務的數量；若達到預設數量閾值，則獲取節點當前的狀態信息，以及基于預訓練的預測網絡進行預測得到執行時刻的狀態信息；進行特征提取和編碼得到節點狀態向量、任務特征向量；合并得到合并向量輸入強化學習模型，生成決策策略；對決策策略基于預設概率向目標類型的節點突變分配任務，得到最終的決策策略。本發明專利技術實施例可以通過預測網絡預測節點狀態，然后將節點狀態和任務需求輸入到強化學習框架得到調度決策，進而使異構云計算系統任務完成率、資源利用率得到提高，能耗得到降低。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及云計算，具體而言，涉及一種異構云環境下基于資源預測與動作突變的強化學習調度方法及系統。

技術介紹

1、異構云計算是一種結合了不同類型指令集和體系架構的計算單元的計算方式，例如cpu(central?processing?unit，中央處理器)、gpu(graphics?processing?unit，圖形處理器)等。這種計算方式在云計算平臺上的應用，可以提高的性能和能效比。系統面對結點異構性、任務需求的獨特性和設備多樣性的多重挑戰，現有的調度方法無法實現滿意的性能和服務質量。

技術實現思路

1、為解決上述問題，本專利技術實施例提供了一種異構云環境下基于資源預測與動作突變的強化學習調度方法，包括：獲取任務等待隊列中任務的數量，以及判斷所述數量是否達到預設數量閾值；若達到所述預設數量閾值，則獲取節點當前的狀態信息，以及基于預訓練的預測網絡對所述節點當前的狀態信息進行預測得到所述節點在執行時刻的狀態信息；對所述節點在執行時刻的狀態信息、所述任務等待隊列中任務的任務特征信息分別進行特征提取和編碼，得到節點狀態向量、任務特征向量；合并所述節點狀態向量、所述任務特征向量得到合并向量，以及將所述合并向量輸入強化學習模型，生成決策策略；對所述決策策略基于預設概率向目標類型的節點突變分配任務，得到最終的決策策略。

2、本專利技術實施例提供的異構云環境下基于資源預測與動作突變的強化學習調度方法，可以通過預測網絡預測節點狀態，然后將節點狀態和任務需求輸入到強化學習框架得到調度決

3、可選地，所述方法還包括：若所述任務等待隊列的等待時長達到預設時長閾值，則獲取節點當前的狀態信息以及任務特征信息；根據所述當前的狀態信息以及任務特征信息，使用預設調度策略生成調度決策方案。

4、本專利技術實施例中定時采用預設調度策略進行調度，可以保持系統的活躍性，防止資源閑置，并確保系統在面對不穩定的外部任務需求時能夠維持一定的穩定性和響應能力

5、可選地，所述預測網絡為長短期神經網絡(long?short-term?memory，lstm)；所述方法還包括：獲取所述節點固定時間間隔的歷史狀態信息，以及對所述歷史狀態信息進行歸一化；對歸一化的所述歷史狀態信息以時間窗口構建時間序列，然后使用季節和趨勢分解(seasonal?and?trend?decomposition?using?loess，stl)得到季節、趨勢和殘差三個分量；將所述三個分量輸入所述長短期神經網絡中得到各分量的預測值，以及確定各分量的預測值之和得到目標時刻的狀態信息預測值；比較所述目標時刻的狀態信息預測值與所述目標時刻的真實值得到均方誤差，以及基于最小化所述均方誤差更新所述長短期神經網絡。

6、本專利技術實施例中提供了對長短期神經網絡進行訓練的具體過程，可以基于訓練后的長短期神經網絡對節點在執行時刻的狀態信息進行預測，以避免通信延遲導致節點的狀態改變而對調度產生的不利影響，使該方法在決策時刻使用的節點狀態更符合執行時刻。

7、可選地，所述對所述節點在執行時刻的狀態信息、所述任務等待隊列中任務的任務特征信息分別進行特征提取和編碼，得到節點狀態向量、任務特征向量，包括：對所述節點在執行時刻的狀態信息進行提起得到長度為n的節點狀態向量，對所述任務等待隊列中任務的任務特征信息進行特征提取得到m維的任務特征向量；對所述長度為n的節點狀態向量、所述m維的任務特征向量進行編碼，得到長度相同的節點狀態向量、任務特征向量。

8、本專利技術實施例中對節點狀態和任務分別進行特征提取與編碼，可以將兩向量編碼為長度相同的向量。

9、可選地，所述強化學習模型為actor-critic算法模型，所述將所述合并向量輸入強化學習模型，生成決策策略，包括：將所述合并向量輸入actor網絡，輸出概率分布矩陣a；對所述概率分布矩陣a進行最大概率采樣，確定所述概率分布矩陣a的每行的最大值對應節點作為任務的調度節點，得到決策策略。

10、本專利技術實施例中actor-critic網絡來生成初始的調度決策，在可接受的時間內做出優秀的調度決策，有助于提高異構云計算系統的性能表現。

11、可選地，所述方法還包括：使用critic網絡對所述合并向量進行評價，得到評價分數v。

12、本專利技術實施例中基于critic網絡進行評價，從而對網絡的權重參數進行修改，使其能夠適應不同的節點狀態和任務需求。

13、可選地，所述方法還包括：對所述最終的決策策略進行評估獲得決策回報r，以及對負載不均衡、決策效率低給予懲罰。

14、本專利技術實施例中提供了對決策策略進行懲罰的具體方式，包括各節點之間平衡與節點內資源使用率之間平衡，提高計算性能。

15、可選地，所述方法還包括：記錄第一時刻的所述概率分布矩陣a、所述評價分數v、所述決策回報r，以及下一時刻的概率分布矩陣a′、所述評價分數v′、所述決策回報r′；基于最小化v與v′的均方誤差來更新訓練critic網絡；基于以下損失函數來更新訓練actor網絡：

16、actor_loss＝-loga×(γv'+r-v)

17、其中，γ為折扣因子。

18、本專利技術實施例中可以對actor-critic網絡進行更新，使其能夠適應不同的節點狀態和任務需求。

19、可選地，所述方法還包括：獲取在全部所述任務傳輸至節點完成時的所述節點的狀態信息；比較所述節點在執行時刻的狀態信息與完成時的所述節點的狀態信息得到均方誤差，以及基于最小化所述均方誤差更新所述預測網絡。

20、本專利技術實施例中在進行一定次數的上述決策后對預測網絡進行更新，以提高預測網絡的準確性。

21、本專利技術實施例提供一種異構云環境下基于資源預測與動作突變的強化學習調度系統，用于執行上述任一項所述的方法。

22、本專利技術實施例提供的異構云環境下基于資源預測與動作突變的強化學習調度系統，可以取得與上述異構云環境下基于資源預測與動作突變的強化學習調度方法相同的技術效果。

本文檔來自技高網...

【技術保護點】

1.一種異構云環境下基于資源預測與動作突變的強化學習調度方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述方法還包括：

3.根據權利要求1所述的方法，其特征在于，所述預測網絡為長短期神經網絡；所述方法還包括：

4.根據權利要求1所述的方法，其特征在于，所述對所述節點在執行時刻的狀態信息、所述任務等待隊列中任務的任務特征信息分別進行特征提取和編碼，得到節點狀態向量、任務特征向量，包括：

5.根據權利要求1所述的方法，其特征在于，所述強化學習模型為Actor-Critic算法模型，所述將所述合并向量輸入強化學習模型，生成決策策略，包括：

6.根據權利要求5所述的方法，其特征在于，所述方法還包括：

7.根據權利要求5所述的方法，其特征在于，所述方法還包括：

8.根據權利要求7所述的方法，其特征在于，所述方法還包括：

9.根據權利要求1所述的方法，其特征在于，所述方法還包括：

10.一種異構云環境下基于資源預測與動作突變的強化學習調度系統，其特征在于，用于執行

...

【技術特征摘要】

1.一種異構云環境下基于資源預測與動作突變的強化學習調度方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述方法還包括：

3.根據權利要求1所述的方法，其特征在于，所述預測網絡為長短期神經網絡；所述方法還包括：

5.根據權利要求1所述的方法，其特征在于，所述強化學習模...

【專利技術屬性】
技術研發人員：田樂，張玉樟，耿金驍，郭茂祖，
申請(專利權)人：北京建筑大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術