System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及冷卻控制,尤其涉及一種冷源溫控和能量優化的智能體離線層次化強化學習方法。
技術介紹
1、傳統數據中心冷卻系統一般由冷源系統和冷源單元系統兩部分組成,其中冷源系統提供冷卻資源,而冷源單元系統通過諸如空調等設備對機房進行制冷。一方面,冷源側在制定冷端輸出溫度和末端開關機情況,通常利用已有的知識和經驗,手工進行調整和計劃;另一方面,傳統冷源單元系統的溫度控制通常是通過pid技術來調整空調的控制參數,以確保機房的溫度達到預定的目標溫度值。然而,在實際的數據中心場景中,系統的復雜性、高昂的構建高精度仿真環境的成本、以及有限的真實系統運行歷史數據等問題,仍然使得數據中心冷源單元系統的優化面臨著技術挑戰。
2、現有的強化學習方法需要依賴大量數據,數據獲取昂貴,樣本效率低,需要大量在線交互收集數據;現有的方法在處理高維狀態/動作空間時計算復雜性過大,消耗大量的計算資源,應用成本極高;并且現有方法都依賴于數據分布進行策略優化,當數據分布與目標任務不匹配,這些方法泛化困難,普適性差。
技術實現思路
1、本專利技術提供一種冷源溫控和能量優化的智能體離線層次化強化學習方法,用以解決現有冷卻系統優化控制數據效率低、分布偏移,高維狀態空間難處理的問題。
2、本專利技術提供一種冷源溫控和能量優化的智能體離線層次化強化學習方法,包括:
3、采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集;<
...【技術保護點】
1.一種冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,包括:
2.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,包括:
3.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,還包括:
4.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制,包括:
5.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合作信
6.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述將冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統中,接入實時的冷卻系統數據,對冷卻系統進行在線優化控制,具體包括:
7.一種冷源溫控和能量優化的智能體離線層次化強化學習系統,其特征在于,所述系統包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述冷源溫控和能量優化的智能體離線層次化強化學習方法。
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述冷源溫控和能量優化的智能體離線層次化強化學習方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述冷源溫控和能量優化的智能體離線層次化強化學習方法。
...【技術特征摘要】
1.一種冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,包括:
2.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,包括:
3.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,還包括:
4.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制,包括:
5.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合...
【專利技術屬性】
技術研發人員:詹仙園,羅宇,朱翔宇,張文嘉,嵇天穎,張策,鄭惠文,劉晨輝,李慧,宋樹昆,楊韜,
申請(專利權)人:清華大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。