System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品视频一区二区三区无码,亚洲熟妇无码一区二区三区,亚洲Av永久无码精品黑人
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>清華大學專利>正文

    冷源溫控和能量優化的智能體離線層次化強化學習方法技術

    技術編號:42736928 閱讀:8 留言:0更新日期:2024-09-18 13:32
    本發明專利技術提供一種冷源溫控和能量優化的智能體離線層次化強化學習方法,包括:采集冷源系統以及冷源單元的歷史運行數據,進行數據處理生成運行歷史數據集;基于冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制;基于冷源單元,通過概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合作信息共享,確定低層策略的損失函數,建立低層策略進行冷源單元的控制;將冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統,對冷卻系統進行在線優化控制。本發明專利技術解決了現有冷卻系統優化控制數據效率低、分布偏移,高維狀態空間難處理的問題。

    【技術實現步驟摘要】

    本專利技術涉及冷卻控制,尤其涉及一種冷源溫控和能量優化的智能體離線層次化強化學習方法


    技術介紹

    1、傳統數據中心冷卻系統一般由冷源系統和冷源單元系統兩部分組成,其中冷源系統提供冷卻資源,而冷源單元系統通過諸如空調等設備對機房進行制冷。一方面,冷源側在制定冷端輸出溫度和末端開關機情況,通常利用已有的知識和經驗,手工進行調整和計劃;另一方面,傳統冷源單元系統的溫度控制通常是通過pid技術來調整空調的控制參數,以確保機房的溫度達到預定的目標溫度值。然而,在實際的數據中心場景中,系統的復雜性、高昂的構建高精度仿真環境的成本、以及有限的真實系統運行歷史數據等問題,仍然使得數據中心冷源單元系統的優化面臨著技術挑戰。

    2、現有的強化學習方法需要依賴大量數據,數據獲取昂貴,樣本效率低,需要大量在線交互收集數據;現有的方法在處理高維狀態/動作空間時計算復雜性過大,消耗大量的計算資源,應用成本極高;并且現有方法都依賴于數據分布進行策略優化,當數據分布與目標任務不匹配,這些方法泛化困難,普適性差。


    技術實現思路

    1、本專利技術提供一種冷源溫控和能量優化的智能體離線層次化強化學習方法,用以解決現有冷卻系統優化控制數據效率低、分布偏移,高維狀態空間難處理的問題。

    2、本專利技術提供一種冷源溫控和能量優化的智能體離線層次化強化學習方法,包括:

    3、采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集;</p>

    4、基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制;

    5、基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合作信息共享,確定低層策略的損失函數,建立低層策略進行冷源單元的控制;

    6、將冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統中,接入實時的冷卻系統數據,對冷卻系統進行在線優化控制。

    7、根據本專利技術提供的一種冷源溫控和能量優化的智能體離線層次化強化學習方法,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,包括:

    8、獲取冷源側冷源系統設定周期內的歷史運行數據;

    9、從歷史數據中篩選出離線優化所需要的特征數據;

    10、將多個時間步的數據整合在一起,確定高層策略的狀態、動作和獎勵函數,構建高層策略的訓練數據,形成冷源系統的運行歷史數據集。

    11、根據本專利技術提供的一種冷源溫控和能量優化的智能體離線層次化強化學習方法,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,還包括:

    12、獲取冷源單元設定周期內的歷史運行數據;

    13、確定冷源單元每臺空調的狀態、低層策略的動作以及獎勵函數,對歷史運行數據進行處理形成冷源單元的運行歷史數據集;

    14、冷源單元的運行歷史數據集中數據按時間升序排列,每一條數據之間具有相同的時間間隔,每一條數據包含當前時刻下冷卻系統的狀態特征與動作特征的數值。

    15、根據本專利技術提供的一種冷源溫控和能量優化的智能體離線層次化強化學習方法,基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制,包括:

    16、定義高層策略的狀態值函數,根據冷源系統的運行歷史數據集對所述狀態值函數進行更新;

    17、基于狀態值函數通過冷源系統的運行歷史數據集構建狀態-動作值函數的損失函數,對冷源側高層策略的狀態-動作價值函數進行更新;

    18、基于狀態值函數和狀態-動作值函數確定高層策略的損失函數,對高層策略進行更新生成最終的高層策略。

    19、根據本專利技術提供的一種冷源溫控和能量優化的智能體離線層次化強化學習方法,基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合作信息共享,確定低層策略的損失函數,建立低層策略進行冷源單元的控制,包括:

    20、基于冷源單元的運行歷史數據集,引入通過神經網絡實現的概率動力模型,通過所述概率動力學模型輸出當前狀態與下一狀態之差的高斯分布;

    21、基于高斯分布結果所述概率動力學模型通過最大對數似然目標進行學習;

    22、通過引入判別器將學習過程耦合納入所述判別器的輸入建立合作信息共享,建立對抗學習,確定判別器的學習目標;

    23、通過優化目標訓練得到判別器后,構建低層策略的損失函數并最小化,得到冷源單元的低層控制策略。

    24、根據本專利技術提供的一種冷源溫控和能量優化的智能體離線層次化強化學習方法,所述將冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統中,接入實時的冷卻系統數據,對冷卻系統進行在線優化控制,具體包括:

    25、將訓練得到的冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統中;

    26、接入實時的冷源系統數據并進行數據處理,獲得當前時刻冷源系統的特征狀態數據,接入實時的冷源單元數據并進行數據處理,獲得當前時刻冷源單元的特征狀態數據;

    27、將冷源側系統的特征狀態數據輸入到高層策略中,生成相應的高層策略動作,將冷源單元系統的特征狀態數據輸入到低層策略中,生成相應的每臺空調控制動作,對數據中心機房的溫度進行實時調節,完成冷卻系統的溫度控制和能量優化。

    28、本專利技術還提供一種冷源溫控和能量優化的智能體離線層次化強化學習系統,所述系統包括:

    29、數據處理模塊,用于采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集;

    30、高層策略生成模塊,用于基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制;

    31、低層策略生成模塊,用于基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合作信息共享,確定低層策略的損失函數,建立低層策略進行冷源單元的控制;

    32、策略部署模塊,用于將冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統中,接入實時的冷卻系統數據,對冷卻系統進行在線優化控制。

    33、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述冷源溫控和能量優化的智能體離線層次化強化學習方法。

    34、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,本文檔來自技高網...

    【技術保護點】

    1.一種冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,包括:

    2.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,包括:

    3.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,還包括:

    4.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制,包括:

    5.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合作信息共享,確定低層策略的損失函數,建立低層策略進行冷源單元的控制,包括:

    6.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述將冷源系統的高層策略與冷源單元的低層策略部署至冷卻系統中,接入實時的冷卻系統數據,對冷卻系統進行在線優化控制,具體包括:

    7.一種冷源溫控和能量優化的智能體離線層次化強化學習系統,其特征在于,所述系統包括:

    8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述冷源溫控和能量優化的智能體離線層次化強化學習方法。

    9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述冷源溫控和能量優化的智能體離線層次化強化學習方法。

    10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述冷源溫控和能量優化的智能體離線層次化強化學習方法。

    ...

    【技術特征摘要】

    1.一種冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,包括:

    2.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,包括:

    3.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,所述采集冷源系統以及冷源單元的歷史運行數據,對采集的歷史數據進行處理分別形成冷源系統的運行歷史數據集和冷源單元的運行歷史數據集,還包括:

    4.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源系統,通過自動負載工作庫目標從無動作的離線強化學習方法學習到狀態動作價值函數,基于價值函數提取高層策略進行冷源系統的控制,包括:

    5.根據權利要求1所述的冷源溫控和能量優化的智能體離線層次化強化學習方法,其特征在于,基于所述冷源單元,通過預設的概率動力學模型進行學習,引入判別器,將學習過程耦合納入所述判別器的輸入建立合...

    【專利技術屬性】
    技術研發人員:詹仙園羅宇朱翔宇張文嘉嵇天穎張策鄭惠文劉晨輝李慧宋樹昆楊韜
    申請(專利權)人:清華大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文无码mv| 亚洲GV天堂无码男同在线观看| 国产真人无码作爱免费视频| 亚洲国产精品无码av| 91精品久久久久久无码 | 国产激情无码一区二区app| 日韩精品无码一区二区三区| 日韩乱码人妻无码中文视频| 久久男人Av资源网站无码软件 | 无码人妻精品中文字幕免费 | 无码人妻黑人中文字幕| 真人无码作爱免费视频| 亚洲乱亚洲乱妇无码| 亚欧免费无码aⅴ在线观看| 无码人妻AⅤ一区二区三区水密桃| 99久久亚洲精品无码毛片| 九九久久精品无码专区| 免费A级毛片无码久久版| 久久久久无码精品国产| 国产午夜无码精品免费看| 亚洲成av人片不卡无码久久| 久久精品无码一区二区三区免费| 未满小14洗澡无码视频网站| 免费无码又爽又刺激网站直播| 无码人妻少妇久久中文字幕 | 人妻中文字系列无码专区| 超清纯白嫩大学生无码网站| 久久AV无码精品人妻出轨| 免费无码AV片在线观看软件| 亚洲啪AV永久无码精品放毛片| 日韩欧精品无码视频无删节 | 西西大胆无码视频免费| 亚洲久热无码av中文字幕| 69ZXX少妇内射无码| 97精品人妻系列无码人妻| 人妻精品久久无码区洗澡| 久久久国产精品无码一区二区三区 | 中文字幕无码久久久| 亚洲一区AV无码少妇电影☆| 国产激情无码一区二区| 色情无码WWW视频无码区小黄鸭 |