• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    更新Q值矩陣的方法、存儲介質和終端設備技術

    技術編號:16604621 閱讀:38 留言:0更新日期:2017-11-22 14:35
    本申請提供了一種更新Q值矩陣的方法、存儲介質和終端設備,該方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將第一狀態輸入神經網絡,預測在第一狀態下遍歷Q值矩陣中所有動作之后分別得到的在Q值矩陣中對應的第二狀態;根據第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新第一狀態下的所有動作所對應的Q值。提高了Q值矩陣的更新效率,有助于對建筑機電設備或系統更快找到最優的控制策略。

    Method of updating Q value matrix, storage medium and terminal device

    This application provides an updated Q value matrix method, storage medium and terminal device, the method includes: acquiring sensor data and to determine the Q value in the first state matrix corresponding to the first input state; neural network prediction in the first state to traverse the Q values of all the action matrix were obtained in Q the second state of the corresponding matrix; according to the first state and the second state all movements of the corresponding Q value according to the preset algorithm to update all the actions under the first state of the corresponding Q value. The updating efficiency of Q matrix is improved, and it is helpful to find the optimal control strategy for building electromechanical equipment or system.

    【技術實現步驟摘要】
    更新Q值矩陣的方法、存儲介質和終端設備
    本申請涉及建筑機電系統的控制
    ,尤其涉及一種更新Q值矩陣的方法、存儲介質和終端設備。
    技術介紹
    現代建筑機電系統設備通常采用傳統的比例-積分-微分(PID)控制或模糊控制等算法,其擴展性較弱,針對具體的建筑或者房間需要人為調節大量參數或者根據經驗設定經驗值。而且最終達到的控制效果也較為粗略,能耗較高。在強化學習領域中有一種經典的Q學習(Q-Learning)算法,Q值表示每個狀態下對于執行每個動作所對應的價值,某一狀態-動作的Q值越大,表示在該狀態下執行該動作達到的效果越好。因此Q-Learning算法的核心是更新Q矩陣,傳統Q-Learning算法一次只能更新其中一個Q值,更新Q矩陣需要付出大量的搜索代價才能得到收斂。
    技術實現思路
    有鑒于此,本申請實施例提供了一種更新Q值矩陣的方法、存儲介質和終端設備,用以解決現有技術中傳統Q-Learning算法在實際應用中迭代效率低而影響得到建筑機電設備最優控制策略的時間。根據本申請實施例的一個方面,提供了一種更新Q值矩陣的方法,所述方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將第一狀態輸入神經網絡,預測在第一狀態下遍歷Q值矩陣中所有動作之后分別得到的在Q值矩陣中對應的第二狀態;根據第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新第一狀態下的所有動作所對應的Q值。根據本申請實施例的另一方面,提供了一種終端設備,包括:處理器;用于存儲處理器可執行指令的存儲器;其中,所述處理器被配置為:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將第一狀態輸入神經網絡,預測在第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在Q值矩陣中對應的第二狀態;根據第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新第一狀態下的所有動作所對應的Q值。根據本申請實施例的另一方面,提供了一種計算機可讀存儲介質,其上存儲有計算機指令,該指令被處理器執行時實現上述更新Q值矩陣的方法的步驟。本申請實施例的有益效果包括:利用經過訓練的神經網絡,每進行一次預測和計算即能夠更新Q值矩陣中一整行的Q值,從而提高了Q值矩陣的更新效率,有助于對建筑機電設備或系統更快找到最優的控制策略。附圖說明通過以下參照附圖對本申請實施例的描述,本申請的上述以及其它目的、特征和優點將更為清楚,在附圖中:圖1是本申請實施例提供的更新Q值矩陣的方法的流程示意圖;圖2是本申請實施例提供的更新Q值矩陣的方法的流程示意圖;圖3是本申請實施例神經網絡的結構示意圖。具體實施方式以下基于實施例對本申請進行描述,但是本申請并不僅僅限于這些實施例。在下文對本申請的細節描述中,詳盡描述了一些特定的細節部分。對本領域技術人員來說沒有這些細節部分的描述也可以完全理解本申請。為了避免混淆本申請的實質,公知的方法、過程、流程、元件和電路并沒有詳細敘述。此外,本領域普通技術人員應當理解,在此提供的附圖都是為了說明的目的,并且附圖不一定是按比例繪制的。除非上下文明確要求,否則整個說明書和權利要求書中的“包括”、“包含”等類似詞語應當解釋為包含的含義而不是排他或窮舉的含義;也就是說,是“包括但不限于”的含義。在本申請的描述中,需要理解的是,術語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本申請的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。本申請實施例基于神經網絡預測在第一狀態下分別執行Q值矩陣中的所有動作后得到的多個第二狀態,再根據第一狀態和多個第二狀態下所有動作在Q值矩陣中對應的Q值更新該第一狀態下所有動作對應的Q值,從而使第一狀態下所有動作對應的Q值同時得到更新,提升了Q值矩陣迭代更新的效率,有助于對建筑機電設備或系統更快找到最優的控制策略,使建筑物內部的各項指標盡快達到目標狀態。首先為Q值矩陣預定義狀態空間和動作空間。將要監測的狀態量離散化生成狀態空間X,如果一個狀態包括多種變量,則通過窮舉多個變量的所有組合來定義狀態空間X;如果一個動作包括多個被控制量,則窮舉多個被控制量的所有組合來定義動作空間U。然后,初始化回報函數。設置建筑物內部各項指標變量(例如,環境指標、供電指標、供水指標等)的目標值。那么,計算每一指標的當前值與目標值之間的距離并取反后作為對應狀態的回報值:r(y)=-(y1-y10)2-(y2-y20)2-(y3-y30)2.......;其中,r(y)代表回報值,y1、y2、y3……代表各項指標變量的當前值,y10、y20、y30……代表各項指標變量的目標值。在初始化的Q值矩陣中,Q值矩陣的行代表狀態空間X中的所有狀態,列代表動作空間U中的所有動作,初始化的Q值矩陣中某一行的所有Q值均為這一狀態對應的回報值。獲取傳感器采集的建筑物內部的各項指標數據,根據獲取到的各項指標數據確定建筑物內部各時間點所處的狀態。相應的,根據各時間點執行的用來調整各項指標的自動控制指令確定各時間點的動作。將每個時間點的狀態和動作建立對應關系,獲取到預設數量(例如1000個時間點)的上述數據之后,利用經過訓練的神經網絡對Q值矩陣中的Q值進行更新,更新方法如圖1所示。S10,獲取傳感器數據并確定在Q值矩陣中對應的第一狀態。根據獲取到的傳感器數據確定建筑物在一個時間點的各項指標數據,并根據各項指標數據進一步確定建筑物在該時間點所處的狀態。可以將與狀態空間中最為接近的狀態近似為該時間點所處的狀態。S11,將第一狀態輸入神經網絡,預測在第一狀態下遍歷Q值矩陣中所有動作之后分別得到的在Q值矩陣中對應的第二狀態。該神經網絡是經過歷史數據訓練得到的時間序列神經網絡,用于根據輸入的當前時刻狀態和所執行的控制動作來預測下一時刻的狀態。將第一狀態輸入神經網絡后,通過遍歷動作空間中的所有動作來預測可能出現的下一狀態。假設當前狀態為x1,動作空間中所有動作分別為u1、u2……un,則通過神經網絡預測在x1狀態下分別執行u1、u2……un等動作后得到的多個對應的下一狀態。S12,根據第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新第一狀態下的所有動作所對應的Q值。得到預測的多個第二狀態后,便可以通過Q值矩陣確定每個第二狀態下的所有動作分別對應的Q值,再結合第一狀態下的所有動作分別對應的Q值,并根據預設算法來更新第一狀態下的所有動作分別對應的Q值。在預設算法中可設置每個動作所對應的Q值的權重因子、折扣因子等參數,根據計算結果將第一狀態下的所有動作分別對應的Q值(即Q值矩陣中第一狀態所代表的一整行的Q值)同時進行更新。將獲取到的歷史數據按照時間順序輸入神經網絡,每輸入一個狀態便能夠更新Q值矩陣中對應的一整行Q值,直到所有獲取到的歷史數據被利用完畢時,結束Q值矩陣的更新。本實施例中,利用經過訓練的神經網絡,每進行一次預測和計算即能夠更新Q值矩陣中一整行的Q值,從而提高了Q值矩陣的更新效率,有助于快速得到較好的建筑機電設備的控制策略。在一個實施例中,按照預設算法更新第一狀態下的所有動作分別對應的Q值時,可利用貝爾曼方程進行更新,即:其中,Qt(xt,uk)代表t時間點的第一狀態xt下的執行動作uk所對應的Q值;u'代表第二狀態xt+1,k下的動作空間,Q(xt+1本文檔來自技高網...
    更新Q值矩陣的方法、存儲介質和終端設備

    【技術保護點】
    一種更新Q值矩陣的方法,其特征在于,所述方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將所述第一狀態輸入神經網絡,預測在所述第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在所述Q值矩陣中對應的第二狀態;根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值。

    【技術特征摘要】
    1.一種更新Q值矩陣的方法,其特征在于,所述方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將所述第一狀態輸入神經網絡,預測在所述第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在所述Q值矩陣中對應的第二狀態;根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值。2.根據權利要求1所述的方法,其特征在于,根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值包括:根據貝爾曼方程更新所述第一狀態下的所有動作所對應的Q值,其中,Qt(xt,uk)代表t時間點的第一狀態xt下的執行動作uk所對應的Q值;u'代表第二狀態xt+1,k下的動作空間,Q(xt+1,k,u')代表t+1時間點執行動作空間u'中第k個動作所對應的Q值;rt+1代表第二狀態xt+1,k的回報值;γ代表折扣因子;α代表學習率。3.根據權利要求1所述的方法,其特征在于,所述方法還包括:獲取當前傳感器數據并確定在所述Q值矩陣中對應的當前狀態;從所述Q值矩陣中確定所述當前狀態下的所有動作中Q值最大的動作并執行。4.根據權利要求1所述的方法,其特征在于,所述方法還包括:當所述當前傳感器數據的積累數量達到預設門限時,根據積累的當前傳感器數據更新所述Q值矩陣。5.根據權利要求1所述的方法,其特征在于,所述方法還包括:將歷史狀態及其對應執行的動作作為訓練數據來訓練所述神經網絡。6.根據權利要求5所述的方法,其特征在于,將歷史狀態及其對應執行的動作作為訓練數據來訓練所述神經網絡包括:將當前時間點t以及上一時間點t-...

    【專利技術屬性】
    技術研發人員:孫一鳧吳若颯張豪王宗祥
    申請(專利權)人:北京上格云技術有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻精品一区二区蜜桃网站 | 少妇久久久久久人妻无码| 一本大道久久东京热无码AV| 国产成人无码AV一区二区在线观看| 亚洲综合无码一区二区三区| 亚洲精品无码av天堂| 免费无码一区二区三区蜜桃| 一本色道无码道DVD在线观看| 四虎影视无码永久免费| 亚洲色在线无码国产精品不卡| 国产激情无码一区二区app| 无码无套少妇毛多18PXXXX| 午夜亚洲AV日韩AV无码大全| 色视频综合无码一区二区三区| 精品无码久久久久国产动漫3d| 国产在线无码一区二区三区视频| 亚洲av成人中文无码专区| 人妻丰满av无码中文字幕| 中文字幕有码无码AV| 在线看片无码永久免费aⅴ| 久久久久亚洲AV无码观看| 无码人妻精品一区二区三区99仓本 | 国产精品午夜无码AV天美传媒| 久久精品中文字幕无码绿巨人| 亚洲日韩av无码| 潮喷失禁大喷水aⅴ无码| 国产精品无码制服丝袜| 国产精品无码亚洲精品2021| 人妻少妇看A偷人无码精品视频| 精品无码一区二区三区电影| 亚洲av无码专区在线| 中文字幕亚洲精品无码| 无码精品A∨在线观看免费| 精品国产a∨无码一区二区三区 | 日韩人妻无码一区二区三区久久99| 无码专区国产精品视频| 日韩经典精品无码一区| 久久精品无码av| 亚洲精品无码Av人在线观看国产 | 中文字幕久无码免费久久| 永久免费无码网站在线观看个|