This application provides an updated Q value matrix method, storage medium and terminal device, the method includes: acquiring sensor data and to determine the Q value in the first state matrix corresponding to the first input state; neural network prediction in the first state to traverse the Q values of all the action matrix were obtained in Q the second state of the corresponding matrix; according to the first state and the second state all movements of the corresponding Q value according to the preset algorithm to update all the actions under the first state of the corresponding Q value. The updating efficiency of Q matrix is improved, and it is helpful to find the optimal control strategy for building electromechanical equipment or system.
【技術實現步驟摘要】
更新Q值矩陣的方法、存儲介質和終端設備
本申請涉及建筑機電系統的控制
,尤其涉及一種更新Q值矩陣的方法、存儲介質和終端設備。
技術介紹
現代建筑機電系統設備通常采用傳統的比例-積分-微分(PID)控制或模糊控制等算法,其擴展性較弱,針對具體的建筑或者房間需要人為調節大量參數或者根據經驗設定經驗值。而且最終達到的控制效果也較為粗略,能耗較高。在強化學習領域中有一種經典的Q學習(Q-Learning)算法,Q值表示每個狀態下對于執行每個動作所對應的價值,某一狀態-動作的Q值越大,表示在該狀態下執行該動作達到的效果越好。因此Q-Learning算法的核心是更新Q矩陣,傳統Q-Learning算法一次只能更新其中一個Q值,更新Q矩陣需要付出大量的搜索代價才能得到收斂。
技術實現思路
有鑒于此,本申請實施例提供了一種更新Q值矩陣的方法、存儲介質和終端設備,用以解決現有技術中傳統Q-Learning算法在實際應用中迭代效率低而影響得到建筑機電設備最優控制策略的時間。根據本申請實施例的一個方面,提供了一種更新Q值矩陣的方法,所述方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將第一狀態輸入神經網絡,預測在第一狀態下遍歷Q值矩陣中所有動作之后分別得到的在Q值矩陣中對應的第二狀態;根據第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新第一狀態下的所有動作所對應的Q值。根據本申請實施例的另一方面,提供了一種終端設備,包括:處理器;用于存儲處理器可執行指令的存儲器;其中,所述處理器被配置為:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將第一狀態輸入神經網絡 ...
【技術保護點】
一種更新Q值矩陣的方法,其特征在于,所述方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將所述第一狀態輸入神經網絡,預測在所述第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在所述Q值矩陣中對應的第二狀態;根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值。
【技術特征摘要】
1.一種更新Q值矩陣的方法,其特征在于,所述方法包括:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;將所述第一狀態輸入神經網絡,預測在所述第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在所述Q值矩陣中對應的第二狀態;根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值。2.根據權利要求1所述的方法,其特征在于,根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值包括:根據貝爾曼方程更新所述第一狀態下的所有動作所對應的Q值,其中,Qt(xt,uk)代表t時間點的第一狀態xt下的執行動作uk所對應的Q值;u'代表第二狀態xt+1,k下的動作空間,Q(xt+1,k,u')代表t+1時間點執行動作空間u'中第k個動作所對應的Q值;rt+1代表第二狀態xt+1,k的回報值;γ代表折扣因子;α代表學習率。3.根據權利要求1所述的方法,其特征在于,所述方法還包括:獲取當前傳感器數據并確定在所述Q值矩陣中對應的當前狀態;從所述Q值矩陣中確定所述當前狀態下的所有動作中Q值最大的動作并執行。4.根據權利要求1所述的方法,其特征在于,所述方法還包括:當所述當前傳感器數據的積累數量達到預設門限時,根據積累的當前傳感器數據更新所述Q值矩陣。5.根據權利要求1所述的方法,其特征在于,所述方法還包括:將歷史狀態及其對應執行的動作作為訓練數據來訓練所述神經網絡。6.根據權利要求5所述的方法,其特征在于,將歷史狀態及其對應執行的動作作為訓練數據來訓練所述神經網絡包括:將當前時間點t以及上一時間點t-...
【專利技術屬性】
技術研發人員:孫一鳧,吳若颯,張豪,王宗祥,
申請(專利權)人:北京上格云技術有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。