一種基于強化學習的污水處理控制方法技術

技術編號：20328668 閱讀：32 留言：0更新日期：2019-02-13 05:28

本發明專利技術提供了一種基于強化學習的污水處理控制方法，包括如下步驟：本發明專利技術通過三階段在真實場景中訓練強化學習模型的方式，能有效避免現有的訓練強化學習模型所需要的收集數據、建立虛擬環境的過程，從而有效降低企業在應用強化學習的方式進行自動控制時所需的成本，方便用戶完成從傳統控制倒強化學習控制的過程。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于強化學習的污水處理控制方法
本專利技術涉及一種基于強化學習的污水處理控制方法。
技術介紹
目前，強化學習在工業控制中的應用逐漸增多，但一般都限于特定的模型，其主要原因在于強化學習的訓練需要環境支持，而在很多污水處理控制方面，完全模擬真實場景的環境所需要的計算量遠遠大于強化學習模型訓練本身所需要的計算量，導致得不償失，而且就目前的企業技術發展而言，原始的數據積累也很成問題。
技術實現思路
為解決上述技術問題，本專利技術提供了一種基于強化學習的污水處理控制方法，該基于強化學習的污水處理控制方法通過三階段在真實場景中訓練強化學習模型的方式，能有效避免現有的訓練強化學習模型所需要的收集數據、建立虛擬環境的過程。本專利技術通過以下技術方案得以實現。本專利技術提供的一種基于強化學習的污水處理控制方法，包括如下步驟：1).模型訓練：在現場控制器控制的過程中，獲取現場控制器的輸入信號及輸出指令，并根據獲取的輸入信號及N個時序前的輸出指令對環境模型建模；2).策略調整：在現場控制器控制的過程中，獲取現場控制器的輸入信號至環境模型，環境模型輸出作為策略模型的輸入，將現場控制器的輸出指令和策略模型的輸出指令合并為最終輸出指令輸出控制；3).介入控制：停止現場控制器，采用環境模型獲取輸入、環境模型輸出作為策略模型的輸入、策略模型輸出指令進行控制。所述對環境模型建模采用RNN算法。所述環境模型輸出為概率值向量。所述步驟2)中，策略模型采用如下方式更新：a.獲取當前環境模型輸出，計算當前環境模型輸出與前一模擬輸出的誤差值；b.根據誤差值更新值函數；c.將當前環境模型輸出代入至值函...

【技術保護點】
1.一種基于強化學習的污水處理控制方法，其特征在于：包括如下步驟：1).模型訓練：在現場控制器控制的過程中，獲取現場控制器的輸入信號及輸出指令，并根據獲取的輸入信號及N個時序前的輸出指令對環境模型建模；2).策略調整：在現場控制器控制的過程中，獲取現場控制器的輸入信號至環境模型，環境模型輸出作為策略模型的輸入，將現場控制器的輸出指令和策略模型的輸出指令合并為最終輸出指令輸出控制；3).介入控制：停止現場控制器，采用環境模型獲取輸入、環境模型輸出作為策略模型的輸入、策略模型輸出指令進行控制。

【技術特征摘要】
1.一種基于強化學習的污水處理控制方法，其特征在于：包括如下步驟：1).模型訓練：在現場控制器控制的過程中，獲取現場控制器的輸入信號及輸出指令，并根據獲取的輸入信號及N個時序前的輸出指令對環境模型建模；2).策略調整：在現場控制器控制的過程中，獲取現場控制器的輸入信號至環境模型，環境模型輸出作為策略模型的輸入，將現場控制器的輸出指令和策略模型的輸出指令合并為最終輸出指令輸出控制；3).介入控制：停止現場控制器，采用環境模型獲取輸入、環境模型輸出作為策略模型的輸入、策略模型輸出指令進行控制。2.如權利要求1所述的基于強化學習的污水處理控制方法，其特征在于：所述對環境模型建模采用RNN算法。3.如權利要求1所述的基于強化學習的污水處理控制方法，其特征在于：所述環境模型輸出為概率值向量。4.如權利要求1所述的基于強化學習的污水處理控制方法，其特征在于：所述步驟2)中，策略模型采用如下方式更新：a.獲取當前環境模型輸出，計算當前環境模型輸出與前一模擬輸出的誤差值；b.根據誤差值更新值函數；c.將當前環境模型輸出代入至值函數中計算當前輸出指令值；d.將當前輸出指令值代入至環境模型中計算當前模擬輸出；e.當前模擬輸出更新至前一模擬輸出，將...

【專利技術屬性】
技術研發人員：黃孝平，文芳一，黃文哲，
申請(專利權)人：南寧學院，
類型：發明
國別省市：廣西,45

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術