分布式強化學習系統技術方案

技術編號：37666186 閱讀：21 留言：0更新日期：2023-05-26 04:25

本發明專利技術公開了一種分布式強化學習系統，該系統包括：客戶端，用于響應用戶的參數設置操作，得到配置文件參數信息；配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息；服務端，用于與客戶端進行通信，對配置文件參數信息進行分布式處理，構建深度強化學習模型。可見，本發明專利技術有利于提升模型訓練速度，縮短了訓練時間，提高模型的穩定性。提高模型的穩定性。提高模型的穩定性。

全部詳細技術資料下載

【技術實現步驟摘要】
分布式強化學習系統

[0001]本專利技術涉及計算機
，尤其涉及一種分布式強化學習系統。

技術介紹

[0002]現有的強化學習訓練系統，通過分布式采樣，將環境的交互和模型的學習分布在多個進程上，顯著提高訓練效率，提升訓練效果。但對于復雜的強化學習問題，僅僅通過多進程分布式采樣的方式，提升的訓練速度已不足以支持復雜場景的高效訓練，在復雜的動作空間下模型收斂速度仍然很慢。基于現有的強化學習復雜問題場景，如何提高強化學習訓練效率，在不影響模型效果的前提下提供更快的收斂速度，提升模型效果，成為現有技術有待解決的問題。因此，提供一種分布式強化學習系統，以提升模型訓練速度，縮短了訓練時間，提高模型的穩定性。

技術實現思路

[0003]本專利技術所要解決的技術問題在于，提供一種分布式強化學習系統，以提升模型訓練速度，縮短了訓練時間，提高模型的穩定性。
[0004]為了解決上述技術問題，本專利技術第一方面公開了一種分布式強化學習系統，包括：
[0005]客戶端，用于響應用戶的參數設置操作，得到配置文件參數信息；所述配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息；
[0006]服務端，用于與所述客戶端進行通信，對所述配置文件參數信息進行分布式處理，構建深度強化學習模型。
[0007]作為一種可選的實施方式，所述服務端，包括：
[0008]引擎通信模塊，用于與所述客戶端通信，接收所述配置文件參數信息；
[0009]仿真模塊，用于與所述引擎通信模塊進行...

【技術保護點】

【技術特征摘要】
1.一種分布式強化學習系統，其特征在于，所述系統包括：客戶端，用于響應用戶的參數設置操作，得到配置文件參數信息；所述配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息；服務端，用于與所述客戶端進行通信，對所述配置文件參數信息進行分布式處理，構建深度強化學習模型。2.根據權利要求1所述的分布式強化學習系統，其特征在于，所述服務端，包括：引擎通信模塊，用于與所述客戶端通信，接收所述配置文件參數信息；仿真模塊，用于與所述引擎通信模塊進行通信，根據所述配置文件參數信息中的仿真環境參數信息，確定出仿真環境集合；所述仿真環境集合包括若干個仿真環境；神經網絡引擎模塊，用于與所述引擎通信模塊進行通信，根據所述配置文件參數信息中的模型參數信息，確定出仿真模型集合；所述仿真模型集合包括若干個仿真模型；分布式引擎模塊，用于對所述仿真環境集合和所述仿真模型集合進行分布式進程生成，以生成多進程仿真模型；強化學習算法模塊，用于與所述引擎通信模塊進行通信，利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練，構建深度強化學習模型。3.根據權利要求2所述的分布式強化學習系統，其特征在于，所述分布式引擎模塊對所述仿真環境集合和所述仿真模型集合進行分布式進程生成，以生成多進程仿真模型，包括：所述分布式引擎模塊利用所述引擎通信模塊與所述仿真模塊進行通信，獲取所述仿真環境集合；所述分布式引擎模塊根據所述仿真環境集合中所述仿真環境的數量啟動進程，得到若干個仿真環境進程；所述仿真環境進程的數量與所述仿真環境的數量是相一致的；所述分布式引擎模塊依序將所述仿真環境集合中的所述仿真環境布置在所述仿真環境進程上，得到若干個目標仿真環境；所述分布式引擎模塊獲取當前環境狀態信息；所述分布式引擎模塊根據所述當前環境狀態信息，利用所述引擎通信模塊與所述神經網絡引擎模塊進行通信，獲取所述仿真模型集合；所述分布式引擎模塊根據所述仿真模型集合中所述仿真模型的數量啟動進程，得到若干個仿真模型進程；所述仿真模型進程的數量與所述仿真模型的數量是相一致的；所述分布式引擎模塊依序將所述仿真模型集合中的所述仿真模型布置在所述仿真模型進程上，得到若干個目標仿真模型；所述分布式引擎模塊將所有所述目標仿真環境和所有所述目標仿真模型進行融合處理，得到多進程仿真模型。4.根據權利要求2所述的分布式強化學習系統，其特征在于，所述仿真模型包括神經網絡模型和所述神經網絡模型對應的目標輸出模型集合；所述輸出模型集合包括至少一個目標輸出模型；所述模型參數信息包括神經網絡模型參數信息和輸出參數信息；所述神經網絡引擎模塊與所述引擎通信模塊進行通信，根據所述配置文件參數信息中的模型參數信息，確定出仿真模型集合，包括：所述神經網絡引擎模塊與所述引擎通信模塊進行通信，獲取所述配置文件參數信息中
的模型參數信息；所述神經網絡引擎模塊根據所述神經網絡模型參數信息，確定出若干個所述神經網絡模型；對于任一所述神經網絡模型，所述神經網絡引擎模塊從所述輸出參數信息篩選出與該神經網絡模型相匹配的數據信息，得到目標輸出參數信息；所述神經網絡引擎模塊根據所述目標輸出參數信息，確定出該神經網絡模型對應的目標輸出模型集合；所述神經網絡引擎模塊將該神經網絡模型和該神經網絡模型對應的目標輸出模型集合進行融合處理，得到該神經網絡模型對應的仿真模型。5.根據...

【專利技術屬性】
技術研發人員：陳敏杰，張翰堂，
申請(專利權)人：北京鼎成智造科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術