• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    分布式強化學習系統技術方案

    技術編號:37666186 閱讀:21 留言:0更新日期:2023-05-26 04:25
    本發明專利技術公開了一種分布式強化學習系統,該系統包括:客戶端,用于響應用戶的參數設置操作,得到配置文件參數信息;配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息;服務端,用于與客戶端進行通信,對配置文件參數信息進行分布式處理,構建深度強化學習模型。可見,本發明專利技術有利于提升模型訓練速度,縮短了訓練時間,提高模型的穩定性。提高模型的穩定性。提高模型的穩定性。

    【技術實現步驟摘要】
    分布式強化學習系統


    [0001]本專利技術涉及計算機
    ,尤其涉及一種分布式強化學習系統。

    技術介紹

    [0002]現有的強化學習訓練系統,通過分布式采樣,將環境的交互和模型的學習分布在多個進程上,顯著提高訓練效率,提升訓練效果。但對于復雜的強化學習問題,僅僅通過多進程分布式采樣的方式,提升的訓練速度已不足以支持復雜場景的高效訓練,在復雜的動作空間下模型收斂速度仍然很慢。基于現有的強化學習復雜問題場景,如何提高強化學習訓練效率,在不影響模型效果的前提下提供更快的收斂速度,提升模型效果,成為現有技術有待解決的問題。因此,提供一種分布式強化學習系統,以提升模型訓練速度,縮短了訓練時間,提高模型的穩定性。

    技術實現思路

    [0003]本專利技術所要解決的技術問題在于,提供一種分布式強化學習系統,以提升模型訓練速度,縮短了訓練時間,提高模型的穩定性。
    [0004]為了解決上述技術問題,本專利技術第一方面公開了一種分布式強化學習系統,包括:
    [0005]客戶端,用于響應用戶的參數設置操作,得到配置文件參數信息;所述配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息;
    [0006]服務端,用于與所述客戶端進行通信,對所述配置文件參數信息進行分布式處理,構建深度強化學習模型。
    [0007]作為一種可選的實施方式,所述服務端,包括:
    [0008]引擎通信模塊,用于與所述客戶端通信,接收所述配置文件參數信息;
    [0009]仿真模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的仿真環境參數信息,確定出仿真環境集合;所述仿真環境集合包括若干個仿真環境;
    [0010]神經網絡引擎模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合;所述仿真模型集合包括若干個仿真模型;
    [0011]分布式引擎模塊,用于對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型;
    [0012]強化學習算法模塊,用于與所述引擎通信模塊進行通信,利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練,構建深度強化學習模型。
    [0013]作為一種可選的實施方式,所述分布式引擎模塊對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型,包括:
    [0014]所述分布式引擎模塊利用所述引擎通信模塊與所述仿真模塊進行通信,獲取所述仿真環境集合;
    [0015]所述分布式引擎模塊根據所述仿真環境集合中所述仿真環境的數量啟動進程,得到若干個仿真環境進程;所述仿真環境進程的數量與所述仿真環境的數量是相一致的;
    [0016]所述分布式引擎模塊依序將所述仿真環境集合中的所述仿真環境布置在所述仿真環境進程上,得到若干個目標仿真環境;
    [0017]所述分布式引擎模塊獲取當前環境狀態信息;
    [0018]所述分布式引擎模塊根據所述當前環境狀態信息,利用所述引擎通信模塊與所述神經網絡引擎模塊進行通信,獲取所述仿真模型集合;
    [0019]所述分布式引擎模塊根據所述仿真模型集合中所述仿真模型的數量啟動進程,得到若干個仿真模型進程;所述仿真模型進程的數量與所述仿真模型的數量是相一致的;
    [0020]所述分布式引擎模塊依序將所述仿真模型集合中的所述仿真模型布置在所述仿真模型進程上,得到若干個目標仿真模型;
    [0021]所述分布式引擎模塊將所有所述目標仿真環境和所有所述目標仿真模型進行融合處理,得到多進程仿真模型。
    [0022]作為一種可選的實施方式,所述仿真模型包括神經網絡模型和所述神經網絡模型對應的目標輸出模型集合;所述輸出模型集合包括至少一個目標輸出模型;
    [0023]所述模型參數信息包括神經網絡模型參數信息和輸出參數信息;
    [0024]所述神經網絡引擎模塊與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合,包括:
    [0025]所述神經網絡引擎模塊與所述引擎通信模塊進行通信,獲取所述配置文件參數信息中的模型參數信息;
    [0026]所述神經網絡引擎模塊根據所述神經網絡模型參數信息,確定出若干個所述神經網絡模型;
    [0027]對于任一所述神經網絡模型,所述神經網絡引擎模塊從所述輸出參數信息篩選出與該神經網絡模型相匹配的數據信息,得到目標輸出參數信息;
    [0028]所述神經網絡引擎模塊根據所述目標輸出參數信息,確定出該神經網絡模型對應的目標輸出模型集合;
    [0029]所述神經網絡引擎模塊將該神經網絡模型和該神經網絡模型對應的目標輸出模型集合進行融合處理,得到該神經網絡模型對應的仿真模型。
    [0030]作為一種可選的實施方式,所述多進程仿真模型包括若干個所述目標仿真模型和若干個所述目標仿真環境;
    [0031]所述強化學習算法模塊與所述引擎通信模塊進行通信,利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練,構建深度強化學習模型,包括:
    [0032]所述強化學習算法模塊與所述引擎通信模塊進行通信,獲取所述算法參數信息;
    [0033]對于任一所述目標仿真模型,所述強化學習算法模塊從訓練經驗池提取訓練樣本信息作為第一訓練樣本信息;
    [0034]所述強化學習算法模塊利用所述第一訓練樣本信息和所述算法參數信息對該目標仿真模型進行訓練,得到備選訓練模型;
    [0035]所述強化學習算法模塊基于所述備選訓練模型和所述目標仿真環境,確定出訓練結果信息;
    [0036]所述強化學習算法模塊判斷所述訓練結果信息是否滿足終止訓練條件,得到訓練判斷結果;
    [0037]當所述訓練判斷結果為是時,所述強化學習算法模塊確定所述備選訓練模型為一個目標神經網絡模型;
    [0038]當所述訓練判斷結果為否時,所述強化學習算法模塊利用所述備選訓練模型對該目標仿真模型進行更新;
    [0039]所述強化學習算法模塊基于所述訓練結果信息從所述訓練經驗池提取第二訓練樣本信息作為新的第一訓練樣本信息,并觸發執行所述強化學習算法模塊利用所述第一訓練樣本信息和所述算法參數信息對該目標仿真模型進行訓練,得到備選訓練模型;
    [0040]所述強化學習算法模塊判斷所有所述目標仿真模型的訓練進程是否終止,得到進程判斷結果;
    [0041]當所述進程判斷結果為是時,所述強化學習算法模塊將所有所述目標神經網絡模型進行融合,得到深度強化學習模型。
    [0042]作為一種可選的實施方式,所述訓練結果信息包括獎勵信息;
    [0043]所述強化學習算法模塊基于所述訓練結果信息從所述訓練經驗池提取第二訓練樣本信息作為新的第一訓練樣本信息,包括:
    [0044]所述強化學習算法模塊獲取歷史獎勵信息;
    [0045]所述強化學習算法模塊從所述獎勵信息和所述歷史獎勵信息篩選出獎勵值最小的數據信息作為目標獎勵信息;
    [0046]所述強化學本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種分布式強化學習系統,其特征在于,所述系統包括:客戶端,用于響應用戶的參數設置操作,得到配置文件參數信息;所述配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息;服務端,用于與所述客戶端進行通信,對所述配置文件參數信息進行分布式處理,構建深度強化學習模型。2.根據權利要求1所述的分布式強化學習系統,其特征在于,所述服務端,包括:引擎通信模塊,用于與所述客戶端通信,接收所述配置文件參數信息;仿真模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的仿真環境參數信息,確定出仿真環境集合;所述仿真環境集合包括若干個仿真環境;神經網絡引擎模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合;所述仿真模型集合包括若干個仿真模型;分布式引擎模塊,用于對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型;強化學習算法模塊,用于與所述引擎通信模塊進行通信,利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練,構建深度強化學習模型。3.根據權利要求2所述的分布式強化學習系統,其特征在于,所述分布式引擎模塊對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型,包括:所述分布式引擎模塊利用所述引擎通信模塊與所述仿真模塊進行通信,獲取所述仿真環境集合;所述分布式引擎模塊根據所述仿真環境集合中所述仿真環境的數量啟動進程,得到若干個仿真環境進程;所述仿真環境進程的數量與所述仿真環境的數量是相一致的;所述分布式引擎模塊依序將所述仿真環境集合中的所述仿真環境布置在所述仿真環境進程上,得到若干個目標仿真環境;所述分布式引擎模塊獲取當前環境狀態信息;所述分布式引擎模塊根據所述當前環境狀態信息,利用所述引擎通信模塊與所述神經網絡引擎模塊進行通信,獲取所述仿真模型集合;所述分布式引擎模塊根據所述仿真模型集合中所述仿真模型的數量啟動進程,得到若干個仿真模型進程;所述仿真模型進程的數量與所述仿真模型的數量是相一致的;所述分布式引擎模塊依序將所述仿真模型集合中的所述仿真模型布置在所述仿真模型進程上,得到若干個目標仿真模型;所述分布式引擎模塊將所有所述目標仿真環境和所有所述目標仿真模型進行融合處理,得到多進程仿真模型。4.根據權利要求2所述的分布式強化學習系統,其特征在于,所述仿真模型包括神經網絡模型和所述神經網絡模型對應的目標輸出模型集合;所述輸出模型集合包括至少一個目標輸出模型;所述模型參數信息包括神經網絡模型參數信息和輸出參數信息;所述神經網絡引擎模塊與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合,包括:所述神經網絡引擎模塊與所述引擎通信模塊進行通信,獲取所述配置文件參數信息中
    的模型參數信息;所述神經網絡引擎模塊根據所述神經網絡模型參數信息,確定出若干個所述神經網絡模型;對于任一所述神經網絡模型,所述神經網絡引擎模塊從所述輸出參數信息篩選出與該神經網絡模型相匹配的數據信息,得到目標輸出參數信息;所述神經網絡引擎模塊根據所述目標輸出參數信息,確定出該神經網絡模型對應的目標輸出模型集合;所述神經網絡引擎模塊將該神經網絡模型和該神經網絡模型對應的目標輸出模型集合進行融合處理,得到該神經網絡模型對應的仿真模型。5.根據...

    【專利技術屬性】
    技術研發人員:陳敏杰張翰堂
    申請(專利權)人:北京鼎成智造科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码亚洲精品2021| 亚洲av永久无码精品表情包| 狠狠躁天天躁无码中文字幕 | 少妇无码一区二区三区免费| 亚洲AV无码一区东京热| 亚洲av无码一区二区三区不卡| 亚洲中文字幕无码爆乳app| 亚洲人成无码久久电影网站| 丰满熟妇人妻Av无码区| 蜜芽亚洲av无码一区二区三区 | 五月天无码在线观看| 无码国产乱人伦偷精品视频| 免费无码又爽又刺激毛片| 人妻无码第一区二区三区 | 亚洲午夜福利AV一区二区无码| 亚洲av纯肉无码精品动漫| 日韩精品真人荷官无码| 无码天堂va亚洲va在线va| 无码人妻丰满熟妇片毛片| 麻豆aⅴ精品无码一区二区| 精选观看中文字幕高清无码| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 色欲aⅴ亚洲情无码AV| 久久午夜无码鲁丝片| 日韩精品人妻系列无码专区| 亚洲国产精品无码专区在线观看| 国产av无码专区亚洲av果冻传媒 | 亚洲AV无码乱码在线观看裸奔| 无码激情做a爰片毛片AV片| 免费A级毛片无码免费视| 亚洲AV无码AV男人的天堂不卡| 久久久久av无码免费网| 亚洲精品9999久久久久无码| 无码国产色欲XXXXX视频| 亚洲国产精品无码久久久| 无码少妇精品一区二区免费动态| 亚洲日韩乱码中文无码蜜桃臀| 无码视频在线观看| 精品无码AV无码免费专区| 亚洲AV日韩AV无码污污网站| 无码av专区丝袜专区|