• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    分布式強化學習系統技術方案

    技術編號:37666186 閱讀:21 留言:0更新日期:2023-05-26 04:25
    本發明專利技術公開了一種分布式強化學習系統,該系統包括:客戶端,用于響應用戶的參數設置操作,得到配置文件參數信息;配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息;服務端,用于與客戶端進行通信,對配置文件參數信息進行分布式處理,構建深度強化學習模型。可見,本發明專利技術有利于提升模型訓練速度,縮短了訓練時間,提高模型的穩定性。提高模型的穩定性。提高模型的穩定性。

    【技術實現步驟摘要】
    分布式強化學習系統


    [0001]本專利技術涉及計算機
    ,尤其涉及一種分布式強化學習系統。

    技術介紹

    [0002]現有的強化學習訓練系統,通過分布式采樣,將環境的交互和模型的學習分布在多個進程上,顯著提高訓練效率,提升訓練效果。但對于復雜的強化學習問題,僅僅通過多進程分布式采樣的方式,提升的訓練速度已不足以支持復雜場景的高效訓練,在復雜的動作空間下模型收斂速度仍然很慢。基于現有的強化學習復雜問題場景,如何提高強化學習訓練效率,在不影響模型效果的前提下提供更快的收斂速度,提升模型效果,成為現有技術有待解決的問題。因此,提供一種分布式強化學習系統,以提升模型訓練速度,縮短了訓練時間,提高模型的穩定性。

    技術實現思路

    [0003]本專利技術所要解決的技術問題在于,提供一種分布式強化學習系統,以提升模型訓練速度,縮短了訓練時間,提高模型的穩定性。
    [0004]為了解決上述技術問題,本專利技術第一方面公開了一種分布式強化學習系統,包括:
    [0005]客戶端,用于響應用戶的參數設置操作,得到配置文件參數信息;所述配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息;
    [0006]服務端,用于與所述客戶端進行通信,對所述配置文件參數信息進行分布式處理,構建深度強化學習模型。
    [0007]作為一種可選的實施方式,所述服務端,包括:
    [0008]引擎通信模塊,用于與所述客戶端通信,接收所述配置文件參數信息;
    [0009]仿真模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的仿真環境參數信息,確定出仿真環境集合;所述仿真環境集合包括若干個仿真環境;
    [0010]神經網絡引擎模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合;所述仿真模型集合包括若干個仿真模型;
    [0011]分布式引擎模塊,用于對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型;
    [0012]強化學習算法模塊,用于與所述引擎通信模塊進行通信,利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練,構建深度強化學習模型。
    [0013]作為一種可選的實施方式,所述分布式引擎模塊對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型,包括:
    [0014]所述分布式引擎模塊利用所述引擎通信模塊與所述仿真模塊進行通信,獲取所述仿真環境集合;
    [0015]所述分布式引擎模塊根據所述仿真環境集合中所述仿真環境的數量啟動進程,得到若干個仿真環境進程;所述仿真環境進程的數量與所述仿真環境的數量是相一致的;
    [0016]所述分布式引擎模塊依序將所述仿真環境集合中的所述仿真環境布置在所述仿真環境進程上,得到若干個目標仿真環境;
    [0017]所述分布式引擎模塊獲取當前環境狀態信息;
    [0018]所述分布式引擎模塊根據所述當前環境狀態信息,利用所述引擎通信模塊與所述神經網絡引擎模塊進行通信,獲取所述仿真模型集合;
    [0019]所述分布式引擎模塊根據所述仿真模型集合中所述仿真模型的數量啟動進程,得到若干個仿真模型進程;所述仿真模型進程的數量與所述仿真模型的數量是相一致的;
    [0020]所述分布式引擎模塊依序將所述仿真模型集合中的所述仿真模型布置在所述仿真模型進程上,得到若干個目標仿真模型;
    [0021]所述分布式引擎模塊將所有所述目標仿真環境和所有所述目標仿真模型進行融合處理,得到多進程仿真模型。
    [0022]作為一種可選的實施方式,所述仿真模型包括神經網絡模型和所述神經網絡模型對應的目標輸出模型集合;所述輸出模型集合包括至少一個目標輸出模型;
    [0023]所述模型參數信息包括神經網絡模型參數信息和輸出參數信息;
    [0024]所述神經網絡引擎模塊與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合,包括:
    [0025]所述神經網絡引擎模塊與所述引擎通信模塊進行通信,獲取所述配置文件參數信息中的模型參數信息;
    [0026]所述神經網絡引擎模塊根據所述神經網絡模型參數信息,確定出若干個所述神經網絡模型;
    [0027]對于任一所述神經網絡模型,所述神經網絡引擎模塊從所述輸出參數信息篩選出與該神經網絡模型相匹配的數據信息,得到目標輸出參數信息;
    [0028]所述神經網絡引擎模塊根據所述目標輸出參數信息,確定出該神經網絡模型對應的目標輸出模型集合;
    [0029]所述神經網絡引擎模塊將該神經網絡模型和該神經網絡模型對應的目標輸出模型集合進行融合處理,得到該神經網絡模型對應的仿真模型。
    [0030]作為一種可選的實施方式,所述多進程仿真模型包括若干個所述目標仿真模型和若干個所述目標仿真環境;
    [0031]所述強化學習算法模塊與所述引擎通信模塊進行通信,利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練,構建深度強化學習模型,包括:
    [0032]所述強化學習算法模塊與所述引擎通信模塊進行通信,獲取所述算法參數信息;
    [0033]對于任一所述目標仿真模型,所述強化學習算法模塊從訓練經驗池提取訓練樣本信息作為第一訓練樣本信息;
    [0034]所述強化學習算法模塊利用所述第一訓練樣本信息和所述算法參數信息對該目標仿真模型進行訓練,得到備選訓練模型;
    [0035]所述強化學習算法模塊基于所述備選訓練模型和所述目標仿真環境,確定出訓練結果信息;
    [0036]所述強化學習算法模塊判斷所述訓練結果信息是否滿足終止訓練條件,得到訓練判斷結果;
    [0037]當所述訓練判斷結果為是時,所述強化學習算法模塊確定所述備選訓練模型為一個目標神經網絡模型;
    [0038]當所述訓練判斷結果為否時,所述強化學習算法模塊利用所述備選訓練模型對該目標仿真模型進行更新;
    [0039]所述強化學習算法模塊基于所述訓練結果信息從所述訓練經驗池提取第二訓練樣本信息作為新的第一訓練樣本信息,并觸發執行所述強化學習算法模塊利用所述第一訓練樣本信息和所述算法參數信息對該目標仿真模型進行訓練,得到備選訓練模型;
    [0040]所述強化學習算法模塊判斷所有所述目標仿真模型的訓練進程是否終止,得到進程判斷結果;
    [0041]當所述進程判斷結果為是時,所述強化學習算法模塊將所有所述目標神經網絡模型進行融合,得到深度強化學習模型。
    [0042]作為一種可選的實施方式,所述訓練結果信息包括獎勵信息;
    [0043]所述強化學習算法模塊基于所述訓練結果信息從所述訓練經驗池提取第二訓練樣本信息作為新的第一訓練樣本信息,包括:
    [0044]所述強化學習算法模塊獲取歷史獎勵信息;
    [0045]所述強化學習算法模塊從所述獎勵信息和所述歷史獎勵信息篩選出獎勵值最小的數據信息作為目標獎勵信息;
    [0046]所述強化學本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種分布式強化學習系統,其特征在于,所述系統包括:客戶端,用于響應用戶的參數設置操作,得到配置文件參數信息;所述配置文件參數信息包括仿真環境參數信息、模型參數信息和算法參數信息;服務端,用于與所述客戶端進行通信,對所述配置文件參數信息進行分布式處理,構建深度強化學習模型。2.根據權利要求1所述的分布式強化學習系統,其特征在于,所述服務端,包括:引擎通信模塊,用于與所述客戶端通信,接收所述配置文件參數信息;仿真模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的仿真環境參數信息,確定出仿真環境集合;所述仿真環境集合包括若干個仿真環境;神經網絡引擎模塊,用于與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合;所述仿真模型集合包括若干個仿真模型;分布式引擎模塊,用于對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型;強化學習算法模塊,用于與所述引擎通信模塊進行通信,利用所述算法參數信息對所述多進程仿真模型進行并行優化訓練,構建深度強化學習模型。3.根據權利要求2所述的分布式強化學習系統,其特征在于,所述分布式引擎模塊對所述仿真環境集合和所述仿真模型集合進行分布式進程生成,以生成多進程仿真模型,包括:所述分布式引擎模塊利用所述引擎通信模塊與所述仿真模塊進行通信,獲取所述仿真環境集合;所述分布式引擎模塊根據所述仿真環境集合中所述仿真環境的數量啟動進程,得到若干個仿真環境進程;所述仿真環境進程的數量與所述仿真環境的數量是相一致的;所述分布式引擎模塊依序將所述仿真環境集合中的所述仿真環境布置在所述仿真環境進程上,得到若干個目標仿真環境;所述分布式引擎模塊獲取當前環境狀態信息;所述分布式引擎模塊根據所述當前環境狀態信息,利用所述引擎通信模塊與所述神經網絡引擎模塊進行通信,獲取所述仿真模型集合;所述分布式引擎模塊根據所述仿真模型集合中所述仿真模型的數量啟動進程,得到若干個仿真模型進程;所述仿真模型進程的數量與所述仿真模型的數量是相一致的;所述分布式引擎模塊依序將所述仿真模型集合中的所述仿真模型布置在所述仿真模型進程上,得到若干個目標仿真模型;所述分布式引擎模塊將所有所述目標仿真環境和所有所述目標仿真模型進行融合處理,得到多進程仿真模型。4.根據權利要求2所述的分布式強化學習系統,其特征在于,所述仿真模型包括神經網絡模型和所述神經網絡模型對應的目標輸出模型集合;所述輸出模型集合包括至少一個目標輸出模型;所述模型參數信息包括神經網絡模型參數信息和輸出參數信息;所述神經網絡引擎模塊與所述引擎通信模塊進行通信,根據所述配置文件參數信息中的模型參數信息,確定出仿真模型集合,包括:所述神經網絡引擎模塊與所述引擎通信模塊進行通信,獲取所述配置文件參數信息中
    的模型參數信息;所述神經網絡引擎模塊根據所述神經網絡模型參數信息,確定出若干個所述神經網絡模型;對于任一所述神經網絡模型,所述神經網絡引擎模塊從所述輸出參數信息篩選出與該神經網絡模型相匹配的數據信息,得到目標輸出參數信息;所述神經網絡引擎模塊根據所述目標輸出參數信息,確定出該神經網絡模型對應的目標輸出模型集合;所述神經網絡引擎模塊將該神經網絡模型和該神經網絡模型對應的目標輸出模型集合進行融合處理,得到該神經網絡模型對應的仿真模型。5.根據...

    【專利技術屬性】
    技術研發人員:陳敏杰張翰堂
    申請(專利權)人:北京鼎成智造科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码不卡中文字幕av| 无码丰满少妇2在线观看| 蜜桃臀AV高潮无码| 中文无码vs无码人妻| 亚洲av无码成h人动漫无遮挡| 国产精品无码午夜福利| 亚洲av永久无码精品秋霞电影影院| 亚洲精品无码国产| 亚洲一区二区无码偷拍| 亚洲 无码 在线 专区| 久久无码无码久久综合综合| 无码夫の前で人妻を犯す中字 | 国产午夜精华无码网站| 久久精品九九热无码免贵| 精品久久久久久久无码久中文字幕 | 国产成人A亚洲精V品无码 | 99无码精品二区在线视频| 无码国产精成人午夜视频不卡 | 中日韩精品无码一区二区三区| 亚洲爆乳AAA无码专区| 日韩少妇无码一区二区三区| 本道久久综合无码中文字幕| 国产精品视频一区二区三区无码| 影音先锋中文无码一区| 国产亚洲精品无码成人| 无码国产精品一区二区高潮| 中字无码av电影在线观看网站| 无码中文字幕乱码一区| 国产精品无码专区| 好爽毛片一区二区三区四无码三飞| 亚洲AV无码久久精品狠狠爱浪潮| 久久精品日韩av无码 | 国产精品无码无卡无需播放器 | 91久久精品无码一区二区毛片| 一本无码中文字幕在线观| 自拍偷在线精品自拍偷无码专区| 熟妇人妻中文av无码| 高潮潮喷奶水飞溅视频无码| 国产精品VA在线观看无码不卡| 精品一区二区无码AV| 三上悠亚ssⅰn939无码播放|