【技術實現(xiàn)步驟摘要】
一種強化學習模型構建方法及系統(tǒng)
[0001]本專利技術涉及智能仿真
,尤其涉及一種強化學習模型構建方法及系統(tǒng)。
技術介紹
[0002]隨著人工智能技術的快速發(fā)展,越來越多的行業(yè)開始與人工智能相結合,其中仿真領域與強化學習相結合需求尤為迫切。
[0003]仿真領域場景復雜,在與強化學習結合的過程中,現(xiàn)有的解決方案就是每次根據(jù)強化學習的訓練需求,由算法人員設計出算法端的觀測空間、動作空間、獎勵函數(shù)和終止條件,然后進行編碼實現(xiàn),同時環(huán)境端進行對應的代碼編寫,然后進行交互聯(lián)通,進行強化學習的訓練。在整個過程中,存在的問題是算法研究人員需投入大量精力和時間,訓練效率低;強化學習在與不同仿真場景結合時的交互困難。
技術實現(xiàn)思路
[0004]本專利技術針對所要解決的技術問題,提供了一種強化學習模型構建方法,能夠響應用戶的可視化操作,自動識別仿真場景,利用代碼生成器模塊對目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理,得到目標強化學習模型,減少構建算法時間、測試時間,提升了強化學習的訓練效率,解決了強化學習在與不同仿真場景結合時的交互困難的問題。
[0005]為了解決上述技術問題,本專利技術實施例第一方面公開了一種強化學習模型構建方法,所述方法包括:
[0006]S1,響應于用戶可視化配置,低代碼編輯器模塊獲取可視化配置參數(shù),利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù);
[0007]S2,利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理,得到目標代碼結構化數(shù)據(jù); />[0008]S3,利用所述代碼生成器模塊對所述目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理,得到目標強化學習模型。
[0009]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述低代碼編輯器模塊包括參數(shù)接收子模塊;
[0010]所述利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù),包括:
[0011]S11,響應于用戶可視化配置,所述低代碼編輯器模塊獲取可視化配置參數(shù);
[0012]S12,利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集,對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù)。
[0013]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述響應于用戶可視化配置,低代碼編輯器模塊獲取可視化配置參數(shù),包括:
[0014]S111,響應于用戶可視化配置,構建強化學習中的Web組件集;
[0015]S112,所述低代碼編輯器模塊對所述Web組件集進行處理,自動識別仿真場景,得到所述可視化配置參數(shù)。
[0016]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集,對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù),包括:
[0017]S121,所述低代碼編輯器模塊中的參數(shù)生成子模塊與編輯器協(xié)議模塊進行數(shù)據(jù)通聯(lián),得到協(xié)議模板集;
[0018]S122,所述參數(shù)生成子模塊利用所述協(xié)議模板集對所述可視化配置參數(shù)進行封裝處理,得到參數(shù)結構化數(shù)據(jù)。
[0019]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述代碼生成器模塊包括參數(shù)接收子模塊、參數(shù)解析子模塊、結構化數(shù)據(jù)子模塊、代碼生成子模塊;
[0020]所述利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理,得到目標代碼結構化數(shù)據(jù),包括:
[0021]S21,利用所述代碼生成器模塊的參數(shù)接收子模塊從所述低代碼編輯器模塊中加載所述參數(shù)結構化數(shù)據(jù);
[0022]S22,利用所述參數(shù)接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗,獲得參數(shù)結構化完整數(shù)據(jù);
[0023]S23,利用所述代碼生成器模塊的參數(shù)解析子模塊,依據(jù)所述協(xié)議模板集中對應的協(xié)議模板對所述參數(shù)結構化完整數(shù)據(jù)進行處理,得到第一代碼結構化數(shù)據(jù);
[0024]S24,利用所述代碼生成器模塊的結構化數(shù)據(jù)子模塊對所述第一代碼結構化數(shù)據(jù)進行解析處理,得到目標代碼結構化數(shù)據(jù)。
[0025]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述利用所述參數(shù)接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗,獲得參數(shù)結構化完整數(shù)據(jù),包括:
[0026]S221,所述參數(shù)接收子模塊獲取所述參數(shù)結構化數(shù)據(jù)中各字段數(shù)據(jù),并獲取所述各字段數(shù)據(jù)的接收長度值;
[0027]S222,對于任一所述字段數(shù)據(jù),依據(jù)該字段數(shù)據(jù)的類型標志位識別該字段數(shù)據(jù)對應的參數(shù)結構化數(shù)據(jù)類型;
[0028]根據(jù)所述參數(shù)結構化數(shù)據(jù)類型,由所述協(xié)議模板集中對應協(xié)議模板獲取該字段數(shù)據(jù)對應的定義長度值;
[0029]S223,判斷該字段數(shù)據(jù)對應的接收長度值是否等于該字段數(shù)據(jù)對應的定義長度值,得到長度判斷結果;
[0030]當所述長度判斷結果為是時,確定該字段數(shù)據(jù)為所述一個完整字段數(shù)據(jù);
[0031]當所述長度判斷結果為否時,丟棄該字段數(shù)據(jù);
[0032]對所有所述完整字段數(shù)據(jù)進行融合,得到參數(shù)結構化完整數(shù)據(jù)。
[0033]作為一種可選的實施方式,在本專利技術實施例第一方面中,利用所述代碼生成器模塊的結構化數(shù)據(jù)子模塊對所述第一代碼結構化數(shù)據(jù)進行解析處理,得到目標代碼結構化數(shù)據(jù),包括:
[0034]S241,所述結構化數(shù)據(jù)子模塊獲取所述第一代碼結構化數(shù)據(jù)中各字段數(shù)據(jù),并獲取所述各字段數(shù)據(jù)的實際數(shù)據(jù)結構;
[0035]S242,對于任一所述字段數(shù)據(jù),依據(jù)該字段數(shù)據(jù)的類型標志位識別該字段數(shù)據(jù)對應的數(shù)據(jù)結構;
[0036]根據(jù)所述字段數(shù)據(jù)類型,從所述協(xié)議模板集中對應協(xié)議模板獲取該字段數(shù)據(jù)的定義數(shù)據(jù)結構;
[0037]S243,判斷該字段數(shù)據(jù)的實際數(shù)據(jù)結構與所述定義數(shù)據(jù)結構是否一致,得到結構判斷結果;
[0038]當所述結構判斷結果為是時,確定該字段數(shù)據(jù)為所述第一代碼結構化數(shù)據(jù)的一個完整字段數(shù)據(jù);
[0039]當所述結構判斷結果為否時,丟棄該字段數(shù)據(jù);
[0040]對所有所述完整字段數(shù)據(jù)進行融合,得到第一代碼結構化完整數(shù)據(jù);
[0041]S244,所述結構化數(shù)據(jù)子模塊獲取所述第一代碼結構化完整數(shù)據(jù)中各完整字段數(shù)據(jù),并獲取所述各完整字段數(shù)據(jù)的數(shù)據(jù)類型;
[0042]S245,對于任一所述完整字段數(shù)據(jù),依據(jù)該完整字段數(shù)據(jù)的類型標志位識別該完整字段數(shù)據(jù)的實際數(shù)據(jù)類型;
[0043]根據(jù)所述數(shù)據(jù)類型,從所述協(xié)議模板集中對應協(xié)議模板獲取該完整字段數(shù)據(jù)對應的定義數(shù)據(jù)類型;
[0044]S246,判斷所述完整字段數(shù)據(jù)的實際數(shù)據(jù)類型與所述定義類型是否一致,得到類型判斷結果;
[0045]當所述類型判斷結果為是時,確定該完整字段數(shù)據(jù)為所述第一代碼結構化完整數(shù)據(jù)的一個正確字段數(shù)據(jù);
[0046]當所述類型判斷結果為否時,丟棄該完整字段數(shù)據(jù);
[0047]對所有所述正確字段數(shù)據(jù)進行融合,得到目標代碼結構化數(shù)據(jù)。
[00本文檔來自技高網(wǎng)...
【技術保護點】
【技術特征摘要】
1.一種強化學習模型構建方法,其特征在于,所述方法包括:S1,響應于用戶可視化配置,低代碼編輯器模塊獲取可視化配置參數(shù),利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù);S2,利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理,得到目標代碼結構化數(shù)據(jù);S3,利用所述代碼生成器模塊對所述目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理,得到目標強化學習模型。2.根據(jù)權利要求1所述的一種強化學習模型構建方法,其特征在于:所述低代碼編輯器模塊包括參數(shù)接收子模塊;所述利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù),包括:S11,響應于用戶可視化配置,所述低代碼編輯器模塊獲取可視化配置參數(shù);S12,利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集,對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù)。3.根據(jù)權利要求2所述的一種強化學習模型構建方法,其特征在于,所述響應于用戶可視化配置,低代碼編輯器模塊獲取可視化配置參數(shù),包括:S111,響應于用戶可視化配置,構建強化學習中的Web組件集;S112,所述低代碼編輯器模塊對所述Web組件集進行處理,自動識別仿真場景,得到所述可視化配置參數(shù)。4.根據(jù)權利要求2所述的一種強化學習模型構建方法,其特征在于,利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集,對所述可視化配置參數(shù)進行處理,得到參數(shù)結構化數(shù)據(jù),包括:S121,所述低代碼編輯器模塊中的參數(shù)生成子模塊與編輯器協(xié)議模塊進行數(shù)據(jù)通聯(lián),得到協(xié)議模板集;S122,所述參數(shù)生成子模塊利用所述協(xié)議模板集對所述可視化配置參數(shù)進行封裝處理,得到參數(shù)結構化數(shù)據(jù)。5.根據(jù)權利要求1所述的一種強化學習模型構建方法,其特征在于:所述代碼生成器模塊包括參數(shù)接收子模塊、參數(shù)解析子模塊、結構化數(shù)據(jù)子模塊、代碼生成子模塊;所述利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理,得到目標代碼結構化數(shù)據(jù),包括:S21,利用所述代碼生成器模塊的參數(shù)接收子模塊從所述低代碼編輯器模塊中加載所述參數(shù)結構化數(shù)據(jù);S22,利用所述參數(shù)接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗,獲得參數(shù)結構化完整數(shù)據(jù);S23,利用所述代碼生成器模塊的參數(shù)解析子模塊,依據(jù)所述協(xié)議模板集中對應的協(xié)議模板對所述參數(shù)結構化完整數(shù)據(jù)進行處理,得到第一代碼結構化數(shù)據(jù);S24,利用所述代碼生成器模塊的結構化數(shù)據(jù)子模塊對所述第一代碼結構化數(shù)據(jù)進行解析處理,得到目標代碼結構化數(shù)據(jù)。6.根據(jù)權利要求5所述的一種強化學習模型構建方法,其特征在于,所述利用所述參數(shù)
接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗,獲得參數(shù)結構化完整數(shù)據(jù),包括:S221,所述參數(shù)接收子模塊獲取所述參數(shù)結構化數(shù)據(jù)中各字段數(shù)據(jù),并獲取所述各字段數(shù)據(jù)的接收長度值;S222,對于任一所述字段數(shù)據(jù),依據(jù)該字段數(shù)據(jù)的類型標志位識別該字段數(shù)據(jù)對應的參數(shù)結構化數(shù)據(jù)類型;根據(jù)所述參數(shù)結構化數(shù)據(jù)類型,由所述協(xié)議模板集中對應協(xié)議模板獲取該字段數(shù)據(jù)對應的定...
【專利技術屬性】
技術研發(fā)人員:陳敏杰,李業(yè)磊,
申請(專利權)人:北京鼎成智造科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。