一種強化學習模型構建方法及系統(tǒng)技術方案

技術編號：35925343 閱讀：45 留言：0更新日期：2022-12-10 11:17

本發(fā)明專利技術公開了一種強化學習模型構建方法及系統(tǒng)，該方法包括：響應于用戶可視化配置，低代碼編輯器模塊獲取可視化配置參數(shù)，利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)；利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理，得到目標代碼結構化數(shù)據(jù)；利用所述代碼生成器模塊對所述目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理，得到目標強化學習模型。可見，本發(fā)明專利技術減少構建算法時間、測試時間，提升了強化學習的訓練效率，解決了強化學習在與不同仿真場景結合時的交互困難的問題。問題。問題。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】
一種強化學習模型構建方法及系統(tǒng)

[0001]本專利技術涉及智能仿真
，尤其涉及一種強化學習模型構建方法及系統(tǒng)。

技術介紹

[0002]隨著人工智能技術的快速發(fā)展，越來越多的行業(yè)開始與人工智能相結合，其中仿真領域與強化學習相結合需求尤為迫切。
[0003]仿真領域場景復雜，在與強化學習結合的過程中，現(xiàn)有的解決方案就是每次根據(jù)強化學習的訓練需求，由算法人員設計出算法端的觀測空間、動作空間、獎勵函數(shù)和終止條件，然后進行編碼實現(xiàn)，同時環(huán)境端進行對應的代碼編寫，然后進行交互聯(lián)通，進行強化學習的訓練。在整個過程中，存在的問題是算法研究人員需投入大量精力和時間，訓練效率低；強化學習在與不同仿真場景結合時的交互困難。

技術實現(xiàn)思路

[0004]本專利技術針對所要解決的技術問題，提供了一種強化學習模型構建方法，能夠響應用戶的可視化操作，自動識別仿真場景，利用代碼生成器模塊對目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理，得到目標強化學習模型，減少構建算法時間、測試時間，提升了強化學習的訓練效率，解決了強化學習在與不同仿真場景結合時的交互困難的問題。
[0005]為了解決上述技術問題，本專利技術實施例第一方面公開了一種強化學習模型構建方法，所述方法包括：
[0006]S1，響應于用戶可視化配置，低代碼編輯器模塊獲取可視化配置參數(shù)，利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)；
[0007]S2，利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理，得到目標代碼結構化數(shù)據(jù)；/>[0008]S3，利用所述代碼生成器模塊對所述目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理，得到目標強化學習模型。
[0009]作為一種可選的實施方式，在本專利技術實施例第一方面中，所述低代碼編輯器模塊包括參數(shù)接收子模塊；
[0010]所述利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)，包括：
[0011]S11，響應于用戶可視化配置，所述低代碼編輯器模塊獲取可視化配置參數(shù)；
[0012]S12，利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集，對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)。
[0013]作為一種可選的實施方式，在本專利技術實施例第一方面中，所述響應于用戶可視化配置，低代碼編輯器模塊獲取可視化配置參數(shù)，包括：
[0014]S111，響應于用戶可視化配置，構建強化學習中的Web組件集；
[0015]S112，所述低代碼編輯器模塊對所述Web組件集進行處理，自動識別仿真場景，得到所述可視化配置參數(shù)。
[0016]作為一種可選的實施方式，在本專利技術實施例第一方面中，所述利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集，對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)，包括：
[0017]S121，所述低代碼編輯器模塊中的參數(shù)生成子模塊與編輯器協(xié)議模塊進行數(shù)據(jù)通聯(lián)，得到協(xié)議模板集；
[0018]S122，所述參數(shù)生成子模塊利用所述協(xié)議模板集對所述可視化配置參數(shù)進行封裝處理，得到參數(shù)結構化數(shù)據(jù)。
[0019]作為一種可選的實施方式，在本專利技術實施例第一方面中，所述代碼生成器模塊包括參數(shù)接收子模塊、參數(shù)解析子模塊、結構化數(shù)據(jù)子模塊、代碼生成子模塊；
[0020]所述利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理，得到目標代碼結構化數(shù)據(jù)，包括：
[0021]S21，利用所述代碼生成器模塊的參數(shù)接收子模塊從所述低代碼編輯器模塊中加載所述參數(shù)結構化數(shù)據(jù)；
[0022]S22，利用所述參數(shù)接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗，獲得參數(shù)結構化完整數(shù)據(jù)；
[0023]S23，利用所述代碼生成器模塊的參數(shù)解析子模塊，依據(jù)所述協(xié)議模板集中對應的協(xié)議模板對所述參數(shù)結構化完整數(shù)據(jù)進行處理，得到第一代碼結構化數(shù)據(jù)；
[0024]S24，利用所述代碼生成器模塊的結構化數(shù)據(jù)子模塊對所述第一代碼結構化數(shù)據(jù)進行解析處理，得到目標代碼結構化數(shù)據(jù)。
[0025]作為一種可選的實施方式，在本專利技術實施例第一方面中，所述利用所述參數(shù)接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗，獲得參數(shù)結構化完整數(shù)據(jù)，包括：
[0026]S221，所述參數(shù)接收子模塊獲取所述參數(shù)結構化數(shù)據(jù)中各字段數(shù)據(jù)，并獲取所述各字段數(shù)據(jù)的接收長度值；
[0027]S222，對于任一所述字段數(shù)據(jù)，依據(jù)該字段數(shù)據(jù)的類型標志位識別該字段數(shù)據(jù)對應的參數(shù)結構化數(shù)據(jù)類型；
[0028]根據(jù)所述參數(shù)結構化數(shù)據(jù)類型，由所述協(xié)議模板集中對應協(xié)議模板獲取該字段數(shù)據(jù)對應的定義長度值；
[0029]S223，判斷該字段數(shù)據(jù)對應的接收長度值是否等于該字段數(shù)據(jù)對應的定義長度值，得到長度判斷結果；
[0030]當所述長度判斷結果為是時，確定該字段數(shù)據(jù)為所述一個完整字段數(shù)據(jù)；
[0031]當所述長度判斷結果為否時，丟棄該字段數(shù)據(jù)；
[0032]對所有所述完整字段數(shù)據(jù)進行融合，得到參數(shù)結構化完整數(shù)據(jù)。
[0033]作為一種可選的實施方式，在本專利技術實施例第一方面中，利用所述代碼生成器模塊的結構化數(shù)據(jù)子模塊對所述第一代碼結構化數(shù)據(jù)進行解析處理，得到目標代碼結構化數(shù)據(jù)，包括：
[0034]S241，所述結構化數(shù)據(jù)子模塊獲取所述第一代碼結構化數(shù)據(jù)中各字段數(shù)據(jù)，并獲取所述各字段數(shù)據(jù)的實際數(shù)據(jù)結構；
[0035]S242，對于任一所述字段數(shù)據(jù)，依據(jù)該字段數(shù)據(jù)的類型標志位識別該字段數(shù)據(jù)對應的數(shù)據(jù)結構；
[0036]根據(jù)所述字段數(shù)據(jù)類型，從所述協(xié)議模板集中對應協(xié)議模板獲取該字段數(shù)據(jù)的定義數(shù)據(jù)結構；
[0037]S243，判斷該字段數(shù)據(jù)的實際數(shù)據(jù)結構與所述定義數(shù)據(jù)結構是否一致，得到結構判斷結果；
[0038]當所述結構判斷結果為是時，確定該字段數(shù)據(jù)為所述第一代碼結構化數(shù)據(jù)的一個完整字段數(shù)據(jù)；
[0039]當所述結構判斷結果為否時，丟棄該字段數(shù)據(jù)；
[0040]對所有所述完整字段數(shù)據(jù)進行融合，得到第一代碼結構化完整數(shù)據(jù)；
[0041]S244，所述結構化數(shù)據(jù)子模塊獲取所述第一代碼結構化完整數(shù)據(jù)中各完整字段數(shù)據(jù)，并獲取所述各完整字段數(shù)據(jù)的數(shù)據(jù)類型；
[0042]S245，對于任一所述完整字段數(shù)據(jù)，依據(jù)該完整字段數(shù)據(jù)的類型標志位識別該完整字段數(shù)據(jù)的實際數(shù)據(jù)類型；
[0043]根據(jù)所述數(shù)據(jù)類型，從所述協(xié)議模板集中對應協(xié)議模板獲取該完整字段數(shù)據(jù)對應的定義數(shù)據(jù)類型；
[0044]S246，判斷所述完整字段數(shù)據(jù)的實際數(shù)據(jù)類型與所述定義類型是否一致，得到類型判斷結果；
[0045]當所述類型判斷結果為是時，確定該完整字段數(shù)據(jù)為所述第一代碼結構化完整數(shù)據(jù)的一個正確字段數(shù)據(jù)；
[0046]當所述類型判斷結果為否時，丟棄該完整字段數(shù)據(jù)；
[0047]對所有所述正確字段數(shù)據(jù)進行融合，得到目標代碼結構化數(shù)據(jù)。
[00本文檔來自技高網(wǎng)...

【技術保護點】

【技術特征摘要】
1.一種強化學習模型構建方法，其特征在于，所述方法包括：S1，響應于用戶可視化配置，低代碼編輯器模塊獲取可視化配置參數(shù)，利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)；S2，利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理，得到目標代碼結構化數(shù)據(jù)；S3，利用所述代碼生成器模塊對所述目標代碼結構化數(shù)據(jù)進行數(shù)據(jù)轉換處理，得到目標強化學習模型。2.根據(jù)權利要求1所述的一種強化學習模型構建方法，其特征在于：所述低代碼編輯器模塊包括參數(shù)接收子模塊；所述利用所述低代碼編輯器模塊對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)，包括：S11，響應于用戶可視化配置，所述低代碼編輯器模塊獲取可視化配置參數(shù)；S12，利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集，對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)。3.根據(jù)權利要求2所述的一種強化學習模型構建方法，其特征在于，所述響應于用戶可視化配置，低代碼編輯器模塊獲取可視化配置參數(shù)，包括：S111，響應于用戶可視化配置，構建強化學習中的Web組件集；S112，所述低代碼編輯器模塊對所述Web組件集進行處理，自動識別仿真場景，得到所述可視化配置參數(shù)。4.根據(jù)權利要求2所述的一種強化學習模型構建方法，其特征在于，利用所述低代碼編輯器模塊中的參數(shù)生成子模塊和編輯器協(xié)議模塊中的協(xié)議模板集，對所述可視化配置參數(shù)進行處理，得到參數(shù)結構化數(shù)據(jù)，包括：S121，所述低代碼編輯器模塊中的參數(shù)生成子模塊與編輯器協(xié)議模塊進行數(shù)據(jù)通聯(lián)，得到協(xié)議模板集；S122，所述參數(shù)生成子模塊利用所述協(xié)議模板集對所述可視化配置參數(shù)進行封裝處理，得到參數(shù)結構化數(shù)據(jù)。5.根據(jù)權利要求1所述的一種強化學習模型構建方法，其特征在于：所述代碼生成器模塊包括參數(shù)接收子模塊、參數(shù)解析子模塊、結構化數(shù)據(jù)子模塊、代碼生成子模塊；所述利用代碼生成器模塊對參數(shù)結構化數(shù)據(jù)進行處理，得到目標代碼結構化數(shù)據(jù)，包括：S21，利用所述代碼生成器模塊的參數(shù)接收子模塊從所述低代碼編輯器模塊中加載所述參數(shù)結構化數(shù)據(jù)；S22，利用所述參數(shù)接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗，獲得參數(shù)結構化完整數(shù)據(jù)；S23，利用所述代碼生成器模塊的參數(shù)解析子模塊，依據(jù)所述協(xié)議模板集中對應的協(xié)議模板對所述參數(shù)結構化完整數(shù)據(jù)進行處理，得到第一代碼結構化數(shù)據(jù)；S24，利用所述代碼生成器模塊的結構化數(shù)據(jù)子模塊對所述第一代碼結構化數(shù)據(jù)進行解析處理，得到目標代碼結構化數(shù)據(jù)。6.根據(jù)權利要求5所述的一種強化學習模型構建方法，其特征在于，所述利用所述參數(shù)
接收子模塊對所述參數(shù)結構化數(shù)據(jù)進行完整性檢驗，獲得參數(shù)結構化完整數(shù)據(jù)，包括：S221，所述參數(shù)接收子模塊獲取所述參數(shù)結構化數(shù)據(jù)中各字段數(shù)據(jù)，并獲取所述各字段數(shù)據(jù)的接收長度值；S222，對于任一所述字段數(shù)據(jù)，依據(jù)該字段數(shù)據(jù)的類型標志位識別該字段數(shù)據(jù)對應的參數(shù)結構化數(shù)據(jù)類型；根據(jù)所述參數(shù)結構化數(shù)據(jù)類型，由所述協(xié)議模板集中對應協(xié)議模板獲取該字段數(shù)據(jù)對應的定...

【專利技術屬性】
技術研發(fā)人員：陳敏杰，李業(yè)磊，
申請(專利權)人：北京鼎成智造科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術