System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,特別涉及一種基于知識加速的行動設備的決策方法及系統。
技術介紹
1、在人工智能領域,尤其是涉及行動設備自主決策的研究中,傳統的決策方法主要依賴于一系列預設的指令或基于簡單反應的行為模式。雖然這些策略在一定程度上確保了行動設備操作的基本可靠性,但它們在應對復雜和動態變化的環境時往往表現不佳。這主要是因為這些傳統方法缺乏必要的靈活性和適應能力,使得行動設備在遇到意料之外的挑戰時,如突發的氣象條件變化、未映射的地形障礙或其他不可預測的干擾因素時,難以做出有效的自主響應。此外,隨著行動設備技術的進步,實時數據的獲取與處理變得尤為關鍵。行動設備必須能夠實時分析大量從傳感器收集來的數據,并據此迅速做出精準的判斷。然而,傳統的決策框架在處理和分析大量實時數據時通常顯得力不從心,限制了行動設備在面對復雜任務環境時的執行效率和準確性。因此,存在著一種迫切的需求,來發展一種更加先進、靈活和高效的行動設備自主決策技術,以應對這些挑戰。
2、強化學習作為一種使機器能夠通過不斷的嘗試和錯誤來自我學習和優化決策策略的先進技術,已經在行動設備自主決策領域展現出極大的應用潛力。該技術允許行動設備通過與周圍環境的實時互動,逐步調整其行為模式,以更有效地實現既定目標。這種基于反饋的學習機制能夠使行動設備自適應各種復雜場景,提高任務執行的精確性和效率。但是,強化學習方法需要從大量的試驗和錯誤樣本中學習優化,這在實際的行動設備工作中是不現實的。此外,盡管強化學習使得行動設備能夠在不斷變化的環境中適應并優化其行為,但學習過程往往耗時且效率
技術實現思路
1、為至少部分解決上述技術問題,本申請實施例提供一種基于知識加速的行動設備的決策方法,包括:
2、步驟1、獲取行動設備行進的任務目標,并利用所述任務目標從知識庫中匹配模糊規則,所述模糊規則是根據專家控制行動設備的先驗知識生成的;
3、步驟2、利用匹配得到的模糊規則將行動設備的行進任務拆分為多個子任務;
4、步驟3、利用專家控制行動設備的先驗知識為每個子任務構建可訓練的子知識控制模型;
5、步驟4、獲取在仿真平臺上模擬行動設備行進過程中t時刻的狀態信息,所述狀態信息包括環境特征和行動設備的位姿特征,分別執行步驟5a和步驟5b;
6、步驟5a、將所述狀態信息輸入當前子任務對應的子知識控制模型,以得到第一動作指令;
7、步驟5b、將所述狀態信息輸入強化學習算法模型,使用所述強化學習算法模型的全連接層融合所述狀態信息中的環境特征和行動設備的位姿特征,生成隱藏變量特征,將所述隱藏變量特征輸入所述強化學習算法模型的智能網絡,得到第二動作指令;
8、步驟6、利用設定權重對第一動作指令和第二動作指令進行加權求和,得到可執行動作指令;
9、步驟7、在仿真平臺中執行所述可執行動作指令,并返回步驟4。
10、本申請實施例還提供一種基于知識加速的行動設備的決策系統,包括:
11、行動設備控制模塊,用于獲取在仿真平臺上模擬行動設備行進過程中時刻的狀態信息,所述狀態信息包括環境特征和行動設備的位姿特征;
12、知識控制模塊,用于將所述狀態信息輸入當前子任務對應的子知識控制模型,以得到第一動作指令;
13、強化學習控制模塊,用于將所述狀態信息輸入強化學習算法模型;使用所述強化學習算法的全連接層融合所述狀態信息中的環境特征和行動設備的位姿特征,生成隱藏變量特征;將所述隱藏變量特征輸入所述強化學習算法模型的智能網絡,得到第二動作指令;
14、所述行動設備控制模塊還用于,利用設定權重對第一動作指令和第二動作指令進行加權求和,得到可執行動作指令;在仿真平臺中執行所述可執行動作指令;
15、所述知識控制模塊還用于獲取行動設備行進的任務目標,并利用所述任務目標從知識庫中匹配模糊規則,所述模糊規則是根據專家控制行動設備的先驗知識生成的;利用匹配得到的模糊規則將行動設備的行進任務拆分為多個子任務;利用專家控制行動設備的先驗知識為每個子任務構建可訓練的子知識控制模型。
16、本申請實施例引入了一種創新的基于知識加速的強化學習方法及其系統,該方法通過融合領域專家的先驗知識與數據驅動的學習策略,共同指導行動設備的決策過程。在學習的初期,行動設備主要依靠預設的知識庫來進行決策,這一階段知識導向的動作選擇占據主導地位,確保了行動設備的基本操作安全與效率。隨著時間的推移,強化學習算法通過與環境的交互逐漸積累經驗,并不斷調整和優化決策策略。在這一過程中,由強化學習算法輸出的動作權重逐步提升,而依賴于先驗知識的動作權重相應降低,直到行動設備的決策過程完全由強化學習算法自主驅動。通過這種動態融合先驗知識和實時學習的策略,本專利技術不僅顯著提高了行動設備在復雜環境中的自主決策能力,而且有效縮短了學習周期,并降低了因試錯帶來的操作風險。這種方法為行動設備的智能化控制與自主操作提供了一種高效、安全的解決方案,拓寬了其在各種復雜應用場景中的應用潛力。
本文檔來自技高網...【技術保護點】
1.一種基于知識加速的行動設備的決策方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述利用匹配得到的模糊規則將行動設備的行進任務拆分為多個子任務,包括:
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
5.根據權利要求1所述的方法,其特征在于,所述可執行動作指令用于指示所述行動設備的行進速度和/或所述行動設備的行動方向。
6.根據權利要求1所述的方法,其特征在于,所述環境特征包括地形特征和/或氣候特征。
7.一種基于知識加速的行動設備的決策系統,其特征在于,包括:
8.根據權利要求7所述的系統,其特征在于,所述行動設備控制模塊還用于,獲取在仿真平臺上模擬行動設備行進過程中時刻的獎勵信息,所述獎勵信息反映所述時刻的動作指令執行結果;
9.根據權利要求7所述的系統,其特征在于,所述可執行動作指令用于指示所述行動設備的行進速度和/或所述行動設備的行動方向。
10.根據權利要求7所述的系統
...【技術特征摘要】
1.一種基于知識加速的行動設備的決策方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述利用匹配得到的模糊規則將行動設備的行進任務拆分為多個子任務,包括:
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
5.根據權利要求1所述的方法,其特征在于,所述可執行動作指令用于指示所述行動設備的行進速度和/或所述行動設備的行動方向。
6.根據權利要求1所述的方法,其特征在于,所述...
【專利技術屬性】
技術研發人員:李晟澤,姜浩,章杰元,張峰,李淵,羅常偉,
申請(專利權)人:中國人民解放軍軍事科學院戰爭研究院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。