System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及強化學習,具體涉及一種應用于四足機器人的強化學習智能體訓練方法。
技術介紹
1、四足機器人是一種仿生設計的機器人,具備四個機械腿,每個機械腿由多個關節組成,能夠實現復雜的步態和動作。四足機器人的軀干部分搭載有多個傳感器,例如imu(inertial?measurement?unit,慣性測量單元)、激光雷達、攝像頭等,用于感知環境和維持平衡。雖然四足機器人具有較為穩定的結構以及多種傳感器,但在復雜環境中工作時,四足機器人仍會面臨多種挑戰。
2、復雜環境中的地面條件變化很多,例如不平整的地面、松軟的沙地、濕滑的表面等,這要求四足機器人能夠適應不同的地形特征調整足部關節扭矩。同時,環境中的動態和靜態障礙物可能會阻礙四足機器人的前進路線,需要四足機器人具備良好的避障能力與及時反應能力。另外,四足機器人配備的傳感器可能受到噪聲干擾,導致數據失真或不準確。因此,如何使得四足機器人能夠在復雜環境中正常工作,是需要解決的問題。
技術實現思路
1、有鑒于此,本專利技術提供了一種應用于四足機器人的強化學習智能體訓練方法,以解決四足機器人能夠在復雜環境中正常工作的問題。
2、第一方面,本專利技術提供了一種應用于四足機器人的強化學習智能體訓練方法,該方法包括:
3、在四足機器人的強化學習智能體開始本輪訓練時,獲取上一輪訓練得到的四足機器人的對抗網絡結構的網絡參數,對抗網絡結構包括對抗網絡、策略網絡和評價網絡;
4、基于對抗網絡結構,獲取本輪訓
5、基于多組環境交互數據,確定本輪訓練的累計獎勵;
6、基于本輪訓練的累計獎勵,對上一輪訓練得到的四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的四足機器人的對抗網絡結構的網絡參數,完成本輪訓練;
7、重復上述訓練過程,進行多輪訓練,得到四足機器人的目標強化學習智能體,使四足機器人應用目標強化學習智能體進行工作。
8、本專利技術實施例提供的應用于四足機器人的強化學習智能體訓練方法,通過整合對抗網絡、策略網絡和評價網絡的結構,在多種環境條件下獲取環境交互數據,并根據累計獎勵來迭代更新多個網絡的網絡參數,進行多輪訓練以獲得目標強化學習智能體,提高了目標強化學習智能體的魯棒性,使得四足機器人應用目標強化學習智能體進行工作時,在多種復雜環境下仍能正常工作,增強其對復雜環境的適應性和魯棒性。
9、在一種可選的實施方式中,基于對抗網絡結構,獲取本輪訓練中四足機器人與多種環境條件交互得到的多組環境交互數據,包括:
10、在獲取第一組環境交互數據時,基于四足機器人的多個傳感器,獲取初始環境狀態;
11、基于對抗網絡確定初始環境狀態對應的對抗噪聲;
12、基于策略網絡,根據初始環境狀態和初始環境狀態對應的對抗噪聲,確定四足機器人在初始環境狀態下對應的動作;
13、基于評價網絡,當四足機器人在初始環境狀態下采取動作后,得到獎勵;
14、將動作與任一環境條件交互得到的環境狀態作為下一組環境交互數據的初始環境狀態,重復上述獲取初始環境狀態、動作和獎勵的過程,得到用于本輪訓練的多組環境交互數據。
15、本專利技術實施例提供的應用于四足機器人的強化學習智能體訓練方法,通過利用四足機器人的傳感器捕捉不同環境條件下的環境狀態,在該環境狀態下通過對抗網絡確定對抗噪聲,并通過策略網絡依據當前環境狀態及對抗噪聲,決定四足機器人應采取的動作,通過評價網絡根據四足機器人執行動作后的結果確定獎勵,重復上述過程獲取多組環境交互數據,為強化學習智能體的訓練提供了豐富的訓練樣本。
16、在一種可選的實施方式中,基于本輪訓練的累計獎勵,對上一輪訓練得到的四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的四足機器人的對抗網絡結構的網絡參數,包括:
17、將對抗網絡作為對抗智能體,將策略網絡作為本體智能體,構建零和博弈問題;
18、以求解零和博弈問題的納什均衡點為目標,基于本輪訓練的累計獎勵,對上一輪訓練得到的四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的四足機器人的對抗網絡結構的網絡參數。
19、本專利技術實施例提供的應用于四足機器人的強化學習智能體訓練方法,通過將對抗網絡與策略網絡構建成零和博弈問題,并求解納什均衡點來更新網絡參數,在兩個智能體之間的動態平衡中尋找最優解,提高強化學習智能體的訓練效率。
20、在一種可選的實施方式中,以求解零和博弈問題的納什均衡點為目標,對上一輪訓練得到的四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的四足機器人的對抗網絡結構的網絡參數,包括:
21、固定策略網絡和評價網絡的上一輪訓練的網絡參數,基于本輪訓練的累計獎勵,對對抗網絡的上一輪訓練的網絡參數進行梯度上升,得到對抗網絡的本輪訓練的網絡參數;
22、固定對抗網絡和評價網絡的上一輪訓練的網絡參數,基于本輪訓練的累計獎勵,對策略網絡的上一輪訓練的網絡參數進行梯度下降,得到策略網絡的本輪訓練的網絡參數;
23、固定對抗網絡和策略網絡的上一輪訓練的網絡參數,對評價網絡的上一輪訓練的網絡參數進行更新,得到評價網絡的本輪訓練的網絡參數。
24、本專利技術實施例提供的應用于四足機器人的強化學習智能體訓練方法,通過對抗網絡的梯度上升,使其參數向著能夠最大化策略網絡成本的方向更新,通過策略網絡的梯度下降,找到在含有對抗噪聲情況下的最優策略,即最小化長期成本,最大化累積獎勵,通過對上述過程的迭代,策略網絡逐漸學會在含有對抗噪聲的環境中做出最優決策,同時對抗網絡達到其最佳干擾策略,二者趨于穩定形成納什均衡點,從而能夠得到具有良好泛化能力和魯棒性的強化學習智能體。
25、在一種可選的實施方式中,重復上述訓練過程,進行多輪訓練,得到四足機器人的目標強化學習智能體,包括:
26、重復上述訓練過程,在訓練輪次達到預設輪次的情況下,將對抗網絡結構中的策略網絡作為目標強化學習智能體;
27、或者,
28、重復上述訓練過程,在對抗網絡結構的網絡參數達到收斂的情況下,將對抗網絡結構中的策略網絡作為目標強化學習智能體。
29、本專利技術實施例提供的應用于四足機器人的強化學習智能體訓練方法,通過持續迭代和優化策略網絡直至滿足預設條件,使得四足機器人的目標強化學習智能體具備高度的穩定性和良好的泛化能力,確保四足機器人應用該目標強化學習智能體能夠在多種復雜環境下正常工作。
30、在一種可選的實施方式中,對抗網絡包括第一輸入層、第一隱藏層和第一輸出層,基于對抗網絡確定初始環境狀態對應的對抗噪聲,包括:
31、基于對抗網絡的第一輸入層,接收初始環境狀態,調整初始環境狀態的向量維度,得到初始環境狀態的數據特征表示;
...【技術保護點】
1.一種應用于四足機器人的強化學習智能體訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述對抗網絡結構,獲取本輪訓練中所述四足機器人與多種環境條件交互得到的多組環境交互數據,包括:
3.根據權利要求1所述的方法,其特征在于,所述基于所述本輪訓練的累計獎勵,對上一輪訓練得到的所述四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的所述四足機器人的對抗網絡結構的網絡參數,包括:
4.根據權利要求3所述的方法,其特征在于,所述以求解所述零和博弈問題的納什均衡點為目標,對上一輪訓練得到的所述四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的所述四足機器人的對抗網絡結構的網絡參數,包括:
5.根據權利要求1所述的方法,其特征在于,所述重復上述訓練過程,進行多輪訓練,得到所述四足機器人的目標強化學習智能體,包括:
6.根據權利要求2所述的方法,其特征在于,所述對抗網絡包括第一輸入層、第一隱藏層和第一輸出層,所述基于所述對抗網絡確定所述初始環境狀態對應的對抗噪聲,包括:
< ...【技術特征摘要】
1.一種應用于四足機器人的強化學習智能體訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述對抗網絡結構,獲取本輪訓練中所述四足機器人與多種環境條件交互得到的多組環境交互數據,包括:
3.根據權利要求1所述的方法,其特征在于,所述基于所述本輪訓練的累計獎勵,對上一輪訓練得到的所述四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的所述四足機器人的對抗網絡結構的網絡參數,包括:
4.根據權利要求3所述的方法,其特征在于,所述以求解所述零和博弈問題的納什均衡點為目標,對上一輪訓練得到的所述四足機器人的對抗網絡結構的網絡參數進行更新,得到本輪訓練的所述四足機器人的對抗網絡結構的網絡參數,包括:
5.根據權利要求1所述的方法,其特征在于,所述重復上述訓練過程,進行多輪訓練,得到所述四足機器...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。