System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及機器人智能控制,特別是指一種輸入飽和的柔性雙連桿機械臂強化學習控制方法及裝置。
技術介紹
1、柔性機械臂的控制研究首先需要建立其動力學模型,通常采用pde(partialdifferential?equation,偏微分方程)描述,這增加了控制設計的復雜性。為了簡化模型的復雜度,研究者常將pde轉換為ode(ordinary?differentialequation,常微分方程),并通過假設模態法等方法進行降維。
2、非線性飽和是控制系統中常見的問題,尤其在執行器中經常觀察到這種現象。輸入飽和的影響通常是不可避免的,它需要足夠的輸入功率,并且執行器輸入可能受到輸入扭矩的幅值和速率約束。當執行器的輸入超過最大閾值時,執行器將維持在最大值運行,這可能會導致一些不可預測的情況發生,如能量不斷增加,對控制設計有很高的要求。因此,需要加入補償系統來補償飽和非線性的影響,以確保柔性系統的穩定性。
3、在控制策略方面,近年來柔性機械臂控制領域引入了多種控制策略,包括pid控制、自適應控制、模糊控制、最優控制以及強化學習控制。面對模型不確定性,神經網絡控制方法被廣泛應用于控制器設計,提高了系統的學習能力和控制效果。神經網絡控制優勢在于減少了對偏微分方程模型的依賴,降低了傳感器需求。然而,神經網絡控制也面臨過擬合或欠擬合的挑戰,影響其泛化能力和精度。
4、在現有的柔性機械臂振動控制中,柔性機械臂因其在運動中會產生彈性變形而難以實現理想的控制效果和其柔性的特性,會使得其建模更加困難。其次,神經網絡在
技術實現思路
1、為了解決現有技術存在的柔性機械臂系統大多使用pde進行動力學建模,pde建模可以以高精度來描述柔性系統,但是在實際應用中,使用pde動力學方程構建系統模型會造成控制器設計復雜。在傳統的機械臂控制中,通常是針對剛性機械臂進行軌跡跟蹤,但是,針對柔性機械臂還要考慮其由于柔性結構而引起的彈性振動對軌跡跟蹤的影響。此外,神經網絡控制因其出色的學習能力被廣泛用于控制器設計,尤其在處理模型不確定性和非線性時表現出色。但神經網絡可能因過擬合或欠擬合而影響補償精度,故需設計新的控制策略來評估并調整控制力矩,以優化振動抑制效果。由于執行器非線性功能未知,忽略飽和非線性會導致系統振動,降低可靠性的技術問題,本專利技術實施例提供了一種輸入飽和的柔性雙連桿機械臂強化學習控制方法及裝置。所述技術方案如下:
2、一方面,提供了一種輸入飽和的柔性雙連桿機械臂強化學習控制方法,該方法由輸入飽和的柔性雙連桿機械臂強化學習控制裝置實現,該方法包括:
3、s1、使用假設模態法,構建柔性雙連桿機械臂系統的動力學模型。
4、s2、設計帶輸入飽和的強化學習自適應振動控制器。
5、s3、根據帶輸入飽和的強化學習自適應振動控制器,對柔性雙連桿機械臂系統進行控制,得到最優控制策略。
6、可選地,s1中的柔性雙連桿機械臂系統的動力學模型,如下式(1)所示:
7、
8、式中,j(q)表示慣性矩陣,q=[θ,l]t表示柔性雙連桿機械臂系統的狀態變量,表示隨時間變化的廣義坐標,n1表示第一個連桿的自由度,n2表示第二個連桿的自由度,θ=[θ1,θ2]t表示柔性連桿的旋轉角度,θ1表示第一個連桿轉動的角度,θ2表示第二個連桿轉動的角度,表示狀態變量q的二階導數,表示科里奧利矩陣和向心效應,表示狀態變量q的一階導數,表示剛度矩陣,表示轉矩τ的飽和非線性函數,表示實數集合,n表示系統的總自由度,t表示矩陣轉置,τ表示轉矩。
9、可選地,s2中的設計帶輸入飽和的強化學習自適應振動控制器,包括:
10、s21、設計評價神經網絡,用于評估當前控制策略的性能。
11、s22、設計執行神經網絡,用于生成控制策略,執行神經網絡采用徑向基函數神經網絡。
12、s23、將系統信息作為輸入數據,送入評價神經網絡進行處理,得到評價神經網絡輸出,將評價神經網絡輸出作為執行神經網絡的輸入,以指導執行神經網絡進行訓練。
13、s24、構建新的李雅普諾夫函數,證實由柔性雙連桿機械臂系統的動力學模型以及帶輸入飽和的強化學習自適應振動控制器構成的閉環控制系統具有半全局一致的最終有界性。
14、可選地,s21中的設計評價神經網絡,包括:
15、s211、設計長期成本函數,用于定量衡量預設時間段內的控制策略表現。
16、其中,長期成本函數,如下式(2)所示:
17、
18、式中,表示評價神經網絡的最優權重,t表示矩陣轉置,zc表示神經網絡的高斯基函數,sc=f1=q1-qr,f1表示由預設的參考軌跡與經過柔性雙連桿機械臂系統得到的輸入狀態計算得到的誤差,q1表示當前系統的狀態,qr表示系統的期望狀態,∈c表示評價神經網絡的逼近誤差,t表示積分的下界,n表示積分變量,ζ表示未來成本的折現系數,υ(n)表示瞬時成本函數。
19、s212、設計評價神經網絡的權重更新率,如下式(3)所示:
20、
21、式中,表示下一時刻評價神經網絡實際的權重值,σc>0表示評價神經網絡的學習率,表示當前時刻評價神經網絡實際的權重值,表示sc的導數,表示對sc的梯度,υ(t)表示瞬時成本函數。
22、可選地,s22中的設計執行神經網絡,包括:
23、s221、構建輔助系統,用于抵消飽和輸入對振動抑制的影響。
24、s222、根據柔性雙連桿機械臂系統的動力學模型,結合反步法推導出初始控制力矩。
25、s223、使用執行神經網絡近似柔性雙連桿機械臂系統的動力學模型的未知的動態信息,得到新的控制力矩。
26、可選地,s221中的輔助系統,如下式(4)所示:
27、
28、式中,表示下一時刻的輔助變量的值,kξ>0,ξ表示輔助變量,f2表示跟蹤誤差,t表示矩陣轉置,δτ=s(τ)-τ,s(τ)表示轉矩τ的飽和非線性函數,
29、可選地,s24中的新的李雅普諾夫函數,如下式(5)所示:
30、
31、式中,v表示李雅普諾夫函數,f1表示跟蹤誤差,t表示矩陣轉置,f2表示跟蹤誤差,j表示慣性矩陣,ξ表示輔助變量,表示行動神經網絡權重的誤差,表示評價神經網絡權重的誤差。
32、另一方面,提供了一種輸入飽和的柔性雙連桿機械臂強化學習控制裝置,該裝置應用于輸入飽和的柔性雙連桿機械臂強化學習控制方法,該裝置包括:
33、構本文檔來自技高網...
【技術保護點】
1.一種輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述方法包括:
2.根據權利要求1所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述S1中的柔性雙連桿機械臂系統的動力學模型,如下式(1)所示:
3.根據權利要求1所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述S2中的設計帶輸入飽和的強化學習自適應振動控制器,包括:
4.根據權利要求3所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述S21中的設計評價神經網絡,包括:
5.根據權利要求3所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述S22中的設計執行神經網絡,包括:
6.根據權利要求5所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述S221中的輔助系統,如下式(4)所示:
7.根據權利要求3所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述S24中的新的李雅普諾夫函數,如下式(5)所示:
8.一種輸入飽和的柔性雙連桿機械臂強化學習
9.根據權利要求8所述的輸入飽和的柔性雙連桿機械臂強化學習控制裝置,其特征在于,所述柔性雙連桿機械臂系統的動力學模型,如下式(1)所示:
10.根據權利要求8所述的輸入飽和的柔性雙連桿機械臂強化學習控制裝置,其特征在于,所述設計帶輸入飽和的強化學習自適應振動控制器,包括:
...【技術特征摘要】
1.一種輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述方法包括:
2.根據權利要求1所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述s1中的柔性雙連桿機械臂系統的動力學模型,如下式(1)所示:
3.根據權利要求1所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述s2中的設計帶輸入飽和的強化學習自適應振動控制器,包括:
4.根據權利要求3所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述s21中的設計評價神經網絡,包括:
5.根據權利要求3所述的輸入飽和的柔性雙連桿機械臂強化學習控制方法,其特征在于,所述s22中的設計執行神經網絡,包括:
6.根據權利要求5所述的輸入飽和的柔性雙連桿機械臂強化學習...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。