一種融合經驗價值動態評估的強化學習避撞控制方法技術

技術編號：44463513 閱讀：4 留言：0更新日期：2025-03-04 17:37

一種融合經驗價值動態評估的強化學習避撞控制方法，為解決當前智能駕駛控制策略樣本利用率差的等問題。本發明專利技術涉及智能駕駛領域。本發明專利技術包括風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊和經驗池分配模塊。其中，風險評估模塊實時評估每個環境步的風險參數，經驗樣本分類模塊根據風險參數將經驗樣本分類儲存在安全、待觀察和危險三個經驗池中，經驗價值評估模塊實時動態評估經驗樣本的價值，并將三個經驗池中的經驗樣本分別進行排序，經驗池分配模塊實時動態評估三個經驗池的價值，確定三個經驗池的抽取比例，傳至智能體進行經驗回放，更新安全通行策略，重復上述過程，直至獲得最優的安全通行策略。

全部詳細技術資料下載

【技術實現步驟摘要】

：本專利技術屬于智能駕駛領域，具體地說是一種融合經驗價值動態評估的強化學習避撞控制方法。

技術介紹

0、技術背景：

1、在日常交通場景中，交通參與者的數量與日俱增，這無疑加重了交通環境的復雜程度，導致智能駕駛技術面臨巨大的挑戰。智能駕駛技術的發展目標是提高道路安全性、減少交通擁堵、提升出行效率，并為駕駛者提供更加舒適便捷的駕駛體驗。

2、智能駕駛技術通過集成先進的傳感器、高精度地圖、強大的計算平臺和復雜的算法，提供了增強的道路安全、優化的交通流量管理、提升的駕駛效率以及更加舒適和便捷的出行體驗，正逐步推動著交通領域的革命性變革。雖然智能駕駛技術擁有卓越的性能，但它在適應環境變化的駕駛挑戰方面仍存在局限性。

3、強化學習作為一種智能駕駛技術，雖然在智能駕駛技術方面展現出巨大的潛力，但也存在一些顯著的缺點。首先，它通常需要大量的樣本來進行有效的學習，這在數據獲取成本高或環境復雜的情況下尤為突出。其次，強化學習在處理具有稀疏獎勵的環境中面臨挑戰，智能體可能難以從環境中獲得足夠的反饋來優化其策略。最后，強化學習模型可能難以泛化到未見過的狀態或動作，這限制了其在多樣化任務中的應用。目前，為應對前述挑戰，強化學習領域已提出解決方法，這種方法雖具優勢，但仍有局限，專利cn118430246a在經驗池分類方面利用碰撞時間原則評估風險系數將經驗池分類，這顯然提高了樣本的利用率，顯著提升了強化學習算法的性能，然而，這種經驗池分類方法也存在一定的局限性。首先，熵下降過快，可能會導致智能體過早地放棄探索，從而陷入次優

技術實現思路

0、
技術實現思路
：

1、針對現有技術的不足，為了解決上述技術背景中存在的問題，本專利技術提供一種融合經驗價值動態評估的強化學習避撞控制方法。該方法采用模塊化結構，充分利用強化學習的全局尋優能力，并利用各個模塊之間的共同作用，實現不同場景下的最優安全通行策略的獲取。

2、本專利技術解決技術問題所采取的技術方案如下：

3、本專利技術為一種融合經驗價值動態評估的強化學習避撞控制方法，該方法包括環境、風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊、經驗池分配模塊和智能體；其中，風險評估模塊接收當前環境的狀態，并根據控制障礙函數實時評估每個環境步的風險參數；經驗樣本分類模塊接收上述風險參數，并根據風險參數分類經驗樣本，將安全經驗樣本儲存在安全經驗池中，將待觀察經驗樣本儲存在待觀察經驗池中，將危險經驗樣本儲存在危險經驗池中，輸出樣本分類后的經驗池，記為經驗池a；經驗樣本價值評估模塊實時動態評估經驗池a內所有經驗樣本的價值，并根據經驗樣本的價值將經驗樣本分別在安全、待觀察和危險三個經驗池中排序，排序后的經驗池，記為經驗池b；經驗池分配模塊實時動態評估經驗池b內安全、待觀察和危險三個經驗池的價值，并根據經驗池價值確定安全、待觀察和危險三個經驗池的抽取比例，并根據抽取比例從安全、待觀察和危險三個經驗池中共抽取一個批次的經驗樣本；智能體接收上述一個批次的經驗樣本，進行經驗回放，學習更新安全通行的策略；重復上述過程，直至獲取最優的安全通行策略；

4、該方法包括以下步驟：

5、步驟1、強化學習模型設計：

6、步驟1.1、狀態空間設計：

7、針對環境中的智能駕駛任務，自車與環境中周邊車輛的相對距離可以直觀地體現自車與周車的相對運動關系。所以強化學習中狀態空間定義如式(1)，

8、

9、ii為傳感器感知區域范圍內車道i上是否有其他車輛，n為車道數，lo和la分別為自車與障礙物在縱向和橫向上的相對距離，δlo和δla為lo和la對應的變化率，yaw和δyaw為車輛橫擺角和橫擺角變化率。

10、步驟1.2、動作空間設計：

11、動作空間為連續二維動作空間，包含車輛橫向與縱向控制量，所以強化學習中動作空間定義如式(2)，

12、?a＝[a1,a2],u1≤a1≤d1；u2≤a2≤d2?(2)

13、a1為車輛前輪轉角控制量；a2為車輛油門與制動控制量；u1和u2分別為a1和a2的下界；d1和d2分別為a1和a2的上界。

14、步驟1.3、獎勵函數設計：

15、本專利技術定義避撞場景下智能駕駛任務的獎勵函數如式(3)，

16、

17、ε為自車與障礙物之間的風險參數，laid和lahv分別為車道邊界位置和自車的橫向位置，lacenter為當前車道中心位置，rrisk為車輛風險的獎勵項，rinvasion為車輛與車道邊界之間的獎勵項，rcenter為車輛與車道中心線之間的獎勵項，rexist為車輛事故違章的獎勵項。

18、步驟2、風險評估模塊的構建：

19、風險評估模塊其中包括控制障礙函數，控制障礙函數結合自車與障礙物的狀態信息，輸出自車與障礙物之間的風險參數ε，所述控制障礙函數定義如式(4)、式(5)和式(6)，

20、

21、?h(lo)＝(losafe)2-(lo)2?(5)

22、?h(la)＝(lasafe)2-(la)2?(6)

23、lo和la分別為自車與障礙物在縱向和橫向上的相對距離，losafe和lasafe分別為自車與障礙物在縱向和橫向上的相對安全距離。

24、步驟3、經驗樣本分類模塊的構建：

25、經驗樣本分類模塊定義風險參數閾值參數ε1，ε2，當ε≤ε1時經驗樣本為安全經驗樣本，當ε1≤ε≤ε2時經驗樣本為待觀察經驗樣本，當ε2≤ε時經驗樣本為危險經驗樣本，安全、待觀察和危險樣本分別構成安全經驗池、待觀察經驗池和危險經驗池，記為經驗池a，在經驗池a中安全經驗樣本以[lα,s,a,r,s_]五元組形式存儲在安全經驗池中，待觀察經驗樣本以[l1,s,a,r,s_]五元組形式存儲在待觀察經驗池中，危險經驗樣本以[t1,t2,s,a,r,s_]六元組形式存儲在危險經驗池中；經驗池a中三個經驗池容量遵循m1＝m2＝m3關系，其中m1為安全經驗池容量；m2為待觀察經驗池容量；m3為危險經驗池容量；lα為softactor-critic算法的溫度損失，l1為sof本文檔來自技高網...

【技術保護點】

1.一種融合經驗價值動態評估的強化學習避撞控制方法，其特征在于：該方法包括環境、風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊、經驗池分配模塊和智能體；其中，風險評估模塊接收當前環境的狀態，并根據控制障礙函數實時評估每個環境步的風險參數；經驗樣本分類模塊根據風險參數對經驗樣本進行分類，將經驗樣本分為安全經驗樣本、待觀察經驗樣本和危險經驗樣本，并分別存儲在安全、待觀察和危險三個經驗池中，記為經驗池A；經驗樣本價值評估模塊實時動態評估經驗池A內所有經驗樣本的價值，并根據經驗樣本的價值對三個經驗池中的經驗樣本分別進行排序，排序后的經驗池，記為經驗池B；經驗池分配模塊實時動態評估經驗池B內安全、待觀察和危險三個經驗池的價值，并根據經驗池價值確定三個經驗池的抽取比例，抽取一個批次的經驗樣本；智能體接收一個批次的經驗樣本，進行經驗回放，學習更新安全通行策略；重復上述過程，直至獲取最優的安全通行策略；

2.根據權利要求1所述的一種融合經驗價值動態評估的強化學習避撞控制方法，其特征在于：所述強化學習方法經過風險評估模塊、經驗價值評估模塊和經驗比例分配模塊的共同作用，改變了傳統的

...

【技術特征摘要】

【專利技術屬性】
技術研發人員：李紹松，周宇，班明霞，黃熙哲，盧曉暉，崔高健，施宏達，張哲，
申請(專利權)人：長春工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術