System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 成人无码a级毛片免费,久久人妻少妇嫩草AV无码蜜桃,无码专区6080yy国产电影
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種融合經驗價值動態評估的強化學習避撞控制方法技術

    技術編號:44463513 閱讀:4 留言:0更新日期:2025-03-04 17:37
    一種融合經驗價值動態評估的強化學習避撞控制方法,為解決當前智能駕駛控制策略樣本利用率差的等問題。本發明專利技術涉及智能駕駛領域。本發明專利技術包括風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊和經驗池分配模塊。其中,風險評估模塊實時評估每個環境步的風險參數,經驗樣本分類模塊根據風險參數將經驗樣本分類儲存在安全、待觀察和危險三個經驗池中,經驗價值評估模塊實時動態評估經驗樣本的價值,并將三個經驗池中的經驗樣本分別進行排序,經驗池分配模塊實時動態評估三個經驗池的價值,確定三個經驗池的抽取比例,傳至智能體進行經驗回放,更新安全通行策略,重復上述過程,直至獲得最優的安全通行策略。

    【技術實現步驟摘要】

    :本專利技術屬于智能駕駛領域,具體地說是一種融合經驗價值動態評估的強化學習避撞控制方法


    技術介紹

    0、技術背景:

    1、在日常交通場景中,交通參與者的數量與日俱增,這無疑加重了交通環境的復雜程度,導致智能駕駛技術面臨巨大的挑戰。智能駕駛技術的發展目標是提高道路安全性、減少交通擁堵、提升出行效率,并為駕駛者提供更加舒適便捷的駕駛體驗。

    2、智能駕駛技術通過集成先進的傳感器、高精度地圖、強大的計算平臺和復雜的算法,提供了增強的道路安全、優化的交通流量管理、提升的駕駛效率以及更加舒適和便捷的出行體驗,正逐步推動著交通領域的革命性變革。雖然智能駕駛技術擁有卓越的性能,但它在適應環境變化的駕駛挑戰方面仍存在局限性。

    3、強化學習作為一種智能駕駛技術,雖然在智能駕駛技術方面展現出巨大的潛力,但也存在一些顯著的缺點。首先,它通常需要大量的樣本來進行有效的學習,這在數據獲取成本高或環境復雜的情況下尤為突出。其次,強化學習在處理具有稀疏獎勵的環境中面臨挑戰,智能體可能難以從環境中獲得足夠的反饋來優化其策略。最后,強化學習模型可能難以泛化到未見過的狀態或動作,這限制了其在多樣化任務中的應用。目前,為應對前述挑戰,強化學習領域已提出解決方法,這種方法雖具優勢,但仍有局限,專利cn118430246a在經驗池分類方面利用碰撞時間原則評估風險系數將經驗池分類,這顯然提高了樣本的利用率,顯著提升了強化學習算法的性能,然而,這種經驗池分類方法也存在一定的局限性。首先,熵下降過快,可能會導致智能體過早地放棄探索,從而陷入次優策略,其次,在利用碰撞時間評估風險系數時需要較多的環境狀態信息,可能會導致強化學習模型的計算成本增加,并且最終獲得的風險參數也為精度較低的離散狀態,導致智能體學出的動作可能會表現出抖動現象,最后,如果只考慮風險經驗樣本和普通經驗樣本,可能會導致智能體學到的智能駕駛策略陷入局部最優,造成智能車輛的潛在安全風險。此外,目前的經驗樣本抽取方面,通常采用經驗樣本隨機抽取,有助于打破經驗樣本間的時間相關性,增強學習過程的穩定性,然而,經驗樣本隨機抽取方法沒有對經驗池內的經驗樣本做進一步的重要性篩選,可能導致重要的經驗樣本被忽略;同時,無關或重復的經驗樣本可能會被過度采樣,可能使得學習過程變得低效,也不利于智能體從最近的、更相關的經驗中學習,從而影響學習策略的及時更新和適應。


    技術實現思路

    0、
    技術實現思路

    1、針對現有技術的不足,為了解決上述技術背景中存在的問題,本專利技術提供一種融合經驗價值動態評估的強化學習避撞控制方法。該方法采用模塊化結構,充分利用強化學習的全局尋優能力,并利用各個模塊之間的共同作用,實現不同場景下的最優安全通行策略的獲取。

    2、本專利技術解決技術問題所采取的技術方案如下:

    3、本專利技術為一種融合經驗價值動態評估的強化學習避撞控制方法,該方法包括環境、風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊、經驗池分配模塊和智能體;其中,風險評估模塊接收當前環境的狀態,并根據控制障礙函數實時評估每個環境步的風險參數;經驗樣本分類模塊接收上述風險參數,并根據風險參數分類經驗樣本,將安全經驗樣本儲存在安全經驗池中,將待觀察經驗樣本儲存在待觀察經驗池中,將危險經驗樣本儲存在危險經驗池中,輸出樣本分類后的經驗池,記為經驗池a;經驗樣本價值評估模塊實時動態評估經驗池a內所有經驗樣本的價值,并根據經驗樣本的價值將經驗樣本分別在安全、待觀察和危險三個經驗池中排序,排序后的經驗池,記為經驗池b;經驗池分配模塊實時動態評估經驗池b內安全、待觀察和危險三個經驗池的價值,并根據經驗池價值確定安全、待觀察和危險三個經驗池的抽取比例,并根據抽取比例從安全、待觀察和危險三個經驗池中共抽取一個批次的經驗樣本;智能體接收上述一個批次的經驗樣本,進行經驗回放,學習更新安全通行的策略;重復上述過程,直至獲取最優的安全通行策略;

    4、該方法包括以下步驟:

    5、步驟1、強化學習模型設計:

    6、步驟1.1、狀態空間設計:

    7、針對環境中的智能駕駛任務,自車與環境中周邊車輛的相對距離可以直觀地體現自車與周車的相對運動關系。所以強化學習中狀態空間定義如式(1),

    8、

    9、ii為傳感器感知區域范圍內車道i上是否有其他車輛,n為車道數,lo和la分別為自車與障礙物在縱向和橫向上的相對距離,δlo和δla為lo和la對應的變化率,yaw和δyaw為車輛橫擺角和橫擺角變化率。

    10、步驟1.2、動作空間設計:

    11、動作空間為連續二維動作空間,包含車輛橫向與縱向控制量,所以強化學習中動作空間定義如式(2),

    12、?a=[a1,a2],u1≤a1≤d1;u2≤a2≤d2?(2)

    13、a1為車輛前輪轉角控制量;a2為車輛油門與制動控制量;u1和u2分別為a1和a2的下界;d1和d2分別為a1和a2的上界。

    14、步驟1.3、獎勵函數設計:

    15、本專利技術定義避撞場景下智能駕駛任務的獎勵函數如式(3),

    16、

    17、ε為自車與障礙物之間的風險參數,laid和lahv分別為車道邊界位置和自車的橫向位置,lacenter為當前車道中心位置,rrisk為車輛風險的獎勵項,rinvasion為車輛與車道邊界之間的獎勵項,rcenter為車輛與車道中心線之間的獎勵項,rexist為車輛事故違章的獎勵項。

    18、步驟2、風險評估模塊的構建:

    19、風險評估模塊其中包括控制障礙函數,控制障礙函數結合自車與障礙物的狀態信息,輸出自車與障礙物之間的風險參數ε,所述控制障礙函數定義如式(4)、式(5)和式(6),

    20、

    21、?h(lo)=(losafe)2-(lo)2?(5)

    22、?h(la)=(lasafe)2-(la)2?(6)

    23、lo和la分別為自車與障礙物在縱向和橫向上的相對距離,losafe和lasafe分別為自車與障礙物在縱向和橫向上的相對安全距離。

    24、步驟3、經驗樣本分類模塊的構建:

    25、經驗樣本分類模塊定義風險參數閾值參數ε1,ε2,當ε≤ε1時經驗樣本為安全經驗樣本,當ε1≤ε≤ε2時經驗樣本為待觀察經驗樣本,當ε2≤ε時經驗樣本為危險經驗樣本,安全、待觀察和危險樣本分別構成安全經驗池、待觀察經驗池和危險經驗池,記為經驗池a,在經驗池a中安全經驗樣本以[lα,s,a,r,s_]五元組形式存儲在安全經驗池中,待觀察經驗樣本以[l1,s,a,r,s_]五元組形式存儲在待觀察經驗池中,危險經驗樣本以[t1,t2,s,a,r,s_]六元組形式存儲在危險經驗池中;經驗池a中三個經驗池容量遵循m1=m2=m3關系,其中m1為安全經驗池容量;m2為待觀察經驗池容量;m3為危險經驗池容量;lα為softactor-critic算法的溫度損失,l1為sof本文檔來自技高網...

    【技術保護點】

    1.一種融合經驗價值動態評估的強化學習避撞控制方法,其特征在于:該方法包括環境、風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊、經驗池分配模塊和智能體;其中,風險評估模塊接收當前環境的狀態,并根據控制障礙函數實時評估每個環境步的風險參數;經驗樣本分類模塊根據風險參數對經驗樣本進行分類,將經驗樣本分為安全經驗樣本、待觀察經驗樣本和危險經驗樣本,并分別存儲在安全、待觀察和危險三個經驗池中,記為經驗池A;經驗樣本價值評估模塊實時動態評估經驗池A內所有經驗樣本的價值,并根據經驗樣本的價值對三個經驗池中的經驗樣本分別進行排序,排序后的經驗池,記為經驗池B;經驗池分配模塊實時動態評估經驗池B內安全、待觀察和危險三個經驗池的價值,并根據經驗池價值確定三個經驗池的抽取比例,抽取一個批次的經驗樣本;智能體接收一個批次的經驗樣本,進行經驗回放,學習更新安全通行策略;重復上述過程,直至獲取最優的安全通行策略;

    2.根據權利要求1所述的一種融合經驗價值動態評估的強化學習避撞控制方法,其特征在于:所述強化學習方法經過風險評估模塊、經驗價值評估模塊和經驗比例分配模塊的共同作用,改變了傳統的經驗樣本的存儲和抽取的方式,提升了強化學習模型獲取最優安全通行策略的效率。

    ...

    【技術特征摘要】

    1.一種融合經驗價值動態評估的強化學習避撞控制方法,其特征在于:該方法包括環境、風險評估模塊、經驗樣本分類模塊、經驗樣本價值評估模塊、經驗池分配模塊和智能體;其中,風險評估模塊接收當前環境的狀態,并根據控制障礙函數實時評估每個環境步的風險參數;經驗樣本分類模塊根據風險參數對經驗樣本進行分類,將經驗樣本分為安全經驗樣本、待觀察經驗樣本和危險經驗樣本,并分別存儲在安全、待觀察和危險三個經驗池中,記為經驗池a;經驗樣本價值評估模塊實時動態評估經驗池a內所有經驗樣本的價值,并根據經驗樣本的價值對三個經驗池中的經驗樣本分別進行排序,排序后...

    【專利技術屬性】
    技術研發人員:李紹松周宇班明霞黃熙哲盧曉暉崔高健施宏達張哲
    申請(專利權)人:長春工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 在线精品自偷自拍无码中文| 亚洲视频无码高清在线| 无码熟熟妇丰满人妻啪啪软件| 无码人妻久久一区二区三区免费丨| 久久久久亚洲AV无码去区首 | 中出人妻中文字幕无码| 亚洲精品9999久久久久无码| 免费一区二区无码视频在线播放 | 五月丁香六月综合缴清无码| 亚洲av福利无码无一区二区| 无码里番纯肉h在线网站| 久久久无码精品亚洲日韩软件| 亚洲精品无码久久久久久久| 亚洲AV无码专区日韩| 日韩欧精品无码视频无删节| 亚洲AV无码成人精品区大在线| 亚洲另类无码专区首页| 无码人妻精品一区二区三区久久| 无码专区6080yy国产电影| av无码免费一区二区三区| 亚洲AV无码精品色午夜在线观看| 亚洲AⅤ永久无码精品AA| 国产精品无码亚洲一区二区三区| 久久久久亚洲AV片无码下载蜜桃| 狠狠躁天天躁中文字幕无码| 日韩视频无码日韩视频又2021| 无码狠狠躁久久久久久久| 精品无码国产污污污免费网站| 国产精品无码无卡在线播放 | 国产AⅤ无码专区亚洲AV| 无码办公室丝袜OL中文字幕 | 人妻无码第一区二区三区| 国产AV一区二区三区无码野战| 亚洲午夜AV无码专区在线播放| 人妻aⅴ中文字幕无码| 色国产色无码色欧美色在线 | 精品无码av无码专区| 国产精品无码一区二区在线| 国产成人无码A区精油按摩| 人妻丰满熟AV无码区HD| 国产精品午夜无码av体验区|