System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费A级毛片无码A,精品国产a∨无码一区二区三区,精品无码中文视频在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于SAC的汽車自適應巡航控制優化方法技術

    技術編號:44117921 閱讀:18 留言:0更新日期:2025-01-24 22:40
    一種基于SAC的汽車自適應巡航控制優化方法,屬于自動駕駛領域,其特征在于,該方法包括以下模塊:駕駛環境、狀態信息處理模塊、SAC強化學習模塊、動態獎勵函數模塊、經驗分類模塊和經驗采樣模塊。首先,從駕駛環境中獲取兩個維度的融合信息,得到當前狀態,然后,SAC強化學習模塊基于當前狀態決策控制動作并應用于駕駛環境,更新環境并獲取下一時刻的狀態。其中,動態獎勵函數模塊根據動作效果和重要性差異計算獎勵值;經驗分類模塊根據駕駛環境對經驗樣本進行分區域存儲;經驗采樣模塊采用固定經驗采樣和局部優先經驗回放方法,對樣本進行采樣,用于訓練SAC強化學習模塊,并決策出最優控制動作,實現自適應巡航控制。

    【技術實現步驟摘要】

    :本專利技術屬于自動駕駛領域,具體地說是一種在城市工況下,智能汽車基于sac深度強化學習進行自適應巡航的控制優化方法。


    技術介紹

    0、
    技術介紹

    1、隨著智能網聯技術的快速發展,全球汽車智能化進程持續加速。智能網聯汽車以其潛在的能力,如減少安全事故和環境污染、緩解交通擁堵、降低能源消耗,成為了國內外汽車產業發展的重要方向之一。巡航控制是自動駕駛汽車決策控制系統的重要組成部分,頻繁的加減速、緊急制動等控制行為不僅影響交通通行效率和穩定性,還會影響車輛行駛過程中的安全性和舒適性,甚至導致嚴重的碰撞事故,因此,采取合理有效的巡航控制方法就具有重要意義。

    2、現有基于規則的自適應巡航控制方法受限于設計人員的先驗知識,難以應對復雜多變的城市交通場景。強化學習算法能夠通過與環境的持續交互自主學習最優策略,從而解決復雜的決策控制問題。其中,soft?actor-critic(軟演員-評論家)算法通過連續動作提供更靈活、更精細的控制,有助于實現車輛速度的平穩調整,從而優化自適應巡航控制的性能。

    3、然而,由于城市交通環境的動態變化及不同時間點性能需求的重要性差異,采用固定比重的獎勵函數會降低學習效率,導致算法訓練周期長、收斂困難。此外,若依賴單一的經驗池對強化學習網絡進行訓練,會降低學習的針對性,導致網絡適應能力差、收斂速度慢。在經驗池采樣方面,智能體若采用傳統的均勻隨機抽取方式,會導致經驗利用率低,減慢算法收斂速度,削弱網絡泛化能力。

    4、在基于深度強化學習的自動駕駛決策方面,有學者研究了以語義分割圖和低維駕駛特征為輸入,通過生成器學習獲得車輛的動作作為網絡輸出,并采用sac算法實現指定時間內的安全駕駛。然而,該系統的巡航場景比較單一,獎勵函數不能夠隨駕駛場景動態變化,并采用傳統的隨機采樣方式,網絡收斂速度慢、魯棒性低,最終訓練得到的sac網絡在泛化能力上也具有一定的局限性。


    技術實現思路

    0、
    技術實現思路

    1、為解決上述技術問題,本專利技術綜合考慮安全性、通行效率和舒適性,提出了一種基于sac的汽車自適應巡航控制優化方法。

    2、本專利技術解決技術問題所采取的技術方案如下:

    3、首先,從駕駛環境中獲取環境信息,通過狀態信息處理模塊進行兩個維度的信息融合,得到當前狀態;其次,sac強化學習模塊基于當前狀態決策出控制動作并應用于駕駛環境,更新駕駛環境并獲取下一時刻的狀態,動態獎勵函數模塊根據動作效果計算獎勵值;最后,經驗分類模塊根據駕駛環境對經驗樣本進行分區域存儲,經驗采樣模塊對經驗樣本進行采樣,用于訓練sac強化學習模塊,訓練后的sac強化學習模塊決策出最優控制動作,實現汽車的自適應巡航控制,該方法包括以下步驟:

    4、步驟1、構建駕駛環境:

    5、本專利技術的駕駛環境包括穩定跟車、前車切入、前車切出和定速巡航,訓練的整體流程如下:

    6、訓練場景中第一個場景為跟隨前車場景,前車的初始速度為40km/h;然后進入加速跟車場景,前車迅速加速到50km/h;接著進入減速跟車場景,前車由50km/h減速至20km/h;然后進入前車切出場景,主車此時的目標巡航速度為50km/h;接著進入前車切入場景,前車以30km/h的車速切入主車所在的車道;最后進入巡航場景,主車應該以50km/h的車速進行巡航。

    7、步驟2、設計狀態信息處理模塊:

    8、本專利技術把仿真場景下的自動駕駛目標分解成三部分:安全性、通行效率和舒適性。狀態信息包含自動駕駛車輛自身位置信息、周邊環境信息(如車輛、車道線)。因此狀態信息數據包含兩項:高維圖像數據和低維運動測量數據。其中,低維運動測量數據包括主車與前車實際距離與理想跟車距離之差δs和主車與前車的速度之差δv,圖像數據來自于語義分割俯視圖,對圖像的處理主要包含了兩個步驟:剪裁圖像、顏色簡化。

    9、接著把運動測量數據和經過卷積神經網絡處理后的圖像特征信息進行拼接,作為智能體的狀態輸入,這樣有利于提高智能體理解場景的能力。

    10、步驟3、設計sac強化學習模塊:

    11、在當前時刻,將處理后的狀態輸入actor神經網絡輸出動作,一起存入經驗分類模塊,經過經驗采樣模塊抽取經驗,輸入到critic網絡輸出對該狀態下采取該動作的評價值,然后,將輸出的動作用于車輛,得到在下一時刻的狀態,如此循環迭代。網絡參數優化流程為:當前時刻狀態、動作、獎勵和下一個時刻狀態將以元組的形式保存到經驗池中,經驗池中的經驗將會被抽樣一部分進行神經網絡梯度下降,分別更新actor網絡(動作策略網絡)和critic網絡(動作值估計網絡)參數,其過程包括如下子步驟:

    12、步驟3.1、動作空間設計:

    13、考慮到自適應巡航控制任務連續動作空間的要求,采用縱向連續動作空間[-1,1]。其中[-1,0]為剎車減速動作,[0,1]為加速動作。因為本專利技術研究的是城市工況下的自適應巡航控制任務,所以設定主車的最高速度不超過60km/h。

    14、步驟3.2、神經網絡設計:

    15、步驟3.2.1、actor網絡設計:

    16、actor網絡為動作策略網絡,需要利用狀態信息處理模塊對原始圖像信息進行處理,隨后再通過全連接網絡對輸入信息進行進一步非線性映射處理,輸出層輸出該狀態下均值和方差的高斯分布,將動作投影到[-1,1],從而獲得真實的油門或剎車動作值。

    17、步驟3.2.2、critic網絡設計:

    18、critic網絡為動作值估計網絡,利用狀態信息處理模塊對原始圖像信息進行處理,將特征信息展平與運動測量信息拼接,得到長度為259的一維向量,接著,全連接層將狀態信息和動作的結合進行非線性映射,輸出層輸出該動作的狀態動作值q(st,at)。

    19、步驟4、獎勵函數設計:

    20、本專利技術的獎勵函數設計由安全性獎勵、行車效率獎勵、舒適性獎勵組成,具體如下:

    21、步驟4.1、安全性獎勵:

    22、跟車行駛時,自車需要與前車保持理想的跟車距離,安全性獎勵具體計算公式如下,

    23、

    24、其中,dactual為主車與前車的實際距離,dideal為理想跟車距離,η、ω是超參數,分別設置為:η=1,為理想跟車區間的最大獎勵值,為實際跟車距離大于理想跟車距離的獎勵懲罰比例系數,ω=0.1,為實際跟車距離小于理想跟車距離的獎勵懲罰比例系數。

    25、步驟4.2、行車效率獎勵:

    26、行車效率體現在快速調整車速至前車速度或者是設定的巡航速度,具體計算公式如下,

    27、

    28、其中,vactual為主車的當前實際速度,vtarget為目標行駛速度。由于本專利技術研究的是城市工況下的自適應巡航駕駛,所以研究的車速范圍為0-60km/h。與安全性獎勵一樣,由于傳感器的測量數據會存在誤差,所以給理想速度區域設置一個1米的緩沖區間,提高智能體學習到最優策本文檔來自技高網...

    【技術保護點】

    1.一種基于SAC的汽車自適應巡航控制優化方法,屬于自動駕駛領域,其特征在于,該方法包括以下模塊:駕駛環境、狀態信息處理模塊、SAC強化學習模塊、動態獎勵函數模塊、經驗分類模塊和經驗采樣模塊;首先,從駕駛環境中獲取兩個維度的融合信息,得到當前狀態,然后,SAC強化學習模塊基于當前狀態決策控制動作并應用于駕駛環境,更新環境并獲取下一時刻的狀態;其中,動態獎勵函數模塊根據動作效果和重要性差異計算獎勵值,經驗分類模塊根據駕駛環境對經驗樣本進行分區域存儲,經驗采樣模塊采用固定經驗采樣和局部優先經驗回放方法,對樣本進行采樣,用于訓練SAC強化學習模塊,并決策出最優控制動作,實現自適應巡航控制。

    2.根據權利要求1所述的一種基于SAC的汽車自適應巡航控制優化方法,其特征在于,所述的動態獎勵函數模塊包括安全性獎勵、行車效率獎勵和舒適性獎勵;其中,安全性獎勵是指自車需要與前車保持理想的跟車距離,具體計算公式如下,

    3.根據權利要求1所述的一種基于SAC的汽車自適應巡航控制優化方法,其特征在于,所述的基于多任務的經驗分類模塊設計了四個不同經驗回放池,分別用來存放不同駕駛環境下的樣本,所述駕駛環境包括穩定跟車、前車切入、前車切出、定速巡航,當車輛進入到不同的駕駛環境時,相應地從對應的經驗池中抽取經驗,以進行有針對性的訓練。

    4.根據權利要求1所述的一種基于SAC的汽車自適應巡航控制優化方法,其特征在于,所述的經驗采樣模塊包括兩種方法:固定經驗采樣和局部優先經驗回放;其中,固定經驗采樣是指,每次從經驗池中固定抽取最新生成的那一條經驗;所述局部優先經驗回放方法,是指首先從經驗池中通過均勻隨機抽取的方式抽取2M條經驗,M表示每次梯度下降計算需要的隨機經驗條數,把這些經驗臨時存儲在臨時經驗池中,然后根據每條經驗的總獎勵值大小對這些經驗進行排序,將排序后的經驗按序分成三份部分,第1至M/2部分為高學習效果的經驗,第M/2至M部分為中等學習效果的經驗,第M至2M部分為低學習效果的經驗,最后按照比例從這三個部分中抽取經驗,從高學習效果部分抽取前M/4條經驗,從中等學習效果部分抽取前M/4條經驗,從低學習效果部分抽取后M/2條經驗,這樣,每次梯度下降計算需要的總經驗數量為M+1條。

    ...

    【技術特征摘要】

    1.一種基于sac的汽車自適應巡航控制優化方法,屬于自動駕駛領域,其特征在于,該方法包括以下模塊:駕駛環境、狀態信息處理模塊、sac強化學習模塊、動態獎勵函數模塊、經驗分類模塊和經驗采樣模塊;首先,從駕駛環境中獲取兩個維度的融合信息,得到當前狀態,然后,sac強化學習模塊基于當前狀態決策控制動作并應用于駕駛環境,更新環境并獲取下一時刻的狀態;其中,動態獎勵函數模塊根據動作效果和重要性差異計算獎勵值,經驗分類模塊根據駕駛環境對經驗樣本進行分區域存儲,經驗采樣模塊采用固定經驗采樣和局部優先經驗回放方法,對樣本進行采樣,用于訓練sac強化學習模塊,并決策出最優控制動作,實現自適應巡航控制。

    2.根據權利要求1所述的一種基于sac的汽車自適應巡航控制優化方法,其特征在于,所述的動態獎勵函數模塊包括安全性獎勵、行車效率獎勵和舒適性獎勵;其中,安全性獎勵是指自車需要與前車保持理想的跟車距離,具體計算公式如下,

    3.根據權利要求1所述的一種基于sac的汽車自適應巡航控制優化方法,其特征在于,所述的基于多任務的經驗分類模塊設計了四個不同...

    【專利技術屬性】
    技術研發人員:盧曉暉熊瑞霞班明霞李德濤張鵬飛宋朝龍李紹松崔高健張裊娜
    申請(專利權)人:長春工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码丰满熟妇浪潮一区二区AV| 久久人妻无码中文字幕| 在线精品自偷自拍无码中文| 极品无码国模国产在线观看| 久久99久久无码毛片一区二区 | 久久综合精品国产二区无码| 免费A级毛片无码无遮挡内射 | 久久亚洲精品无码观看不卡| 久久久久亚洲AV无码专区体验| 无码少妇一区二区浪潮av| 无码精品国产一区二区三区免费| 无码AV一区二区三区无码 | 国产福利电影一区二区三区久久老子无码午夜伦不 | 特级无码a级毛片特黄| 久久99精品久久久久久hb无码| 亚洲不卡无码av中文字幕| 成人免费午夜无码视频| 国产午夜无码视频在线观看| 无码欧精品亚洲日韩一区夜夜嗨| 亚洲日韩国产AV无码无码精品| 亚洲国产精品成人精品无码区| 国产成人无码精品久久久免费| 久久久久久久久无码精品亚洲日韩| 久久久久亚洲AV无码专区首JN | AV无码免费永久在线观看| 国产精品无码无片在线观看| 免费无码又爽又刺激高潮软件| 办公室丝袜激情无码播放| 日韩久久无码免费毛片软件| 国产精品无码制服丝袜| 免费A级毛片无码A| 无码不卡亚洲成?人片| 特黄熟妇丰满人妻无码| 无码专区国产无套粉嫩白浆内射| 毛片无码一区二区三区a片视频| 久久天堂av综合色无码专区| a级毛片无码免费真人| 免费无码国产在线观国内自拍中文字幕| 无码精品一区二区三区| 国产av无码久久精品| 丝袜无码一区二区三区|