System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)提出一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,涉及基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛車輛減少超參數(shù)調(diào)整的。
技術(shù)介紹
1、隨著經(jīng)濟(jì)全球化的快速發(fā)展和城市化的快速擴(kuò)張,汽車保有量急劇增加,但是隨之而來(lái)的交通事故發(fā)生率也相應(yīng)增大,自動(dòng)駕駛有望在減少交通事故,提升道路使用效率和緩解交通擁堵等方面做出重大貢獻(xiàn),然而這項(xiàng)技術(shù)在實(shí)現(xiàn)過(guò)程中面臨諸多技術(shù)挑戰(zhàn)。為了確保高速公路環(huán)境中自動(dòng)駕駛車輛行車安全,需要構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的算法,并設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估訓(xùn)練過(guò)程中車輛超參數(shù)的影響,如車速、偏航角和方向盤轉(zhuǎn)角等超參數(shù)對(duì)車輛操縱穩(wěn)定性的影響,保證車輛穩(wěn)定同時(shí)還要快速實(shí)現(xiàn)車道保持、變道超車等復(fù)雜任務(wù),目前大多數(shù)操縱穩(wěn)定性獎(jiǎng)勵(lì)函數(shù)依賴于經(jīng)驗(yàn)性假設(shè)和車輛動(dòng)力學(xué)模型,大量超參數(shù)的獎(jiǎng)勵(lì)函數(shù)設(shè)置成為難題,特別是輪胎處于復(fù)合工況下的車輛超參數(shù)非線性獎(jiǎng)勵(lì)函數(shù)更是難以調(diào)整。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問(wèn)題,本專利技術(shù)提出了深度逆強(qiáng)化學(xué)習(xí)的車輛操縱穩(wěn)定性非線性獎(jiǎng)勵(lì)學(xué)習(xí)架構(gòu),并進(jìn)一步提出了高速公路場(chǎng)景下自車非線性操縱穩(wěn)定性獎(jiǎng)勵(lì)與行駛規(guī)則獎(jiǎng)勵(lì)的自動(dòng)駕駛集成決控策略,從而大大減少了在集成決控策略訓(xùn)練過(guò)程中對(duì)車輛操縱穩(wěn)定性獎(jiǎng)勵(lì)函數(shù)的超參數(shù)設(shè)置。
2、根據(jù)本專利技術(shù)的一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其包括以下具體的相關(guān)步驟:
3、步驟s1:獲取深度逆強(qiáng)化學(xué)習(xí)訓(xùn)練所需的專家策略;
4、步驟s2:使用深度逆強(qiáng)化學(xué)習(xí)獲取車輛操縱穩(wěn)定性獎(jiǎng)勵(lì);
5、步驟s3:使用多進(jìn)程異步方法
6、步驟s4:高速?gòu)?fù)雜場(chǎng)景中的車輛集成決控。
7、步驟s1具體包括以下內(nèi)容:
8、步驟s11:原始專家數(shù)據(jù)為在不同前輪轉(zhuǎn)角、縱向車速、路面摩擦系數(shù)下,不同車輛滑移率所對(duì)應(yīng)的車輛操縱穩(wěn)定性評(píng)估值,值越大說(shuō)明車輛的操縱穩(wěn)定性越好,每一組不同的前輪轉(zhuǎn)角、縱向車速和路面摩擦系數(shù)的固定數(shù)值為一種工況,每種工況都對(duì)應(yīng)了一條曲線,為了獲取概率分布函數(shù)形式的專家策略,需要對(duì)原始專家數(shù)據(jù)先進(jìn)行防止數(shù)值溢出預(yù)處理,為了防止出現(xiàn)過(guò)大,造成數(shù)值計(jì)算溢出,每種工況中的都需要減去當(dāng)前工況下最小的值,設(shè)置表達(dá)式如下式所示:
9、
10、步驟s12:使用softmax方法,將每個(gè)工況下根據(jù)不同的值,轉(zhuǎn)換為概率分布,且概率和為1,設(shè)置表達(dá)式如下式所示:
11、
12、步驟s13:使用參數(shù)化的正態(tài)分布來(lái)近似表示,即服從正態(tài)分布,和為正態(tài)分布的均值和方差,具體近似方法是通過(guò)最小化kl散度來(lái)實(shí)現(xiàn),設(shè)置表達(dá)式如下式所示:
13、
14、步驟s14:具體計(jì)算參數(shù)的方式,是通過(guò)使用下式梯度下降算法式來(lái)完成對(duì)的最優(yōu)求解,
15、
16、式中為參數(shù)更新過(guò)程中的學(xué)習(xí)率;
17、步驟s15:當(dāng)概率分布函數(shù)與原始概率分布二者之間的峰值概率,在最佳滑移率存在誤差時(shí),需要對(duì)做出修正,將的均值修正為概率分布所對(duì)應(yīng)的最佳滑移率,而保持方差不變,修正之后的概率分布即為最終的專家策略。
18、步驟s2具體包括以下內(nèi)容:
19、步驟s21:計(jì)算出專家策略和學(xué)習(xí)策略的特征期望和,對(duì)于一組專家策略數(shù)據(jù),設(shè)置表達(dá)式如下式所示:
20、
21、這里表示第條專家軌跡,為車輛的狀態(tài),專家軌跡的長(zhǎng)度為,因此,專家策略的特征期望經(jīng)過(guò)計(jì)算有,
22、
23、這里為折扣系數(shù),為狀態(tài)特征,當(dāng)滿足特定狀態(tài)時(shí)為1,否則為0,學(xué)習(xí)策略為在深度強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中車輛的特征期望,計(jì)算方式與專家策略的特征期望一致;
24、步驟s22:使用深度逆強(qiáng)化學(xué)習(xí)獲取車輛操縱穩(wěn)定性獎(jiǎng)勵(lì),操穩(wěn)獎(jiǎng)勵(lì)函數(shù)采用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)近似得到,即,這里為神經(jīng)網(wǎng)絡(luò)的參數(shù),為神經(jīng)網(wǎng)絡(luò)的輸入,將操穩(wěn)獎(jiǎng)勵(lì)的參數(shù)求取問(wèn)題轉(zhuǎn)化為一個(gè)優(yōu)化問(wèn)題,設(shè)置表達(dá)式如下式所示:
25、
26、這里為操穩(wěn)獎(jiǎng)勵(lì)參數(shù)的概率值,上式等價(jià)于一個(gè)最大后驗(yàn)估計(jì)問(wèn)題,可以看作是專家策略數(shù)據(jù)的似然函數(shù)與參數(shù)先驗(yàn)的組合,
27、
28、通過(guò)化簡(jiǎn)有,
29、
30、這里表示獎(jiǎng)勵(lì)參數(shù)的正則化函數(shù),,與都是從一個(gè)時(shí)間范圍內(nèi)計(jì)算得到,若考慮,則有;
31、步驟s23:對(duì)參數(shù)使用梯度下降算法進(jìn)行參數(shù)求解,設(shè)置表達(dá)式如下式所示:
32、
33、通過(guò)設(shè)置學(xué)習(xí)率為,即可得到最佳的操穩(wěn)獎(jiǎng)勵(lì)。
34、步驟s3具體包括以下內(nèi)容:
35、步驟s31:多進(jìn)程異步訓(xùn)練充分利用單臺(tái)計(jì)算機(jī)的多核cpu性能,將訓(xùn)練任務(wù)分配到多個(gè)cpu核心上,從而加快訓(xùn)練速度,減小訓(xùn)練的時(shí)間,多進(jìn)程異步訓(xùn)練學(xué)習(xí)環(huán)境主要分為兩部分:主進(jìn)程和子進(jìn)程,子進(jìn)程有多個(gè),每個(gè)子進(jìn)程都有兩個(gè)神經(jīng)網(wǎng)絡(luò),actor_l策略網(wǎng)絡(luò)和critic_l值網(wǎng)絡(luò);主進(jìn)程只有一個(gè),也有兩個(gè)神經(jīng)網(wǎng)絡(luò),actor_g策略網(wǎng)絡(luò)和critic_g值網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但是參數(shù)更新方式不同,其中為車輛的狀態(tài),為車輛的滑移率;
36、步驟s32:初始化actor_g和critic_g網(wǎng)絡(luò)參數(shù),并將網(wǎng)絡(luò)參數(shù)分別賦值給actor_l和critic_l,設(shè)置子進(jìn)程更新步數(shù),最大訓(xùn)練回合數(shù),經(jīng)驗(yàn)池最大容量,并初始化動(dòng)作步數(shù),訓(xùn)練回合數(shù);
37、步驟s33:在每個(gè)子進(jìn)程中,當(dāng)前時(shí)刻的車輛狀態(tài)下根據(jù)策略選取動(dòng)作,計(jì)算出車輛下一時(shí)刻的車輛狀態(tài),然后通過(guò)狀態(tài)計(jì)算得到車輛的獎(jiǎng)勵(lì)值,,將數(shù)據(jù)放入經(jīng)驗(yàn)池中,經(jīng)驗(yàn)池中每次新放入一條數(shù)據(jù)都保存在第一個(gè)位置,原有的數(shù)據(jù)依次往后移動(dòng),這里的表示訓(xùn)練過(guò)程中是否結(jié)束這一回合訓(xùn)練,若結(jié)束則,否則,子進(jìn)程中,當(dāng)時(shí),;
38、步驟s34:每個(gè)子進(jìn)程中,每當(dāng)時(shí),則從經(jīng)驗(yàn)池中隨機(jī)抽取數(shù)據(jù)計(jì)算actor_l和critic_l網(wǎng)絡(luò)損失函數(shù),設(shè)置表達(dá)式如下式所示:
39、<mstyle displaystyle="true" mathcolor="#000000"><msub><mi>l</mi><mi>actorl</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mi>=</mi><mi>?</mi><mrow><mo>[</mo><mrow><mi>min</mi><mrow><mo>(</mo><mrow><mi>r</mi><mrow><mo>(</mo><mi>x</mi>&l本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S1中的原始專家數(shù)據(jù)為在不同前輪轉(zhuǎn)角、縱向車速和路面摩擦系數(shù)下,不同車輛滑移率所對(duì)應(yīng)的車輛操縱穩(wěn)定性評(píng)估值,值越大說(shuō)明車輛的操縱穩(wěn)定性越好,每一組不同的前輪轉(zhuǎn)角、縱向車速和路面摩擦系數(shù)的固定數(shù)值為一種工況,每種工況都對(duì)應(yīng)了一條曲線,在使用當(dāng)中,需要將上述原始專家數(shù)據(jù)轉(zhuǎn)化為使用概率分布函數(shù)描述的形式,因此需要進(jìn)行如下處理:
3.根據(jù)權(quán)利要求1所述的一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S2使用深度逆強(qiáng)化學(xué)習(xí)獲取車輛操穩(wěn)獎(jiǎng)勵(lì)的具體過(guò)程如下所示:
4.根據(jù)權(quán)利要求1所述的一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S3使用多進(jìn)程異步方法加速深度逆強(qiáng)化學(xué)習(xí)訓(xùn)練速度的具體訓(xùn)練過(guò)程如下:
5.根據(jù)權(quán)利要求1所述的一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟S4高速?gòu)?fù)雜場(chǎng)景中的車輛集成決控具體實(shí)現(xiàn)過(guò)程如下:
【技術(shù)特征摘要】
1.一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種減少車輛超參數(shù)調(diào)整的深度強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟s1中的原始專家數(shù)據(jù)為在不同前輪轉(zhuǎn)角、縱向車速和路面摩擦系數(shù)下,不同車輛滑移率所對(duì)應(yīng)的車輛操縱穩(wěn)定性評(píng)估值,值越大說(shuō)明車輛的操縱穩(wěn)定性越好,每一組不同的前輪轉(zhuǎn)角、縱向車速和路面摩擦系數(shù)的固定數(shù)值為一種工況,每種工況都對(duì)應(yīng)了一條曲線,在使用當(dāng)中,需要將上述原始專家數(shù)據(jù)轉(zhuǎn)化為使用概率分布函數(shù)描述的形式,因此需要進(jìn)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:趙彬,王澤,劉向進(jìn),李何為,劉暢,孫福弘,
申請(qǐng)(專利權(quán))人:長(zhǎng)春工業(yè)大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。