System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲精品无码久久毛片波多野吉衣,亚洲中文字幕无码爆乳AV,无码国产精品一区二区免费I6
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>中山大學(xué)·深圳專利>正文

    一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法技術(shù)

    技術(shù)編號:44313474 閱讀:3 留言:0更新日期:2025-02-18 20:27
    本發(fā)明專利技術(shù)公開了一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,方法包括:通過制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,所述系統(tǒng)問題包括觀測狀態(tài)空間、動作空間和獎勵函數(shù);基于共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)車輛協(xié)作模型,所述共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的內(nèi)容包括控制輸出策略與值函數(shù)估計(jì)策略;使用異步訓(xùn)練策略對所述車輛協(xié)作模型進(jìn)行訓(xùn)練;根據(jù)訓(xùn)練完成后的所述車輛協(xié)作模型對實(shí)際場景中的車輛信息進(jìn)行處理,輸出無信號交叉口的車輛協(xié)作方案。本發(fā)明專利技術(shù)實(shí)施例可在有限的計(jì)算資源內(nèi),實(shí)現(xiàn)車輛在無信號交叉口場景的有效協(xié)作,減少車輛堵塞和沖突,提升交通管理的安全性與通行效率,可廣泛應(yīng)用于智能交通技術(shù)領(lǐng)域。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及智能交通,尤其涉及一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法


    技術(shù)介紹

    1、隨著城市交通系統(tǒng)的不斷演進(jìn)以及居民出行需求的日益增加,城市交通網(wǎng)絡(luò)中的主要瓶頸——多條道路交叉匯合的道路交叉口,常常成為交通擁堵和潛在安全隱患的高發(fā)區(qū)域。盡管具有交通信號配時(shí)的交叉口可以有效地規(guī)劃交通流,但是城市交叉口的信號燈并未完全普及,交通擁堵和事故往往發(fā)生于無信號交叉口場景中。在v2x技術(shù)和智能網(wǎng)聯(lián)車技術(shù)快速發(fā)展的背景下,如何研發(fā)有效的協(xié)作方法解決車輛在無信號交叉口的通行問題,是自動駕駛領(lǐng)域亟待解決的難題。

    2、在無信號交叉口場景協(xié)同的研究領(lǐng)域中,目前存在的主要問題包括:中央?yún)f(xié)調(diào)系統(tǒng)沒有充分考慮交通流的時(shí)空特征,造成了極大的時(shí)間浪費(fèi)和空間浪費(fèi),交通管理效率低下;協(xié)調(diào)系統(tǒng)所使用的計(jì)算方法往往存在較大的計(jì)算復(fù)雜性,在有限的計(jì)算資源內(nèi)難以保證算法實(shí)時(shí)性的需求,這導(dǎo)致它們在實(shí)際部署中難以應(yīng)用;協(xié)調(diào)系統(tǒng)對車輛的駕駛狀態(tài)和駕駛意圖可能無法準(zhǔn)確識別并建模,增加了在交叉口區(qū)域發(fā)生碰撞事故的風(fēng)險(xiǎn)。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)實(shí)施例的主要目的在于提出一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,可在有限的計(jì)算資源內(nèi),實(shí)現(xiàn)車輛在無信號交叉口場景的有效協(xié)作,減少車輛堵塞和沖突,提升交通管理的安全性與通行效率。

    2、為實(shí)現(xiàn)上述目的,本專利技術(shù)實(shí)施例的一方面提出了一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,包括以下步驟:

    3、制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,所述系統(tǒng)問題包括觀測狀態(tài)空間、動作空間和獎勵函數(shù);

    4、基于共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)車輛協(xié)作模型,所述共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的內(nèi)容包括控制輸出策略與值函數(shù)估計(jì)策略;

    5、使用異步訓(xùn)練策略對所述車輛協(xié)作模型進(jìn)行訓(xùn)練;

    6、根據(jù)訓(xùn)練完成后的所述車輛協(xié)作模型對實(shí)際場景中的車輛信息進(jìn)行處理,輸出無信號交叉口的車輛協(xié)作方案。

    7、在一些實(shí)施例中,所述制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,包括以下步驟:

    8、根據(jù)所有車輛的狀態(tài)空間串聯(lián)得到狀態(tài)空間,其中,對于每輛車的狀態(tài)sn,使用公式sn=(xn,yn,vxn,vyn,dn)表示,其中,xn,yn表示車輛在交叉口場景的橫縱坐標(biāo),vxn,vyn表示車輛即時(shí)速度在橫縱坐標(biāo)軸上的投影速度,dn作為車輛的意圖表示;

    9、根據(jù)純跟蹤算法計(jì)算得到車輛的轉(zhuǎn)向角,進(jìn)而確定車輛的橫向動作;并根據(jù)車輛的加速度確定縱向動作,根據(jù)所有車輛的縱向動作串聯(lián)得到車輛的動作空間;

    10、當(dāng)車輛執(zhí)行動作使得狀態(tài)值發(fā)生轉(zhuǎn)換后,根據(jù)獎勵函數(shù)確定對應(yīng)的獎勵值;所述獎勵值由碰撞獎勵、時(shí)間步長獎勵和成功獎勵組成;其中,所述碰撞獎勵用于當(dāng)車輛發(fā)生碰撞時(shí)給予數(shù)值為-100的碰撞獎勵,否則為0;所述時(shí)間步長獎勵根據(jù)當(dāng)前模擬環(huán)境累積的時(shí)間步長的負(fù)值確定;所述成功獎勵用于當(dāng)所有車輛都成功不碰撞地通過交叉口時(shí),給予數(shù)值為100的成功獎勵,否則為0。

    11、在一些實(shí)施例中,所述制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,還包括以下步驟:

    12、當(dāng)環(huán)境處于狀態(tài)值st時(shí),車輛執(zhí)行動作a,它們的下一時(shí)刻狀態(tài)st+1將由車輛運(yùn)動學(xué)方程計(jì)算得出,計(jì)算公式為:其中,x和y表示車輛位置坐標(biāo),θ和v表示車輛的車身角和速度,δ和a表示車輛的轉(zhuǎn)向角和加速度,l表示車輛的縱向軸長,和表示下一時(shí)刻狀態(tài)的車輛位置坐標(biāo),和表示下一時(shí)刻狀態(tài)的車輛的車身角和速度;

    13、通過獎勵折現(xiàn)因子計(jì)算動作序列的累積獎勵。

    14、在一些實(shí)施例中,所述基于共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)車輛協(xié)作模型,包括以下步驟:

    15、使用a2c深度神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)車輛在交叉口的整體決策;所述a2c深度神經(jīng)網(wǎng)絡(luò)模型結(jié)合了actor模型和critic模型;actor模型通過采樣動作進(jìn)行交互,使用策略梯度的方法更新策略;critic模型通過估計(jì)值函數(shù)提供反饋信號,幫助actor模型更好地進(jìn)行策略更新;

    16、a2c深度神經(jīng)網(wǎng)絡(luò)模型分為共享網(wǎng)絡(luò)和單獨(dú)網(wǎng)絡(luò),其中,共享網(wǎng)絡(luò)由一層長短期記憶網(wǎng)絡(luò)lstm和兩層全連接層網(wǎng)絡(luò)fc組成;lstm用于學(xué)習(xí)序列數(shù)據(jù)中的時(shí)間相關(guān)特征,全連接層用于進(jìn)一步提取序列數(shù)據(jù)中的空間相關(guān)特征,并使用tanh激活函數(shù)在網(wǎng)絡(luò)之間進(jìn)行特征的非線性轉(zhuǎn)換;單獨(dú)網(wǎng)絡(luò)使用兩層全連接層對共享網(wǎng)絡(luò)的輸出特征進(jìn)行學(xué)習(xí),輸出動作控制量;單獨(dú)網(wǎng)絡(luò)使用一層全連接層對共享網(wǎng)絡(luò)的輸出特征進(jìn)行學(xué)習(xí),輸出值函數(shù)估計(jì)值;

    17、采用廣義優(yōu)勢估計(jì)對網(wǎng)絡(luò)層進(jìn)行更新,通過多步優(yōu)勢估計(jì)的加權(quán)組合來估計(jì)優(yōu)勢函數(shù);

    18、在訓(xùn)練過程中,網(wǎng)絡(luò)損失的計(jì)算由策略損失與值函數(shù)損失組成;

    19、通過反向傳播方法計(jì)算網(wǎng)絡(luò)損失的梯度,然后使用adam優(yōu)化器對模型的參數(shù)進(jìn)行更新。

    20、在一些實(shí)施例中,所述網(wǎng)絡(luò)損失的計(jì)算公式為:

    21、

    22、其中,logprobs(t)表示對數(shù)概率,entcoe表示策略熵正則化系數(shù),ent(t)為策略熵,rt為獎勵函數(shù)計(jì)算值;gae(t)表示廣義優(yōu)勢估計(jì);losspolicy表示策略損失;lossvalue表示值函數(shù)損失;v(st)表示值函數(shù)估計(jì)值;

    23、其中,廣義優(yōu)勢估計(jì)的計(jì)算公式為:

    24、

    25、其中,δt表示在時(shí)間步t的優(yōu)勢估計(jì),λ為控制偏差與方差的超參數(shù),t表示時(shí)間步長最大值;γ表示獎勵折現(xiàn)因子。

    26、在一些實(shí)施例中,所述使用異步訓(xùn)練策略對所述車輛協(xié)作模型進(jìn)行訓(xùn)練,包括以下步驟:

    27、利用操作系統(tǒng)的多進(jìn)程并發(fā)特性實(shí)現(xiàn)模型的異步更新,在訓(xùn)練開始前,多個進(jìn)程將被初始化作為訓(xùn)練進(jìn)程,一個進(jìn)程作為測試進(jìn)程,同時(shí)創(chuàng)建一個參數(shù)共享池可實(shí)時(shí)加載并更新模型參數(shù)。

    28、在一些實(shí)施例中,對于訓(xùn)練進(jìn)程:每個訓(xùn)練進(jìn)程單獨(dú)創(chuàng)建一個使用不同隨機(jī)數(shù)種子的仿真交叉口環(huán)境;每次重置仿真環(huán)境時(shí),從參數(shù)共享池中加載車輛協(xié)作模型的模型參數(shù),然后進(jìn)行連續(xù)的交互直至達(dá)到終止條件;交互過程的特征序列信息用于進(jìn)行模型的訓(xùn)練與更新;所有訓(xùn)練進(jìn)程共享一個參數(shù)共享池互斥鎖,當(dāng)一個訓(xùn)練進(jìn)程正在更新模型參數(shù)時(shí),互斥鎖將會標(biāo)識為阻塞狀態(tài),阻止其他訓(xùn)練進(jìn)程更新參數(shù);當(dāng)參數(shù)更新完畢,互斥鎖將會被釋放,允許其他進(jìn)程繼續(xù)對模型參數(shù)進(jìn)行更新;

    29、對于測試進(jìn)程:為在訓(xùn)練過程中實(shí)時(shí)測試模型的有效性與魯棒性,一個進(jìn)程將被初始化作為測試進(jìn)程,每隔30s隨機(jī)初始化交叉口場景和車輛位置,從參數(shù)共享池中加載模型參數(shù),測試當(dāng)前模型是否能有效完成協(xié)同任務(wù);當(dāng)在連續(xù)的時(shí)間段內(nèi),模型都能很好地完成協(xié)同任務(wù),則判定當(dāng)前異步訓(xùn)練已經(jīng)收斂,終止所有進(jìn)程并保存已訓(xùn)練好的模型;

    30、對于參數(shù)共享池:所述參數(shù)共享池被所有進(jìn)程共享,訓(xùn)練進(jìn)程和測試進(jìn)程從參數(shù)共享池中加載模型參數(shù)進(jìn)行仿真環(huán)境中的交互;所述參數(shù)共享池配有一個互斥鎖,只允許同時(shí)一個訓(xùn)練進(jìn)程進(jìn)入本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,包括以下步驟:

    3.根據(jù)權(quán)利要求2所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,還包括以下步驟:

    4.根據(jù)權(quán)利要求1所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述基于共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)車輛協(xié)作模型,包括以下步驟:

    5.根據(jù)權(quán)利要求4所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述網(wǎng)絡(luò)損失的計(jì)算公式為:

    6.根據(jù)權(quán)利要求1所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述使用異步訓(xùn)練策略對所述車輛協(xié)作模型進(jìn)行訓(xùn)練,包括以下步驟:

    7.根據(jù)權(quán)利要求6所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,>

    8.一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作系統(tǒng),其特征在于,包括:

    9.一種電子設(shè)備,其特征在于,包括處理器以及存儲器;

    10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有程序,所述程序被處理器執(zhí)行實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,包括以下步驟:

    3.根據(jù)權(quán)利要求2所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述制定馬爾可夫決策框架來描述車輛在交叉口區(qū)域的協(xié)同問題,還包括以下步驟:

    4.根據(jù)權(quán)利要求1所述的一種基于異步深度強(qiáng)化學(xué)習(xí)的無信號交叉口車輛協(xié)作方法,其特征在于,所述基于共享深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)車輛協(xié)作模型,包括以下步驟:

    5.根據(jù)權(quán)利要求4所述的一種基于異...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王帥丁宇豪
    申請(專利權(quán))人:中山大學(xué)·深圳
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久无码精品亚洲日韩软件| 国产精品无码专区在线播放| 亚洲AV无码成人网站久久精品大| 无码专区天天躁天天躁在线| 孕妇特级毛片WW无码内射| 精品无码成人片一区二区| 国产成人无码精品一区二区三区 | mm1313亚洲国产精品无码试看| 色综合无码AV网站| 无码少妇一区二区三区浪潮AV | 国产强被迫伦姧在线观看无码| 亚洲精品无码久久久影院相关影片 | 中文无码一区二区不卡αv| 亚洲色无码一区二区三区| 日韩夜夜高潮夜夜爽无码| 亚洲AV无码一区二区三区人| 国产精品无码a∨精品| 无码人妻少妇伦在线电影| 亚洲性无码AV中文字幕| 久久午夜夜伦鲁鲁片无码免费| 久久无码精品一区二区三区| 麻豆亚洲AV成人无码久久精品| 18精品久久久无码午夜福利| 久久久久久久无码高潮 | 无码国模国产在线观看| 亚洲精品GV天堂无码男同| 无码人妻丰满熟妇精品区| 国产精品VA在线观看无码不卡| 日韩经典精品无码一区| 国产乱子伦精品免费无码专区 | 精品无码三级在线观看视频| 色视频综合无码一区二区三区| 久久人午夜亚洲精品无码区| 性生交片免费无码看人| 亚洲av无码专区在线电影天堂 | 精品无码国产AV一区二区三区| 无码狠狠躁久久久久久久 | 自拍中文精品无码| 日韩人妻无码精品系列| 国产做无码视频在线观看浪潮 | 国产aⅴ无码专区亚洲av麻豆|