一種基于雙重交互感知的智能網聯汽車協同決策方法技術

技術編號：44338755 閱讀：4 留言：0更新日期：2025-02-18 20:50

本發明專利技術公開了一種基于雙重交互感知的智能網聯汽車協同決策方法，包括以下步驟：利用集中訓練和分布式執行多智能體強化學習框架，設計雙重互感知協同控制策略DIACC；利用分布式的交互自適應決策模塊D?IADM學習與周圍車輛的交互特征和交通環境信息；利用集中式交互增強評價器C?IEC模塊捕捉全局車輛交互與全局交通動態之間的關系。本發明專利技術采用上述一種基于雙重交互感知的智能網聯汽車協同決策方法，使智能網聯汽車主動提前調整其行為，減少了預匯入區與其他車輛的橫向沖突，另一方面，智能網聯汽車的行為積極引導并協調了人工駕駛汽車，從而提高了整體交通表現。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及自動駕駛，特別涉及一種基于雙重交互感知的智能網聯汽車協同決策方法。

技術介紹

1、隨著全球車輛的保有量的快速增加，交通擁堵已成為阻礙城市快速發展的制約因素之一，因而，提高交通效率已成為緊迫且備受關注的研究課題。研究表明，智能網聯汽車在提高交通性能方面具有巨大的潛力，人工駕駛汽車在可預見的未來將與智能網聯汽車共存。人類駕駛員往往根據周圍車輛的反應動態且隨機地做出決策，且普遍缺乏協作意識。因此，人工駕駛汽車通常表現出不同的駕駛風格，這對智能網聯汽車提出了重大挑戰，它們必須適應這些不確定且多樣的行為，并做出有助于整體交通優化的協作決策。

2、現有技術中，為提高混合交通系統效率提出的解決方案大致可分為兩類。第一類包括基于規則或優化的方法，第二類則為基于單智能體強化學習的方法。現有研究存在以下局限性：1.基于規則或優化的方法依賴于對交通環境和車輛行為的建模，且可得到最優解的集中優化方法計算成本相當高；2.單智能體強化學習的方法更適合解決局部控制問題，但在全局交通優化中面臨挑戰，這是由于其需要大量的交互經驗來學習有效的決策策略，使得訓練成本高昂且大規模部署困難；3.單智能體強化學習的方法難以處理多輛車之間的協同問題，通常需要額外的規則指導或手動設計的協調交互設置。

技術實現思路

1、本專利技術的目的是提供一種基于雙重交互感知的智能網聯汽車協同決策方法，學習與周圍車輛的交互特征與交通環境信息，以適應不同類型的車輛和駕駛風格；從全局角度更好地理解車輛交互對交通演變的影響，

2、為實現上述目的，本專利技術提供了一種基于雙重交互感知的智能網聯汽車協同決策方法，包括以下步驟：

3、利用集中訓練和分布式執行多智能體強化學習框架，設計雙重互感知協同控制策略diacc；

4、利用分布式的交互自適應決策模塊d-iadm學習與周圍車輛的交互特征和交通環境信息；

5、利用集中式交互增強評價器模塊c-iec捕捉全局車輛交互與全局交通動態之間的關系。

6、優選的，雙重互感知協同控制策略diacc包括一個集中式的評論家網絡和若干個分布式的執行者網絡；

7、集中式的評論家網絡通過訪問混合交通系統的全局信息來輔助訓練階段，分布式的執行者網絡利用集中式的評論家網絡提供的全局信息最大化其個體獎勵。

8、優選的，根據混合交通系統演化特性和車輛交互需求設計多智能體強化學習框架下的狀態空間、動作空間和獎勵函數；

9、設計多智能體強化學習框架下的狀態空間包括每輛車的運動狀態、每條車道的交通流統計信息和靜態道路結構信息；設計動作空間的離散量包括：保持、左換道、右換道、加速、減速；設計獎勵函數為：

10、

11、其中，re、rg和rtp分別表示自身車輛獎勵、全局獎勵和惰性行為懲罰，或稱為時間懲罰，系數we＝ρ、wg＝1-ρ和wtp＝n-1+ρ是與智能網聯汽車滲透率相關的每個獎勵成分的權重；rdone為完成獎勵，自身車輛獎勵re包含若干個子獎勵：

12、re＝we,vre,v+we,wre,w+we,cre,c；

13、

14、

15、

16、其中，re,v為速度獎勵；re,w為警告距離懲罰；re,c為碰撞懲罰，we,v、we,w和we,c分別為re,v、re,w和re,c的權重參數；vmax是道路交通法規允許的最大速度；集合表示處于警告范圍內的車輛；集合表示實際碰撞范圍內的車輛；為車輛間的相對縱向距離；為車輛間的相對橫向距離，j為或集合中的元素；和的距離閾值分別為dth,w和dth,c；pe,v為速度獎勵調整參數；pe,c為碰撞懲罰調整參數。

17、全局獎勵rg反映所有智能網聯汽車在平均速度方面的整體表現，其具體為：

18、

19、其中，pg,v為全局速度獎勵調整參數；

20、rtp反映智能網聯汽車速度效率對整體交通流的影響：

21、rtp＝10×sigmoid(vi-vth)；

22、其中，vth是用于在不同速度下調整懲罰水平的速度閾值，sigmoid(·)為sigmoid函數。

23、優選的，d-iadm包含軌跡感知交互編碼器taie，通過taie獲取自身車輛與周圍車輛之間的交互特征，然后，其將上一次的決策輸出與門控循環單元gru和決策層結合，生成可學習的動作輸出，將動作輸出輸入基于主動安全的動作過濾器psaf。

24、優選的，建立自身車輛與周圍人工駕駛汽車的交互圖，以自身車輛與周圍人工駕駛汽車的當前狀態信息和歷史軌跡信息作為輸入，利用多頭圖注意力機制提取與周圍人工駕駛汽車交互特征；

25、建立自身車輛與周圍智能網聯汽車的交互圖，以自身車輛與周圍智能網聯汽車的當前狀態信息和上一時刻決策輸出作為輸入，利用多頭圖注意力機制提取與周圍智能網聯汽車交互特征；

26、以相鄰車道的交通流統計信息和靜態道路結構信息作為輸入，利用多層感知機提取交通環境上下文信息。

27、優選的，融合周圍人工駕駛汽車交互特征、周圍智能網聯汽車交互特征、交通環境上下文信息以及上一時刻的決策指令得到綜合特征，將綜合特征輸入到門控循環單元gru和決策層，得到可學習的動作輸出；

28、主動安全的動作過濾器psaf以碰撞時間ttc作為主動安全評估指標，優化ttc低于設定閾值的動作，并輸出智能網聯汽車的縱向決策和橫向決策。

29、優選的，集中式交互增強評價器模塊c-iec從環境中接收所有狀態信息，c-iec中包括集成交通動態表示模塊itdr，itdr捕捉交通動態和車輛交互特征，并輸出全局狀態值函數。

30、優選的，利用多層感知機得到混合交通系統中各車道交通流特征、人工駕駛汽車運動特征、智能網聯汽車運動特征，進而結合靜態道路結構信息得到綜合交通流動態特征。

31、優選的，建立混合交通系統中所有車輛的交互圖，以每輛車的當前運動狀態作為輸入，采用圖注意力機制得到全局車輛交互特征。

32、優選的，利用多頭交叉注意力機制，以綜合交通流動態特征作為查詢對象，以全局車輛交互特征作為鍵和值，捕捉交通動態和車輛交互的特征。

33、因此，本專利技術采用上述一種基于雙重交互感知的智能網聯汽車協同決策方法，有益效果如下：

34、(1)本專利技術利用分布式的交互自適應模塊d-iadm學習與周圍車輛的交互特征和交通環境信息，使智能網聯汽車能夠做出合理的協同決策，提前規劃匯入路線，并在適當的時機禮讓周圍車輛，從而提高整體交通效率。

35、(2)本專利技術利用集中式交互增強評價器模塊c-iec，從全局角度更好地理解車輛交互對交通演變的影響，從而指導智能網聯汽車協同策略的更新。

本文檔來自技高網...

【技術保護點】

1.一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：雙重互感知協同控制策略DIACC包括一個集中式的評論家網絡和若干個分布式的執行者網絡；

3.根據權利要求2所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：根據混合交通系統演化特性和車輛交互需求設計多智能體強化學習框架下的狀態空間、動作空間和獎勵函數；

4.根據權利要求1所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：D-IADM包含軌跡感知交互編碼器TAIE，通過TAIE獲取自身車輛與周圍車輛之間的交互特征，然后，其將上一次的決策輸出與門控循環單元GRU和決策層結合，生成可學習的動作輸出，將動作輸出輸入基于主動安全的動作過濾器PSAF。

5.根據權利要求4所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：建立自身車輛與周圍人工駕駛汽車的交互圖，以自身車輛與周圍人工駕駛汽車的當前狀態信息和歷史軌跡信息作為輸入，利用多頭圖注

6.根據權利要求5所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：融合周圍人工駕駛汽車交互特征、周圍智能網聯汽車交互特征、交通環境上下文信息以及上一時刻的決策指令得到綜合特征，將綜合特征輸入到門控循環單元GRU和決策層，得到可學習的動作輸出；

7.根據權利要求1所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：利用集中式交互增強評價器模塊C-IEC從環境中接收所有狀態信息，C-IEC中包括集成交通動態表示模塊ITDR，ITDR捕捉交通動態和車輛交互特征，并輸出全局狀態值函數。

8.根據權利要求7所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：利用多層感知機得到混合交通系統中各車道交通流特征、人工駕駛汽車運動特征、智能網聯汽車運動特征，進而結合靜態道路結構信息得到綜合交通流動態特征。

9.根據權利要求8所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：建立混合交通系統中所有車輛的交互圖，以每輛車的當前運動狀態作為輸入，采用圖注意力機制得到全局車輛交互特征。

10.根據權利要求9所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：利用多頭交叉注意力機制，以綜合交通流動態特征作為查詢對象，以全局車輛交互特征作為鍵和值，捕捉交通動態和車輛交互的特征。

...

【技術特征摘要】

1.一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：雙重互感知協同控制策略diacc包括一個集中式的評論家網絡和若干個分布式的執行者網絡；

4.根據權利要求1所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：d-iadm包含軌跡感知交互編碼器taie，通過taie獲取自身車輛與周圍車輛之間的交互特征，然后，其將上一次的決策輸出與門控循環單元gru和決策層結合，生成可學習的動作輸出，將動作輸出輸入基于主動安全的動作過濾器psaf。

5.根據權利要求4所述的一種基于雙重交互感知的智能網聯汽車協同決策方法，其特征在于：建立自身車輛與周圍人工駕駛汽車的交互圖，以自身車輛與周圍人工駕駛汽車的當前狀態信息和歷史軌跡信息作為輸入，利用多頭圖注意力機制提取與周圍人工駕駛汽車交互特征；

6.根據權利要求5所述的一種基于雙重交互感知的智能網聯汽車協同決策方法...

【專利技術屬性】
技術研發人員：左志強，劉正璇，王一晶，
申請(專利權)人：天津大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術