一種基于深度強化學習的機場特種車輛調度方法及系統技術方案

技術編號：44264753 閱讀：6 留言：0更新日期：2025-02-14 22:08

本發明專利技術涉及機場特種車輛調度技術領域，具體涉及一種基于深度強化學習的機場特種車輛調度方法及系統，步驟如下：以對航班服務的時間最短為目標，將機場特種車輛調度問題建模為帶時間窗的車輛路徑規劃問題，根據各類型特種車輛預設服務優先級對車輛路徑規劃問題進行分解；對每個子問題進行馬爾可夫決策過程建模，搭建基于注意力機制的神經網絡模型，并利用神經網絡模型生成車輛規劃的路徑解，根據各子問題的路徑解計算總回報，基于總回報的獎勵采用深度強化學習算法訓練神經網絡模型，得到訓練后的神經網絡模型，利用訓練后的神經網絡模型求解機場特種車輛調度問題。本發明專利技術可實現多類型特種車輛以及多種機型的機場特種車輛調度求解，計算效率更高。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及機場特種車輛調度，具體而言，涉及一種基于深度強化學習的機場特種車輛調度方法及系統。

技術介紹

1、隨著民航業的快速發展，機場規模不斷擴大、吞吐量日益劇增，機場面臨運行效率較低、協同決策能力不足等主要問題，這對機場地面作業和地面服務保障提出了更高的要求，因此，如何在機場運行中對基本業務進行快速響應，并為有關部門提供決策支持，成為實現機場高效運行、航班延誤率有效降低的關鍵問題。

2、目前大部分機場對特種車輛的調度主要以人工調度為主，即，若有一個航班到達，人工派遣一輛有空閑時間的車輛臨時出發，對飛機進行保障任務，完成此任務后回到指定的停車地點等待下一次指派命令的到達。這種單車服務單航班的調度方式效率極低，一方面會導致車輛任務分配不均衡、路線規劃不合理，特種車輛的任務容易出現差錯，航班地面保障服務時間的增加也可能造成航班延誤，尤其是對于大型樞紐機場或處于運輸高峰期的中小型機場，航班的起落在短時段內可達到較高密度，而效率低的調度方式顯然無法滿足該場景的需求；另一方面，由于特種車輛成本普遍較高，機場僅提供有限的車輛來完成服務，單車服務單航班的方法也會造成資源的浪費。

3、目前關于特種車輛調度問題的研究，還是以單一服務種類特種車輛調度問題為主，例如對機場加油車調度問題進行研究，考慮加油車路徑優化使其行駛的總路程數最少、任務分配均勻、縮短航班接受服務的時間，以達到降低航班延誤率的目的，然而機場特種車輛種類多樣，除加油車以外還包括配餐車、清潔車、行李運輸車等；此外，飛機的機型也并非完全相同，以機場加油車為例，

4、綜上所述，如何實現多類型特種車輛以及多種機型的機場特種車輛調度求解，是目前亟需解決的技術問題。

技術實現思路

1、本專利技術的目的在于提供一種基于深度強化學習算法的機場特種車輛調度方法及系統，通過將機場特種車輛調度問題根據機場特種車輛的服務優先級分解為多個子問題，通過優化每個子問題來優化整個調度問題，并根據每個航班的服務時間來區分不同的飛機類型，既考慮了不同類型的機場特種車輛，也考慮了不同的飛機類型，從而可實現多類型特種車輛以及多種機型的機場特種車輛調度求解；此外，采用基于注意力機制的編碼器-解碼器策略網絡來生成調度策略并引入深度強化學習來更新，相較于傳統的調度算法，計算效率更高，可處理的問題規模更大，可用于求解多類型特種車輛以及多種機型的機場特種車輛調度問題。

2、本專利技術通過以下技術方案實現：一種基于深度強化學習算法的機場特種車輛調度方法，包括以下步驟：

3、以對航班服務的時間最短為目標，將機場特種車輛調度問題建模為帶時間窗的車輛路徑規劃問題，并根據各類型特種車輛的預設服務優先級，將所述車輛路徑規劃問題分解為若干個子問題；

4、對每個子問題進行馬爾可夫決策過程建模，根據馬爾可夫決策過程預測特種車輛與航班的交互過程；

5、搭建基于注意力機制的神經網絡模型，并利用所述神經網絡模型生成車輛規劃的路徑解，所述神經網絡模型采用編碼器-解碼器結構；

6、根據各子問題的所述路徑解計算總回報，基于所述總回報的獎勵采用深度強化學習算法訓練神經網絡模型，得到訓練后的神經網絡模型；

7、利用所述訓練后的神經網絡模型求解機場特種車輛調度問題。

8、根據一種優選實施方式，所述將機場特種車輛調度問題建模為帶時間窗的車輛路徑規劃問題，具體包括：構建所述機場特種車輛調度問題為無向完全圖g(n，e)，其中n＝{0，1，2，…，n，n&}用于表示g中所有節點的集合，其中節點0、n&用于區分離開車庫和返回車庫，e＝{(i，j)|i，j∈n；i≠j}用于表示g中所有邊的集合，i、j為集合n中的任意節點。

9、根據一種優選實施方式，在所述帶時間窗的車輛路徑規劃問題中，每種特種車輛對航班服務的時間約束在時間窗內，所述時間窗的更新方式如下：

10、

11、上式中，表示航班預計抵達航班節點i的時間，表示航班預計從航班節點i起飛的時間，表示當前特種車輛服務航班節點i的完成時間，表示當前特種車輛在航班節點i的服務耗時。

12、根據一種優選實施方式，所述馬爾可夫決策過程建模由四元組m＝{s，a，pa，r}定義，其中s為狀態集，所述狀態集s表示為狀態包含圖嵌入向量、特征上下文嵌入向量及已經服務過的航班信息，a為動作集，所述動作集a表示為動作表示選擇下一個要服務個航班，pa為轉移函數，表示從當前狀態轉移到下一個狀態的概率，pa＝1，r為獎勵函數，定義為某類型特種車輛服務完所有航班后行駛的路程tour(af)的相反數，r＝-tour(af)。

13、根據一種優選實施方式，所述編碼器的處理過程如下：

14、使用嵌入層將節點位置信息gi(i＝1，2，…n)映射為高維的特征向量將航班需求和時間窗線性映射后與特征向量相加得到初始的節點嵌入向量表達式如下：

15、

16、上式中，v0表示對應節點位置信息gi(i＝0)的特征向量，為初始的節點嵌入向量，為當前航班節點i的需求，w、b為可訓練參數；

17、通過多頭注意力層和全連接前饋層更新上一步得到的節點嵌入向量，表達式如下：

18、

19、上式中，bn表示批正則化子層，表示第l-1層節點i的節點嵌入向量，mha表示多頭注意力子層，表示第l層節點i的節點嵌入向量，ff表示全連接子層；

20、重復上述更新步驟，得到最后一層的節點嵌入和圖嵌入向量

21、根據一種優選實施方式，所述解碼器的處理過程如下：

22、定義在t步下車輛特征上下文嵌入向量其中f表示車隊信息嵌入，用于區分不同類型的特種車輛，ct表示當前車輛的剩余容量，tt表示當前車輛在上一個節點完成服務的時間，表示上一個節點的嵌入；

23、使用多頭注意力層對所述車輛特征上下文嵌入向量進行更新，

24、計算車輛特征上下文嵌入向量對應的查詢向量qt和節點嵌入向量對應的鍵向量kt，其中wq、wk為可訓練參數；

25、計算查詢向量qt和鍵向量kt之間的相容性分數ut，并通過softmax函數對相容性分數ut進行歸一化處理，得到概率分布πθ，表達式如下：

26、

27、上式中，c為常數，tanh()表示雙切正曲函數，dh為qt的維度，表示在t步解碼時航班節點i可以被選擇，表示在t步解碼時航班節點i不可以被選擇，表示在第1至t-1步已經服務過的航班節點；

28、重復上述步驟，直至特種車輛服務完所有航班節點且返回對應的車庫節點。

29、根據一種優選實施方式，在航班節點滿足以下條件之一時，條件具體如下：

30、條件一、當前航班節點i沒有被訪問過，表示為

31、條件二、當前航班節點i本文檔來自技高網...

【技術保護點】

1.一種基于深度強化學習算法的機場特種車輛調度方法，其特征在于，包括以下步驟：

2.如權利要求1所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，所述將機場特種車輛調度問題建模為帶時間窗的車輛路徑規劃問題，具體包括：構建所述機場特種車輛調度問題為無向完全圖G(N,E)，其中N＝{0,1,2,…,n,n&}用于表示G中所有節點的集合，其中節點0、n&用于區分離開車庫和返回車庫，E＝{(i,j)|i,j∈N；i≠j}用于表示G中所有邊的集合，i、j為集合N中的任意節點。

3.如權利要求2所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，在所述帶時間窗的車輛路徑規劃問題中，每種特種車輛對航班服務的時間約束在時間窗內，所述時間窗的更新方式如下：

4.如權利要求1至3任一項所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，所述馬爾可夫決策過程建模由四元組M＝{S,A,Pa,R}定義，其中S為狀態集，所述狀態集S表示為狀態包含圖嵌入向量、特征上下文嵌入向量及已經服務過的航班信息，A為動作集，所述動作集A表

5.如權利要求4所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，所述編碼器的處理過程如下：

6.如權利要求5所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，所述解碼器的處理過程如下：

7.如權利要求6所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，在航班節點滿足以下條件之一時，條件具體如下：

8.如權利要求6所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，根據所述總回報的獎勵采用深度強化學習算法訓練神經網絡模型的表達式如下：

9.如權利要求8所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，對于每個子問題xf，損失函數定義為：

10.一種基于深度強化學習的機場特種車輛調度系統，其特征在于，包括：

...

【技術特征摘要】

1.一種基于深度強化學習算法的機場特種車輛調度方法，其特征在于，包括以下步驟：

2.如權利要求1所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，所述將機場特種車輛調度問題建模為帶時間窗的車輛路徑規劃問題，具體包括：構建所述機場特種車輛調度問題為無向完全圖g(n,e)，其中n＝{0,1,2,…,n,n&}用于表示g中所有節點的集合，其中節點0、n&用于區分離開車庫和返回車庫，e＝{(i,j)|i,j∈n；i≠j}用于表示g中所有邊的集合，i、j為集合n中的任意節點。

4.如權利要求1至3任一項所述的基于深度強化學習算法的機場特種車輛調度方法，其特征在于，所述馬爾可夫決策過程建模由四元組m＝{s,a,pa,r}定義，其中s為狀態集，所述狀態集s表示為狀態包含圖嵌入向量、特征上下文嵌入向量及已經服務過的航班信息，a為動...

【專利技術屬性】
技術研發人員：付文，易奎，何東林，王偉，彭璐易，
申請(專利權)人：中國民用航空總局第二研究所，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術