• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>清華大學專利>正文

    一種基于強化學習的鐵路機車運行操控系統混合任務調度方法技術方案

    技術編號:15571915 閱讀:102 留言:0更新日期:2017-06-10 06:05
    本發明專利技術提供了一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,該方法是一種離線學習過程。方法首先采集機車運行操控系統實際運行或仿真實驗中的混合任務集數據,形成混合任務集合并對混合任務集合中的每個任務進行規則化標記。然后將規則化標記后的任務集合作為強化學習系統的輸入,構成強化學習環境。強化學習系統應用強化學習算法,考察機車運行操控系統的調度目標進行迭代學習過程,生成對應混合任務集合的<狀態?規則>對應關系表,并將該<狀態?規則>關系表保存在數據庫中。從數據庫中挑選出現頻率最高的規則作為當前狀態的最優規則,形成最終的<狀態?規則>對應關系表。機車操控系統運行中可根據<狀態?規則>對應關系表,指導生成混合任務的實時調度序列,實現任務調度。

    A hybrid task scheduling method for railway locomotive operation and control system based on Reinforcement Learning

    The invention provides a hybrid task scheduling method for railway locomotive operation control system based on reinforcement learning, which is an off-line learning process. Methods first, the hybrid task set data in the actual operation or simulation experiment of locomotive operation control system is collected to form a mixed task set, and the tasks in the hybrid task set are labeled regularly. Then, the task set after regular tagging is taken as the input of reinforcement learning system to form a reinforcement learning environment. Reinforcement learning system using reinforcement learning algorithm, study of locomotive operating system scheduling make iterative learning process, generate the corresponding mixed task set < state rule > corresponding relation table, and the state rules < > relational tables stored in the data base. Choose from a database of rules in the highest frequency of occurrence as the optimal rule of the current state, form the final state of < rule > corresponding relation table. The control system of locomotive in accordance with the state rules < > the corresponding relation table, real-time scheduling sequence generated mixed tasks, task scheduling.

    【技術實現步驟摘要】

    本專利技術涉及鐵路機車運行操控系統混合任務調度,尤其涉及一種基于強化學習的鐵路機車運行操控系統混合任務調度方法
    技術介紹
    實時系統指當外界事件或數據產生時,能夠接受并以足夠快的速度予以處理,其處理的結果又能在規定的時間之內來控制生產過程或對處理系統做出快速響應,調度一切可利用的資源完成實時任務,并控制所有實時任務協調一致運行的系統。該類系統廣泛應用于社會生活的各個領域,常見的有車間實時調度系統,列車運行節能優化控制系統,飛行模擬器等。鐵路機車運行操控系統是典型的實時系統,且該系統在運行中會產生大量周期性和非周期性任務,任務之間相互耦合,具有不同的調度目標,系統的調度問題十分復雜。但是系統運行在實時控車的環境中,所以系統任務必須要實時、準確地得到完成。對于任務的合理調度,降低系統延遲對保障系統正常穩定運行有著至關重要的作用。現有系統混合任務集的調度方法主要有基于靜態表驅動策略的調度算法、基于優先級驅動策略的調度算法、基于比例共享的調度算法、動態基于規劃的調度算法、基于自適應控制的調度算法等。比如,申請號為201210524335.4的“一種強實時混合任務調度方法”專利技術專利就公開了一種基于靜態表驅動策略的調度算法。該類方法具有以下兩個缺點:第一,不夠靈活,一旦調度表確定了,在調度過程中就無法更改調度順序;第二,它要求在系統運行前,就獲取所有任務的到達時間,截止期,運行時間等信息,所以該策略很難運用到非周期性實時任務調度當中。上述基于優先級驅動策略的調度算法分為靜態優先級驅動策略和動態優先級驅動策略,分別具有靈活性差和執行開銷大的缺點。上述基于比例共享的調度算法存在的缺點是無法保證某些實時任務及時完成,不能應用到硬實時系統當中。上述動態基于規劃的調度算法適合于在系統執行過程中隨機到達的非周期性實時任務。上述基于自適應控制的調度算法是一類利用系統反饋調整任務執行順序的調度算法,該算法的計算開銷較大,不適用于硬實時系統。由于機車運行環境的動態多變性,單一規則在處理實時調度問題上具有一定的局限。但是上述所有算法,目前在復雜的動態變化環境下,均不能實時選擇合適的調度規則,而且適應性較強的算法通常也具有較大的時間和計算開銷。所以,針對鐵路機車運行操控系統混合任務集的調度算法具有較大的提升和優化空間,實現一個自適應的混合任務調度規則具有較強的現實意義。
    技術實現思路
    本專利技術的目的是提供一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,應用強化學習系統進行調度規則的離線學習和生成,能夠顯著降低任務調度的計算開銷;同時能夠較靈活地根據系統的動態負載變化,實時匹配調度規則表,選擇恰當的調度規則進行任務調度。本專利技術通過如下技術方案實現:一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述的混合任務包括:周期性實時任務、非周期性實時任務以及非實時任務;所述的混合任務調度方法包括:步驟(1)、采集鐵路機車運行操控系統實際運行或仿真實驗中的混合任務集數據,形成混合任務集合;步驟(2)、將混合任務集合中的每個任務進行規則化標記;步驟(3)、將規則化標記后的任務集合作為強化學習系統的輸入,構成強化學習環境,強化學習系統應用強化學習算法,根據機車運行操控系統的調度目標進行迭代學習過程;步驟(4)、強化學習系統生成對應機車運行操控系統混合任務集合的多個<狀態-規則>關系表,并將該多個<狀態-規則>關系表保存在數據庫中;步驟(5)、針對數據庫中保存的多個<狀態-規則>表,對于每個狀態,挑選出現頻率最高的規則作為當前狀態的最優規則,形成最優<狀態-規則>對應關系表;步驟(6)、根據最優<狀態-規則>對應關系表,指導生成機車運行操控系統混合任務的實時調度序列,實現任務調度。在一種優選實現方式中,所述步驟(2)中所采用的規則化方法為:規則化每個任務為7元組,元組的元素分別為:任務類型、任務提交時刻、任務執行時刻、任務執行中斷時刻鏈表、任務結束時刻、任務截止期和任務提交周期。在另一種優選實現方式中,所述7元組中任務類型指鐵路機車運行操控系統中周期性實時任務、非周期性實時任務和非實時任務;所述7元組中任務執行中斷時刻鏈表指任務執行過程中每一次被中斷時刻組成的鏈表或數組結構。在另一種優選實現方式中,所述強化學習系統包括強化學習環境及狀態集合空間、動作集合空間、獎懲函數和智能主體。在另一種優選實現方式中,在所述強化學習系統中,所述強化學習環境及狀態集合空間中的狀態由多種特征參數共同描述,所述特征參數至少包括CPU利用率和待調度任務屬性;所述動作集合空間中的動作為現有的調度規則的一元組合規則或多元組合的規則集合,一元組合規則包括最短截止期優先規則、最小最壞執行時間優先規則、最早調度執行時間優先規則、最小剩余空閑時間優先規則、最短周期優先規則和先進先出規則;所述獎懲函數根據任務調度目標以鍵值對或函數形式表達。在另一種優選實現方式中,所述獎懲函數為:r=w1F(A)+w2F(B)+w3F(C)其中,A、B、C分別為鐵路機車運行操控系統中周期性實時任務集合、非周期性實時任務集合以及非實時任務集合;F函數是針對每種類型任務調度情況的量化函數;w1、w2、w3分別指每種任務類型的調度效果對調度優化目標的貢獻權重,可以通過改變該權重值來獲取不同的調度優化目標。在另一種優選實現方式中,鐵路機車運行操縱系統中的周期性任務包括:LKJ實時通信任務、實時優化計算任務、執行信息反饋任務,非周期實時任務包括臨時優化任務、信號燈信息接收任務和自適應控制任務,非實時任務包括執行信息顯示任務和日志記錄任務。在另一種優選實現方式中,所述步驟(4)包括根據鐵路機車運行操控系統的調度目標進行離線調度學習過程。在另一種優選實現方式中,所述混合任務調度方法還包括步驟(7)在每完成一次任務調度之后,生成相應的系統運行日志,并轉入步驟(1)進行下一輪的調度規則的離線學習過程。下面詳細對比本專利技術采用上述技術方案與現有技術相比的有益效果:(1)現有的任務調度規則使用方式有以下幾類。單一規則:對所有的任務調度采用單一的規則進行序列排序;有序規則:在調度過程中,采用兩個或多個規則先后排序確定任務的優先級;組合規則:在調度過程中,采用兩個或多個規則共同影響任務的優先級,與有序規則的區別在于,規則的作用并沒有先后順序;混合規則:針對不同的任務類型,采用不同的規則進行調度,但是對于其中某一個任務類型來說,調度規則是確定的;自適應規則:根據系統當前狀態和任務集的特性,靈活地選擇規則進行調度,與混合規則不同的是,它不僅考慮了任務集本身特點,同時還與系統狀態息息相關。本專利技術提出的基于強化學習的混合任務調度方法屬于自適應規則使用方式。所述的單一規則、有序規則、組合規則和混合規則,它們的特點在于規則的選擇是與靜態任務集相關的,而與系統的動態調度狀態無關。這些規則的制定與選擇建立在:第一,具有相當豐富的專家領域經驗和系統開發經驗,才能給出合適的規則需求描述;第二,系統運行環境相對簡單,不具有復雜的動態變化環境。所以在復雜環境的實時調度過程中,采用這些調度方式往往需要考慮到規則作用的盲點,比如單一規則雖然實現簡單,但無法精細化地根據不本文檔來自技高網
    ...
    一種基于強化學習的鐵路機車運行操控系統混合任務調度方法

    【技術保護點】
    一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述的混合任務包括:周期性實時任務、非周期性實時任務以及非實時任務;所述的混合任務調度方法包括:步驟(1)、采集鐵路機車運行操控系統實際運行或仿真實驗中的混合任務集數據,形成混合任務集合;步驟(2)、將混合任務集合中的每個任務進行規則化標記;步驟(3)、將規則化標記后的任務集合作為強化學習系統的輸入,構成強化學習環境,強化學習系統應用強化學習算法,根據機車運行操控系統的調度目標進行迭代學習過程;步驟(4)、強化學習系統生成對應機車運行操控系統混合任務集合的多個<狀態?規則>關系表,并將該多個<狀態?規則>關系表保存在數據庫中;步驟(5)、針對數據庫中保存的多個<狀態?規則>表,對于每個狀態,挑選出現頻率最高的規則作為當前狀態的最優規則,形成最優<狀態?規則>對應關系表;步驟(6)、根據最優<狀態?規則>對應關系表,指導生成機車運行操控系統混合任務的實時調度序列,實現任務調度。

    【技術特征摘要】
    1.一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述的混合任務包括:周期性實時任務、非周期性實時任務以及非實時任務;所述的混合任務調度方法包括:步驟(1)、采集鐵路機車運行操控系統實際運行或仿真實驗中的混合任務集數據,形成混合任務集合;步驟(2)、將混合任務集合中的每個任務進行規則化標記;步驟(3)、將規則化標記后的任務集合作為強化學習系統的輸入,構成強化學習環境,強化學習系統應用強化學習算法,根據機車運行操控系統的調度目標進行迭代學習過程;步驟(4)、強化學習系統生成對應機車運行操控系統混合任務集合的多個<狀態-規則>關系表,并將該多個<狀態-規則>關系表保存在數據庫中;步驟(5)、針對數據庫中保存的多個<狀態-規則>表,對于每個狀態,挑選出現頻率最高的規則作為當前狀態的最優規則,形成最優<狀態-規則>對應關系表;步驟(6)、根據最優<狀態-規則>對應關系表,指導生成機車運行操控系統混合任務的實時調度序列,實現任務調度。2.根據權利要求1所述的一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述步驟(2)中所采用的規則化方法為:規則化每個任務為7元組,元組的元素分別為:任務類型、任務提交時刻、任務執行時刻、任務執行中斷時刻鏈表、任務結束時刻、任務截止期和任務提交周期。3.根據權利要求2所述的一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述7元組中任務類型指鐵路機車運行操控系統中周期性實時任務、非周期性實時任務和非實時任務;所述7元組中任務執行中斷時刻鏈表指任務執行過程中每一次被中斷時刻組成的鏈表或數組結構。4.根據權利要求3所述的一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述強化學習系統包括強化學習環境及狀態集合空間、動作集合空間、獎懲函數和智能...

    【專利技術屬性】
    技術研發人員:趙曦濱黃思光黃晉楊帆顧明孫家廣
    申請(專利權)人:清華大學
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩亚洲AV无码一区二区不卡| 精品久久久无码中字| 亚洲av无码成人精品国产| 亚洲熟妇无码一区二区三区导航| 国产精品无码素人福利不卡| 久久久无码人妻精品无码| 13小箩利洗澡无码视频网站免费| 国产怡春院无码一区二区 | 无码专区久久综合久中文字幕| 无码一区二区三区亚洲人妻| 亚洲AV无码专区电影在线观看 | 国产精品亚洲а∨无码播放| 亚洲免费无码在线| 国产午夜无码片在线观看影院| 无码精品国产一区二区三区免费| 免费无码一区二区| 一本大道无码日韩精品影视_| 久久久久av无码免费网| 无码国产精品一区二区免费I6| 亚洲国产精品成人精品无码区在线| 国产精品亚洲а∨无码播放不卡| 无码人妻丰满熟妇区96| 久久久久久亚洲av无码蜜芽| 日韩精品人妻系列无码专区| 国产亚洲3p无码一区二区| 久久久久无码精品| 红桃AV一区二区三区在线无码AV | 精品国产v无码大片在线观看| 中文字幕av无码专区第一页| 亚洲 另类 无码 在线| 国产精品国产免费无码专区不卡 | 精品无码一区在线观看| 亚洲AV无码专区电影在线观看 | 亚洲的天堂av无码| 98久久人妻无码精品系列蜜桃 | 国产乱人伦中文无无码视频试看| 亚洲日韩精品无码专区| av色欲无码人妻中文字幕| 人妻无码人妻有码中文字幕| 无码人妻一区二区三区免费看| 在线高清无码A.|