The invention provides a hybrid task scheduling method for railway locomotive operation control system based on reinforcement learning, which is an off-line learning process. Methods first, the hybrid task set data in the actual operation or simulation experiment of locomotive operation control system is collected to form a mixed task set, and the tasks in the hybrid task set are labeled regularly. Then, the task set after regular tagging is taken as the input of reinforcement learning system to form a reinforcement learning environment. Reinforcement learning system using reinforcement learning algorithm, study of locomotive operating system scheduling make iterative learning process, generate the corresponding mixed task set < state rule > corresponding relation table, and the state rules < > relational tables stored in the data base. Choose from a database of rules in the highest frequency of occurrence as the optimal rule of the current state, form the final state of < rule > corresponding relation table. The control system of locomotive in accordance with the state rules < > the corresponding relation table, real-time scheduling sequence generated mixed tasks, task scheduling.
【技術實現步驟摘要】
本專利技術涉及鐵路機車運行操控系統混合任務調度,尤其涉及一種基于強化學習的鐵路機車運行操控系統混合任務調度方法。
技術介紹
實時系統指當外界事件或數據產生時,能夠接受并以足夠快的速度予以處理,其處理的結果又能在規定的時間之內來控制生產過程或對處理系統做出快速響應,調度一切可利用的資源完成實時任務,并控制所有實時任務協調一致運行的系統。該類系統廣泛應用于社會生活的各個領域,常見的有車間實時調度系統,列車運行節能優化控制系統,飛行模擬器等。鐵路機車運行操控系統是典型的實時系統,且該系統在運行中會產生大量周期性和非周期性任務,任務之間相互耦合,具有不同的調度目標,系統的調度問題十分復雜。但是系統運行在實時控車的環境中,所以系統任務必須要實時、準確地得到完成。對于任務的合理調度,降低系統延遲對保障系統正常穩定運行有著至關重要的作用。現有系統混合任務集的調度方法主要有基于靜態表驅動策略的調度算法、基于優先級驅動策略的調度算法、基于比例共享的調度算法、動態基于規劃的調度算法、基于自適應控制的調度算法等。比如,申請號為201210524335.4的“一種強實時混合任務調度方法”專利技術專利就公開了一種基于靜態表驅動策略的調度算法。該類方法具有以下兩個缺點:第一,不夠靈活,一旦調度表確定了,在調度過程中就無法更改調度順序;第二,它要求在系統運行前,就獲取所有任務的到達時間,截止期,運行時間等信息,所以該策略很難運用到非周期性實時任務調度當中。上述基于優先級驅動策略的調度算法分為靜態優先級驅動策略和動態優先級驅動策略,分別具有靈活性差和執行開銷大的缺點。上述基于比例共享的 ...
【技術保護點】
一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述的混合任務包括:周期性實時任務、非周期性實時任務以及非實時任務;所述的混合任務調度方法包括:步驟(1)、采集鐵路機車運行操控系統實際運行或仿真實驗中的混合任務集數據,形成混合任務集合;步驟(2)、將混合任務集合中的每個任務進行規則化標記;步驟(3)、將規則化標記后的任務集合作為強化學習系統的輸入,構成強化學習環境,強化學習系統應用強化學習算法,根據機車運行操控系統的調度目標進行迭代學習過程;步驟(4)、強化學習系統生成對應機車運行操控系統混合任務集合的多個<狀態?規則>關系表,并將該多個<狀態?規則>關系表保存在數據庫中;步驟(5)、針對數據庫中保存的多個<狀態?規則>表,對于每個狀態,挑選出現頻率最高的規則作為當前狀態的最優規則,形成最優<狀態?規則>對應關系表;步驟(6)、根據最優<狀態?規則>對應關系表,指導生成機車運行操控系統混合任務的實時調度序列,實現任務調度。
【技術特征摘要】
1.一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述的混合任務包括:周期性實時任務、非周期性實時任務以及非實時任務;所述的混合任務調度方法包括:步驟(1)、采集鐵路機車運行操控系統實際運行或仿真實驗中的混合任務集數據,形成混合任務集合;步驟(2)、將混合任務集合中的每個任務進行規則化標記;步驟(3)、將規則化標記后的任務集合作為強化學習系統的輸入,構成強化學習環境,強化學習系統應用強化學習算法,根據機車運行操控系統的調度目標進行迭代學習過程;步驟(4)、強化學習系統生成對應機車運行操控系統混合任務集合的多個<狀態-規則>關系表,并將該多個<狀態-規則>關系表保存在數據庫中;步驟(5)、針對數據庫中保存的多個<狀態-規則>表,對于每個狀態,挑選出現頻率最高的規則作為當前狀態的最優規則,形成最優<狀態-規則>對應關系表;步驟(6)、根據最優<狀態-規則>對應關系表,指導生成機車運行操控系統混合任務的實時調度序列,實現任務調度。2.根據權利要求1所述的一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述步驟(2)中所采用的規則化方法為:規則化每個任務為7元組,元組的元素分別為:任務類型、任務提交時刻、任務執行時刻、任務執行中斷時刻鏈表、任務結束時刻、任務截止期和任務提交周期。3.根據權利要求2所述的一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述7元組中任務類型指鐵路機車運行操控系統中周期性實時任務、非周期性實時任務和非實時任務;所述7元組中任務執行中斷時刻鏈表指任務執行過程中每一次被中斷時刻組成的鏈表或數組結構。4.根據權利要求3所述的一種基于強化學習的鐵路機車運行操控系統混合任務調度方法,其特征在于,所述強化學習系統包括強化學習環境及狀態集合空間、動作集合空間、獎懲函數和智能...
【專利技術屬性】
技術研發人員:趙曦濱,黃思光,黃晉,楊帆,顧明,孫家廣,
申請(專利權)人:清華大學,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。