System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于共享車,具體的說是考慮平臺博弈的有站式共享車系統動態管控方法及系統。
技術介紹
1、隨著城市化水平的不斷提高,綠色出行在緩解全球氣候惡化中的重要性不斷凸顯。共享單車(及共享電單車),作為一種健康且兼具時間和成本效益的出行方案,為其他大容量公共交通方式(地鐵、公交)提供更為靈活的首末端出行服務,有效緩解交通擁堵和環境污染。
2、共享電單車的引入為原共享單車運營帶來挑戰。首先,共享電單車-單車混合系統具有更廣泛的用戶受眾,增強了需求異質性,出行時段、距離、目的均呈現更多樣化的分布,增強了供給和需求的時空不平衡,提升精細化車輛配置難度。其次,共享電單車的再平衡與充換電問題,顯著提升決策維度。
3、然而,當前大部分研究聚焦于壟斷市場下共享單車/共享電單車系統運營,少有研究關注多平臺競爭下,共享(電)單車系統的管控策略。市場上,也缺乏對于共享單車、電單車混合系統的定價、調度方法。
技術實現思路
1、本專利技術給出了考慮平臺博弈的有站式共享車系統動態管控方法及系統,其技術方案主要包括:基于多智能體的仿真模塊與基于深度強化學習的優化控制模塊,具體技術方案如下:
2、本專利技術的一方面,提供了考慮平臺博弈的有站式共享車系統動態管控方法,包括如下步驟:
3、s1:獲取目標運營范圍相關數據,初始化仿真模塊;
4、s2:根據各平臺運營目標和管控手段,定義大平臺、小平臺智能體在馬爾可夫狀態轉移方程的狀態、動作、收益及狀態轉移概率;并
5、s3:在仿真模塊中供需推演與策略優化;
6、s4:判斷仿真模塊內各平臺收益是否趨于穩定;
7、s5:輸出管控方案。
8、優選的,s1中目標運營范圍相關數據包括調度卡車的數量及容量,各平臺的共享單車數量、位置數據、共享電單車數量、電量、位置數據和訂單數據。
9、優選的,s1包括如下步驟:
10、s11:將運營范圍劃分為若干個運營子區域,用于實現調度任務;
11、s12:在仿真模塊中定義各類別智能體狀態及交互影響方式,確定共享電單車在站充換電功率與行駛耗電速率;
12、s13:標定用戶出行選擇模型。
13、s14:生成大平臺輛共享單車、輛共享電單車、小平臺輛共享單車、輛共享電單車的空間位置,并初始化各平臺電單車的電量β;
14、s15:采用列表b1和b2實時記錄兩個平臺可用車輛。
15、優選的,s2包括如下步驟:
16、s21:定義大小平臺的狀態、動作、收益;其中,大平臺的狀態定義為
17、其中,狀態包含了平臺的當前電單車定價和所屬于該平臺的卡車運行狀態,寫作t表示時段信息,表示當前的電單車定價,表示第m輛卡車的狀態;
18、由卡車的任務類型和任務起訖點組成,表示任務類型,所述任務類型包括全部運輸共享單車、全部運輸共享電單車、一半運輸單車一半運輸電單車、不進行運輸,
19、其中,分別編碼了卡車任務的起點和終點;
20、其中,為大平臺外部狀態,包含了該時段的需求dt、其共享單車與電單車位置信息,和
21、其中,需求可通過歷史數據推演預測;
22、為小平臺的外部狀態,包含了該時段的需求dt,小平臺共享單車與電單車位置信息和還包含了大平臺的車輛位置信息和以及其電單車定價
23、其中,平臺的動作,表示平臺在下一時段t+1應完成的管控方案,l∈{1,2}表示其中任一平臺;其中,平臺的動作定義為包含了對于共享電單車的定價m輛卡車的任務類型及工作區域
24、平臺的狀態轉移規則可用下式表達:
25、
26、平臺的收益為共享單車和電單車租賃帶來的收入之和減去卡車的運輸成本共享單車、電單車的收入為距離的函數;
27、s22:初始化深度強化學習算法,包括采用d3qn算法(double?dueling?deep?q-network),確定神經網絡層數、隱藏單元數量、學習率參數,得到大平臺和小型平臺各自的初始策略評價網絡及經驗池。
28、優選的,s3包括在一天的t個時段內,各個子區域內根據訂單數據生成騎行需求,乘客遵循隨機效用理論選擇子區域內某一平臺的某一類車型,平臺決策當前時段的動作,此處由于涉及到多個平臺,采用修正的巢式logit模型刻畫多平臺多車型間的選擇行為;其中包括:
29、乘客首先確定使用車輛類型,共享單車、共享電單車或其他交通模式,隨后選擇大平臺或小型平臺;
30、s31:對于出行目的地在區域o和o'的乘客,選擇共享單車的概率分別可以表示為:
31、
32、其中根據巢式logit模型可以得到共享單車相對效用值,表示平臺l在區域o可用的共享單車數量,θ1為模型參數,對于某個平臺的共享單車相對效用值為:
33、
34、其中do,o'表示兩個區域間行駛距離,表示費用,表示行駛的時間成本,io為選擇其他模式效用值,∈為個體選擇差異帶來的隨機項,pb表示使用共享單車的選擇惰性,表示由于體力消耗帶來的騎行不適感,共享電單車的效用則不含有pb和ε(do,o');
35、若乘客選擇使用共享電單車,則平臺優先為其推薦站點處的高電量單車。
36、在乘客完成車輛選擇后,按照設定的共享單車/電單車運行速度到達終點,隨后更新共享單車、電單車位置,及共享電單車電量。
37、s32:在供需推演過程中,當時間段t結束后,優化控制模塊首先從仿真模塊中讀取大平臺狀態,此時通過貪婪策略確定動作:
38、生成一個0-1的隨機數,當該值小于δ,隨機為大平臺生成動作;
39、大于δ,則由神經網絡輸出當前狀態下的最優動作,并傳入仿真模塊中,大平臺根據該動作,確定下一時段電單車價格,并派遣卡車執行調度任務,大平臺的狀態發生更新;
40、隨后,優化控制模塊從仿真模塊中讀取小平臺狀態,同樣采用貪婪策略得到小平臺動作,傳入仿真模塊,平臺也根據輸出的管控方案執行動作,確定電單車價格和卡車任務,并更新狀態,
41、當時段t+1結束,兩個平臺統計得到自身收益,并結合該時段內的狀態、動作共同傳入優化控制模塊,存儲在經驗池內;
42、d3qn算法從經驗池內采集若干批次的記錄信息根據其損失函數,采用梯度下降法更新策略評價神經網絡,損失函數可以表達為:
43、
44、其中ω為神經網絡參數,r(st,at)為t時段的收益,q(st,at,ω)為訓練網絡,為目標網絡,根據訓練網絡得到下一時段下的最優動作,每n0個回合,將目標網絡的參數同步為訓練網絡;
45、優選的,s4中判斷仿真模塊內各平臺收益是否趨于穩定的方法為:
46、當平臺一天內,經過t個時段的累計本文檔來自技高網...
【技術保護點】
1.考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:包括如下步驟:
2.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:S1中目標運營范圍相關數據包括調度卡車的數量及容量,各平臺的共享單車數量、位置數據、共享電單車數量、電量、位置數據和訂單數據。
3.如權利要求2所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:S1包括如下步驟:
4.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:S2包括如下步驟:
5.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:S3包括在一天的T個時段內,各個子區域內根據訂單數據生成騎行需求,乘客遵循隨機效用理論選擇子區域內某一平臺的某一類車型,平臺決策當前時段的動作,此處由于涉及到多個平臺,采用修正的巢式Logit模型刻畫多平臺多車型間的選擇行為;其中包括:
6.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:S4中判斷仿真模塊內各平臺收益是否趨于穩定的方法為:
< ...【技術特征摘要】
1.考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:包括如下步驟:
2.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:s1中目標運營范圍相關數據包括調度卡車的數量及容量,各平臺的共享單車數量、位置數據、共享電單車數量、電量、位置數據和訂單數據。
3.如權利要求2所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:s1包括如下步驟:
4.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:s2包括如下步驟:
5.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:s3包括在一天的t個時段內,各個子區域內根據訂單數據生成騎行需求,乘客遵循隨機效用理論選擇子區域內某一平臺的某一類車型,平臺決策當前時段的動作,此處由于涉及到多個平臺,采用修正的巢式logit模型刻畫多平臺多車型間的選擇行為;其中包括:
6.如權利要求1所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:s4中判斷仿真模塊內各平臺收益是否趨于穩定的方法為:
7.如權利要求6所述的考慮平臺博弈的有站式共享車系統動態管控方法,其特征在于:s4中獲得實時管控方案包括將任意時刻仿真模塊內的狀態,輸入已訓練好的優化控制模塊中,其中,該狀態包括當前時...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。