System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于任務分配,具體涉及一種基于空間眾包的動態訂單配送方法及系統。
技術介紹
1、隨著互聯網和智能設備的普及,為了方便,許多人更喜歡在線購買各種商品或服務。特別是在線配送服務(online?delivery,od),近年來越來越受歡迎,這種服務首先由人(即顧客)下單,然后由供應商準備,最后由騎手完成配送。
2、目前,已經出現了大量的眾包在線配送系統,提供各種服務。一個典型的眾包在線配送(crowdsourcing?online?delivery,cod)系統有四個利益相關者,即平臺、眾包騎手、供應商(如食品、藥品供應商)和顧客。
3、cod系統的框架描述如下:
4、由于訂單和騎手的動態性,平臺需要一個訂單到達后的即時分配機制。作為cod系統的核心,該平臺在訂單分配過程中面臨兩大挑戰。一是平臺應該鼓勵更多的眾包騎手參與配送,因為很多眾包騎手除了參與配送之外沒有額外的收入。眾包騎手愿意一次運送更多的訂單,以獲得更多的利潤。為了解決這個問題,該平臺通常會分配一名騎手,負責多個目的地相似的訂單。另一個挑戰是系統環境中的巨大動態和不確定性。在cod系統中,顧客的在線訂單動態到達平臺,眾包騎手隨機分布在供應商周圍。動態和不確定性給訂單分配帶來了巨大的挑戰,特別是在繁忙時間(如上下班時間)。尋找大規模實例的全局最優解是np-hard,通常需要指數級的資源。為了應對這些挑戰,使用啟發式方法在合理的時間內找到高質量的解決方案。除了啟發式方法外,還采用了各種策略來優化訂單的分配。例如,一些研究采用了延遲策
5、總體而言,cod系統的設計和優化是一個復雜的問題,需要綜合考慮訂單分配、騎手激勵、動態環境適應性以及預測方法等多個方面。
技術實現思路
1、為了解決現有技術中存在的問題,本專利技術提供一種基于空間眾包的動態訂單配送方法,使用啟發式方法實現眾包在線配送服務的即時分配機制,提出兩階段訂單調整策略,對騎手分配和路徑規劃進行優化,從而提升訂單配送系統的總利潤,構建高效的訂單配送服務。
2、為了實現上述目的,本專利技術采用的技術方案是:一種基于空間眾包的動態訂單配送方法,包括以下步驟:
3、更新在當前決策點前成功分配的訂單信息和處于配送狀態的騎手信息;讀取新進入系統的訂單信息和騎手信息;
4、分配訂單并規劃騎手配送路線,具體地,根據訂單信息和騎手信息,通過啟發式貪心方法對所有未分配訂單進行分配,使用最小距離插入方法將訂單的起點、終點插入騎手的配送路線中,得到訂單分配的初始解;
5、使用超啟發式框架調整初始解,具體地,計算初始解的狀態,作為dqn網絡的輸入,根據輸出算子對解進行調整得到新解;為訂單調整的騎手重新規劃配送路線,騎手開始配送;
6、計算騎手相遇狀態并調整訂單,包括:根據騎手的相遇半徑,計算時刻系統中所有騎手的相遇狀態,隨機選擇相遇騎手,嘗試進行訂單調整操作,如果調整后利潤增加,則執行訂單調整操作,并重新為騎手規劃配送路線;否則不執行訂單調整操作;完成上述操作后,騎手繼續配送;
7、循環以上步驟。
8、進一步的,更新在當前決策點前成功分配的訂單信息和處于配送狀態的騎手的位置信息;讀取新獲取的訂單信息:
9、訂單信息和騎手信息定義,訂單由顧客通過在線平臺提交,一個訂單由其id、起始時間、截止日期、開始位置、目標位置以及獎勵預算組成,表示為;騎手從平臺上接收訂單,從供應商取貨,將物品交付到客戶手中,騎手由他/她的id、當前位置、總容量、當前剩余容量、分配訂單組成,表示為;
10、更新系統前序分配的訂單信息,更新未分配訂單的狀態:檢查訂單是否超時,如果超時則從系統中刪除,否則在下一決策點重新分配;更新處于配送狀態的訂單,檢查訂單是否取貨/送達,更新為對應的狀態;
11、讀取當前決策點與上一決策點之間獲取的訂單信息以及上一決策點分配失敗的訂單信息,共同構成本決策點將進行分配的訂單列表;獲取在線的眾包騎手列表,作為訂單分配的可用騎手。
12、進一步地,所述深度強化學習超啟發式框架構建并訓練時:構建深度神經網絡,用于從數據集中學習訂單和騎手特征到訂單調整策略的映射,對環境狀態進行評估以選擇動作;使用經驗回放機制和策略,分別用于存儲和重用歷史交互經驗,構建目標網絡,構建完成后使用訂單訓練集和騎手訓練集進行訓練。
13、進一步地,深度強化學習超啟發式框架中智能體考慮搜索過程中的額外信息,如騎手信息、訂單信息、系統信息作為當前環境的狀態,具體如下:
14、①騎手狀態信息
15、騎手狀態信息包括騎手的總剩余容量、活躍騎手數量,將兩者加權后作為騎手的狀態信息,具體計算公式如下:
16、
17、②訂單狀態信息
18、訂單狀態信息包括當前時刻系統中已分配訂單數量、已完成訂單數量,計算公式如下:
19、
20、③系統狀態信息
21、系統狀態信息為本次解和上次解的利潤差值,表示為:
22、
23、其中,均為權重參數,最終環境狀態表示為:
24、。
25、進一步的,所述深度強化學習超啟發式框架構建并訓練具體包括以下步驟:
26、s1,構建訓練網絡,定義網絡的輸入,維度為狀態的維度,使用全連接層和relu激活函數構建dqn網絡,學習狀態和動作之間的映射關系,輸出向量代表在當前狀態下執行對應動作的估計價值,維度為可選動作的數量;
27、s2,初始化訓練網絡、目標網絡以及經驗回放池r,隨機初始化訓練網絡的參數,復制訓練網絡的參數初始化目標網絡,初始化經驗回放池r,設置經驗回放池容量,存儲智能體與環境交互的經驗元組;
28、s3,將s4-s9執行設定次數,使用訂單訓練集和騎手訓練集進行訓練;
29、s4,獲取環境初始狀態,根據訓練網絡的輸出使用策略選擇動作;
30、s5,執行動作,獲得獎勵,環境狀態變為;
31、s6,將經驗元組放入經驗回放池r中;
32、s7,如果經驗回放池r的數據量足夠,從中隨機采樣n個數據;對于每個采樣的數據,使用目標網絡計算目標值,其中是折扣因子,取值范圍為[0,1];
33、s8,最小化目標損失,以此更新訓練網絡的參數,即;
34、s9,定期更新目標網絡的參數,即。
35、進一步的,啟發式貪心方法動態分配到達的配送訂單包括:
36、s11,獲取本文檔來自技高網...
【技術保護點】
1.一種基于空間眾包的動態訂單配送方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于空間眾包的動態訂單配送方法,其特征在于,更新在當前決策點前成功分配的訂單信息和處于配送狀態的騎手信息;讀取新進入系統的訂單信息和騎手信息包括:
3.根據權利要求1所述的基于空間眾包的動態訂單配送方法,其特征在于,所述深度強化學習超啟發式框架構建并訓練時:構建深度神經網絡,用于從數據集中學習訂單和騎手特征到訂單調整策略的映射,對環境狀態進行評估以選擇動作;使用經驗回放機制和策略,分別用于存儲和重用歷史交互經驗,以及權衡探索和利用;構建目標網絡,構建完成后使用訂單訓練集和騎手訓練集進行訓練。
4.根據權利要求3所述的基于空間眾包的動態訂單配送方法,其特征在于,深度強化學習超啟發式框架中智能體考慮搜索過程中的額外信息,如騎手信息、訂單信息、系統信息作為當前環境的狀態,具體如下:
5.根據權利要求3所述的基于空間眾包的動態訂單配送方法,其特征在于,所述深度強化學習超啟發式框架構建并訓練具體包括以下步驟:
6.根據權利要求1所述的基于空
7.根據權利要求1所述的基于空間眾包的動態訂單配送方法,其特征在于,計算騎手相遇狀態并調整訂單時,基于眾包騎手間的協作,具體包括:
8.一種基于空間眾包的動態訂單配送系統,其特征在于,包括信息循環更新模塊、初始解獲取模塊、分配模塊以及調整交換模塊;
9.一種計算機設備,其特征在于,包括處理器以及存儲器,存儲器用于存儲計算機可執行程序,處理器從存儲器中讀取部分或者全部所述計算機可執行程序并執行,處理器執行部分或全部計算可執行程序時能實現權利要求1-7任一項所述的基于空間眾包的動態訂單配送方法。
10.一種計算機可讀存儲介質,其特征在于,計算機可讀存儲介質中存儲有計算機程序,所述計算機程序被處理器執行時,能實現權利要求1-7任一項所述基于空間眾包的動態訂單配送方法。
...【技術特征摘要】
1.一種基于空間眾包的動態訂單配送方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于空間眾包的動態訂單配送方法,其特征在于,更新在當前決策點前成功分配的訂單信息和處于配送狀態的騎手信息;讀取新進入系統的訂單信息和騎手信息包括:
3.根據權利要求1所述的基于空間眾包的動態訂單配送方法,其特征在于,所述深度強化學習超啟發式框架構建并訓練時:構建深度神經網絡,用于從數據集中學習訂單和騎手特征到訂單調整策略的映射,對環境狀態進行評估以選擇動作;使用經驗回放機制和策略,分別用于存儲和重用歷史交互經驗,以及權衡探索和利用;構建目標網絡,構建完成后使用訂單訓練集和騎手訓練集進行訓練。
4.根據權利要求3所述的基于空間眾包的動態訂單配送方法,其特征在于,深度強化學習超啟發式框架中智能體考慮搜索過程中的額外信息,如騎手信息、訂單信息、系統信息作為當前環境的狀態,具體如下:
5.根據權利要求3所述的基于空間眾包的動態訂單配送方法,其特征在于,所述...
【專利技術屬性】
技術研發人員:張立臣,張揚揚,李彤,盧子娟,魏子佳,郭龍江,
申請(專利權)人:陜西師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。