本發明專利技術涉及城市規劃技術領域,提供一種基于強化學習的城市設施部署方法、裝置及電子設備,其中的方法包括:獲取初始城市設施部署方案對應的城市區域交換圖,并過濾城市區域交換圖中總部署成本高于設定成本閾值的低質量邊,得到目標城市區域交換圖;基于預先訓練的城市設施部署模型,根據目標城市區域交換圖生成目標城市設施部署方案,并根據目標城市設施部署方案進行城市設施部署。該方法通過過濾城市區域交換圖中的低質量邊,將算法注意力引導到高質量交換操作上,提升了目標城市設施部署方案的精度,以及,通過圖神經網絡和策略網絡的快速推理驅動交換操作來實現城市設施部署,避免了繁重的計算,實現了目標城市設施部署方案的快速生成。
【技術實現步驟摘要】
本專利技術涉及城市規劃,尤其涉及一種基于強化學習的城市設施部署方法、裝置及電子設備。
技術介紹
1、城市設施的空間分布深刻影響著數十億居民在城市內獲取基本公共服務(如學校和醫院)的移動模式。然而,在現實城市中,設施的布局往往與居民對城市服務的需求不匹配,導致出行成本高昂,實際布局與理論最優布局差距很大。不理想的設施布局極大地損害了城市運行的效率,導致過量的碳排放和嚴重的交通擁堵,降低了市民尋求基本服務的可達性和公平性。因此,通過對城市設施進行統籌布局,優化可達性,對于解決上述問題至關重要,能夠賦能建設更具可持續性和包容性的城市。
2、事實上,設施選址問題(facility?location?problem,flp)涉及從n個候選區域中選擇p個城市區域來放置設施,其本身的復雜度為np,是一個典型的組合優化(compositeoptimizer,co)問題,極具挑戰性。
3、在實際的城市場景中,n和p通常都很大,很難設計出一種可靠的能夠在合理的時間范圍內提供符合精度要求解決方案的算法。該問題求解空間巨大,例如在(n,p)=(1000,300)的情況下,求解空間超過10263。同時,作為一個現實世界中的優化問題,有寶貴的先驗知識需要顯式建模,包括現有啟發式算法中采用的策略,都應該為算法設計提供參考。
4、此外,與標準的flp設置不同,城市設施有多種不同類型,每種類型都有不同的居住需求和不同數量的設施,這就為問題引入了額外的約束條件,例如每個城市區域可容納的設施數量約束,從而使任務更加復雜。
<
p>5、flp傳統上使用啟發式方法和元啟發式方法來解決,例如tabu搜索和可變鄰域搜索(variable?neighborhood?search,vns)。此外,它還可以被表述為一個混合整數優化問題,從而可以用gurobi和mosek等商用求解器來解決。盡管這些方法提供了接近最優的解決方案,但其固有的大量局部搜索計算使它們僅適用于小規模問題,而當它們應用于現實世界的大規模場景時,其求解速度往往很慢,甚至在幾天內無法產生可行的解決方案,因此難以實際應用。6、近年來,一些機器學習模型被提出用于解決flp,盡管大幅提高了計算效率,但這些機器學習模型卻忽略了flp?固有的豐富先驗知識,導致與傳統方法相比,求解精度大幅下降,最終部署方案的可達性不理想,從而限制了它們的適用性。
7、因此,如何解決現有城市設施部署方法求解速度慢,且求解精度不高的問題,是城市規劃領域亟待解決的重要課題。
技術實現思路
1、本專利技術提供一種基于強化學習的城市設施部署方法、裝置及電子設備,用以克服現有城市設施部署方法求解速度慢,且求解精度不高的缺陷,實現城市設施部署方案的快速生成,并保證城市設施部署方案的精度。
2、一方面,本專利技術提供一種基于強化學習的城市設施部署方法,包括:獲取初始城市設施部署方案對應的城市區域交換圖,并過濾所述城市區域交換圖中總部署成本高于設定成本閾值的低質量邊,得到目標城市區域交換圖;其中,所述城市區域交換圖包括圖-節點和圖-邊,所述圖-節點用于表征候選區域,所述圖-邊用于連接存在待部署設施的圖-節點和不存在待部署設施的圖-節點,且所述圖-邊對應于候選交換操作;基于預先訓練的城市設施部署模型,根據所述目標城市區域交換圖生成目標城市設施部署方案,并根據所述目標城市設施部署方案進行城市設施部署;其中,所述城市設施部署模型基于圖神經網絡和策略網絡構建得到,所述目標城市設施部署方案包括包含于候選交換操作的目標交換操作,且所述目標城市設施部署方案對應最小總部署成本。
3、進一步地,所述低質量邊包括歷史訪問邊和負收益邊;相應的,所述過濾所述城市區域交換圖中總部署成本高于設定閾值的低質量邊的步驟,具體包括:獲取歷史交換操作所訪問的歷史圖-節點,將包含所述歷史圖-節點的圖-邊確定為歷史訪問邊;獲取候選交換操作所對應的移除節點和插入節點之間的實際距離,并計算所述候選交換操作所對應的實際收益和實際損失;在所述實際距離大于設定距離閾值,且所述實際收益低于所述實際損失的情況下,將所述候選交換操作對應的圖-邊確定為負收益邊;過濾所述城市區域交換圖中的歷史訪問邊和負收益邊,得到所述目標城市區域交換圖。
4、進一步地,所述基于預先訓練的城市設施部署模型,根據所述目標城市區域交換圖生成目標城市設施部署方案,包括:基于預先訓練的圖神經網絡,根據所述目標城市區域交換圖,獲取交換邊嵌入;基于預先訓練的策略網絡,根據所述交換邊嵌入,生成目標城市設施部署方案。
5、進一步地,所述基于預先訓練的圖神經網絡,根據所述目標城市區域交換圖獲取交換邊嵌入,包括:獲取所述目標城市區域交換圖中每一圖-節點對應的節點特征,并將所述節點特征編碼為初始節點嵌入;更新所述初始節點嵌入,得到目標節點嵌入;融合候選交換操作對應的所述目標節點嵌入與虛擬節點對應的虛擬節點嵌入,得到所述交換邊嵌入;其中,所述虛擬節點與目標城市區域交換圖中的全部圖-節點連接。
6、進一步地,所述策略網絡包括多層感知器;相應的,所述基于預先訓練的策略網絡,根據所述交換邊嵌入,生成目標城市設施部署方案,包括:根據所述交換邊嵌入,通過多層感知器對所述目標城市區域交換圖中的每一圖-邊進行評分,得到候選交換操作對應的操作分數;將最高操作分數對應的候選交換操作確定為目標交換操作,得到目標城市設施部署方案。
7、進一步地,訓練優化所述城市設施部署模型,具體包括:獲取真實城市的城市地理空間數據,并隨機生成所述城市地理空間數據對應的候選區域數量和待部署設施數量;根據所述候選區域數量和待部署設施數量,采用近端策略優化算法對所述城市設施部署模型進行迭代優化;在迭代優化次數達到設定迭代次數的情況下,停止訓練,得到訓練好的城市設施部署模型。
8、進一步地,所述獲取初始城市設施部署方案對應的城市區域交換圖,之前包括:根據給定的候選區域和待部署設施,采用貪心算法求解得到所述初始城市設施部署方案。
9、第二方面,本專利技術還提供一種基于強化學習的城市設施部署裝置,包括:目標城市區域交換圖獲取模塊,用于獲取初始城市設施部署方案對應的城市區域交換圖,并過濾所述城市區域交換圖中總部署成本高于設定成本閾值的低質量邊,得到目標城市區域交換圖;其中,所述城市區域交換圖包括圖-節點和圖-邊,所述圖-節點用于表征候選區域,所述圖-邊用于連接存在待部署設施的圖-節點和不存在待部署設施的圖-節點,且所述圖-邊對應于候選交換操作;目標城市設施部署方案生成模塊,用于基于預先訓練的城市設施部署模型,根據所述目標城市區域交換圖生成目標城市設施部署方案,并根據所述目標城市設施部署方案進行城市設施部署;其中,所述城市設施部署模型基于圖神經網絡和策略網絡構建得到,所述目標城市設施部署方案包括包含于候選交換操作的目標交換操作,且所述目標城市設施部署方案對應最小總部署成本。
10、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及本文檔來自技高網
...
【技術保護點】
1.一種基于強化學習的城市設施部署方法,其特征在于,包括:
2.根據權利要求1所述的基于強化學習的城市設施部署方法,其特征在于,所述低質量邊包括歷史訪問邊和負收益邊;
3.根據權利要求1所述的基于強化學習的城市設施部署方法,其特征在于,所述基于預先訓練的城市設施部署模型,根據所述目標城市區域交換圖生成目標城市設施部署方案,包括:
4.根據權利要求3所述的基于強化學習的城市設施部署方法,其特征在于,所述基于預先訓練的圖神經網絡,根據所述目標城市區域交換圖獲取交換邊嵌入,包括:
5.根據權利要求3所述的基于強化學習的城市設施部署方法,其特征在于,所述策略網絡包括多層感知器;
6.根據權利要求1-5中任一項所述的基于強化學習的城市設施部署方法,其特征在于,訓練優化所述城市設施部署模型,具體包括:
7.根據權利要求1-5中任一項所述的基于強化學習的城市設施部署方法,其特征在于,所述獲取初始城市設施部署方案對應的城市區域交換圖,之前包括:
8.一種基于強化學習的城市設施部署裝置,其特征在于,包括:
<
p>9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7中任一項所述的基于強化學習的城市設施部署方法。10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的基于強化學習的城市設施部署方法。
...
【技術特征摘要】
1.一種基于強化學習的城市設施部署方法,其特征在于,包括:
2.根據權利要求1所述的基于強化學習的城市設施部署方法,其特征在于,所述低質量邊包括歷史訪問邊和負收益邊;
3.根據權利要求1所述的基于強化學習的城市設施部署方法,其特征在于,所述基于預先訓練的城市設施部署模型,根據所述目標城市區域交換圖生成目標城市設施部署方案,包括:
4.根據權利要求3所述的基于強化學習的城市設施部署方法,其特征在于,所述基于預先訓練的圖神經網絡,根據所述目標城市區域交換圖獲取交換邊嵌入,包括:
5.根據權利要求3所述的基于強化學習的城市設施部署方法,其特征在于,所述策略網絡包括多層感知器;
6.根據權利要求1-5中任一項所述的基于強化學習...
【專利技術屬性】
技術研發人員:李勇,鄭瑜,
申請(專利權)人:清華大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。