System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及邊緣計算,具體涉及一種多智能體深度確定性梯度策略計算卸載方法。
技術介紹
1、隨著物聯網設備,如智能手機、傳感器和可穿戴設備等的快速增長和應用,大量的計算密集型任務需要從iot設備轉移到云服務器上執行。然而,這些密集行任務的轉移過程會涉及到大量的數據傳輸,這將導致物聯網應用的高延遲。移動邊緣計算(mec)的出現可以有效緩解這一挑戰。移動邊緣計算可以將復雜任務從物聯網設備中的計算密集型任務遷移到邊緣服務器中,從而為物聯網設備提供計算服務。通過利用邊緣服務器以及云服務器的計算和決策能力來減少計算延遲和能源,從而提升用戶的體驗質量。
2、為應對暴增的物聯網設備所帶來的大量計算密集型任務,通常需要部署多個邊緣節點服務器,然而出于成本的考慮,多個邊緣節點服務器的計算能力及計算資源通常有差異的,因此在邊緣計算系統中終端設備如何卸載計算任務,卸載至那個邊緣節點即終端設備的卸載策略會對系統的時延及能耗造成很大影響。使用傳統智能優化算法或深度強化學習算法進行求解探索動作空間維度較長,導致了迭代時間長或易陷入局部最優解的問題,不符合邊緣計算低時延及高服務質量的要求。
技術實現思路
1、本專利技術的目的在于提供一種多智能體深度確定性梯度策略計算卸載方法,旨在解決傳統深度強化學習算法因探索動作空間維度長導致的陷入局部最優解的問題,提高應急場景下感知信息傳輸的時效性的同時降低卸載成本。
2、為實現上述目的,本專利技術提供了一種多智能體深度確定性梯度策略計算卸載方法,包括
3、步驟1:構建包括多物聯網終端及多邊緣節點的斯塔克爾伯格博弈模型;
4、步驟2:設計馬爾科夫決策過程;
5、步驟3:多智能體根據其對環境的觀測進行動作選擇;
6、步驟4:從經驗回放池中抽取一定數量的樣本,通過計算目標回報值、損失函數和策略梯度更新多智能體的在線策略網絡參數θμ和在線q網絡參數θq,并采用軟更新目標策略網絡參數θμ'和目標q網絡的參數θq'。
7、可選的,在步驟1中的環境場景是在多物聯網設備、多邊緣計算服務器節點應用場景下構建的,具體包括多個計算能力不同的邊緣計算服務器節點以及多個物聯網終端設備,即多個智能體,整個系統的服務周期被劃分為個時隙,終端設備在每個時隙都會產生一個計算密集型任務,終端設備通過無線網絡將計算任務卸載到邊緣節點進行輔助處理。
8、可選的,所述斯塔克爾伯格博弈模型中的物聯網終端設備及邊緣節點的效用函數構建,邊緣節點服務器的效用函數如下:
9、
10、其中,uc邊緣節點i的效用,pi表示邊緣節點i單位計算資源的售價,dt表示在邊緣計算系統時隙t終端設備卸載至邊緣節點的任務數據量,γi表示物聯網終端設備的卸載至邊緣節點的任務比例,c表示邊緣節點單位資源成本;
11、物聯網終端設備的效用函數如下:
12、
13、其中,cuser表示物聯網終端設備單位資源計算成本,表示物聯網終端設備i所產生的計算任務進行本地計算的比例。
14、可選的,步驟2中邊緣節點作為智能體的狀態空間sc、動作空間ac、獎勵函數設計策略rc的表達式如下:
15、sc={cc,pc,γ}
16、ac=pc
17、rc=(pc-cc)×γ×d
18、其中,cc為所有邊緣節點的單位資源成本集合,pc為所有邊緣節點單位資源售價集合。γ為所有物聯網終端設備的卸載策略集合。
19、可選的,步驟2中物聯網終端設備作為智能體的狀態空間suser、動作空間設計策略auser、獎勵函數ruser的表達式如下:
20、suser={d,pc}
21、auser=γ
22、ruser=(-pc-cuser-ctr)*d。
23、可選的,步驟3中多智能體的動作選擇策略,每個智能體在系統時隙t根據其部分觀測o(t)以及策略μθ:φ→α選擇動作a(t):
24、a(t)=μθ(o(t);θ)。
25、可選的,步驟4中每個智能體包含4個神經網絡:actor網絡,參數為θμ;critic網絡,參數為θq;目標actor網絡,參數為θμ';目標critic網絡,參數為θq';
26、actor網絡用于探索環境狀態s并生成預測動作a,進一步通過critic網絡評估動作a的價值并輸出q(s,a|θq),計算出智能體在狀態s下執行動作a的累積期望獎勵如下式所示:
27、
28、其中,s'~p表示狀態轉移概率p得到下一個狀態s',q'(s',a')表示在狀態s'執行動作a'得到的動作值,r表示在狀態s'執行動作a'得到的獎勵值;則參數θq'的目標網絡q值可表示為:
29、y=r+γq'(s',μ'(s'|θμ')|θq')
30、通過計算估計值與實際值的均方誤差,critic網絡的損失函數表示為:
31、l(θq)=eμ'[(q(s,a|θq)-y2)]
32、目標網絡采用軟更新策略來更新參數,即每次更新時,目標網絡的參數會逐漸向在線網絡的參數靠近一定的程度,以減少更新造成的突變;具體來說,通過迭代方式更新目標actor網絡和目標critic網絡中的參數θμ'和θq':
33、θμ'←ω1θμ+(1-ω1)θμ'
34、θq'←ω2θq+(1-ω2)θq'。
35、本專利技術提供了一種多智能體深度確定性梯度策略計算卸載方法,具體為在多物聯網終端設備與多邊緣計算服務器節點協作式應用場景下建立終端設備任務卸載決策模型,通過分析邊緣節點與物聯網終端設備的競爭關系構建斯塔克爾伯格博弈模型,進而設計相應的多智能體馬爾科夫決策過程,最后利用所設計的多智能體訓練求解博弈模型的納什均衡。與現有技術相比能有效降低邊緣計算系統成本,并解決了傳統深度強化學習算法因探索動作空間維度長導致的陷入局部最優解的問題,實現了在多終端及多邊緣節點協作應急場景下的動態計算卸載決策,提高了應急場景下感知信息傳輸的時效性的同時降低了卸載成本。
本文檔來自技高網...【技術保護點】
1.一種多智能體深度確定性梯度策略計算卸載方法,其特征在于,包括下列步驟:
2.如權利要求1所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
3.如權利要求2所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
4.如權利要求3所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
5.如權利要求4所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
6.如權利要求5所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
7.如權利要求6所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
【技術特征摘要】
1.一種多智能體深度確定性梯度策略計算卸載方法,其特征在于,包括下列步驟:
2.如權利要求1所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
3.如權利要求2所述的多智能體深度確定性梯度策略計算卸載方法,其特征在于,
4.如權利要求3所述的多智能體深度確定...
【專利技術屬性】
技術研發人員:邱斌,李學禮,李國威,胡紅波,黃翔,肖海林,李嘉,劉紅霖,
申請(專利權)人:桂林理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。