System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及電數字數據處理,尤其涉及一種具有高泛化能力的分層聯邦學習方法。
技術介紹
1、隨著人工智能技術的飛速發展,尤其是深度學習和強化學習領域的不斷突破,機器學習模型在解決復雜問題上的能力日益增強。然而,在傳統的聯邦學習中,不論是同步更新及其變體或者是異步更新,都需要在多次更新中交換大量模型參數。為了克服這些挑戰,研究者們提出了聯邦學習(federated?learning,fl)和分層學習(hierarchicallearning,hl)的概念,并結合深度強化學習(deep?reinforcement?learning,drl)中dqn(deep?q-network)網絡的優勢,構建了一種新型的學習框架,即一種基于深度強化學習、具有泛化能力的分層聯邦學習框架,它由1個云、l個邊緣服務器和n個客戶端以及n個強化學習網絡組成。
2、現有的技術,通過深度神經網絡的感知能力和深度強化學習的決策能力將訓練任務分為多個子任務,并由相對應的低層策略執行,然后通過模型聚合算法設計激勵機制,同時實時監測參與者的聯邦學習過程,最后根據高層策略對聯邦學習過程進行協同互動,實現了復雜環境下的智能決策。
3、例如公告號為:cn112668877b專利技術專利公告的結合聯邦學習和強化學習的事物資源信息分配方法及系統,包括:待分配事物的管理和分配由管理者進行統一分配,且待分配事物并不能在數量上同時滿足所有個體;管理者設計深度強化學習模型,并分發給每一個個體,個體使用深度強化學習模型對待分配事物進行選擇;管理者通過聯邦學習產生新
4、例如公開號為:cn117252253a專利申請公開的異步聯邦邊緣學習中的客戶端選擇和個性化隱私保護方法,包括:使用私有數據集對客戶端的本地學習模型進行本地訓練并進行本地更新;采用異步聚合方案將未及時參與聚合的客戶端產生陳舊模型;當t=0時,邊緣服務器初始化全局參數和陳舊模型陳舊度列表,將全局參數廣播給所有客戶端進行初始同步,并通知客戶端開始本地訓練;客戶端收到全局模型后使用sgd算法進行本地更新,獲得本地模型參數;當客戶端在本地完成上述計算過程后,立即通過無線鏈路上傳至邊緣服務器。
5、但本申請在實現本申請實施例中專利技術技術方案的過程中,發現上述技術至少存在如下技術問題:
6、現有技術中,激勵機制設計主要聚焦于參與者的異構性,這種單一維度的關注往往不足以全面應對聯邦學習中長期效率和穩定性的挑戰,存在分層聯邦學習框架開銷與模型準確性之間平衡性考慮不充分的問題。
技術實現思路
1、本申請實施例通過提供一種具有高泛化能力的分層聯邦學習方法,解決了現有技術中分層聯邦學習框架開銷與模型準確性之間平衡性考慮不充分的問題,實現了分層聯邦學習框架開銷與模型準確性之間平衡性的提高。
2、本申請實施例提供了一種具有高泛化能力的分層聯邦學習方法,包括以下步驟:s1,獲取客戶端在預設時間段內提供的訓練樣本數據,根據訓練樣本數據判斷客戶端是否參與本地模型訓練,若是,則執行s2,所述訓練樣本數據存儲于聯邦學習環境中,所述聯邦學習環境包括狀態空間和動作空間,所述本地模型通過聯邦學習環境中的訓練樣本數據進行訓練;s2,將參與本地模型訓練的訓練樣本數據輸入至dqn網絡中得到預測q值和目標q值,同時根據dqn網絡的內置參數對q網絡進行訓練以獲取平衡狀態值,所述預測q值用于預測當前狀態下本地模型訓練后的輸出值,所述目標q值用于反映給定狀態下本地模型訓練后的期望值;s3,根據訓練樣本數據獲取客戶端的樣本對并根據獲取的樣本對獲取損失期望值,同時根據獲取的損失期望值選擇邊緣服務器,將dqn網絡中訓練完成的本地模型上傳至選擇的邊緣服務器進行模型聚合以生成邊緣模型,并將生成的邊緣模型上傳至云端服務器生成全局模型,所述邊緣服務器具有泛化能力,所述邊緣模型用于實時處理訓練樣本數據并提高調度決策,所述全局模型用于根據調度決策評估和改進本地模型和邊緣模型。
3、進一步的,所述根據訓練樣本數據判斷客戶端是否參與本地模型訓練的具體流程為:判斷訓練樣本數據是否等于0:若訓練樣本數據等于0,則表明對應的客戶端不參與該輪本地模型訓練,同時實時監測訓練樣本數據在預設時間段內的變化情況;若訓練樣本數據不等于0,則表明對應的客戶端參與該輪本地模型訓練,同時將對應的訓練樣本數據通過多層感知機輸入至預設數據庫中進行存儲,所述多層感知機用于將客戶端提供的不等于0的訓練樣本數據轉換為q-learning的可處理狀態。
4、進一步的,所述根據獲取的樣本對獲取損失期望值的具體步驟為:根據本地模型訓練過程中的預測值和樣本標簽值獲取損失函數,所述預測值為本地模型參數對應的函數,所述損失函數用于量化預測值與樣本標簽值之間的差異程度;根據獲取的損失函數得到客戶端對應樣本對的損失值,同時結合損失值對應的采樣結果獲取損失期望值,所述損失值用于反映本地模型在單個樣本對上的預測準確性,所述采樣結果為客戶端選中的樣本對,所述損失期望值用于反映本地模型在客戶端的樣本對上的平均性能表現。
5、進一步的,所述將參與本地模型訓練的訓練樣本數據輸入至dqn網絡中得到預測q值和目標q值,之后還包括根據dqn網絡的內置參數對q網絡進行訓練以獲取平衡狀態值;所述內置參數包括q網絡參數以及target網絡更新頻率;所述q網絡參數包括學習率、衰減率、折扣因子;所述平衡狀態值為q網絡在訓練過程中的預測q值與目標q值達到平衡狀態時的偏差q值;所述平衡狀態為偏差q值等于參考偏差q值時對應的穩定狀態;所述偏差q值為目標q值與預測q值的差值;所述參考偏差q值通過預設數據庫中歷史時間段內的歷史偏差q值中不為0的最小值求和平均后的結果表示。
6、進一步的,所述根據內置參數對q網絡進行訓練的具體流程包括:步驟一,將參與本地模型訓練的訓練樣本數據作為輸入,獲取用于訓練q網絡的訓練限定數據,所述訓練限定數據包括當前狀態、給定狀態和動作任務;步驟二,將當前狀態輸入至q網絡中,通過q網絡的前向傳播過程獲取當前狀態下對應動作任務的預測q值,同時通過target網絡獲取給定狀態下對應動作任務的目標q值;步驟三,通過q網絡的反向傳播過程按照target網絡更新頻率將q網絡參數輸入至target網絡中以確保q網絡在訓練過程中的穩定性;步驟四,判斷偏差q值是否等于參考偏差q值,若是,則完成q網絡訓練,否則返回步驟一,直至預測q值與目標q值之間的差值等于參考偏差q值后停止q網絡訓練。
7、進一步的,所述偏差q值的具體限制表達式為:
8、;
9、;
10、;
11、式中,t為當前時間步驟的編號,,t為當前時間步驟的總數量,表示dqn網絡在當前時間步驟t的偏差q值,表示target網絡在當前時間步驟t的目標q值,表示q網絡在當前時間步驟t的預測q值,表示dqn網絡在當前時間步驟t的狀態空間,表示客戶端在狀態空間中選擇的狀態值,表示dqn網絡在當前時間步驟t的動作空間,表示客戶端在狀態本文檔來自技高網...
【技術保護點】
1.一種具有高泛化能力的分層聯邦學習方法,其特征在于,包括以下步驟:
2.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述DQN網絡包括Q網絡和Target網絡;
3.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述根據訓練樣本數據判斷客戶端是否參與本地模型訓練的具體流程為:
4.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述樣本對由樣本特征和樣本標簽值組成;
5.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述根據獲取的樣本對獲取損失期望值的具體步驟為:
6.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述平衡狀態值為Q網絡在訓練過程中的預測Q值與目標Q值達到平衡狀態時的偏差Q值;
7.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述根據DQN網絡的內置參數對Q網絡進行訓練的具體流程包括:
8.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述
9.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述生成邊緣模型,之后還包括通過云端服務器形成邊緣模型的全局視覺;
10.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述將生成的邊緣模型上傳至云端服務器生成全局模型,之后還包括將邊緣模型損失期望值與損失期望值進行差值運算以獲取全局模型與本地模型的廣義差距;
...【技術特征摘要】
1.一種具有高泛化能力的分層聯邦學習方法,其特征在于,包括以下步驟:
2.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述dqn網絡包括q網絡和target網絡;
3.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述根據訓練樣本數據判斷客戶端是否參與本地模型訓練的具體流程為:
4.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述樣本對由樣本特征和樣本標簽值組成;
5.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述根據獲取的樣本對獲取損失期望值的具體步驟為:
6.如權利要求1所述一種具有高泛化能力的分層聯邦學習方法,其特征在于,所述平衡狀態值為q...
【專利技術屬性】
技術研發人員:陳宇翔,張申奧成,何大成,梁偉,熊乃學,
申請(專利權)人:湖南科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。