一種基于聯邦學習的多標簽數據聚類分割方法、系統、裝置及存儲介質制造方法及圖紙

技術編號：44110588 閱讀：10 留言：0更新日期：2025-01-24 22:35

本發明專利技術公開了一種基于聯邦學習的多標簽數據聚類分割方法、系統、裝置及存儲介質，中央服務器對原始多標簽數據集提取圖像特征，并與圖像的多標簽信息拼接成特征向量，中央服務器對多標簽數據集根據特征向量進行聚類處理，根據全局參數設置的分布類型以及聚類結果與聯邦客戶端數量，將數據集劃分為遵循該分布類型的數據并分配給各個聯邦客戶端。對每個客戶端的數據進行圖像預處理，分割為訓練集和測試集，并保存配置信息以及訓練集與測試集劃分，完成多標簽數據聚類分割。本發明專利技術通過聚類算法為聯邦學習模擬仿真多標簽分類任務，提供了實驗所需的各種數據分布情況，為聯邦學習中處理多標簽數據集的數據分割問題提供了有效的解決方案。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及分布式機器學習，尤其涉及一種基于聯邦學習的多標簽數據聚類分割方法、系統、裝置及存儲介質。

技術介紹

1、聯邦學習是一種分布式機器學習方法，它允許多個設備或者服務器共同協作訓練一個模型，同時保護各自的本地數據不被共享，旨在解決數據隱私安全以及數據孤島等問題，特別適用于處理敏感信息的場景，比如隱私識別、醫療健康等領域，是近年來人工智能領域的新范式。

2、然而，聯邦學習雖然在隱私保護與數據安全方面頗具優勢，但在實際應用方面仍具諸多挑戰，尤其是處理非獨立同分布(non-iid)數據和多標簽數據時。非獨立同分布數據可能會導致聯邦模型性能的不一致以及通信效率的低下，并且難以優化。多標簽數據可能導致模型無法充分利用標簽間的依賴關系，給模型的訓練和聚合帶來了額外的挑戰。目前，學術界正積極探索聯邦學習的方法設計、優化策略和通信協議，以實現更高效、更準確、更可靠的分布式學習。

3、但是，聯邦學習的研究需要在不同特征的數據分布之上展開對比試驗，關于多標簽數據的數據分割方法有所欠缺。所以本方案提出一種基于聯邦學習的一種多標簽聚類數據分割方法，能夠成功模擬聯邦學習多標簽分類任務中的多種數據分布情形，用以測試相關的聯邦學習方法，滿足聯邦學習學術研究的需要。

技術實現思路

1、本專利技術目的在于為了克服現有技術的缺陷，提出一種基于聯邦學習的多標簽數據聚類分割方法、系統、裝置及存儲介質。本專利技術針對多標簽圖像數據集，將數據按照聯邦學習多標簽分類任務中的幾種數據分布情形來分配

2、本專利技術的目的是通過以下技術方案來實現的：第一方面，本專利技術提供了一種基于聯邦學習的多標簽數據聚類分割方法，該方法包含如下步驟：

3、s1:中央服務器加載原始的多標簽數據集，使用卷積神經網絡提取圖像特征，并與圖像原始多標簽信息拼接成特征向量；

4、s2：中央服務器對多標簽數據集根據步驟s1拼接得到的特征向量進行聚類處理；

5、s3：中央服務器根據全局參數設置的分布類型及聯邦客戶端數量，將數據集基于聚類結果劃分為遵循分布類型的數據并分配給各個聯邦客戶端；

6、s4：對每個聯邦客戶端的數據進行圖像預處理，分割為訓練集和測試集，并保存配置信息以及訓練集與測試集劃分，完成多標簽數據聚類分割。

7、進一步地，步驟s1中，中央服務器加載原始的多標簽數據集，輸入預訓練的卷積神經網絡resnet中提取圖像特征，并生成各個圖像的特征向量。

8、進一步地，步驟s1中，將圖片多標簽數據用獨熱編碼形式轉換為多標簽向量，并與圖像的特征向量拼接，綜合表示圖像的視覺信息和語義信息。

9、進一步地，步驟s3中，根據全局預設參數將聚類后的數據集根據五種不同的多標簽分布方式進行分割為與參與客戶端數量相同的子集，并逐一分配給各個參與客戶端，五種多標簽分布方式分別為：平衡且獨立同分布、不平衡且獨立同分布、病態分區、模擬現實情況分布和混合分布，所述混合分布由病態分區和模擬現實情況分布混合而成。

10、進一步地，針對模擬現實情況分布，對多標簽數據集基于聚類結果進行狄利克雷分割，以模擬現實情況下的數據分布。

11、進一步地，針對混合分布，對一定比例的數據采用模擬現實情況分布劃分并分配給對應比例的客戶端，并對剩余數據采用混合病態分區劃分并分配給剩余客戶端，該比例在全局參數中設置。

12、進一步地，步驟s3中，對每個客戶端分配到的圖像進行預處理，包括調整尺寸、隨機裁剪、水平翻轉和歸一化操作。

13、第二方面，本專利技術還提供了一種基于聯邦學習的多標簽數據聚類分割系統，該系統包括特征提取模塊、數據聚類模塊、數據分割模塊和配置存儲模塊；

14、所述特征提取模塊用于中央服務器提取多標簽數據集中的圖像特征，與圖像原始多標簽信息拼接成特征向量；

15、所述數據聚類模塊用于中央服務器對多標簽數據集根據特征向量進行聚類處理；

16、所述數據分割模塊用于中央服務器根據全局參數設置的分布類型及聯邦客戶端數量，將數據集基于聚類結果劃分為遵循分布類型的數據并分配給各個聯邦客戶端；

17、所述配置存儲模塊用于對每個客戶端的數據進行圖像預處理，分割為訓練集和測試集，并保存配置信息以及訓練集與測試集劃分，完成多標簽數據聚類分割。

18、第三方面，本專利技術還提供了一種基于聯邦學習的多標簽數據聚類分割裝置，包括存儲器和一個或多個處理器，所述存儲器中存儲有可執行代碼，所述處理器執行所述可執行代碼時，實現所述的一種基于聯邦學習的多標簽數據聚類分割方法。

19、第四方面，本專利技術還提供了一種計算機可讀存儲介質，其上存儲有程序，所述程序被處理器執行時，實現所述的一種基于聯邦學習的多標簽數據聚類分割方法。

20、第五方面，本專利技術還提供了一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時，實現所述的一種基于聯邦學習的多標簽數據聚類分割方法。

21、與現有技術相比，本專利技術具有如下有益效果：

22、1、本專利技術通過提出一種獨創的多標簽聚類數據分割方法，有效地解決了現有技術在處理多標簽圖像數據集時面臨的分布不均勻和數據異質性問題，該方法不但考慮了數據集的多標簽特性，還根據聯邦學習環境中客戶端的實際需求和數量進行了優化，從而為聯邦學習多標簽分類任務提供了一種更為精準和高效的數據預處理方法。

23、2、本專利技術通過對數據集進行分割，使用狄利克雷分布等概率方法，能夠模擬聯邦學習多標簽分類任務中的不同數據分布場景，包括但不限于多標簽場景下的獨立同分布/非獨立同分布和平衡/不平衡分布，這種靈活的處理能力使得本專利技術能夠針對具體的聯邦學習場景進行定制化的數據準備，極大提高了實驗效率。

24、3、本專利技術在進行數據分割之前，中央服務器首先對多標簽數據集進行聚類處理，這一步驟有助于揭示數據內在的結構和關系，提高數據的利用效率。通過聚類預處理，可以確保分配給每個客戶端的數據集不僅在數量上均衡，而且在特征空間上具有代表性，從而增強了聯邦學習模型的泛化能力。

本文檔來自技高網...

【技術保護點】

1.一種基于聯邦學習的多標簽數據聚類分割方法，其特征在于，該方法包含如下步驟：

2.根據權利要求1所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟S1中，中央服務器加載原始的多標簽數據集，輸入預訓練的卷積神經網絡ResNet中提取圖像特征，并生成各個圖像的特征向量。

3.根據權利要求2所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟S1中，將圖片多標簽數據用獨熱編碼形式轉換為多標簽向量，并與圖像的特征向量拼接，綜合表示圖像的視覺信息和語義信息。

4.根據權利要求1所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟S3中，根據全局預設參數將聚類后的數據集根據五種不同的多標簽分布方式進行分割為與參與客戶端數量相同的子集，并逐一分配給各個參與客戶端，五種多標簽分布方式分別為：平衡且獨立同分布、不平衡且獨立同分布、病態分區、模擬現實情況分布和混合分布，所述混合分布由病態分區和模擬現實情況分布混合而成。

5.根據權利要求4所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，針對模擬現實情況分布，對多標簽數

6.根據權利要求4所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，針對混合分布，對一定比例的數據采用模擬現實情況分布劃分并分配給對應比例的客戶端，并對剩余數據采用混合病態分區劃分并分配給剩余客戶端，該比例在全局參數中設置。

7.根據權利要求1所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟S3中，對每個客戶端分配到的圖像進行預處理，包括調整尺寸、隨機裁剪、水平翻轉和歸一化操作。

8.一種基于聯邦學習的多標簽數據聚類分割系統，其特征在于，該系統包括特征提取模塊、數據聚類模塊、數據分割模塊和配置存儲模塊；

9.一種基于聯邦學習的多標簽數據聚類分割裝置，包括存儲器和一個或多個處理器，所述存儲器中存儲有可執行代碼，其特征在于，所述處理器執行所述可執行代碼時，實現如權利要求1-7中任一項所述的一種基于聯邦學習的多標簽數據聚類分割方法。

10.一種計算機可讀存儲介質，其上存儲有程序，其特征在于，所述程序被處理器執行時，實現如權利要求1-7中任一項所述的一種基于聯邦學習的多標簽數據聚類分割方法。

...

【技術特征摘要】

1.一種基于聯邦學習的多標簽數據聚類分割方法，其特征在于，該方法包含如下步驟：

2.根據權利要求1所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟s1中，中央服務器加載原始的多標簽數據集，輸入預訓練的卷積神經網絡resnet中提取圖像特征，并生成各個圖像的特征向量。

3.根據權利要求2所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟s1中，將圖片多標簽數據用獨熱編碼形式轉換為多標簽向量，并與圖像的特征向量拼接，綜合表示圖像的視覺信息和語義信息。

4.根據權利要求1所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，步驟s3中，根據全局預設參數將聚類后的數據集根據五種不同的多標簽分布方式進行分割為與參與客戶端數量相同的子集，并逐一分配給各個參與客戶端，五種多標簽分布方式分別為：平衡且獨立同分布、不平衡且獨立同分布、病態分區、模擬現實情況分布和混合分布，所述混合分布由病態分區和模擬現實情況分布混合而成。

5.根據權利要求4所述的基于聯邦學習的多標簽數據聚類分割方法，其特征在于，針對模擬現實情況分布，對多標簽數據集基于聚類結果進行狄...

【專利技術屬性】
技術研發人員：李英龍，韓笑歌，陳廷豪，黃治瑋，陳鐵明，
申請(專利權)人：浙江工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術