一種開放數據下的機器學習模型訓練方法技術

技術編號：44491751 閱讀：4 留言：0更新日期：2025-03-04 17:57

本發明專利技術涉及開放數據下模型訓練的技術領域，公開了一種開放數據下的機器學習模型訓練方法，所述方法包括：對開放數據集合進行預處理以及語義特征提取，得到每一組開放數據的語義特征向量；基于開放數據的語義特征向量對開放數據進行聚類；將不同類別的開放數據集合分別作為訓練數據集進行訓練，得到多組局部優化參數，并進行全局異步參數優化。本發明專利技術基于開放數據之間的語義相似度進行聚類處理，實現大規模開放數據的拆分處理，采用并行同時訓練的方式，對機器學習模型進行訓練，得到多組局部優化參數，并采用無需等待所有局部優化參數迭代完成的異步參數優化方式實現全局異步優化處理，得到適用于多場景的最優機器學習模型參數。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及開放數據下模型訓練的，尤其涉及一種開放數據下的機器學習模型訓練方法。

技術介紹

1、在當今信息爆炸的時代，數據被認為是最有價值的資產之一。大量的數據源——包括社交媒體、傳感器、云存儲、開放數據等——不斷涌現，這些數據承載著豐富的信息和洞察力。開放數據指的是公開可訪問、可復用的數據集，其具有廣泛的來源和多樣的應用場景。政府部門、科研機構、企業以及個人都可以通過開放數據獲得更多信息、洞察和創新。利用開放數據進行機器學習模型訓練不僅可以提高模型的準確性和泛化能力，還可以促進信息共享和社會發展。然而，開放數據通常規模巨大、質量參差不齊，如何有效利用這些數據訓練出高質量的模型是一個重要問題。針對該問題，本專利技術提出一種開放數據下的機器學習模型訓練方法，通過整合多源異構開放數據，增強數據質量，提高模型的效果和泛化能力。

技術實現思路

1、有鑒于此，本專利技術提供一種開放數據下的機器學習模型訓練方法，目的在于：1)對所采集開放數據進行結合上下文編碼信息的編碼處理，并結合開放數據中不同分詞結果的出現頻率進行注意力權重計算，實現開放數據的語義特征提取，基于開放數據之間互為近鄰數據的數目以及平均距離，實現開放數據的聚合度計算，聚合度越高，則開放數據的鄰近數據越多，密度越大，提高聚類算法的聚類效率，得到不同類別的開放數據集合，實現大規模開放數據的拆分處理；2)將不同類別的開放數據集合分別作為訓練數據集，采用并行同時訓練的方式，對機器學習模型進行訓練，并在模型參數訓練求解過程中將模型參數訓

2、實現上述目的，本專利技術提供的一種開放數據下的機器學習模型訓練方法，包括以下步驟：

3、s1：采集開放數據集合，對開放數據集合進行預處理以及語義特征提取，得到每一組開放數據的語義特征向量；

4、s2：基于開放數據的語義特征向量對開放數據進行聚類，得到不同類別的開放數據集合；

5、s3：將不同類別的開放數據集合分別作為訓練數據集，對機器學習模型進行訓練，得到多組局部優化參數，其中并行搜索策略為所述機器學習模型的主要實施方法；

6、s4：將多組局部優化參數進行全局異步參數優化，得到最優機器學習模型參數，其中自適應步長的全局異步優化策略為所述全局異步參數優化的主要實施方法。

7、作為本專利技術的進一步改進方法：

8、可選地，所述s1步驟中采集開放數據集合，對開放數據集合進行預處理以及語義特征提取，包括：

9、采集開放數據構成開放數據集合，其中開放數據為公開可訪問、可復用的數據，所構成開放數據集合的形式為：

10、data＝{xn|n∈[1,n]}

11、其中：

12、data表示開放數據集合；

13、xn表示開放數據集合中的第n組開放數據，n表示開放數據集合中開放數據的總數；

14、對開放數據集合中的每一組開放數據進行預處理以及語義特征提取，得到每一組開放數據的語義特征向量，其中第n組開放數據xn的預處理以及語義特征提取流程為：

15、s11：構建分詞詞典，基于分詞詞典采用正向最大匹配法對第n組開放數據xn進行分詞處理，得到第n組開放數據xn的分詞結果序列：

16、

17、其中：

18、表示第n組開放數據xn的第i個分詞結果，numn表示第n組開放數據xn的分詞結果總數，i∈[1,numn]；

19、s12：對第n組開放數據xn的分詞結果序列進行編碼處理，得到第n組開放數據xn的編碼數據序列，作為第n組開放數據xn的預處理結果，其中編碼數據序列的計算流程為：

20、

21、其中：

22、xn表示第n組開放數據xn的編碼數據序列，表示分詞結果的編碼處理結果；

23、exp(·)表示以自然常數為底的指數函數；

24、w表示分詞結果編碼矩陣，*表示卷積處理；

25、onehot(·)表示對分詞結果進行獨熱編碼表示；

26、表示分詞結果的上文編碼信息，表示分詞結果的下文編碼信息；

27、s13：對編碼數據序列xn進行語義特征提取，得到第n組開放數據xn的語義特征向量fn。

28、可選地，所述s13步驟對編碼數據序列xn進行語義特征提取，包括：

29、s131：提取編碼數據序列xx中任意編碼處理結果的概率表示參數，其中編碼處理結果的概率表示參數為：

30、

31、其中：

32、表示分詞結果在第n組開放數據xn中出現的頻率；表示分詞結果在n組開放數據中出現的頻率；

33、表示編碼處理結果的概率表示參數；

34、s132：結合編碼處理結果的概率表示參數，計算得到編碼數據序列xn中任意編碼處理結果的注意力權重，其中編碼處理結果的注意力權重計算公式為：

35、

36、其中：

37、表示編碼處理結果的注意力權重；

38、s133：基于注意力權重生成編碼數據序列xn對應的語義特征向量fn：

39、

40、

41、其中：

42、表示逐元素相加；

43、fn(i)表示編碼處理結果的語義信息；

44、relu(·)表示relu激活函數。

45、可選地，所述s2步驟中基于開放數據的語義特征向量對開放數據進行聚類，包括：

46、基于開放數據的語義特征向量對開放數據進行聚類，得到k個聚類簇，將聚類簇中的所有開放數據作為同一類別的開放數據，構成k個類別的開放數據集合，其中聚類流程為：

47、s21：計算得到不同開放數據之間的距離，其中第n組開放數據xn與第q組開放數據xq之間的距離為：

48、

49、其中：

50、dis(xn,xq)表示第n組開放數據xn與第q組開放數據xq之間的距離，fq表示第q組開放數據xq的語義特征向量，q∈[1,n]；

51、||·||2表示l2范數；

52、表示語義特征向量fn與語義特征向量fq之間的相似度；

53、s22：篩選得到每組開放數據的最鄰近m組開放數據，其中開放數據xn的最鄰近m組開放數據表示與開放數據xn距離最近的m組開放數據，并統計每組開放數據的互為最鄰近開放數據數目，其中開放數據xn的互為最鄰近開放數據數目為count(xn)，表示開放數據xn的最鄰近m組開放數據中，本文檔來自技高網...

【技術保護點】

1.一種開放數據下的機器學習模型訓練方法，其特征在于，所述方法包括：

2.如權利要求1所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述S1步驟中采集開放數據集合，對開放數據集合進行預處理以及語義特征提取，包括：

3.如權利要求2所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述S13步驟對編碼數據序列Xn進行語義特征提取，包括：

4.如權利要求1所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述S2步驟中基于開放數據的語義特征向量對開放數據進行聚類，包括：

5.如權利要求4所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述S3步驟中將不同類別的開放數據集合分別作為訓練數據集，對機器學習模型進行訓練，包括：

6.如權利要求5所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述基于K個訓練數據集，對機器學習模型進行訓練，得到K組局部優化參數，包括：

7.如權利要求6所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述S4步驟中將多組局部優化參數進行全局異步參數優化，包括：

...

【技術特征摘要】

1.一種開放數據下的機器學習模型訓練方法，其特征在于，所述方法包括：

2.如權利要求1所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述s1步驟中采集開放數據集合，對開放數據集合進行預處理以及語義特征提取，包括：

3.如權利要求2所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述s13步驟對編碼數據序列xn進行語義特征提取，包括：

4.如權利要求1所述的一種開放數據下的機器學習模型訓練方法，其特征在于，所述s2步驟中基于開放數據的語義特征向量對開...

【專利技術屬性】
技術研發人員：徐歡，張喜銘，林志達，林克全，趙曉瑋，
申請(專利權)人：中國南方電網有限責任公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術