數據清洗模型的訓練方法、使用方法、裝置、設備及介質制造方法及圖紙

技術編號：44036347 閱讀：3 留言：0更新日期：2025-01-15 01:15

本申請提供一種數據清洗模型的訓練方法、使用方法、裝置、設備及介質，涉及數據處理技術領域。該方法包括：獲取多個第一未清洗數據，并對多個第一未清洗數據進行預處理，得到訓練數據集；通過訓練數據集訓練預置的混合專家模型，得到基于混合專家模型的基礎模型；從多個第一未清洗數據中篩選出多個第一目標數據，并獲取每個第一目標數據對應的標記數據；通過多個標記數據訓練基礎模型，得到基于基礎模型的數據清洗模型。本申請使用訓練數據訓練模型，在訓練模型的過程中無需使用人工標記數據，在后續調節模型的過程中只使用了少量的人工標記數據。本申請減少了人工標記數據的使用數量，降低了數據清洗模型訓練的時間和成本。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及數據處理，尤其涉及數據清洗模型的訓練方法、使用方法、裝置、設備及介質。

技術介紹

1、數據清洗是指通過一系列技術來識別、修正或刪除未清洗數據中存在的錯誤的或冗余的數據，目的是提高數據的質量和一致性，從而確保數據分析和決策的準確性。數據清洗在各種應用中都有重要作用，例如在數據挖掘和機器學習中，清洗后的數據能夠提升結果的準確性。

2、現有技術在訓練數據清洗模型時，首先會收集一個訓練數據集，人工標記其中的錯誤或異常的數據。然后選擇適當的模型架構，如決策樹、隨機森林或神經網絡，并使用標記后的訓練數據對模型進行訓練，使其能夠識別異常數據。將新的數據集輸入訓練好的模型，訓練好的模型能夠自動標記新的數據集中錯誤或異常的數據。

3、然而，現有技術在模型訓練中對標記數據的數量和質量有較高的依賴性，這意味著需要大量高質量的人工標記數據才能訓練出準確的模型。然而，人工標記大量數據會顯著增加數據清洗模型的訓練時間和成本。

技術實現思路

1、本申請提供一種數據清洗模型的訓練方法、使用方法、裝置、設備及介質，用以解決現有技術中數據清洗模型的訓練時間長和成本高的問題。

2、第一方面，本申請提供一種數據清洗模型的訓練方法，包括：

3、獲取多個第一未清洗數據，并對多個所述第一未清洗數據進行預處理，得到訓練數據集；

4、通過所述訓練數據集訓練預置的混合專家模型，得到基于所述混合專家模型的基礎模型；

5、從所述多個第一未清洗數據中篩選出多

6、通過多個所述標記數據訓練所述基礎模型，得到基于所述基礎模型的數據清洗模型；其中，所述數據清洗模型用于為未清洗數據進行數據清洗。

7、在一種可能的設計中，所述訓練數據集包括多個訓練數據，則所述通過所述訓練數據集訓練預置的混合專家模型，得到基于所述混合專家模型的基礎模型，包括：

8、通過所述多個訓練數據迭代訓練所述混合專家模型，直至迭代訓練后的混合專家模型輸出的模型結果的誤差小于預設閾值；

9、將所述迭代訓練后的混合專家模型確定為所述基礎模型。

10、在一種可能的設計中，目標次訓練是迭代訓練中的任意一次訓練；

11、對于所述目標次訓練，所述通過所述多個訓練數據迭代訓練所述混合專家模型，包括：

12、將所述多個訓練數據輸入混合專家第一模型，得到所述混合專家第一模型輸出的每個所述訓練數據對應的損失值；其中，所述混合專家第一模型是指目標次訓練前的混合專家模型；

13、在多個所述損失值不小于所述預設閾值時，獲取混合專家第二模型；其中，所述混合專家第二模型是根據多個所述損失值，調整模型參數后的混合專家第一模型。

14、在一種可能的設計中，所述獲取每個所述第一目標數據對應的標記數據，包括：

15、將所述多個第一目標數據輸入預置的數據處理模型，得到所述數據處理模型輸出的每個所述第一目標數據對應的第一已清洗數據；

16、根據所述多個第一目標數據，以及每個所述第一目標數據對應的第一已清洗數據，得到每個所述第一目標數據對應的標記數據。

17、在一種可能的設計中，第二目標數據是所述多個第一目標數據中的任意一個；

18、對于所述第二目標數據，所述根據所述多個第一目標數據，以及每個所述第一目標數據對應的第一已清洗數據，得到每個所述第一目標數據對應的標記數據，包括：

19、在所述第二目標數據對應的損失值位于第一預設數值范圍之內時，根據所述第二目標數據，以及所述第二目標數據對應的第一已清洗數據，得到所述第二目標數據對應的標記數據；

20、在所述第二目標數據對應的損失值位于第二預設數值范圍之內時，根據所述第二目標數據，以及所述第二目標數據對應的第一已清洗數據和第一刪除原因，得到所述第二目標數據對應的標記數據；其中，所述第二預設數值范圍的最小值大于所述第一預設數值范圍的最大值，所述第一刪除原因用于指示所述第二目標數據為重復數據；

21、在所述第二目標數據對應的損失值位于第三預設數值范圍之內時，根據所述第二目標數據，以及所述第二目標數據對應的第一已清洗數據和第二刪除原因，得到所述第二目標數據對應的標記數據；其中，所述第三預設數值范圍的最小值大于所述第二預設數值范圍的最大值，所述第二刪除原因用于指示所述第二目標數據為敏感數據。

22、在一種可能的設計中，所述對多個所述第一未清洗數據進行預處理，得到訓練數據集，包括：

23、為每個所述第一未清洗數據進行分詞，得到多個分詞后的文本數據；

24、為所述多個分詞后的文本數據進行詞頻統計，得到每個詞匯在所述多個分詞后的文本數據中出現的頻率；

25、根據每個所述詞匯對應的頻率創建詞表；

26、根據所述詞表，為所述多個分詞后的文本數據進行詞匯索引化，得到所述訓練數據。

27、在一種可能的設計中，所述通過多個所述標記數據訓練所述基礎模型，得到基于所述基礎模型的數據清洗模型之后，所述方法還包括：

28、將所述多個第一目標數據輸入所述數據清洗模型，得到所述數據清洗模型輸出的第二已清洗數據；

29、獲取每個所述第一目標數據對應的第三已清洗數據；其中，每個所述第三已清洗數據均是人工數據清洗對應的第一目標數據后得到的數據；

30、計算每個所述第二已清洗數據與對應的第三已清洗數據之間的偏差，并根據多個所述偏差，對所述數據清洗模型進行迭代優化。

31、第二方面，本申請提供一種數據清洗模型的使用方法，包括：

32、獲取第二未清洗數據；

33、將所述第二未清洗數據輸入預置的數據清洗模型，得到所述數據清洗模型輸出的數據清洗后的第二未清洗數據；其中，所述數據清洗模型為通過第一方面中任一項所述的方法訓練得到的模型。

34、第三方面，本申請提供一種數據清洗模型的訓練裝置，包括：

35、第一獲取模塊，用于獲取多個第一未清洗數據，并對多個所述第一未清洗數據進行預處理，得到訓練數據集；

36、訓練模塊，用于通過所述訓練數據集訓練預置的混合專家模型，得到基于所述混合專家模型的基礎模型；

37、篩選模塊，用于從所述多個第一未清洗數據中篩選出多個第一目標數據，并獲取每個所述第一目標數據對應的標記數據；其中，每個所述標記數據均是為對應的第一目標數據進行數據標記得到的數據；

38、調整模塊，用于通過多個所述標記數據訓練所述基礎模型，得到基于所述基礎模型的數據清洗模型；其中，所述數據清洗模型用于為未清洗數據進行數據清洗。

39、在一種可能的設計中，所述訓練數據集包括多個訓練數據，則所述訓練模塊，包括：

40、訓練單元，用于通過所述多個訓練數本文檔來自技高網...

【技術保護點】

1.一種數據清洗模型的訓練方法，其特征在于，所述方法，包括：

2.根據權利要求1所述的數據清洗模型的訓練方法，其特征在于，所述訓練數據集包括多個訓練數據，則所述通過所述訓練數據集訓練預置的混合專家模型，得到基于所述混合專家模型的基礎模型，包括：

3.根據權利要求2所述的數據清洗模型的訓練方法，其特征在于，目標次訓練是迭代訓練中的任意一次訓練；

4.根據權利要求3所述的數據清洗模型的訓練方法，其特征在于，所述獲取每個所述第一目標數據對應的標記數據，包括：

5.根據權利要求4所述的數據清洗模型的訓練方法，其特征在于，第二目標數據是所述多個第一目標數據中的任意一個；

6.根據權利要求1至5任一項所述的數據清洗模型的訓練方法，其特征在于，所述對多個所述第一未清洗數據進行預處理，得到訓練數據集，包括：

7.根據權利要求1所述的數據清洗模型的訓練方法，其特征在于，所述通過多個所述標記數據訓練所述基礎模型，得到基于所述基礎模型的數據清洗模型之后，所述方法還包括：

8.一種數據清洗模型的使用方法，其特征在于，所述方法，包括：

9.一種數據清洗模型的訓練裝置，其特征在于，包括：

10.一種數據清洗模型的使用裝置，其特征在于，包括：

11.一種電子設備，其特征在于，包括：處理器，以及與所述處理器通信連接的存儲器；

12.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質中存儲有計算機執行指令，所述計算機執行指令被處理器執行時，用于實現如權利要求1至7任一項所述的數據清洗模型的訓練方法，或實現如權利要求8所述的數據清洗模型的使用方法。

13.一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時，用于實現如權利要求1至7任一項所述的數據清洗模型的訓練方法，或實現如權利要求8所述的數據清洗模型的使用方法。

...

【技術特征摘要】

1.一種數據清洗模型的訓練方法，其特征在于，所述方法，包括：

3.根據權利要求2所述的數據清洗模型的訓練方法，其特征在于，目標次訓練是迭代訓練中的任意一次訓練；

4.根據權利要求3所述的數據清洗模型的訓練方法，其特征在于，所述獲取每個所述第一目標數據對應的標記數據，包括：

5.根據權利要求4所述的數據清洗模型的訓練方法，其特征在于，第二目標數據是所述多個第一目標數據中的任意一個；

6.根據權利要求1至5任一項所述的數據清洗模型的訓練方法，其特征在于，所述對多個所述第一未清洗數據進行預處理，得到訓練數據集，包括：

7.根據權利要求1所述的數據清洗模型的訓練方法，其特征在于，...

【專利技術屬性】
技術研發人員：韓立明，王寧，史樹明，郭俊廷，
申請(專利權)人：中國聯合網絡通信集團有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

數據清洗模型的訓練方法、使用方法、裝置、設備及介質制造方法及圖紙

數據清洗模型的訓練方法、使用方法、裝置、設備及介質制造方法及圖紙