System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲人成无码www久久久,国产乱子伦精品无码专区,免费人妻av无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數據清洗模型的訓練方法、使用方法、裝置、設備及介質制造方法及圖紙

    技術編號:44036347 閱讀:3 留言:0更新日期:2025-01-15 01:15
    本申請提供一種數據清洗模型的訓練方法、使用方法、裝置、設備及介質,涉及數據處理技術領域。該方法包括:獲取多個第一未清洗數據,并對多個第一未清洗數據進行預處理,得到訓練數據集;通過訓練數據集訓練預置的混合專家模型,得到基于混合專家模型的基礎模型;從多個第一未清洗數據中篩選出多個第一目標數據,并獲取每個第一目標數據對應的標記數據;通過多個標記數據訓練基礎模型,得到基于基礎模型的數據清洗模型。本申請使用訓練數據訓練模型,在訓練模型的過程中無需使用人工標記數據,在后續調節模型的過程中只使用了少量的人工標記數據。本申請減少了人工標記數據的使用數量,降低了數據清洗模型訓練的時間和成本。

    【技術實現步驟摘要】

    本申請涉及數據處理,尤其涉及數據清洗模型的訓練方法、使用方法、裝置、設備及介質。


    技術介紹

    1、數據清洗是指通過一系列技術來識別、修正或刪除未清洗數據中存在的錯誤的或冗余的數據,目的是提高數據的質量和一致性,從而確保數據分析和決策的準確性。數據清洗在各種應用中都有重要作用,例如在數據挖掘和機器學習中,清洗后的數據能夠提升結果的準確性。

    2、現有技術在訓練數據清洗模型時,首先會收集一個訓練數據集,人工標記其中的錯誤或異常的數據。然后選擇適當的模型架構,如決策樹、隨機森林或神經網絡,并使用標記后的訓練數據對模型進行訓練,使其能夠識別異常數據。將新的數據集輸入訓練好的模型,訓練好的模型能夠自動標記新的數據集中錯誤或異常的數據。

    3、然而,現有技術在模型訓練中對標記數據的數量和質量有較高的依賴性,這意味著需要大量高質量的人工標記數據才能訓練出準確的模型。然而,人工標記大量數據會顯著增加數據清洗模型的訓練時間和成本。


    技術實現思路

    1、本申請提供一種數據清洗模型的訓練方法、使用方法、裝置、設備及介質,用以解決現有技術中數據清洗模型的訓練時間長和成本高的問題。

    2、第一方面,本申請提供一種數據清洗模型的訓練方法,包括:

    3、獲取多個第一未清洗數據,并對多個所述第一未清洗數據進行預處理,得到訓練數據集;

    4、通過所述訓練數據集訓練預置的混合專家模型,得到基于所述混合專家模型的基礎模型;

    5、從所述多個第一未清洗數據中篩選出多個第一目標數據,并獲取每個所述第一目標數據對應的標記數據;其中,每個所述標記數據均是為對應的第一目標數據進行數據標記得到的數據;

    6、通過多個所述標記數據訓練所述基礎模型,得到基于所述基礎模型的數據清洗模型;其中,所述數據清洗模型用于為未清洗數據進行數據清洗。

    7、在一種可能的設計中,所述訓練數據集包括多個訓練數據,則所述通過所述訓練數據集訓練預置的混合專家模型,得到基于所述混合專家模型的基礎模型,包括:

    8、通過所述多個訓練數據迭代訓練所述混合專家模型,直至迭代訓練后的混合專家模型輸出的模型結果的誤差小于預設閾值;

    9、將所述迭代訓練后的混合專家模型確定為所述基礎模型。

    10、在一種可能的設計中,目標次訓練是迭代訓練中的任意一次訓練;

    11、對于所述目標次訓練,所述通過所述多個訓練數據迭代訓練所述混合專家模型,包括:

    12、將所述多個訓練數據輸入混合專家第一模型,得到所述混合專家第一模型輸出的每個所述訓練數據對應的損失值;其中,所述混合專家第一模型是指目標次訓練前的混合專家模型;

    13、在多個所述損失值不小于所述預設閾值時,獲取混合專家第二模型;其中,所述混合專家第二模型是根據多個所述損失值,調整模型參數后的混合專家第一模型。

    14、在一種可能的設計中,所述獲取每個所述第一目標數據對應的標記數據,包括:

    15、將所述多個第一目標數據輸入預置的數據處理模型,得到所述數據處理模型輸出的每個所述第一目標數據對應的第一已清洗數據;

    16、根據所述多個第一目標數據,以及每個所述第一目標數據對應的第一已清洗數據,得到每個所述第一目標數據對應的標記數據。

    17、在一種可能的設計中,第二目標數據是所述多個第一目標數據中的任意一個;

    18、對于所述第二目標數據,所述根據所述多個第一目標數據,以及每個所述第一目標數據對應的第一已清洗數據,得到每個所述第一目標數據對應的標記數據,包括:

    19、在所述第二目標數據對應的損失值位于第一預設數值范圍之內時,根據所述第二目標數據,以及所述第二目標數據對應的第一已清洗數據,得到所述第二目標數據對應的標記數據;

    20、在所述第二目標數據對應的損失值位于第二預設數值范圍之內時,根據所述第二目標數據,以及所述第二目標數據對應的第一已清洗數據和第一刪除原因,得到所述第二目標數據對應的標記數據;其中,所述第二預設數值范圍的最小值大于所述第一預設數值范圍的最大值,所述第一刪除原因用于指示所述第二目標數據為重復數據;

    21、在所述第二目標數據對應的損失值位于第三預設數值范圍之內時,根據所述第二目標數據,以及所述第二目標數據對應的第一已清洗數據和第二刪除原因,得到所述第二目標數據對應的標記數據;其中,所述第三預設數值范圍的最小值大于所述第二預設數值范圍的最大值,所述第二刪除原因用于指示所述第二目標數據為敏感數據。

    22、在一種可能的設計中,所述對多個所述第一未清洗數據進行預處理,得到訓練數據集,包括:

    23、為每個所述第一未清洗數據進行分詞,得到多個分詞后的文本數據;

    24、為所述多個分詞后的文本數據進行詞頻統計,得到每個詞匯在所述多個分詞后的文本數據中出現的頻率;

    25、根據每個所述詞匯對應的頻率創建詞表;

    26、根據所述詞表,為所述多個分詞后的文本數據進行詞匯索引化,得到所述訓練數據。

    27、在一種可能的設計中,所述通過多個所述標記數據訓練所述基礎模型,得到基于所述基礎模型的數據清洗模型之后,所述方法還包括:

    28、將所述多個第一目標數據輸入所述數據清洗模型,得到所述數據清洗模型輸出的第二已清洗數據;

    29、獲取每個所述第一目標數據對應的第三已清洗數據;其中,每個所述第三已清洗數據均是人工數據清洗對應的第一目標數據后得到的數據;

    30、計算每個所述第二已清洗數據與對應的第三已清洗數據之間的偏差,并根據多個所述偏差,對所述數據清洗模型進行迭代優化。

    31、第二方面,本申請提供一種數據清洗模型的使用方法,包括:

    32、獲取第二未清洗數據;

    33、將所述第二未清洗數據輸入預置的數據清洗模型,得到所述數據清洗模型輸出的數據清洗后的第二未清洗數據;其中,所述數據清洗模型為通過第一方面中任一項所述的方法訓練得到的模型。

    34、第三方面,本申請提供一種數據清洗模型的訓練裝置,包括:

    35、第一獲取模塊,用于獲取多個第一未清洗數據,并對多個所述第一未清洗數據進行預處理,得到訓練數據集;

    36、訓練模塊,用于通過所述訓練數據集訓練預置的混合專家模型,得到基于所述混合專家模型的基礎模型;

    37、篩選模塊,用于從所述多個第一未清洗數據中篩選出多個第一目標數據,并獲取每個所述第一目標數據對應的標記數據;其中,每個所述標記數據均是為對應的第一目標數據進行數據標記得到的數據;

    38、調整模塊,用于通過多個所述標記數據訓練所述基礎模型,得到基于所述基礎模型的數據清洗模型;其中,所述數據清洗模型用于為未清洗數據進行數據清洗。

    39、在一種可能的設計中,所述訓練數據集包括多個訓練數據,則所述訓練模塊,包括:

    40、訓練單元,用于通過所述多個訓練數本文檔來自技高網...

    【技術保護點】

    1.一種數據清洗模型的訓練方法,其特征在于,所述方法,包括:

    2.根據權利要求1所述的數據清洗模型的訓練方法,其特征在于,所述訓練數據集包括多個訓練數據,則所述通過所述訓練數據集訓練預置的混合專家模型,得到基于所述混合專家模型的基礎模型,包括:

    3.根據權利要求2所述的數據清洗模型的訓練方法,其特征在于,目標次訓練是迭代訓練中的任意一次訓練;

    4.根據權利要求3所述的數據清洗模型的訓練方法,其特征在于,所述獲取每個所述第一目標數據對應的標記數據,包括:

    5.根據權利要求4所述的數據清洗模型的訓練方法,其特征在于,第二目標數據是所述多個第一目標數據中的任意一個;

    6.根據權利要求1至5任一項所述的數據清洗模型的訓練方法,其特征在于,所述對多個所述第一未清洗數據進行預處理,得到訓練數據集,包括:

    7.根據權利要求1所述的數據清洗模型的訓練方法,其特征在于,所述通過多個所述標記數據訓練所述基礎模型,得到基于所述基礎模型的數據清洗模型之后,所述方法還包括:

    8.一種數據清洗模型的使用方法,其特征在于,所述方法,包括:

    9.一種數據清洗模型的訓練裝置,其特征在于,包括:

    10.一種數據清洗模型的使用裝置,其特征在于,包括:

    11.一種電子設備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;

    12.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機執行指令,所述計算機執行指令被處理器執行時,用于實現如權利要求1至7任一項所述的數據清洗模型的訓練方法,或實現如權利要求8所述的數據清洗模型的使用方法。

    13.一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時,用于實現如權利要求1至7任一項所述的數據清洗模型的訓練方法,或實現如權利要求8所述的數據清洗模型的使用方法。

    ...

    【技術特征摘要】

    1.一種數據清洗模型的訓練方法,其特征在于,所述方法,包括:

    2.根據權利要求1所述的數據清洗模型的訓練方法,其特征在于,所述訓練數據集包括多個訓練數據,則所述通過所述訓練數據集訓練預置的混合專家模型,得到基于所述混合專家模型的基礎模型,包括:

    3.根據權利要求2所述的數據清洗模型的訓練方法,其特征在于,目標次訓練是迭代訓練中的任意一次訓練;

    4.根據權利要求3所述的數據清洗模型的訓練方法,其特征在于,所述獲取每個所述第一目標數據對應的標記數據,包括:

    5.根據權利要求4所述的數據清洗模型的訓練方法,其特征在于,第二目標數據是所述多個第一目標數據中的任意一個;

    6.根據權利要求1至5任一項所述的數據清洗模型的訓練方法,其特征在于,所述對多個所述第一未清洗數據進行預處理,得到訓練數據集,包括:

    7.根據權利要求1所述的數據清洗模型的訓練方法,其特征在于,...

    【專利技術屬性】
    技術研發人員:韓立明,王寧,史樹明,郭俊廷
    申請(專利權)人:中國聯合網絡通信集團有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码AV一区二区三区| 久久亚洲中文字幕无码| 亚洲人成人伊人成综合网无码| 亚洲aⅴ天堂av天堂无码麻豆| 久久久久亚洲AV无码永不| 国语成本人片免费av无码| 亚洲人成人伊人成综合网无码| 无码成人AAAAA毛片| 亚洲精品无码久久久久久| 日韩人妻无码精品无码中文字幕| 亚洲AV综合色区无码另类小说| 亚洲精品无码少妇30P| 精品久久久久久中文字幕无码| 午夜无码A级毛片免费视频| 中文字幕av无码无卡免费| 国产羞羞的视频在线观看 国产一级无码视频在线| 无码一区二区三区爆白浆| 中文字幕乱码无码人妻系列蜜桃| 91精品日韩人妻无码久久不卡| 亚洲AV无码不卡在线观看下载| 亚洲精品无码日韩国产不卡av| 亚洲综合无码精品一区二区三区| 国模无码一区二区三区不卡| 亚洲成AV人在线观看天堂无码| 无码午夜成人1000部免费视频| 亚洲av无码天堂一区二区三区| 精品少妇人妻av无码专区| 无码精品人妻一区二区三区中| 日韩电影无码A不卡| 亚洲精品无码专区在线在线播放| 久久无码国产专区精品| 亚洲午夜福利AV一区二区无码| 亚洲熟妇无码一区二区三区| 无码专区久久综合久中文字幕| 日韩AV高清无码| 国产成A人亚洲精V品无码| 无码熟妇αⅴ人妻又粗又大| 无码办公室丝袜OL中文字幕| 亚洲AV无码专区电影在线观看| 性色av无码不卡中文字幕| 亚洲熟妇av午夜无码不卡|