基于AI的數據清理方法及系統技術方案

技術編號：44327518 閱讀：4 留言：0更新日期：2025-02-18 20:35

本發明專利技術提供了一種基于AI的數據清理方法及系統，屬于數據清理技術領域。所述方法包括步驟：構建數據重要性判斷標準和數據清理模型；實時采集數據，根據所述數據重要性判斷標準對所述數據實時分類和貼上便于后續識別和分析的標記；獲得所述數據的熱度變化，根據所述數據熱度分類標準和所述標記將所述數據逐級冷卻降解或回溫為熱數據、冷數據、冰數據和封存數據。本發明專利技術解決了現有技術中數據清理過程對數據重要性的判斷僵化、不精準、誤刪數據無法復現的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據清理，具體的涉及一種基于ai的數據清理方法及系統。

技術介紹

1、在云服務使用過程中會產生大量數據，例如創意數字內容的設計生產過程中會產生包括但不限于用戶信息、原始數據、渲染過程數據、最終結果數據以及緩存數據等，這些數據產生的資產價值積累是一個復雜且持續的過程。這些數據不僅對于ai大模型的訓練至關重要，還可以用來分析用戶行為和實現個性化定制。隨著參與云服務的用戶數量的增加，產生的數據量也在急劇增長，這其中包括了大量的過程性數據和階段性數據，為數據存儲、訓練、學習帶來了較大壓力。

2、目前，數據清理工作主要基于時間標準，即在特定的時間周期后對數據進行清理。這種方法雖然簡單，但它缺乏對數據重要性的判斷，可能會導致重要或有標志性的數據被錯誤地刪除。此外，還有一些數據清理方法以數據的調用次數、數據的用戶訪問量為標準，即在特定的時間周期后對調用次數和用戶訪問量均低于設定值的數據進行清理，例如，10天內，數據a的調用次數小于1000次，用戶訪問量小于200位，則刪除數據a。這種方法雖然考慮了數據的重要性，但重要性判斷標準單一，仍可能會導致重要或有標志性的數據被錯誤地刪除。

3、本專利技術專利技術人發現上述技術至少存在如下技術問題：

4、1、數據清理過程缺乏對數據重要性的判斷或判斷標準僵化、不精準，易導致數據被誤刪；

5、2、數據錯誤清理后無法進行恢復復現。

技術實現思路

1、本專利技術的目的在于克服現有技術的缺陷，提供了一種基于

2、為了實現以上目的及其他目的，本專利技術是通過包括以下技術方案實現的：作為第一方面，本專利技術提出了一種基于ai的數據清理方法，所述方法包括步驟：

3、構建數據重要性判斷標準和數據熱度分類標準；

4、實時采集數據，根據所述數據重要性判斷標準對所述數據實時分類和貼上便于后續識別和分析的標記；

5、獲得所述數據的熱度變化，根據所述數據熱度分類標準和所述標記將所述數據逐級冷卻降解或回溫為熱數據、冷數據、冰數據和封存數據。

6、在一實施例中，所述“2、構建數據重要性判斷標準和數據清理模型”具體包括步驟：

7、采集歷史數據，利用ai對所述歷史數據進行分類和添加標記；

8、通過ai學習標記好的所述歷史數據的歷史使用情況，獲得所述歷史數據的熱度變化，根據所述熱度變化，將所述歷史數據從熱數據依次冷卻降解為冷數據和冰數據，并形成數據重要性判斷標準和數據熱度分類標準；

9、通過ai判斷所述冰數據中的標志性數據是否能通過模型訓練恢復，若能，則刪除；若不能，則將所述標志性數據作為封存數據保存。

10、在一實施例中，所述數據在逐級冷卻降解或回溫過程中，所述標記由ai根據所述數據重要性判斷標準實時調整。

11、在一實施例中，所述數據熱度分類標準為：當所述數據的熱度指標中至少有兩個呈正增長時，所述數據為熱數據；當所述數據的熱度指標中僅有一個呈正增長時，所述數據為冷數據；當所述數據的熱度指標均負增長時，所述數據為冰數據；所述冰數據中不可復現的標志性數據為封存數據。

12、在一實施例中，所述熱度指標包括訪問量、回訪率、時間或訪問時長中的三個及以上。

13、在一實施例中，所述標志性數據是指對于用戶后期使用過程中會經常訪問的重要數據。

14、在一實施例中，判斷新產生數據中的標志性數據與所述封存數據的相似度，當所述新產生數據中的標志性數據與所述封存數據相似時，進一步判斷所述新產生數據中的標志性數據與所述封存數據是否存在差異，若是，則標記差異后保留所述新產生數據中的標志性數據；若否，則保留所述封存數據；當所述新產生數據中的標志性數據與所述封存數據不相似時，同時保留全部數據。

15、在一實施例中，所述方法還包括步驟：當用戶有新的偏好設置或更新用戶信息時，對后臺數據進行覆蓋更新。

16、作為第二方面，本專利技術提供了一種基于ai的數據清理系統，所述系統應用于如第一方面任一項所述的方法，所述系統包括

17、構建模塊，用于構建數據重要性判斷標準和數據熱度分類標準；

18、第一采集模塊，用于實時采集云服務使用過程中的數據；

19、分類標記模塊，用于對所述數據進行分類和添加標記；

20、第二采集模塊，用于獲得所述數據在使用過程中的熱度變化

21、數據降解模塊，用于根據所述數據熱度分類標準和標記對所述數據進行逐級冷卻降解或回溫；

22、更新迭代模塊，用于進行數據的更新迭代。

23、作為第三方面，本專利技術提供了一種計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時實現第一方面任一項所述的方法。

24、本專利技術實施例中提供的一個或多個技術方案，至少具有如下技術效果或優點：

25、本專利技術利用ai技術對數據進行分類和評估，根據數據的使用熱度和重要性對其進行分級管理，對于過程性、階段性的過渡數據，根據其使用情況逐步降低其熱度，并判斷重要程度、是否可復現等因素，進行數據清理和更新，可以最大程度防止關鍵性數據的誤刪，確保關鍵數據的安全性；同時，通過動態的熱度指標變化和實時的重要性判斷，可以使熱度回升的過渡數據得到保留，使數據清理更靈活和精準，提高數據處理效率；此外，通過對封存數據的衍生擴展可以避免反復保存相同部分的數據，降低數據存儲空間的占用。

本文檔來自技高網...

【技術保護點】

1.一種基于AI的數據清理方法，其特征在于，所述方法包括步驟：

2.根據權利要求1所述的基于AI的數據清理方法，其特征在于，所述“構建數據重要性判斷標準和數據清理模型”具體包括步驟：

3.根據權利要求1或2所述的基于AI的數據清理方法，其特征在于，所述數據在逐級冷卻降解或回溫過程中，所述標記由AI根據所述數據重要性判斷標準實時調整。

4.根據權利要求1所述的基于AI的數據清理方法，其特征在于，所述數據熱度分類標準為：當所述數據的熱度指標中至少有兩個呈正增長時，所述數據為熱數據；當所述數據的熱度指標中僅有一個呈正增長時，所述數據為冷數據；當所述數據的熱度指標均負增長時，所述數據為冰數據；所述冰數據中不可復現的標志性數據為封存數據。

5.根據權利要求4所述的基于AI的數據清理方法，其特征在于，所述熱度指標包括訪問量、回訪率、時間或訪問時長中的三個及以上。

6.根據權利要求2或4所述的基于AI的數據清理方法，其特征在于，所述標志性數據是指對于用戶后期使用過程中會經常訪問的重要數據。

7.根據權利要求1所述的基于AI

8.根據權利要求1所述的基于AI的數據清理方法，其特征在于，所述方法還包括步驟：當用戶有新的偏好設置或更新用戶信息時，對后臺數據進行覆蓋更新。

9.一種基于AI的數據清理系統，其特征在于，所述系統應用于如權利要求1～8任一項所述的方法，所述系統包括

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1～8任一項所述的方法。

...

【技術特征摘要】

1.一種基于ai的數據清理方法，其特征在于，所述方法包括步驟：

2.根據權利要求1所述的基于ai的數據清理方法，其特征在于，所述“構建數據重要性判斷標準和數據清理模型”具體包括步驟：

3.根據權利要求1或2所述的基于ai的數據清理方法，其特征在于，所述數據在逐級冷卻降解或回溫過程中，所述標記由ai根據所述數據重要性判斷標準實時調整。

4.根據權利要求1所述的基于ai的數據清理方法，其特征在于，所述數據熱度分類標準為：當所述數據的熱度指標中至少有兩個呈正增長時，所述數據為熱數據；當所述數據的熱度指標中僅有一個呈正增長時，所述數據為冷數據；當所述數據的熱度指標均負增長時，所述數據為冰數據；所述冰數據中不可復現的標志性數據為封存數據。

5.根據權利要求4所述的基于ai的數據清理方法，其特征在于，所述熱度指標包括訪問量、回訪率、時間或訪問時長中的三個及以上。

6.根據權利要求2或4所述的基于ai的數據清理方法，其特征在于，所述...

【專利技術屬性】
技術研發人員：梅向東，張鵬，王映嶺，
申請(專利權)人：江蘇贊奇科技股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術