System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理領域,具體涉及一種數據分級分類方法及裝置。
技術介紹
1、數據分級分類是數據治理中的關鍵環節,傳統的分類方法往往依賴人工經驗和固定規則,難以應對海量異構數據的處理需求。現有的數據分級分類系統在數據質量評估、語義理解和規則管理等方面都存在明顯不足。
2、在數據質量管理方面,目前的系統普遍缺乏完整的質量評估體系,數據清洗過程較為簡單,無法有效處理復雜的數據質量問題。元數據的采集和標準化處理往往采用固定的規則,難以適應不同類型數據源的特點,導致數據質量參差不齊。
3、在標簽管理方面,傳統方法主要依靠關鍵詞匹配和簡單的分類算法,無法準確理解數據的深層語義。標簽體系的構建往往是靜態的,缺乏對標簽之間關聯關系的深入分析,難以形成反映數據內在聯系的知識圖譜。同時,標簽的層次結構較為簡單,不能很好地表達復雜的數據分類需求。
4、規則管理是另一個關鍵問題。現有系統的規則庫往往是固定的,缺乏自適應更新機制,無法根據新的數據特征和分類需求動態調整規則。規則之間的沖突處理能力較弱,在處理復雜場景時容易出現分類結果不一致的情況。
5、因此,需要一種更智能、更靈活的數據分級分類方案。
技術實現思路
1、針對現有技術中的問題,本申請提供一種數據分級分類方法及裝置,能夠實現更精準的數據分類和更有效的知識管理。
2、為了解決上述問題中的至少一個,本申請提供以下技術方案:
3、第一方面,本申請提供一種數據分級分類方法,包括:
...【技術保護點】
1.一種數據分級分類方法,其特征在于,所述方法包括:
2.根據權利要求1所述的數據分級分類方法,其特征在于,所述對數據源服務中的元數據進行采集并建立數據質量評估指標,利用數據清洗算法對所述元數據進行格式標準化和去重處理,將處理后的元數據按照預設的數據模式進行結構化存儲,包括:
3.根據權利要求1所述的數據分級分類方法,其特征在于,所述將所述結構化存儲的元數據輸入至標簽服務,構建雙層神經網絡模型,采用大語言模型對元數據進行語義理解生成特征向量,包括:
4.根據權利要求1所述的數據分級分類方法,其特征在于,所述將所述特征向量輸入深度學習算法構建注意力機制提取關鍵詞權重,基于所述關鍵詞權重計算標簽間的語義相似度矩陣,采用譜聚類算法對相似度矩陣進行分解得到標簽嵌入向量,包括:
5.根據權利要求1所述的數據分級分類方法,其特征在于,所述將所述標簽嵌入向量通過圖神經網絡構建標簽關聯圖譜,對所述標簽關聯圖譜進行層次化處理得到分層標簽體系并存入標簽庫,包括:
6.根據權利要求1所述的數據分級分類方法,其特征在于,所述基于所述分層標簽體系
7.根據權利要求1所述的數據分級分類方法,其特征在于,所述采用預設的自適應規則引擎對所述元數據進行分類分級處理,對處理結果進行確認后存儲至結果服務,包括:
8.一種數據分級分類裝置,其特征在于,所述裝置包括:
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1至7任一項所述的數據分級分類方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至7任一項所述的數據分級分類方法的步驟。
...【技術特征摘要】
1.一種數據分級分類方法,其特征在于,所述方法包括:
2.根據權利要求1所述的數據分級分類方法,其特征在于,所述對數據源服務中的元數據進行采集并建立數據質量評估指標,利用數據清洗算法對所述元數據進行格式標準化和去重處理,將處理后的元數據按照預設的數據模式進行結構化存儲,包括:
3.根據權利要求1所述的數據分級分類方法,其特征在于,所述將所述結構化存儲的元數據輸入至標簽服務,構建雙層神經網絡模型,采用大語言模型對元數據進行語義理解生成特征向量,包括:
4.根據權利要求1所述的數據分級分類方法,其特征在于,所述將所述特征向量輸入深度學習算法構建注意力機制提取關鍵詞權重,基于所述關鍵詞權重計算標簽間的語義相似度矩陣,采用譜聚類算法對相似度矩陣進行分解得到標簽嵌入向量,包括:
5.根據權利要求1所述的數據分級分類方法,其特征在于,所述將所述標簽嵌入向量通過圖神經網絡構建標簽關聯圖譜,對所述標簽關聯...
【專利技術屬性】
技術研發人員:呂穎軒,蔡亮,高龍,沙丕明,
申請(專利權)人:北京霍因科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。