System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及數(shù)據(jù)處理,尤其涉及一種基于特征向量匹配的數(shù)據(jù)分類(lèi)分級(jí)識(shí)別方法。
技術(shù)介紹
1、隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用和數(shù)據(jù)資源的不斷積累,數(shù)據(jù)已經(jīng)成為各行業(yè)、企業(yè)乃至政府部門(mén)的重要資產(chǎn)。尤其在醫(yī)療、金融、能源、交通等領(lǐng)域,數(shù)據(jù)的價(jià)值越來(lái)越高。然而,與此同時(shí),數(shù)據(jù)安全問(wèn)題也日益突出。如何對(duì)不同類(lèi)型的數(shù)據(jù)進(jìn)行精確、有效的保護(hù),成為了全球范圍內(nèi)亟待解決的問(wèn)題。在數(shù)據(jù)安全的管理框架中,數(shù)據(jù)分類(lèi)分級(jí)作為一項(xiàng)基礎(chǔ)性工作,直接關(guān)系到數(shù)據(jù)保護(hù)的精準(zhǔn)性、效率和安全性。通過(guò)對(duì)數(shù)據(jù)進(jìn)行合理的分類(lèi)與分級(jí),可以確保敏感數(shù)據(jù)得到嚴(yán)格的保護(hù),防止數(shù)據(jù)泄露、濫用以及被不當(dāng)訪問(wèn)。
2、目前,數(shù)據(jù)分類(lèi)分級(jí)的方法主要依賴于規(guī)則引擎或人工定義。傳統(tǒng)方法往往依賴專家的經(jīng)驗(yàn)進(jìn)行規(guī)則制定,通過(guò)靜態(tài)的規(guī)則庫(kù)或者基于關(guān)鍵詞的匹配來(lái)判斷數(shù)據(jù)的敏感性或重要性。這種方法雖然在一些相對(duì)簡(jiǎn)單的應(yīng)用場(chǎng)景中能夠提供一定的效果,但隨著數(shù)據(jù)規(guī)模的擴(kuò)展和應(yīng)用場(chǎng)景的復(fù)雜化,其局限性也日益顯現(xiàn),具體表現(xiàn)在以下幾個(gè)方面:
3、傳統(tǒng)數(shù)據(jù)分類(lèi)分級(jí)方法通常需要人工標(biāo)注大量數(shù)據(jù),并根據(jù)標(biāo)注結(jié)果建立靜態(tài)規(guī)則庫(kù)。這種方法對(duì)專家的依賴性較強(qiáng),需要大量時(shí)間和資源用于數(shù)據(jù)標(biāo)注與規(guī)則定義,且隨著時(shí)間的推移,規(guī)則庫(kù)的維護(hù)和更新成為一項(xiàng)繁重的任務(wù)。對(duì)于動(dòng)態(tài)變化的業(yè)務(wù)需求和不斷增長(zhǎng)的數(shù)據(jù)量,靜態(tài)規(guī)則庫(kù)的更新速度遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)時(shí)數(shù)據(jù)處理的需求,導(dǎo)致數(shù)據(jù)分類(lèi)與分級(jí)的時(shí)效性大打折扣。
4、傳統(tǒng)方法在數(shù)據(jù)分類(lèi)分級(jí)過(guò)程中,往往采用規(guī)則匹配的方式進(jìn)行數(shù)據(jù)判斷。由于規(guī)則庫(kù)的龐大和復(fù)雜,處理大量數(shù)據(jù)時(shí),匹配過(guò)程的
5、傳統(tǒng)規(guī)則匹配方法的精度受規(guī)則庫(kù)的完整性和準(zhǔn)確性限制。規(guī)則庫(kù)中僅包含了固定的關(guān)鍵詞和模板,無(wú)法對(duì)數(shù)據(jù)進(jìn)行深度的語(yǔ)義分析。對(duì)于復(fù)雜多樣的實(shí)際數(shù)據(jù),規(guī)則匹配很容易出現(xiàn)漏報(bào)(未能識(shí)別重要數(shù)據(jù))或誤報(bào)(將不重要的數(shù)據(jù)誤判為重要數(shù)據(jù))的情況。例如,在處理結(jié)構(gòu)化數(shù)據(jù)時(shí),規(guī)則可能無(wú)法準(zhǔn)確捕捉到數(shù)據(jù)中的隱性特征,或者對(duì)于非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像等)的識(shí)別能力較弱,導(dǎo)致匹配效果不理想。
6、隨著行業(yè)應(yīng)用的不斷深入,數(shù)據(jù)的特征維度和規(guī)模逐漸增大,數(shù)據(jù)本身的變化速度也越來(lái)越快。例如,醫(yī)療行業(yè)的數(shù)據(jù)不斷產(chǎn)生新的檢查項(xiàng)目、治療方案以及患者信息,金融行業(yè)的數(shù)據(jù)中不斷增加新的金融產(chǎn)品、交易記錄等。傳統(tǒng)的數(shù)據(jù)分類(lèi)分級(jí)方法難以靈活地適應(yīng)新增數(shù)據(jù)類(lèi)型、特征的變化,或者難以在短時(shí)間內(nèi)對(duì)規(guī)則庫(kù)進(jìn)行更新。數(shù)據(jù)特征的多樣性和變化性要求數(shù)據(jù)分類(lèi)分級(jí)方法具有高度的適應(yīng)性和靈活性,而傳統(tǒng)方法卻很難做到這一點(diǎn),導(dǎo)致規(guī)則庫(kù)頻繁失效或未能覆蓋最新的數(shù)據(jù)特征。
7、傳統(tǒng)數(shù)據(jù)分類(lèi)分級(jí)方法大多依賴人工定義和規(guī)則驅(qū)動(dòng),缺乏對(duì)數(shù)據(jù)內(nèi)容深度學(xué)習(xí)和智能化分析的支持。隨著人工智能、機(jī)器學(xué)習(xí)等技術(shù)的快速發(fā)展,智能化的數(shù)據(jù)處理和分析已成為可能。相比傳統(tǒng)方法,智能化方法能夠通過(guò)深度學(xué)習(xí)、自然語(yǔ)言處理(nlp)等技術(shù),自動(dòng)從數(shù)據(jù)中提取特征并進(jìn)行分類(lèi)分級(jí),顯著提高處理效率和準(zhǔn)確性。然而,當(dāng)前許多數(shù)據(jù)分類(lèi)分級(jí)系統(tǒng)仍然依賴于靜態(tài)規(guī)則和人工干預(yù),未能充分利用現(xiàn)代智能技術(shù)來(lái)提升系統(tǒng)的自動(dòng)化水平。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì),下面對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行描述:
2、本申請(qǐng)第一方面提供了一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法,包括:
3、基于數(shù)據(jù)供給方的可信執(zhí)行環(huán)境tee,獲取待檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫(kù)描述信息、表描述信息和字段描述信息;
4、基于數(shù)據(jù)供給方的可信執(zhí)行環(huán)境tee,對(duì)待檢測(cè)數(shù)據(jù)進(jìn)行分詞處理,得到所述待檢測(cè)數(shù)據(jù)的特征向量;
5、在所述tee中加載預(yù)定義的核心數(shù)據(jù)和重要數(shù)據(jù)的特征向量庫(kù);
6、對(duì)于所述特征向量庫(kù)中的每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離;
7、根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量;
8、根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0.2,表描述信息的權(quán)重為0.5,字段描述信息的權(quán)重為0.3;
9、根據(jù)匹配結(jié)果和數(shù)據(jù)規(guī)模,計(jì)算所述待檢測(cè)數(shù)據(jù)屬于核心數(shù)據(jù)或重要數(shù)據(jù)的概率值,所述概率值基于匹配次數(shù)和數(shù)據(jù)規(guī)模進(jìn)行加權(quán)計(jì)算得到;
10、判斷所述概率值超過(guò)預(yù)定閾值,若超過(guò),則確定所述待檢測(cè)數(shù)據(jù)為核心數(shù)據(jù)或重要數(shù)據(jù)。
11、可選的,所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù),包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu);
12、所述數(shù)據(jù)庫(kù)描述信息為數(shù)據(jù)表的元數(shù)據(jù),包含表名、字段信息、索引情況;
13、所述字段描述信息為每個(gè)字段的描述,包含字段名稱、數(shù)據(jù)類(lèi)型、字段長(zhǎng)度、主鍵或外鍵屬性;
14、所述獲取待檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫(kù)描述信息、表描述信息和字段描述信息包括:
15、根據(jù)數(shù)據(jù)庫(kù)類(lèi)型確定相匹配的驅(qū)動(dòng)程序所述驅(qū)動(dòng)程序?yàn)閖dbc或odbc;
16、配置數(shù)據(jù)庫(kù)地址、端口、用戶名和密碼;
17、通過(guò)系統(tǒng)表獲取所述數(shù)據(jù)庫(kù)描述信息;
18、提取table_name、table_type和table_comment字段;
19、查詢information_schema.columns系統(tǒng)表以獲取所述字段描述信息。
20、可選的,所述對(duì)于每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括:
21、通過(guò)下述式子進(jìn)行計(jì)算:
22、
23、其中,v表示待匹配的特征向量,矩陣?m表示形狀為(m,n),其中m是預(yù)定義的特征向量的數(shù)量,n是向量維度;
24、通過(guò)上述式子操作計(jì)算?v與m中每一行的歐氏距離。
25、可選的,所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括:
26、確定距離閾值threshold;
27、將輸出的所有歐氏距離d,構(gòu)建為距離列表;
28、對(duì)于距離列表中的每個(gè)距離值d,判斷是否滿足d≤threshold;
29、若滿足,則確定對(duì)應(yīng)的特征向量與預(yù)定義的特征向量相匹配;
30、統(tǒng)計(jì)滿足條件的特征向量數(shù)量。
31、可選的,所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0.2,表描述信息的權(quán)重為0.5,字段描述信息的權(quán)重為0.3包括,通過(guò)如下式子進(jìn)行計(jì)算:
32、權(quán)重值=(w_db*n_db+w_table*n_table+w_field*n_field)*本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù),包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu);
3.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述對(duì)于每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括:
4.根據(jù)權(quán)利要求3中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括:
5.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0.2,表描述信息的權(quán)重為0.5,字段描述信息的權(quán)重為0.3包括,通過(guò)如下式子進(jìn)行計(jì)算:
6.根據(jù)權(quán)利要求5中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)匹配結(jié)果和數(shù)據(jù)規(guī)模,計(jì)算所述待檢測(cè)數(shù)據(jù)屬于核心數(shù)據(jù)或重要數(shù)
7.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述判斷所述概率值超過(guò)預(yù)定閾值,若超過(guò),則確定所述待檢測(cè)數(shù)據(jù)為核心數(shù)據(jù)或重要數(shù)據(jù)包括:
8.一種基于特征向量匹配的數(shù)據(jù)識(shí)別系統(tǒng),其特征在于,包括:
9.一種基于特征向量匹配的數(shù)據(jù)識(shí)別的裝置,其特征在于,所述裝置包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序,所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述方法。
...【技術(shù)特征摘要】
1.一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù),包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu);
3.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述對(duì)于每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括:
4.根據(jù)權(quán)利要求3中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括:
5.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0....
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:汪洋舟,曹揚(yáng),莫家勤,蔡惠民,謝紅韜,灑科進(jìn),
申請(qǐng)(專利權(quán))人:中電科大數(shù)據(jù)研究院有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。