當(dāng)前位置: 首頁(yè) > 專利查詢>中電科大數(shù)據(jù)研究院有限公司專利>正文

一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44431171 閱讀：5 留言：0更新日期：2025-02-28 18:43

本申請(qǐng)公開(kāi)了一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)。包括：獲取待檢測(cè)數(shù)據(jù)，分詞生成特征向量；通過(guò)矩陣運(yùn)算計(jì)算待匹配特征向量與預(yù)定義核心數(shù)據(jù)特征向量的歐氏距離，統(tǒng)計(jì)匹配數(shù)量；根據(jù)描述信息、表描述信息和字段描述信息的權(quán)重（分別為0.2、0.5、0.3），計(jì)算數(shù)據(jù)權(quán)重值；結(jié)合匹配結(jié)果和數(shù)據(jù)規(guī)模，通過(guò)加權(quán)計(jì)算得到待檢測(cè)數(shù)據(jù)屬于核心或重要數(shù)據(jù)的概率值；判斷概率值是否超過(guò)閾值，若超過(guò)，則識(shí)別為核心或重要數(shù)據(jù)。本方法依托可信執(zhí)行環(huán)境TEE實(shí)現(xiàn)特征向量的提取、匹配及計(jì)算，避免待檢測(cè)數(shù)據(jù)和核心數(shù)據(jù)特征庫(kù)暴露。確保計(jì)算過(guò)程的真實(shí)性和可信性。TEE相對(duì)其他隱私計(jì)算技術(shù)，具有額外計(jì)算少的優(yōu)點(diǎn)，可以提升算法匹配效率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)涉及數(shù)據(jù)處理，尤其涉及一種基于特征向量匹配的數(shù)據(jù)分類(lèi)分級(jí)識(shí)別方法。

技術(shù)介紹

1、隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用和數(shù)據(jù)資源的不斷積累，數(shù)據(jù)已經(jīng)成為各行業(yè)、企業(yè)乃至政府部門(mén)的重要資產(chǎn)。尤其在醫(yī)療、金融、能源、交通等領(lǐng)域，數(shù)據(jù)的價(jià)值越來(lái)越高。然而，與此同時(shí)，數(shù)據(jù)安全問(wèn)題也日益突出。如何對(duì)不同類(lèi)型的數(shù)據(jù)進(jìn)行精確、有效的保護(hù)，成為了全球范圍內(nèi)亟待解決的問(wèn)題。在數(shù)據(jù)安全的管理框架中，數(shù)據(jù)分類(lèi)分級(jí)作為一項(xiàng)基礎(chǔ)性工作，直接關(guān)系到數(shù)據(jù)保護(hù)的精準(zhǔn)性、效率和安全性。通過(guò)對(duì)數(shù)據(jù)進(jìn)行合理的分類(lèi)與分級(jí)，可以確保敏感數(shù)據(jù)得到嚴(yán)格的保護(hù)，防止數(shù)據(jù)泄露、濫用以及被不當(dāng)訪問(wèn)。

2、目前，數(shù)據(jù)分類(lèi)分級(jí)的方法主要依賴于規(guī)則引擎或人工定義。傳統(tǒng)方法往往依賴專家的經(jīng)驗(yàn)進(jìn)行規(guī)則制定，通過(guò)靜態(tài)的規(guī)則庫(kù)或者基于關(guān)鍵詞的匹配來(lái)判斷數(shù)據(jù)的敏感性或重要性。這種方法雖然在一些相對(duì)簡(jiǎn)單的應(yīng)用場(chǎng)景中能夠提供一定的效果，但隨著數(shù)據(jù)規(guī)模的擴(kuò)展和應(yīng)用場(chǎng)景的復(fù)雜化，其局限性也日益顯現(xiàn)，具體表現(xiàn)在以下幾個(gè)方面：

3、傳統(tǒng)數(shù)據(jù)分類(lèi)分級(jí)方法通常需要人工標(biāo)注大量數(shù)據(jù)，并根據(jù)標(biāo)注結(jié)果建立靜態(tài)規(guī)則庫(kù)。這種方法對(duì)專家的依賴性較強(qiáng)，需要大量時(shí)間和資源用于數(shù)據(jù)標(biāo)注與規(guī)則定義，且隨著時(shí)間的推移，規(guī)則庫(kù)的維護(hù)和更新成為一項(xiàng)繁重的任務(wù)。對(duì)于動(dòng)態(tài)變化的業(yè)務(wù)需求和不斷增長(zhǎng)的數(shù)據(jù)量，靜態(tài)規(guī)則庫(kù)的更新速度遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)時(shí)數(shù)據(jù)處理的需求，導(dǎo)致數(shù)據(jù)分類(lèi)與分級(jí)的時(shí)效性大打折扣。

4、傳統(tǒng)方法在數(shù)據(jù)分類(lèi)分級(jí)過(guò)程中，往往采用規(guī)則匹配的方式進(jìn)行數(shù)據(jù)判斷。由于規(guī)則庫(kù)的龐大和復(fù)雜，處理大量數(shù)據(jù)時(shí)，匹配過(guò)程的

5、傳統(tǒng)規(guī)則匹配方法的精度受規(guī)則庫(kù)的完整性和準(zhǔn)確性限制。規(guī)則庫(kù)中僅包含了固定的關(guān)鍵詞和模板，無(wú)法對(duì)數(shù)據(jù)進(jìn)行深度的語(yǔ)義分析。對(duì)于復(fù)雜多樣的實(shí)際數(shù)據(jù)，規(guī)則匹配很容易出現(xiàn)漏報(bào)（未能識(shí)別重要數(shù)據(jù)）或誤報(bào)（將不重要的數(shù)據(jù)誤判為重要數(shù)據(jù)）的情況。例如，在處理結(jié)構(gòu)化數(shù)據(jù)時(shí)，規(guī)則可能無(wú)法準(zhǔn)確捕捉到數(shù)據(jù)中的隱性特征，或者對(duì)于非結(jié)構(gòu)化數(shù)據(jù)（如文本、圖像等）的識(shí)別能力較弱，導(dǎo)致匹配效果不理想。

6、隨著行業(yè)應(yīng)用的不斷深入，數(shù)據(jù)的特征維度和規(guī)模逐漸增大，數(shù)據(jù)本身的變化速度也越來(lái)越快。例如，醫(yī)療行業(yè)的數(shù)據(jù)不斷產(chǎn)生新的檢查項(xiàng)目、治療方案以及患者信息，金融行業(yè)的數(shù)據(jù)中不斷增加新的金融產(chǎn)品、交易記錄等。傳統(tǒng)的數(shù)據(jù)分類(lèi)分級(jí)方法難以靈活地適應(yīng)新增數(shù)據(jù)類(lèi)型、特征的變化，或者難以在短時(shí)間內(nèi)對(duì)規(guī)則庫(kù)進(jìn)行更新。數(shù)據(jù)特征的多樣性和變化性要求數(shù)據(jù)分類(lèi)分級(jí)方法具有高度的適應(yīng)性和靈活性，而傳統(tǒng)方法卻很難做到這一點(diǎn)，導(dǎo)致規(guī)則庫(kù)頻繁失效或未能覆蓋最新的數(shù)據(jù)特征。

7、傳統(tǒng)數(shù)據(jù)分類(lèi)分級(jí)方法大多依賴人工定義和規(guī)則驅(qū)動(dòng)，缺乏對(duì)數(shù)據(jù)內(nèi)容深度學(xué)習(xí)和智能化分析的支持。隨著人工智能、機(jī)器學(xué)習(xí)等技術(shù)的快速發(fā)展，智能化的數(shù)據(jù)處理和分析已成為可能。相比傳統(tǒng)方法，智能化方法能夠通過(guò)深度學(xué)習(xí)、自然語(yǔ)言處理（nlp）等技術(shù)，自動(dòng)從數(shù)據(jù)中提取特征并進(jìn)行分類(lèi)分級(jí)，顯著提高處理效率和準(zhǔn)確性。然而，當(dāng)前許多數(shù)據(jù)分類(lèi)分級(jí)系統(tǒng)仍然依賴于靜態(tài)規(guī)則和人工干預(yù)，未能充分利用現(xiàn)代智能技術(shù)來(lái)提升系統(tǒng)的自動(dòng)化水平。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問(wèn)題，本申請(qǐng)?zhí)峁┝艘环N基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)，下面對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行描述：

2、本申請(qǐng)第一方面提供了一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法，包括：

3、基于數(shù)據(jù)供給方的可信執(zhí)行環(huán)境tee，獲取待檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫(kù)描述信息、表描述信息和字段描述信息；

4、基于數(shù)據(jù)供給方的可信執(zhí)行環(huán)境tee，對(duì)待檢測(cè)數(shù)據(jù)進(jìn)行分詞處理，得到所述待檢測(cè)數(shù)據(jù)的特征向量；

5、在所述tee中加載預(yù)定義的核心數(shù)據(jù)和重要數(shù)據(jù)的特征向量庫(kù)；

6、對(duì)于所述特征向量庫(kù)中的每個(gè)待匹配的特征向量，通過(guò)矩陣運(yùn)算，計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離；

7、根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量；

8、根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果，計(jì)算數(shù)據(jù)的權(quán)重值，其中，所述描述信息的權(quán)重為0.2，表描述信息的權(quán)重為0.5，字段描述信息的權(quán)重為0.3；

9、根據(jù)匹配結(jié)果和數(shù)據(jù)規(guī)模，計(jì)算所述待檢測(cè)數(shù)據(jù)屬于核心數(shù)據(jù)或重要數(shù)據(jù)的概率值，所述概率值基于匹配次數(shù)和數(shù)據(jù)規(guī)模進(jìn)行加權(quán)計(jì)算得到；

10、判斷所述概率值超過(guò)預(yù)定閾值，若超過(guò)，則確定所述待檢測(cè)數(shù)據(jù)為核心數(shù)據(jù)或重要數(shù)據(jù)。

11、可選的，所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù)，包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu)；

12、所述數(shù)據(jù)庫(kù)描述信息為數(shù)據(jù)表的元數(shù)據(jù)，包含表名、字段信息、索引情況；

13、所述字段描述信息為每個(gè)字段的描述，包含字段名稱、數(shù)據(jù)類(lèi)型、字段長(zhǎng)度、主鍵或外鍵屬性；

14、所述獲取待檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫(kù)描述信息、表描述信息和字段描述信息包括：

15、根據(jù)數(shù)據(jù)庫(kù)類(lèi)型確定相匹配的驅(qū)動(dòng)程序所述驅(qū)動(dòng)程序?yàn)閖dbc或odbc；

16、配置數(shù)據(jù)庫(kù)地址、端口、用戶名和密碼；

17、通過(guò)系統(tǒng)表獲取所述數(shù)據(jù)庫(kù)描述信息；

18、提取table_name、table_type和table_comment字段；

19、查詢information_schema.columns系統(tǒng)表以獲取所述字段描述信息。

20、可選的，所述對(duì)于每個(gè)待匹配的特征向量，通過(guò)矩陣運(yùn)算，計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括：

21、通過(guò)下述式子進(jìn)行計(jì)算：

22、

23、其中，v表示待匹配的特征向量，矩陣?m表示形狀為(m,n)，其中m是預(yù)定義的特征向量的數(shù)量，n是向量維度；

24、通過(guò)上述式子操作計(jì)算?v與m中每一行的歐氏距離。

25、可選的，所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括：

26、確定距離閾值threshold；

27、將輸出的所有歐氏距離d，構(gòu)建為距離列表；

28、對(duì)于距離列表中的每個(gè)距離值d，判斷是否滿足d≤threshold；

29、若滿足，則確定對(duì)應(yīng)的特征向量與預(yù)定義的特征向量相匹配；

30、統(tǒng)計(jì)滿足條件的特征向量數(shù)量。

31、可選的，所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果，計(jì)算數(shù)據(jù)的權(quán)重值，其中，所述描述信息的權(quán)重為0.2，表描述信息的權(quán)重為0.5，字段描述信息的權(quán)重為0.3包括，通過(guò)如下式子進(jìn)行計(jì)算：

32、權(quán)重值=(w_db*n_db+w_table*n_table+w_field*n_field)*本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù)，包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu)；

3.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述對(duì)于每個(gè)待匹配的特征向量，通過(guò)矩陣運(yùn)算，計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括：

4.根據(jù)權(quán)利要求3中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括：

5.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果，計(jì)算數(shù)據(jù)的權(quán)重值，其中，所述描述信息的權(quán)重為0.2，表描述信息的權(quán)重為0.5，字段描述信息的權(quán)重為0.3包括，通過(guò)如下式子進(jìn)行計(jì)算：

6.根據(jù)權(quán)利要求5中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述根據(jù)匹配結(jié)果和數(shù)據(jù)規(guī)模，計(jì)算所述待檢測(cè)數(shù)據(jù)屬于核心數(shù)據(jù)或重要數(shù)

7.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述判斷所述概率值超過(guò)預(yù)定閾值，若超過(guò)，則確定所述待檢測(cè)數(shù)據(jù)為核心數(shù)據(jù)或重要數(shù)據(jù)包括：

8.一種基于特征向量匹配的數(shù)據(jù)識(shí)別系統(tǒng)，其特征在于，包括：

9.一種基于特征向量匹配的數(shù)據(jù)識(shí)別的裝置，其特征在于，所述裝置包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序，所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述方法。

...

【技術(shù)特征摘要】

1.一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法，其特征在于，所述方法包括：

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：汪洋舟，曹揚(yáng)，莫家勤，蔡惠民，謝紅韜，灑科進(jìn)，
申請(qǐng)(專利權(quán))人：中電科大數(shù)據(jù)研究院有限公司，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)

一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)制造方法及圖紙

一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)制造方法及圖紙