System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品无码人妻一区二区三区18,久久青青草原亚洲av无码,国产成人无码精品久久久免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)制造方法及圖紙

    技術(shù)編號(hào):44431171 閱讀:5 留言:0更新日期:2025-02-28 18:43
    本申請(qǐng)公開(kāi)了一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì)。包括:獲取待檢測(cè)數(shù)據(jù),分詞生成特征向量;通過(guò)矩陣運(yùn)算計(jì)算待匹配特征向量與預(yù)定義核心數(shù)據(jù)特征向量的歐氏距離,統(tǒng)計(jì)匹配數(shù)量;根據(jù)描述信息、表描述信息和字段描述信息的權(quán)重(分別為0.2、0.5、0.3),計(jì)算數(shù)據(jù)權(quán)重值;結(jié)合匹配結(jié)果和數(shù)據(jù)規(guī)模,通過(guò)加權(quán)計(jì)算得到待檢測(cè)數(shù)據(jù)屬于核心或重要數(shù)據(jù)的概率值;判斷概率值是否超過(guò)閾值,若超過(guò),則識(shí)別為核心或重要數(shù)據(jù)。本方法依托可信執(zhí)行環(huán)境TEE實(shí)現(xiàn)特征向量的提取、匹配及計(jì)算,避免待檢測(cè)數(shù)據(jù)和核心數(shù)據(jù)特征庫(kù)暴露。確保計(jì)算過(guò)程的真實(shí)性和可信性。TEE相對(duì)其他隱私計(jì)算技術(shù),具有額外計(jì)算少的優(yōu)點(diǎn),可以提升算法匹配效率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請(qǐng)涉及數(shù)據(jù)處理,尤其涉及一種基于特征向量匹配的數(shù)據(jù)分類(lèi)分級(jí)識(shí)別方法。


    技術(shù)介紹

    1、隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用和數(shù)據(jù)資源的不斷積累,數(shù)據(jù)已經(jīng)成為各行業(yè)、企業(yè)乃至政府部門(mén)的重要資產(chǎn)。尤其在醫(yī)療、金融、能源、交通等領(lǐng)域,數(shù)據(jù)的價(jià)值越來(lái)越高。然而,與此同時(shí),數(shù)據(jù)安全問(wèn)題也日益突出。如何對(duì)不同類(lèi)型的數(shù)據(jù)進(jìn)行精確、有效的保護(hù),成為了全球范圍內(nèi)亟待解決的問(wèn)題。在數(shù)據(jù)安全的管理框架中,數(shù)據(jù)分類(lèi)分級(jí)作為一項(xiàng)基礎(chǔ)性工作,直接關(guān)系到數(shù)據(jù)保護(hù)的精準(zhǔn)性、效率和安全性。通過(guò)對(duì)數(shù)據(jù)進(jìn)行合理的分類(lèi)與分級(jí),可以確保敏感數(shù)據(jù)得到嚴(yán)格的保護(hù),防止數(shù)據(jù)泄露、濫用以及被不當(dāng)訪問(wèn)。

    2、目前,數(shù)據(jù)分類(lèi)分級(jí)的方法主要依賴于規(guī)則引擎或人工定義。傳統(tǒng)方法往往依賴專家的經(jīng)驗(yàn)進(jìn)行規(guī)則制定,通過(guò)靜態(tài)的規(guī)則庫(kù)或者基于關(guān)鍵詞的匹配來(lái)判斷數(shù)據(jù)的敏感性或重要性。這種方法雖然在一些相對(duì)簡(jiǎn)單的應(yīng)用場(chǎng)景中能夠提供一定的效果,但隨著數(shù)據(jù)規(guī)模的擴(kuò)展和應(yīng)用場(chǎng)景的復(fù)雜化,其局限性也日益顯現(xiàn),具體表現(xiàn)在以下幾個(gè)方面:

    3、傳統(tǒng)數(shù)據(jù)分類(lèi)分級(jí)方法通常需要人工標(biāo)注大量數(shù)據(jù),并根據(jù)標(biāo)注結(jié)果建立靜態(tài)規(guī)則庫(kù)。這種方法對(duì)專家的依賴性較強(qiáng),需要大量時(shí)間和資源用于數(shù)據(jù)標(biāo)注與規(guī)則定義,且隨著時(shí)間的推移,規(guī)則庫(kù)的維護(hù)和更新成為一項(xiàng)繁重的任務(wù)。對(duì)于動(dòng)態(tài)變化的業(yè)務(wù)需求和不斷增長(zhǎng)的數(shù)據(jù)量,靜態(tài)規(guī)則庫(kù)的更新速度遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)時(shí)數(shù)據(jù)處理的需求,導(dǎo)致數(shù)據(jù)分類(lèi)與分級(jí)的時(shí)效性大打折扣。

    4、傳統(tǒng)方法在數(shù)據(jù)分類(lèi)分級(jí)過(guò)程中,往往采用規(guī)則匹配的方式進(jìn)行數(shù)據(jù)判斷。由于規(guī)則庫(kù)的龐大和復(fù)雜,處理大量數(shù)據(jù)時(shí),匹配過(guò)程的計(jì)算量巨大,且算法不夠優(yōu)化,導(dǎo)致處理效率較低。在大數(shù)據(jù)環(huán)境下,傳統(tǒng)方法無(wú)法滿足快速、實(shí)時(shí)的分類(lèi)需求。這使得數(shù)據(jù)分類(lèi)分級(jí)往往成為影響數(shù)據(jù)安全管理效率的瓶頸,無(wú)法實(shí)時(shí)反應(yīng)數(shù)據(jù)的變化與新增數(shù)據(jù)類(lèi)型的特征。

    5、傳統(tǒng)規(guī)則匹配方法的精度受規(guī)則庫(kù)的完整性和準(zhǔn)確性限制。規(guī)則庫(kù)中僅包含了固定的關(guān)鍵詞和模板,無(wú)法對(duì)數(shù)據(jù)進(jìn)行深度的語(yǔ)義分析。對(duì)于復(fù)雜多樣的實(shí)際數(shù)據(jù),規(guī)則匹配很容易出現(xiàn)漏報(bào)(未能識(shí)別重要數(shù)據(jù))或誤報(bào)(將不重要的數(shù)據(jù)誤判為重要數(shù)據(jù))的情況。例如,在處理結(jié)構(gòu)化數(shù)據(jù)時(shí),規(guī)則可能無(wú)法準(zhǔn)確捕捉到數(shù)據(jù)中的隱性特征,或者對(duì)于非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像等)的識(shí)別能力較弱,導(dǎo)致匹配效果不理想。

    6、隨著行業(yè)應(yīng)用的不斷深入,數(shù)據(jù)的特征維度和規(guī)模逐漸增大,數(shù)據(jù)本身的變化速度也越來(lái)越快。例如,醫(yī)療行業(yè)的數(shù)據(jù)不斷產(chǎn)生新的檢查項(xiàng)目、治療方案以及患者信息,金融行業(yè)的數(shù)據(jù)中不斷增加新的金融產(chǎn)品、交易記錄等。傳統(tǒng)的數(shù)據(jù)分類(lèi)分級(jí)方法難以靈活地適應(yīng)新增數(shù)據(jù)類(lèi)型、特征的變化,或者難以在短時(shí)間內(nèi)對(duì)規(guī)則庫(kù)進(jìn)行更新。數(shù)據(jù)特征的多樣性和變化性要求數(shù)據(jù)分類(lèi)分級(jí)方法具有高度的適應(yīng)性和靈活性,而傳統(tǒng)方法卻很難做到這一點(diǎn),導(dǎo)致規(guī)則庫(kù)頻繁失效或未能覆蓋最新的數(shù)據(jù)特征。

    7、傳統(tǒng)數(shù)據(jù)分類(lèi)分級(jí)方法大多依賴人工定義和規(guī)則驅(qū)動(dòng),缺乏對(duì)數(shù)據(jù)內(nèi)容深度學(xué)習(xí)和智能化分析的支持。隨著人工智能、機(jī)器學(xué)習(xí)等技術(shù)的快速發(fā)展,智能化的數(shù)據(jù)處理和分析已成為可能。相比傳統(tǒng)方法,智能化方法能夠通過(guò)深度學(xué)習(xí)、自然語(yǔ)言處理(nlp)等技術(shù),自動(dòng)從數(shù)據(jù)中提取特征并進(jìn)行分類(lèi)分級(jí),顯著提高處理效率和準(zhǔn)確性。然而,當(dāng)前許多數(shù)據(jù)分類(lèi)分級(jí)系統(tǒng)仍然依賴于靜態(tài)規(guī)則和人工干預(yù),未能充分利用現(xiàn)代智能技術(shù)來(lái)提升系統(tǒng)的自動(dòng)化水平。


    技術(shù)實(shí)現(xiàn)思路

    1、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于特征向量匹配的數(shù)據(jù)識(shí)別方法、裝置及存儲(chǔ)介質(zhì),下面對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行描述:

    2、本申請(qǐng)第一方面提供了一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法,包括:

    3、基于數(shù)據(jù)供給方的可信執(zhí)行環(huán)境tee,獲取待檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫(kù)描述信息、表描述信息和字段描述信息;

    4、基于數(shù)據(jù)供給方的可信執(zhí)行環(huán)境tee,對(duì)待檢測(cè)數(shù)據(jù)進(jìn)行分詞處理,得到所述待檢測(cè)數(shù)據(jù)的特征向量;

    5、在所述tee中加載預(yù)定義的核心數(shù)據(jù)和重要數(shù)據(jù)的特征向量庫(kù);

    6、對(duì)于所述特征向量庫(kù)中的每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離;

    7、根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量;

    8、根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0.2,表描述信息的權(quán)重為0.5,字段描述信息的權(quán)重為0.3;

    9、根據(jù)匹配結(jié)果和數(shù)據(jù)規(guī)模,計(jì)算所述待檢測(cè)數(shù)據(jù)屬于核心數(shù)據(jù)或重要數(shù)據(jù)的概率值,所述概率值基于匹配次數(shù)和數(shù)據(jù)規(guī)模進(jìn)行加權(quán)計(jì)算得到;

    10、判斷所述概率值超過(guò)預(yù)定閾值,若超過(guò),則確定所述待檢測(cè)數(shù)據(jù)為核心數(shù)據(jù)或重要數(shù)據(jù)。

    11、可選的,所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù),包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu);

    12、所述數(shù)據(jù)庫(kù)描述信息為數(shù)據(jù)表的元數(shù)據(jù),包含表名、字段信息、索引情況;

    13、所述字段描述信息為每個(gè)字段的描述,包含字段名稱、數(shù)據(jù)類(lèi)型、字段長(zhǎng)度、主鍵或外鍵屬性;

    14、所述獲取待檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫(kù)描述信息、表描述信息和字段描述信息包括:

    15、根據(jù)數(shù)據(jù)庫(kù)類(lèi)型確定相匹配的驅(qū)動(dòng)程序所述驅(qū)動(dòng)程序?yàn)閖dbc或odbc;

    16、配置數(shù)據(jù)庫(kù)地址、端口、用戶名和密碼;

    17、通過(guò)系統(tǒng)表獲取所述數(shù)據(jù)庫(kù)描述信息;

    18、提取table_name、table_type和table_comment字段;

    19、查詢information_schema.columns系統(tǒng)表以獲取所述字段描述信息。

    20、可選的,所述對(duì)于每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括:

    21、通過(guò)下述式子進(jìn)行計(jì)算:

    22、

    23、其中,v表示待匹配的特征向量,矩陣?m表示形狀為(m,n),其中m是預(yù)定義的特征向量的數(shù)量,n是向量維度;

    24、通過(guò)上述式子操作計(jì)算?v與m中每一行的歐氏距離。

    25、可選的,所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括:

    26、確定距離閾值threshold;

    27、將輸出的所有歐氏距離d,構(gòu)建為距離列表;

    28、對(duì)于距離列表中的每個(gè)距離值d,判斷是否滿足d≤threshold;

    29、若滿足,則確定對(duì)應(yīng)的特征向量與預(yù)定義的特征向量相匹配;

    30、統(tǒng)計(jì)滿足條件的特征向量數(shù)量。

    31、可選的,所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0.2,表描述信息的權(quán)重為0.5,字段描述信息的權(quán)重為0.3包括,通過(guò)如下式子進(jìn)行計(jì)算:

    32、權(quán)重值=(w_db*n_db+w_table*n_table+w_field*n_field)*本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù),包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu);

    3.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述對(duì)于每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括:

    4.根據(jù)權(quán)利要求3中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括:

    5.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0.2,表描述信息的權(quán)重為0.5,字段描述信息的權(quán)重為0.3包括,通過(guò)如下式子進(jìn)行計(jì)算:

    6.根據(jù)權(quán)利要求5中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)匹配結(jié)果和數(shù)據(jù)規(guī)模,計(jì)算所述待檢測(cè)數(shù)據(jù)屬于核心數(shù)據(jù)或重要數(shù)據(jù)的概率值,所述概率值基于匹配次數(shù)和數(shù)據(jù)規(guī)模進(jìn)行加權(quán)計(jì)算得到包括:

    7.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述判斷所述概率值超過(guò)預(yù)定閾值,若超過(guò),則確定所述待檢測(cè)數(shù)據(jù)為核心數(shù)據(jù)或重要數(shù)據(jù)包括:

    8.一種基于特征向量匹配的數(shù)據(jù)識(shí)別系統(tǒng),其特征在于,包括:

    9.一種基于特征向量匹配的數(shù)據(jù)識(shí)別的裝置,其特征在于,所述裝置包括:

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序,所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述表描述信息為數(shù)據(jù)庫(kù)層級(jí)的元數(shù)據(jù),包含數(shù)據(jù)庫(kù)的名稱、類(lèi)型、結(jié)構(gòu);

    3.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述對(duì)于每個(gè)待匹配的特征向量,通過(guò)矩陣運(yùn)算,計(jì)算與所有的預(yù)定義核心數(shù)據(jù)和重要數(shù)據(jù)特征向量之間的歐氏距離包括:

    4.根據(jù)權(quán)利要求3中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)計(jì)算的結(jié)果確定與所述待匹配的特征向量匹配的特征向量的數(shù)量包括:

    5.根據(jù)權(quán)利要求1中所述基于特征向量匹配的數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)數(shù)據(jù)庫(kù)的所述描述信息、表描述信息和字段描述信息中的特征向量匹配結(jié)果,計(jì)算數(shù)據(jù)的權(quán)重值,其中,所述描述信息的權(quán)重為0....

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:汪洋舟,曹揚(yáng),莫家勤蔡惠民謝紅韜,灑科進(jìn),
    申請(qǐng)(專利權(quán))人:中電科大數(shù)據(jù)研究院有限公司,
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 少妇人妻无码精品视频| 亚洲国产精品成人精品无码区 | 亚洲国产精品无码久久一区二区| 亚洲欧洲自拍拍偷午夜色无码| av区无码字幕中文色| 中文成人无码精品久久久不卡 | 国产精品白浆在线观看无码专区| 中文字幕无码av激情不卡| 无码国产精品一区二区免费式影视| 亚洲无码视频在线| 亚洲人片在线观看天堂无码| 国产亚洲人成无码网在线观看| 国产成人精品无码专区| 亚洲av日韩av无码av| 亚洲av永久无码精品古装片| 精品无码人妻久久久久久| 久久精品日韩av无码| 中文字幕av无码无卡免费| 免费无码毛片一区二区APP| 中文字幕无码无码专区| 亚洲午夜无码AV毛片久久| av色欲无码人妻中文字幕| 精品人妻无码区二区三区| 久久久久久国产精品免费无码| 台湾无码AV一区二区三区| 国产裸模视频免费区无码| 国产精品无码亚洲精品2021| 亚洲AV永久无码精品网站在线观看| 无码精品人妻一区二区三区漫画 | 四虎影视无码永久免费| 国产午夜鲁丝片AV无码免费| 无码h黄肉3d动漫在线观看| 无码喷水一区二区浪潮AV| 性色AV无码中文AV有码VR| 国产乱人伦无无码视频试看| 久久人午夜亚洲精品无码区| 国产色无码精品视频国产| 中文字幕av无码不卡免费| 国产午夜无码精品免费看动漫| 性无码免费一区二区三区在线 | 久久久久久久久无码精品亚洲日韩|