本發(fā)明專利技術(shù)提出了一種大數(shù)據(jù)平臺數(shù)據(jù)安全保護(hù)方法,涉及計算機(jī)技術(shù)領(lǐng)域,包括:大數(shù)據(jù)平臺匯聚業(yè)務(wù)系統(tǒng)所有數(shù)據(jù),對數(shù)據(jù)開發(fā)和治理的過程中,將所有的數(shù)據(jù)表按照類別存放于數(shù)據(jù)倉庫中;根據(jù)數(shù)據(jù)治理平臺的ETL調(diào)度作業(yè)依賴關(guān)系自動捕獲數(shù)據(jù)表之間的數(shù)據(jù)血緣關(guān)系,將數(shù)據(jù)表和數(shù)據(jù)血緣關(guān)系形成關(guān)系圖,保存至元數(shù)據(jù)數(shù)據(jù)庫;根據(jù)不同的業(yè)務(wù)需求采取安全保護(hù)措施,將業(yè)務(wù)需求與對應(yīng)的安全保護(hù)措施形成多個數(shù)據(jù)安全保護(hù)策略,并保存至數(shù)據(jù)安全管理平臺;用戶輸入當(dāng)前數(shù)據(jù)和當(dāng)前業(yè)務(wù)需求,根據(jù)當(dāng)前業(yè)務(wù)需求查詢當(dāng)前數(shù)據(jù)的安全保護(hù)措施,基于該安全保護(hù)措施對當(dāng)前數(shù)據(jù)執(zhí)行安全保護(hù)。本發(fā)明專利技術(shù)利用數(shù)據(jù)血緣,實現(xiàn)數(shù)據(jù)的快速識別,極大提高了識別數(shù)據(jù)的效率。別數(shù)據(jù)的效率。別數(shù)據(jù)的效率。
【技術(shù)實現(xiàn)步驟摘要】
一種大數(shù)據(jù)平臺數(shù)據(jù)安全保護(hù)方法
[0001]本專利技術(shù)涉及計算機(jī)
,尤其涉及一種大數(shù)據(jù)平臺數(shù)據(jù)安全保護(hù)方法。
技術(shù)介紹
[0002]數(shù)據(jù)庫,簡而言之可視為電子化的文件柜。在現(xiàn)有
,元數(shù)據(jù)是在數(shù)據(jù)庫管理過程中生成的一類非常重要的數(shù)據(jù)。元數(shù)據(jù)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),其為描述數(shù)據(jù)的數(shù)據(jù),或者說是用于提供某種資源的有關(guān)信息的結(jié)構(gòu)數(shù)據(jù)。元數(shù)據(jù)主要是描述數(shù)據(jù)屬性的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。從數(shù)據(jù)結(jié)構(gòu)上說,元數(shù)據(jù)算是一種電子式目錄,為了達(dá)到編制目錄的目的,必須描述并收藏數(shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成協(xié)助數(shù)據(jù)檢索的目的。
[0003]大數(shù)據(jù)平臺中數(shù)據(jù)倉庫通常是分層管理,不同數(shù)據(jù)層都存放敏感數(shù)據(jù)。在數(shù)據(jù)采集、數(shù)據(jù)開發(fā)和數(shù)據(jù)治理過程中各數(shù)據(jù)層產(chǎn)生大量新數(shù)據(jù)表。這些數(shù)據(jù)表包含敏感數(shù)據(jù),目前對于敏感數(shù)據(jù)的保護(hù)已有不少相關(guān)的方法。中國專利申請?zhí)枮?01511026582.1公開了一種大數(shù)據(jù)平臺的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)及方法,從數(shù)據(jù)流通的整個環(huán)節(jié)實現(xiàn)了敏感數(shù)據(jù)的保護(hù),同時提出了基于專家系統(tǒng)和自然語言處理的敏感數(shù)據(jù)自動發(fā)現(xiàn)方法,能夠有效的驗證脫敏結(jié)果正確性和真實性。但現(xiàn)有技術(shù)中對數(shù)據(jù)的安全保護(hù)所依賴的人工參與量很大,且效率并不高。
技術(shù)實現(xiàn)思路
[0004]有鑒于此,本專利技術(shù)提出了一種大數(shù)據(jù)平臺數(shù)據(jù)安全保護(hù)方法,通過將數(shù)據(jù)血緣關(guān)系結(jié)合數(shù)據(jù)表形成關(guān)系圖,利用關(guān)系圖的優(yōu)越性能對敏感數(shù)據(jù)進(jìn)行批量的標(biāo)記和安全保護(hù),極大的提高了識別數(shù)據(jù)的效率,且降低了錯漏的情況。
[0005]本專利技術(shù)的技術(shù)方案是這樣實現(xiàn)的:本專利技術(shù)提供了一種大數(shù)據(jù)平臺數(shù)據(jù)安全保護(hù)方法,包括:S1 獲取大數(shù)據(jù)平臺中所有的數(shù)據(jù)表,將所有的數(shù)據(jù)表按照類別存放于數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫包括多個數(shù)據(jù)層,一個數(shù)據(jù)層中的數(shù)據(jù)表具有相同的類別;S2 根據(jù)數(shù)據(jù)治理平臺的ETL調(diào)度作業(yè)依賴關(guān)系自動捕獲各數(shù)據(jù)表之間的數(shù)據(jù)血緣關(guān)系,將數(shù)據(jù)表和數(shù)據(jù)血緣關(guān)系形成關(guān)系圖,保存至元數(shù)據(jù)數(shù)據(jù)庫;S3 根據(jù)不同的業(yè)務(wù)需求采取安全保護(hù)措施,將業(yè)務(wù)需求與對應(yīng)的安全保護(hù)措施形成多個數(shù)據(jù)安全保護(hù)策略,并保存至數(shù)據(jù)安全管理平臺;S4 用戶輸入當(dāng)前數(shù)據(jù)和當(dāng)前業(yè)務(wù)需求,根據(jù)當(dāng)前業(yè)務(wù)需求查詢當(dāng)前數(shù)據(jù)的安全保護(hù)措施,基于該安全保護(hù)措施對當(dāng)前數(shù)據(jù)執(zhí)行安全保護(hù)。
[0006]在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟S2中,關(guān)系圖的形成過程包括:將數(shù)據(jù)表中的表頭執(zhí)行sql語句解析,得到表頭的語法樹,根據(jù)語法樹確定表頭的語義信息,將其作為表頭的表名信息;將數(shù)據(jù)表中表格的每個字段執(zhí)行sql語句解析,得到每個字段的語法樹,根據(jù)語法
樹確定每個字段的語義信息,將其作為字段的字段信息;將每個字段信息與對應(yīng)的表名信息進(jìn)行鏈接,得到表字段,將其作為關(guān)系圖的節(jié)點;將數(shù)據(jù)表之間的數(shù)據(jù)血緣關(guān)系存儲為關(guān)系圖的邊,其中,數(shù)據(jù)血緣關(guān)系為表字段與表字段之間的有向關(guān)系,每一個有向關(guān)系將對應(yīng)的表字段分為上游表字段和下游表字段。
[0007]在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟S3包括:對數(shù)據(jù)表中的數(shù)據(jù)按安全管理規(guī)范制定對應(yīng)的數(shù)據(jù)安全等級,數(shù)據(jù)安全等級分為多個安全級別;將業(yè)務(wù)需求分為數(shù)據(jù)訪問和業(yè)務(wù)操作;根據(jù)業(yè)務(wù)需求、數(shù)據(jù)所在的數(shù)據(jù)層、數(shù)據(jù)的數(shù)據(jù)安全等級確定所采取的安全保護(hù)措施;將數(shù)據(jù)
?
業(yè)務(wù)需求
?
數(shù)據(jù)安全等級
?
數(shù)據(jù)層
?
安全保護(hù)措施按照一一對應(yīng)的關(guān)系構(gòu)成數(shù)據(jù)安全保護(hù)策略,并保存至數(shù)據(jù)安全管理平臺。
[0008]更進(jìn)一步優(yōu)選的,步驟S3還包括:采用識別方法對大數(shù)據(jù)平臺中的數(shù)據(jù)安全保護(hù)策略及其對應(yīng)的數(shù)據(jù)基于關(guān)系圖進(jìn)行識別,將識別的過程及結(jié)果與對應(yīng)的數(shù)據(jù)安全保護(hù)策略進(jìn)行鏈接后存儲于數(shù)據(jù)安全管理平臺。
[0009]更進(jìn)一步優(yōu)選的,識別方法包括:步驟一、專家隨機(jī)選取大數(shù)據(jù)平臺中的數(shù)據(jù)作為目標(biāo)數(shù)據(jù),提取目標(biāo)數(shù)據(jù)的目標(biāo)表字段和數(shù)據(jù)安全等級,專家對目標(biāo)數(shù)據(jù)進(jìn)行敏感性判斷,若目標(biāo)數(shù)據(jù)為敏感數(shù)據(jù),則專家給出相應(yīng)的脫敏算法,標(biāo)記目標(biāo)數(shù)據(jù)的數(shù)據(jù)安全等級、目標(biāo)數(shù)據(jù)的敏感性判斷結(jié)果、脫敏算法,得到目標(biāo)數(shù)據(jù)的標(biāo)記結(jié)果;步驟二、在關(guān)系圖中將目標(biāo)表字段對應(yīng)的節(jié)點作為起始點,根據(jù)有向關(guān)系從起始點出發(fā)按照深度優(yōu)先算法遞歸遍歷關(guān)系圖,搜索與起始點相關(guān)的下游表字段,將搜索到的結(jié)果保存至第一列表;步驟三、在關(guān)系圖中將目標(biāo)表字段對應(yīng)的節(jié)點作為起始點,根據(jù)有向關(guān)系從起始點出發(fā)按照深度優(yōu)先算法遞歸遍歷關(guān)系圖,搜索與起始點相關(guān)的上游表字段,將搜索到的結(jié)果保存至第一列表;步驟四、將第一列表中的表字段進(jìn)行整理,得到目標(biāo)數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù),專家對關(guān)聯(lián)數(shù)據(jù)進(jìn)行人工識別,標(biāo)記出關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)安全等級、關(guān)聯(lián)數(shù)據(jù)的敏感性判斷結(jié)果、脫敏算法,得到關(guān)聯(lián)數(shù)據(jù)的標(biāo)記結(jié)果;步驟五、重復(fù)步驟一至步驟四,直至大數(shù)據(jù)平臺中的所有數(shù)據(jù)均標(biāo)記完畢,將最終的目標(biāo)數(shù)據(jù)和關(guān)聯(lián)數(shù)據(jù)的標(biāo)記結(jié)果存儲至數(shù)據(jù)安全管理平臺。
[0010]更進(jìn)一步優(yōu)選的,當(dāng)前數(shù)據(jù)為訪問數(shù)據(jù),當(dāng)前業(yè)務(wù)需求為數(shù)據(jù)訪問,步驟S4包括:用戶執(zhí)行數(shù)據(jù)訪問操作,輸入訪問數(shù)據(jù),訪問數(shù)據(jù)為敏感數(shù)據(jù);從數(shù)據(jù)安全管理平臺中調(diào)取訪問數(shù)據(jù)的的脫敏算法;對訪問數(shù)據(jù)執(zhí)行脫敏算法。
[0011]更進(jìn)一步優(yōu)選的,當(dāng)前數(shù)據(jù)為業(yè)務(wù)數(shù)據(jù),當(dāng)前業(yè)務(wù)需求為業(yè)務(wù)操作,步驟S4包括:
用戶執(zhí)行業(yè)務(wù)操作,輸入業(yè)務(wù)數(shù)據(jù);從數(shù)據(jù)安全管理平臺中調(diào)取業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)安全等級;從元數(shù)據(jù)數(shù)據(jù)庫查詢業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)層;根據(jù)業(yè)務(wù)操作、業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)層、業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)安全等級,從數(shù)據(jù)安全管理平臺中查詢業(yè)務(wù)數(shù)據(jù)的安全保護(hù)措施;對業(yè)務(wù)數(shù)據(jù)執(zhí)行安全保護(hù)措施。
[0012]更進(jìn)一步優(yōu)選的,所述方法還包括:當(dāng)大數(shù)據(jù)平臺檢測到關(guān)系圖進(jìn)行了更新后,自動對數(shù)據(jù)安全管理平臺中的數(shù)據(jù)安全保護(hù)策略進(jìn)行識別,并將結(jié)果更新保存至數(shù)據(jù)安全管理平臺。
[0013]更進(jìn)一步優(yōu)選的,所述自動對數(shù)據(jù)安全管理平臺中的數(shù)據(jù)安全保護(hù)策略進(jìn)行識別,包括:第一步、遍歷搜索更新后的關(guān)系圖中更新的數(shù)據(jù)血緣關(guān)系,并與原關(guān)系圖做對比,得到與更新的數(shù)據(jù)血緣關(guān)系之間具有直接或間接鏈接關(guān)系的多個目標(biāo)數(shù)據(jù)表,將多個目標(biāo)數(shù)據(jù)表保存到第二列表;第二步、遍歷第二列表中的每個目標(biāo)數(shù)據(jù)表,在更新后的關(guān)系圖中根據(jù)圖譜查詢方式得到每個目標(biāo)數(shù)據(jù)表的所有表字段,作為第一表字段集合,并保存至第三列表;第三步、遍歷第三列表,根據(jù)更新的數(shù)據(jù)血緣關(guān)系確定第一表字段之間的有向關(guān)系,利用更新的數(shù)據(jù)血緣關(guān)系和第一表字段形成多條更新的路徑,基于第一表字段之間的有向關(guān)系搜索位于每條更新的路徑中最上游的表字段,將最上游的表字段作為第二表字段,并保存至第四列表;第四步、遍歷第四列表,依次在數(shù)據(jù)安全管理平臺中查詢第二表字段的數(shù)據(jù)安全等級和標(biāo)記結(jié)果;第五步、遍歷第四列表,在更新后的關(guān)系圖中遞歸搜索每個第二表字段的所有下游表字段,得到每個第二表字段的第三表字段集合,將第二表字段與對應(yīng)的第三表字段集合、對應(yīng)的數(shù)據(jù)安全等級和對應(yīng)的標(biāo)記結(jié)果保存至第五列表;第六步、遍歷第五列表,將第二表字段的數(shù)據(jù)安全等級和標(biāo)記結(jié)果自動賦給相對應(yīng)的第三表字段集合,直至第五列表中的所有表字段均含有數(shù)據(jù)安全等級和標(biāo)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
【技術(shù)特征摘要】
1.一種大數(shù)據(jù)平臺數(shù)據(jù)安全保護(hù)方法,其特征在于,包括:S1 獲取大數(shù)據(jù)平臺中所有的數(shù)據(jù)表,將所有的數(shù)據(jù)表按照類別存放于數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫包括多個數(shù)據(jù)層,一個數(shù)據(jù)層中的數(shù)據(jù)表具有相同的類別;S2 根據(jù)數(shù)據(jù)治理平臺的ETL調(diào)度作業(yè)依賴關(guān)系自動捕獲各數(shù)據(jù)表之間的數(shù)據(jù)血緣關(guān)系,將數(shù)據(jù)表和數(shù)據(jù)血緣關(guān)系形成關(guān)系圖,保存至元數(shù)據(jù)數(shù)據(jù)庫;S3 根據(jù)不同的業(yè)務(wù)需求采取安全保護(hù)措施,將業(yè)務(wù)需求與對應(yīng)的安全保護(hù)措施形成多個數(shù)據(jù)安全保護(hù)策略,并保存至數(shù)據(jù)安全管理平臺;S4 用戶輸入當(dāng)前數(shù)據(jù)和當(dāng)前業(yè)務(wù)需求,根據(jù)當(dāng)前業(yè)務(wù)需求查詢當(dāng)前數(shù)據(jù)的安全保護(hù)措施,基于該安全保護(hù)措施對當(dāng)前數(shù)據(jù)執(zhí)行安全保護(hù)。2.如權(quán)利要求1所述的方法,其特征在于,步驟S2中,關(guān)系圖的形成過程包括:將數(shù)據(jù)表中的表頭執(zhí)行sql語句解析,得到表頭的語法樹,根據(jù)語法樹確定表頭的語義信息,將其作為表頭的表名信息;將數(shù)據(jù)表中表格的每個字段執(zhí)行sql語句解析,得到每個字段的語法樹,根據(jù)語法樹確定每個字段的語義信息,將其作為字段的字段信息;將每個字段信息與對應(yīng)的表名信息進(jìn)行鏈接,得到表字段,將其作為關(guān)系圖的節(jié)點;將數(shù)據(jù)表之間的數(shù)據(jù)血緣關(guān)系存儲為關(guān)系圖的邊,其中,數(shù)據(jù)血緣關(guān)系為表字段與表字段之間的有向關(guān)系,每一個有向關(guān)系將對應(yīng)的表字段分為上游表字段和下游表字段。3.如權(quán)利要求2所述的方法,其特征在于,步驟S3包括:對數(shù)據(jù)表中的數(shù)據(jù)按安全管理規(guī)范制定對應(yīng)的數(shù)據(jù)安全等級,數(shù)據(jù)安全等級分為多個安全級別;將業(yè)務(wù)需求分為數(shù)據(jù)訪問和業(yè)務(wù)操作;根據(jù)業(yè)務(wù)需求、數(shù)據(jù)所在的數(shù)據(jù)層、數(shù)據(jù)的數(shù)據(jù)安全等級確定所采取的安全保護(hù)措施;將數(shù)據(jù)
?
業(yè)務(wù)需求
?
數(shù)據(jù)安全等級
?
數(shù)據(jù)層
?
安全保護(hù)措施按照一一對應(yīng)的關(guān)系構(gòu)成數(shù)據(jù)安全保護(hù)策略,并保存至數(shù)據(jù)安全管理平臺。4.如權(quán)利要求3所述的方法,其特征在于,步驟S3還包括:采用識別方法對大數(shù)據(jù)平臺中的數(shù)據(jù)安全保護(hù)策略及其對應(yīng)的數(shù)據(jù)基于關(guān)系圖進(jìn)行識別,將識別的過程及結(jié)果與對應(yīng)的數(shù)據(jù)安全保護(hù)策略進(jìn)行鏈接后存儲于數(shù)據(jù)安全管理平臺。5.如權(quán)利要求4所述的方法,其特征在于,識別方法包括:步驟一、專家隨機(jī)選取大數(shù)據(jù)平臺中的數(shù)據(jù)作為目標(biāo)數(shù)據(jù),提取目標(biāo)數(shù)據(jù)的目標(biāo)表字段和數(shù)據(jù)安全等級,專家對目標(biāo)數(shù)據(jù)進(jìn)行敏感性判斷,若目標(biāo)數(shù)據(jù)為敏感數(shù)據(jù),則專家給出相應(yīng)的脫敏算法,標(biāo)記目標(biāo)數(shù)據(jù)的數(shù)據(jù)安全等級、目標(biāo)數(shù)據(jù)的敏感性判斷結(jié)果、脫敏算法,得到目標(biāo)數(shù)據(jù)的標(biāo)記結(jié)果;步驟二、在關(guān)系圖中將目標(biāo)表字段對應(yīng)的節(jié)點作為起始點,根據(jù)有向關(guān)系從起始點出發(fā)按照深度優(yōu)先算法遞歸遍歷關(guān)系圖,搜索與起始點相關(guān)的下游表字段,將搜索到的結(jié)果保存至第一列表;步驟三、在關(guān)系圖中將目標(biāo)表字段對應(yīng)的節(jié)點作為起始點,根據(jù)有向關(guān)系從起始點出發(fā)按照深度優(yōu)先算法遞歸遍歷關(guān)系圖,搜索與起始點相關(guān)的上游表字段,將搜索...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡琦,嚴(yán)鶴,王俊,楊權(quán),
申請(專利權(quán))人:云啟智慧科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。