• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數據清洗方法及系統技術方案

    技術編號:11913271 閱讀:139 留言:0更新日期:2015-08-20 16:16
    本發明專利技術提供了一種數據清洗方法及系統,其中,所述方法包括:首先,程序運行后構建待清洗數據源;再根據工具腳本提取待清洗數據源中有用的數據生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數據源。其容易拓展,適應能力強,不會因為工具的更新換代而導致整個系統重新編譯,是目前非常可行的解決方案,具有很好的市場推廣應用前景。

    【技術實現步驟摘要】

    本專利技術涉及數據處理
    ,尤其涉及一種數據清洗方法及系統
    技術介紹
    數據清洗是發現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。因為數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。我們要按照一定的規則把“臟數據” “洗掉”,這就是數據清洗。數據清洗的任務是為了將很多種不同的信息安全檢測的工具統一成平臺專用格式,并且提取有用的數據,用于后續流程的數據流轉。舉例來說,平臺會使用大量的開源工具對企業內部資源進行探測及評估,由于各工具的指令格式及結果數據格式不統一,導致不利于數據的收集與整理,所以使用數據清洗組件對此進行處理。數據清洗為發現、過濾及轉換不符要求信息的數據處理過程,針對各開源工具的命令重寫和工具運行結果數據的一致性檢查,并對結果數據的無效值、缺少值、重復數據的處理與規格化。目前,通常是針對兩個或多個檢測工具編寫一個統一的接口,這種方式難以拓展,而且每次需要修改內核代碼,通過以發布新的版本來增加新的工具或接口。有鑒于此,現有技術有待改進和提尚。
    技術實現思路
    鑒于上述現有技術的不足之處,本專利技術的目的在于提供一種數據清洗方法及系統,旨在解決現有數據清理方法難以拓展的問題。為了達到上述目的,本專利技術采取了以下技術方案:一種數據清洗方法,其中,包括以下步驟:S1、程序運行后,構建待清洗數據源;其中,所述帶清洗數據源為JSON格式,且符合IP的正常字段;S2、根據工具腳本提取待清洗數據源中有用的數據生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數據源。所述的數據清洗方法,其中,所述步驟SI中的待清洗數據源包括:IP、URL、操作系統、漏洞名稱以及對應的網址或網絡域名。所述的數據清洗方法,其中,還包括步驟S3、根據工具腳本提取運行后的數據源的運行結果,進行一致性判斷、無效處理、缺少值處理和/或重復值處理,得到清洗后的數據源。所述的數據清洗方法,其中,所述運行后的數據源中還包括工具結果。所述的數據清洗方法,其中,所述S2中回調方式具體包括:將待清洗數據源和任務放入隊列中,提取所述任務后運行返回工具結果到對應的運行后的數據源。一種數據清洗系統,其中,包括:構建單元,用于在程序運行后,構建待清洗數據源;其中,所述帶清洗數據源為JSON格式,且符合IP的正常字段;命令生成單元,用于根據工具腳本提取待清洗數據源中有用的數據生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數據源。所述的數據清洗系統,其中,所述構建單元中的待清洗數據源包括:IP、URL、操作系統、漏洞名稱以及對應的網址或網絡域名。所述的數據清洗系統,其中,還包括:后置處理單元,用于根據工具腳本提取運行后的數據源的運行結果,進行一致性判斷、無效處理、缺少值處理和/或重復值處理,得到清洗后的數據源。所述的數據清洗系統,其中,所述運行后的數據源中還包括工具結果。所述的數據清洗系統,其中,所述命令生成單元中回調方式具體包括:將待清洗數據源和任務放入隊列中,提取所述任務后運行返回工具結果到對應的運行后的數據源。有益效果:本專利技術提供的數據清洗方法及系統,其中,所述方法包括:首先,程序運行后構建待清洗數據源;再根據工具腳本提取待清洗數據源中有用的數據生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數據源。其容易拓展,適應能力強,不會因為工具的更新換代而導致整個系統重新編譯,是目前非常可行的解決方案,具有很好的市場推廣應用前景。【附圖說明】圖1為本專利技術的數據清洗方法的流程圖。圖2為本專利技術的數據清洗系統的結構框圖。【具體實施方式】本專利技術提供一種數據清洗方法及系統。為使本專利技術的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本專利技術進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本專利技術,并不用于限定本專利技術。本專利技術的思路是:將數據清洗編寫成一個平臺框架,當每次出現新的信息安全檢測的工具,只需要編寫對應的腳本放入到此平臺,使得容易拓展,適應新出的各種工具,適應能力強,不會因為工具的更新換代而導致整個平臺重新編譯,只需要修改對應的腳本或參數。為了方便理解,對前述的一些技術特征的解釋:(I)不符要求信息:比如,一個是掃描IP的信息安全檢測工具,它的作用是得出IP信息,那么僅僅提取IP信息就夠了,如時間等其他數據就為無用信息,這些可以過濾掉的信息即屬于不符要求信息。(2) 一致性:例如要掃描IP的工具,能掃描出來的結果數據有一定的格式,掃描不出來也有一定的格式,只提取掃描出來的結果的格式,就只提取這個數據。(3)無效值、缺少值、重復數據如何處理以及規格化:結果可能是雜亂無章,無效,缺失或重復,根據這個結果的共性進行處理,如拋棄無效值,補齊缺少值,去掉重復的數據。請參閱圖1,其為本專利技術的數據清洗方法的流程圖。如圖所示,所述數據清洗方法包括以下步驟:S100、程序運行后,構建待清洗數據源;其中,所述帶清洗數據源為JSON格式,且符合IP的正常字段;S200、根據工具腳本提取待清洗數據源中有用的數據生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數據源。下面分別針對上述步驟進行具體描述。[003當前第1頁1 2 本文檔來自技高網...

    【技術保護點】
    一種數據清洗方法,其特征在于,包括以下步驟:S1、程序運行后,構建待清洗數據源;其中,所述帶清洗數據源為JSON格式,且符合IP的正常字段;S2、根據工具腳本提取待清洗數據源中有用的數據生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數據源。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:龍震岳魏理豪艾解清
    申請(專利權)人:廣東電網有限責任公司信息中心
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产乱人伦无无码视频试看| 夫妻免费无码V看片| 亚洲高清无码专区视频| 国产色无码精品视频免费| 亚洲av无码不卡一区二区三区 | 在线精品自偷自拍无码中文| 国产在线精品无码二区二区| 人妻丝袜中文无码av影音先锋专区| 国产精品免费看久久久无码| 久久久久久国产精品免费无码| 亚洲高清无码在线观看| 亚洲av无码专区国产不乱码| 久久人妻内射无码一区三区| 狠狠躁夜夜躁无码中文字幕| 人妻丰满熟妇AV无码区免| 人妻夜夜添夜夜无码AV| 亚洲精品无码久久千人斩| 国产成人无码精品久久久久免费| 亚洲国产精品无码第一区二区三区| 无码国产色欲XXXXX视频| 国产av无码专区亚洲av果冻传媒 | 久久久g0g0午夜无码精品 | 人妻少妇精品无码专区动漫 | 亚洲日韩国产精品无码av| 免费A级毛片无码免费视| 亚洲V无码一区二区三区四区观看 亚洲爆乳精品无码一区二区三区 亚洲爆乳无码一区二区三区 | 亚洲日韩精品无码专区网站| 日韩免费a级毛片无码a∨| 亚洲精品9999久久久久无码| 日韩精品久久无码人妻中文字幕| 国产AV无码专区亚洲精品| 亚洲精品无码日韩国产不卡?V| 无码免费又爽又高潮喷水的视频| 国产精品亚洲专区无码唯爱网| 青青爽无码视频在线观看| 成人无码精品一区二区三区| 一区二区三区无码高清视频| 日韩人妻无码一区二区三区| 亚洲国产精品无码AAA片| 免费A级毛片无码视频| 亚洲av中文无码乱人伦在线观看|