【技術實現步驟摘要】
本專利技術涉及大數據領域,具體涉及一種檢測數據時效性的方法和系統。
技術介紹
數據的時效性問題普遍存在于各類實際應用中,是影響數據質量的重要因素之一。隨著時間的推移,數據質量會快速的下降,有統計稱,在商業數據庫中,約有2%的客戶信息會在一個月內變得陳舊,也就是說,在2年內,會有近50%的記錄因為過時而使其可用性受到影響。在企業決策時,企業往往會因為使用了陳舊的數據而做出錯誤的決策,更不用說是不完整或有錯誤的數據。而在日常生活中,銀行可能會將信用卡賬單寄送到持有人搬家前的舊地址。劣質數據每年給美國造成的經濟損失高達6000億美元而時效性差正是造成數據劣質的罪魁禍首之一。通常,很多應用數據庫中都沒有時間戳。即使存在時間戳,由于數據缺乏及時有效的維護或數據集成等原因,這些時間戳經常不可用或不精確而且由于沒有一致的時間戳一些數據從其他數據源拷貝或輸入的。為此,確保數據時效性是一個十分重要的問題。數據時效性判定問題是確保數據時效性的一個關鍵問題。無論是數據時效性問題的發現還是數據時效性問題的修復,都首先需要對數據時效性加以判定。在用戶使用數據時,往往也首先要求判定數據的時效性。因此,如何對數據時效性進行評判在數據價值評估方面顯得尤為重要。
技術實現思路
針對上述技術問題,本專利技術提供一種檢測數據失效性的方法和系統。本專利技術采用的技術方案為:本專利技術的一實施例一種檢測數據時效性的方法,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處 ...
【技術保護點】
一種檢測數據時效性的方法,其特征在于,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處理方法對數據文件的時效性進行處理。
【技術特征摘要】
1.一種檢測數據時效性的方法,其特征在于,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處理方法對數據文件的時效性進行處理。2.根據權利要求1所述的檢測數據時效性的方法,其特征在于,所述通過預定的處理方法對數據文件的時效性進行處理具體包括:將所述數據文件劃分為結構化數據、半結構化數據和非結構化數據并確定數據文件中的結構化數據、半結構化數據和非結構化數據的權重;分別通過第一預定處理方法、第二預定處理方法和第三預定處理方法對所述結構化數據、半結構化數據和非結構化數據的時效性進行處理;根據所確定的權重和關于結構化數據、半結構化數據和非結構化數據的時效性的值來對所述數據文件的時效性進行處理。3.根據權利要求1所述的檢測數據時效性的方法,其特征在于,所述結構化數據是指傳統的關系數據模型、行數據,存儲于數據庫,可用二維表結構表示的數據;所述半結構化數據是指數據具有隱含結構但又不是以二維表之類的形式存在的數據;所述非結構化數據是指沒有固定結構的數據,包括辦公文檔、文本、圖片、各類報表、圖像和音頻、視頻信息。4.根據權利要求2所述的檢測數據時效性的方法,其特征在于,通過下述公式來得到所述數據文件的時效性值:G=Σi=13QiGi,i=1,2,3]]>其中,G為數據文件的時效性值,Gi為結構化數據、半結構化數據和非結構化數據的時效性值,Qi為結構化數據、半結構化數據和非結構化數據的權重。5.根據權利要求4所述的檢測數據時效性的方法,其特征在于,在所述第一預定處理方法中采用下述公式來計算所述結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G結構化為結構化數據的時效性值,取值范圍為[0,1],G結構化的值越大,表示結構化數據的時效性越強。6.根據權利要求5所述的檢測數據時效性的方法,其特征在于,其中,所述數據記錄的最終時間和數據記錄的起始時間通過R語言或者Excel軟件得出。7.根據權利要求4所述的檢測數據時效性的方法,其特征在于,在所述第二預定處理方法中采用下述公式來計算所述半結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G半結構化為半結構化數據的時效性值,取值范圍為[0,1],G半結構化的值越大,表示半結構化數據的時效性越強。8.根據權利要求4所述的檢測數據時效性的方法,其特征在于,在所述第三預定處理方法中采用下述公式來計算所述非結構化數據的時效性值:TR:數據生成時間,TS:數據最后一次更新時間,TE:當前時間,G非結構化為非結構化數據的時效性值,取值范圍為[0,1],G非結構化的值越大,表示非結構化數據的時效性越強。9.根據權利要求8所述的檢測數據時效性的方法,其特征在于,其中,數據生成時間和數據最后一次更新時間通過查閱元數據說明文檔得出。10.一種檢測數據時效性的系統,其特征在于,包括:數據采集模塊,通過網絡爬...
【專利技術屬性】
技術研發人員:孫玉權,張斌德,
申請(專利權)人:國信優易數據有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。