• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種檢測數據時效性的方法和系統技術方案

    技術編號:14485069 閱讀:125 留言:0更新日期:2017-01-26 17:43
    本發明專利技術提供一種檢測數據時效性的方法,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處理方法對數據文件的時效性進行處理。本發明專利技術能夠對數據的時效性進行判斷,從而對數據的價值評估提供評估參考依據。

    【技術實現步驟摘要】

    本專利技術涉及大數據領域,具體涉及一種檢測數據時效性的方法和系統
    技術介紹
    數據的時效性問題普遍存在于各類實際應用中,是影響數據質量的重要因素之一。隨著時間的推移,數據質量會快速的下降,有統計稱,在商業數據庫中,約有2%的客戶信息會在一個月內變得陳舊,也就是說,在2年內,會有近50%的記錄因為過時而使其可用性受到影響。在企業決策時,企業往往會因為使用了陳舊的數據而做出錯誤的決策,更不用說是不完整或有錯誤的數據。而在日常生活中,銀行可能會將信用卡賬單寄送到持有人搬家前的舊地址。劣質數據每年給美國造成的經濟損失高達6000億美元而時效性差正是造成數據劣質的罪魁禍首之一。通常,很多應用數據庫中都沒有時間戳。即使存在時間戳,由于數據缺乏及時有效的維護或數據集成等原因,這些時間戳經常不可用或不精確而且由于沒有一致的時間戳一些數據從其他數據源拷貝或輸入的。為此,確保數據時效性是一個十分重要的問題。數據時效性判定問題是確保數據時效性的一個關鍵問題。無論是數據時效性問題的發現還是數據時效性問題的修復,都首先需要對數據時效性加以判定。在用戶使用數據時,往往也首先要求判定數據的時效性。因此,如何對數據時效性進行評判在數據價值評估方面顯得尤為重要。
    技術實現思路
    針對上述技術問題,本專利技術提供一種檢測數據失效性的方法和系統。本專利技術采用的技術方案為:本專利技術的一實施例一種檢測數據時效性的方法,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處理方法對數據文件的時效性進行處理。可選地,所述通過預定的處理方法對數據文件的時效性進行處理具體包括:將所述數據文件劃分為結構化數據、半結構化數據和非結構化數據并確定數據文件中的結構化數據、半結構化數據和非結構化數據的權重;分別通過第一預定處理方法、第二預定處理方法和第三預定處理方法對所述結構化數據、半結構化數據和非結構化數據的時效性進行處理;根據所確定的權重和關于結構化數據、半結構化數據和非結構化數據的時效性的值來對所述數據文件的時效性進行處理。可選地,所述結構化數據是指傳統的關系數據模型、行數據,存儲于數據庫,可用二維表結構表示的數據;所述半結構化數據是指數據具有隱含結構但又不是以二維表之類的形式存在的數據;所述非結構化數據是指沒有固定結構的數據,包括辦公文檔、文本、圖片、各類報表、圖像和音頻、視頻信息。可選地,通過下述公式來得到所述數據文件的時效性值:G=Σi=13QiGi,i=1,2,3]]>其中,G為數據文件的時效性值,Gi為結構化數據、半結構化數據和非結構化數據的時效性值,Qi為結構化數據、半結構化數據和非結構化數據的權重。可選地,在所述第一預定處理方法中采用下述公式來計算所述結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G結構化為結構化數據的時效性值,取值范圍為[0,1],G結構化的值越大,表示結構化數據的時效性越強。可選地,其中,所述數據記錄的最終時間和數據記錄的起始時間通過R語言或者Excel軟件得出。可選地,在所述第二預定處理方法中采用下述公式來計算所述半結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G半結構化為半結構化數據的時效性值,取值范圍為[0,1],G半結構化的值越大,表示半結構化數據的時效性越強。可選地,在所述第三預定處理方法中采用下述公式來計算所述非結構化數據的時效性值:TR:數據生成時間,TS:數據最后一次更新時間,TE:當前時間,G非結構化為非結構化數據的時效性值,取值范圍為[0,1],G非結構化的值越大,表示非結構化數據的時效性越強。可選地,其中,數據生成時間和數據最后一次更新時間通過查閱元數據說明文檔得出。本專利技術的另一實施例提供檢測數據時效性的系統,包括:數據采集模塊,通過網絡爬蟲來采集待評估的數據文件;數據查閱模塊,用于查看數據文件是否有時間記錄字段;時間統計模塊,如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;時效性處理模塊,通過預定的處理方法對數據文件的時效性進行處理。可選地,所述時效性處理模塊通過預定的處理方法對數據文件的時效性進行處理具體包括:將所述數據文件劃分為結構化數據、半結構化數據和非結構化數據并確定數據文件中的結構化數據、半結構化數據和非結構化數據的權重;分別通過第一預定處理方法、第二預定處理方法和第三預定處理方法對所述結構化數據、半結構化數據和非結構化數據的時效性進行處理;根據所確定的權重和關于結構化數據、半結構化數據和非結構化數據的時效性的值來對所述數據文件的時效性進行處理。可選地,所述結構化數據是指傳統的關系數據模型、行數據,存儲于數據庫,可用二維表結構表示的數據;所述半結構化數據是指數據具有隱含結構但又不是以二維表之類的形式存在的數據;所述非結構化數據是指沒有固定結構的數據,包括辦公文檔、文本、圖片、各類報表、圖像和音頻、視頻信息。可選地,所述時效性處理模塊通過下述公式來得到所述數據文件的時效性值:G=Σi=13QiGi,i=1,2,3]]>其中,G為數據文件的時效性值,Gi為結構化數據、半結構化數據和非結構化數據的時效性值,Qi為結構化數據、半結構化數據和非結構化數據的權重。可選地,在所述第一預定處理方法中采用下述公式來計算所述結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G結構化為結構化數據的時效性值,取值范圍為[0,1],G結構化的值越大,表示結構化數據的時效性越強。可選地,所述數據查閱模塊通過R語言或者Excel軟件來得到結構化數據中的數據記錄的最終時間和數據記錄的起始時間。可選地,在所述第二預定處理方法中采用下述公式來計算所述半結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G半結構化為半結構化數據的時效性值,取值范圍為[0,1],G半結構化的值越大,表示半結構化數據的時效性越強。可選地,在所述第三預定處理方法中采用下述公式來計算所述非結構化數據的時效性值:TR:數據生成時間,TS:數據最后一次更新時間,TE:當前時間,G非結構化為非結構化數據的時效性值,取值范圍為[0,1],G非結構化的值越大,表示非結構化數據的時效性越強。可選地,所述數據查閱模塊通過查閱元數據說明文檔來得出非結構化數據中的數據生成時間和數據最后一次更新時間。本專利技術通過對數據文件的時效性進行量化處理,從而能夠清楚數據文件的質量,為數據文件的價值評估提供一定的參考依據。附圖說明圖1為本專利技術實施例提供的檢測數據失效性的方法示意圖;圖2為本專利技術實施例提供的檢測數據失效性的系統的結構示意圖。具體實施方式時效性是計算數據所代表的時間區間與數據提供時間之間的關系。數據記錄的時間范圍越大,距離當前時間越近,數據價值越高。本專利技術提出一種從數據結構時效性的角度對數據價值進行評估,為數據定價和數據交易提供一定的依據,本專利技術不是衡量源數據和備份數據是否完全一致性問題,而是針對一個數據文件夾,里面包含各種本文檔來自技高網...
    一種檢測數據時效性的方法和系統

    【技術保護點】
    一種檢測數據時效性的方法,其特征在于,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處理方法對數據文件的時效性進行處理。

    【技術特征摘要】
    1.一種檢測數據時效性的方法,其特征在于,包括以下步驟:通過網絡爬蟲采集待評估的數據文件;查看所述數據文件是否存在時間記錄字段;如果所述數據文件中存在時間記錄字段,則統計數據文件的時間范圍,得到數據文件的時間戳;通過預定的處理方法對數據文件的時效性進行處理。2.根據權利要求1所述的檢測數據時效性的方法,其特征在于,所述通過預定的處理方法對數據文件的時效性進行處理具體包括:將所述數據文件劃分為結構化數據、半結構化數據和非結構化數據并確定數據文件中的結構化數據、半結構化數據和非結構化數據的權重;分別通過第一預定處理方法、第二預定處理方法和第三預定處理方法對所述結構化數據、半結構化數據和非結構化數據的時效性進行處理;根據所確定的權重和關于結構化數據、半結構化數據和非結構化數據的時效性的值來對所述數據文件的時效性進行處理。3.根據權利要求1所述的檢測數據時效性的方法,其特征在于,所述結構化數據是指傳統的關系數據模型、行數據,存儲于數據庫,可用二維表結構表示的數據;所述半結構化數據是指數據具有隱含結構但又不是以二維表之類的形式存在的數據;所述非結構化數據是指沒有固定結構的數據,包括辦公文檔、文本、圖片、各類報表、圖像和音頻、視頻信息。4.根據權利要求2所述的檢測數據時效性的方法,其特征在于,通過下述公式來得到所述數據文件的時效性值:G=Σi=13QiGi,i=1,2,3]]>其中,G為數據文件的時效性值,Gi為結構化數據、半結構化數據和非結構化數據的時效性值,Qi為結構化數據、半結構化數據和非結構化數據的權重。5.根據權利要求4所述的檢測數據時效性的方法,其特征在于,在所述第一預定處理方法中采用下述公式來計算所述結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G結構化為結構化數據的時效性值,取值范圍為[0,1],G結構化的值越大,表示結構化數據的時效性越強。6.根據權利要求5所述的檢測數據時效性的方法,其特征在于,其中,所述數據記錄的最終時間和數據記錄的起始時間通過R語言或者Excel軟件得出。7.根據權利要求4所述的檢測數據時效性的方法,其特征在于,在所述第二預定處理方法中采用下述公式來計算所述半結構化數據的時效性值:Tf:數據記錄的最終時間,Ts:數據記錄的起始時間,Tn:當前時間,G半結構化為半結構化數據的時效性值,取值范圍為[0,1],G半結構化的值越大,表示半結構化數據的時效性越強。8.根據權利要求4所述的檢測數據時效性的方法,其特征在于,在所述第三預定處理方法中采用下述公式來計算所述非結構化數據的時效性值:TR:數據生成時間,TS:數據最后一次更新時間,TE:當前時間,G非結構化為非結構化數據的時效性值,取值范圍為[0,1],G非結構化的值越大,表示非結構化數據的時效性越強。9.根據權利要求8所述的檢測數據時效性的方法,其特征在于,其中,數據生成時間和數據最后一次更新時間通過查閱元數據說明文檔得出。10.一種檢測數據時效性的系統,其特征在于,包括:數據采集模塊,通過網絡爬...

    【專利技術屬性】
    技術研發人員:孫玉權張斌德
    申請(專利權)人:國信優易數據有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产AV无码专区亚洲AV琪琪| 午夜爽喷水无码成人18禁三级| 国产高清无码视频| 精品人体无码一区二区三区| 国产精品亚洲аv无码播放| 一区二区无码免费视频网站| 久久无码人妻精品一区二区三区| 2019亚洲午夜无码天堂| 亚洲人成人无码网www电影首页 | 精品久久久无码人妻字幂| 亚洲精品无码成人片在线观看 | 伊人天堂av无码av日韩av| 国产成人无码区免费内射一片色欲| 亚洲国产成人无码AV在线影院 | 中文字幕日韩精品无码内射| 无码夜色一区二区三区| AV大片在线无码永久免费| 中文字幕乱妇无码AV在线| 国产精品无码一区二区三区在 | 国产莉萝无码AV在线播放 | 无码日韩人妻av一区免费| 无码AV岛国片在线播放| 人妻少妇无码精品视频区| 日韩美无码五月天| 成年男人裸j照无遮挡无码| AV无码久久久久不卡网站下载| 久久亚洲精品无码| 国产在线无码视频一区二区三区| 成在线人免费无码高潮喷水| 无码人妻精品一区二| 国产成人无码免费视频97| 无码免费午夜福利片在线| 亚洲aⅴ无码专区在线观看春色 | 五月婷婷无码观看| 岛国av无码免费无禁网站| 国产精品亚洲а∨无码播放不卡| 精品久久久无码中字| 国产成人无码精品久久久小说| 免费无码又爽又刺激毛片| 免费无码婬片aaa直播表情| 国产网红主播无码精品|