本發(fā)明專利技術提出了一種提高數(shù)據(jù)質(zhì)量的方法,其包括:步驟101、獲取用戶需求特點;步驟103、確定用戶適用數(shù)據(jù)質(zhì)量維度;步驟105、根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;步驟107、根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。通過本發(fā)明專利技術可以為用戶提供適應性的數(shù)據(jù)服務,并能根據(jù)用戶自身的特點實時滿足用戶對數(shù)據(jù)質(zhì)量的要求。
【技術實現(xiàn)步驟摘要】
本專利技術涉及數(shù)據(jù)處理領域,尤其涉及一種提高數(shù)據(jù)質(zhì)量的方法及系統(tǒng)。
技術介紹
數(shù)據(jù)質(zhì)量指的是“數(shù)據(jù)對其在操作、決策支持和規(guī)劃中扮演角色的適應程度”。企業(yè)的數(shù)據(jù)質(zhì)量與業(yè)務績效之間存在著直接聯(lián)系,高質(zhì)量的數(shù)據(jù)可以使公司保持競爭力并在經(jīng)濟動蕩時期立于不敗之地。有了普遍深入的數(shù)據(jù)質(zhì)量,企業(yè)在任何時候都可以信任滿足所有需求的所有數(shù)據(jù)。然而,如何利用現(xiàn)有的數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,滿足不同企業(yè)的需求是當前面臨的一個重要問題。
技術實現(xiàn)思路
為了解決上述問題,本專利技術提出了一種提高數(shù)據(jù)質(zhì)量的方法,其包括:步驟101、獲取用戶需求特點;步驟103、確定用戶適用數(shù)據(jù)質(zhì)量維度;步驟105、根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;步驟107、根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。其中,在所述步驟101之前,還包括:通過對發(fā)起請求的用戶的歷史數(shù)據(jù)進行分析,獲取用戶需求特點。其中,所述數(shù)據(jù)質(zhì)量維度包括覆蓋性、實時性和準確性。其中,所述步驟103具體包括根據(jù)用戶的需求特點確定所述用戶的適用數(shù)據(jù)質(zhì)量維度。其中,所述步驟105具體包括:用戶適用的數(shù)據(jù)質(zhì)量維度不同采用不同的評估方法。其中,所述步驟107具體包括:如果所述用戶適用數(shù)據(jù)維度為覆蓋性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則使用數(shù)據(jù)自動修復技術,所述數(shù)據(jù)自動修復技術利用網(wǎng)絡提供的海量數(shù)據(jù)及從其中獲得的知識來對數(shù)據(jù)進行修復;如果所述適用數(shù)據(jù)維度為實時性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則采用實體識別技術進行數(shù)據(jù)處理,其中所述實體識別用于找出描述現(xiàn)實世界同一實體的數(shù)據(jù);如果所述適用數(shù)據(jù)維度為準確性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則采用弱可用信息上的知識發(fā)現(xiàn)技術。其中,所述數(shù)據(jù)自動修復技術通過分析定義錯誤修復的語義蘊含與表現(xiàn)形式、自動修復的充分必要條件和基于WEB的自動修復模型,使用遺傳算法實現(xiàn)查詢關鍵詞的自適應性調(diào)整,并利用圖匹配的相關技術進行信息抽取,基于抽取出的信息進行數(shù)據(jù)的自動修復。本專利技術還提出了一種提高數(shù)據(jù)質(zhì)量的系統(tǒng),其包括:用戶需求特點模塊,其用于獲取用戶需求特點;維度確定模塊,其用于確定用戶適用數(shù)據(jù)質(zhì)量維度;數(shù)據(jù)評估模塊,其用于根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;處理模塊,其用于根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。所述系統(tǒng)還包括判斷模塊,其用于判斷當前數(shù)據(jù)質(zhì)量是否滿足要求。通過本專利技術可以為用戶提供適應性的數(shù)據(jù)服務,并能根據(jù)用戶自身的特點實時滿足用戶對數(shù)據(jù)質(zhì)量的要求。附圖說明通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本專利技術的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:附圖1示出了根據(jù)本專利技術實施方式的一種提高數(shù)據(jù)質(zhì)量的方法;附圖2示出了根據(jù)本專利技術實施方式的一種提高數(shù)據(jù)質(zhì)量的系統(tǒng)。具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施方式。雖然附圖中顯示了本公開的示例性實施方式,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施方式所限制。相反,提供這些實施方式是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。根據(jù)本專利技術的實施方式,提出一種提高數(shù)據(jù)質(zhì)量的方法,其包括:步驟101、獲取用戶需求特點;步驟103、確定用戶適用數(shù)據(jù)質(zhì)量維度;步驟105、根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;步驟107、根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。其中,在所述步驟101之前,還包括:通過對發(fā)起請求的用戶的歷史數(shù)據(jù)進行分析,獲取用戶需求特點。其中,所述數(shù)據(jù)質(zhì)量維度包括覆蓋性、實時性和準確性。其中,所述步驟103具體包括根據(jù)用戶的需求特點確定所述用戶的適用數(shù)據(jù)質(zhì)量維度。其中,所述步驟105具體包括:用戶適用的數(shù)據(jù)質(zhì)量維度不同采用不同的評估方法。其中,所述步驟107具體包括:如果所述用戶適用數(shù)據(jù)維度為覆蓋性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則使用數(shù)據(jù)自動修復技術,所述數(shù)據(jù)自動修復技術利用網(wǎng)絡提供的海量數(shù)據(jù)及從其中獲得的知識來對數(shù)據(jù)進行修復;如果所述適用數(shù)據(jù)維度為實時性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則采用實體識別技術進行數(shù)據(jù)處理,其中所述實體識別用于找出描述現(xiàn)實世界同一實體的數(shù)據(jù);如果所述適用數(shù)據(jù)維度為準確性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則采用弱可用信息上的知識發(fā)現(xiàn)技術。其中,所述數(shù)據(jù)自動修復技術通過分析定義錯誤修復的語義蘊含與表現(xiàn)形式、自動修復的充分必要條件和基于WEB的自動修復模型,使用遺傳算法實現(xiàn)查詢關鍵詞的自適應性調(diào)整,并利用圖匹配的相關技術進行信息抽取,基于抽取出的信息進行數(shù)據(jù)的自動修復。數(shù)據(jù)質(zhì)量評估技術:從數(shù)據(jù)質(zhì)量的三個維度分別提出了數(shù)據(jù)質(zhì)量不同的自動評估技術,從而可以根據(jù)應用的需求判定數(shù)據(jù)的質(zhì)量是否達到要求。數(shù)據(jù)自動修復技術:利用網(wǎng)絡提供的海量數(shù)據(jù)及從其中獲得的知識來對數(shù)據(jù)進行修復。通過分析定義錯誤修復的語義蘊含與表現(xiàn)形式、自動修復的充分必要條件和基于WEB的自動修復模型,采用查詢關鍵詞生成模型,通過遺傳算法實現(xiàn)查詢關鍵詞的自適應性調(diào)整,并使用實體抽取模型,其采用圖模型來描述實體集之間的關系,利用圖匹配的相關技術進行信息抽取,并基于抽取出的信息進行數(shù)據(jù)的自動修復。實體識別技術:實體識別用于找出描述現(xiàn)實世界同一實體的數(shù)據(jù)。如今的數(shù)據(jù)集合大多具有復雜結構并具有更新頻繁特點。本專利技術對此種數(shù)據(jù)進行實體識別,針對關系數(shù)據(jù)、XML數(shù)據(jù)和圖數(shù)據(jù)的進行實體識別。典型地,是應用到商品信息的實體識別中。弱可用信息上的知識發(fā)現(xiàn)技術:網(wǎng)絡上很多,要么不完整,要么帶有可能誤導用戶的信息的數(shù)據(jù)以及很多通過自動化方法從非結構化數(shù)據(jù)中(比如文本和圖片)提取出來的數(shù)據(jù),都是是典型的弱可用數(shù)據(jù)。人們可以借助多種數(shù)據(jù)挖掘方法在這些弱可用數(shù)據(jù)上進行知識提取,并且將這些提取出來的知識應用到在不同領域的不同場景中。數(shù)據(jù)質(zhì)量自動檢測技術在社保中的應用:在社保數(shù)據(jù)中,由于數(shù)據(jù)源多種多樣,信息成因具有階段性和分布性特點,造成了大量的數(shù)據(jù)孤島的存在,即來自不同信息網(wǎng)絡的數(shù)據(jù)信息經(jīng)常會出現(xiàn)無法共享的問題,比如公安系統(tǒng)、民政局系統(tǒng)可能就會有信息重復或信息不匹配的情況發(fā)生。本專利技術利用數(shù)據(jù)質(zhì)量自動檢測技術解決了這些問題,確保了社保經(jīng)濟數(shù)據(jù)工程的順利開展。本專利技術還提出了一種提高數(shù)據(jù)質(zhì)量的系統(tǒng),其包括:用戶需求特點模塊,其用于獲取用戶需求特點;維度確定模塊,其用于確定用戶適用數(shù)據(jù)質(zhì)量維度;數(shù)據(jù)評估模塊,其用于根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;處理模塊,其用于根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。所述系統(tǒng)還包括判斷模塊,其用于判斷當前數(shù)據(jù)質(zhì)量是否滿足要求。以上所述,僅為本專利技術較佳的具體實施方式,但本專利技術的保護范圍并不局限于此,任何熟悉本
的技術人員在本專利技術揭露的技術范圍內(nèi),可輕易想到的變化或替換,都應涵蓋在本專利技術的保護范圍之內(nèi)。因此,本專利技術的保護范圍應以所述權利要求的保護范圍為準。本文檔來自技高網(wǎng)...

【技術保護點】
一種提高數(shù)據(jù)質(zhì)量的方法,其包括:步驟101、獲取用戶需求特點;步驟103、確定用戶適用數(shù)據(jù)質(zhì)量維度;步驟105、根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;步驟107、根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。
【技術特征摘要】
1.一種提高數(shù)據(jù)質(zhì)量的方法,其包括:步驟101、獲取用戶需求特點;步驟103、確定用戶適用數(shù)據(jù)質(zhì)量維度;步驟105、根據(jù)所述用戶適用數(shù)據(jù)質(zhì)量維度對現(xiàn)有數(shù)據(jù)進行評估;步驟107、根據(jù)評估結果對所述現(xiàn)有數(shù)據(jù)進行處理。2.如權利要求1所述一種提高數(shù)據(jù)質(zhì)量的方法,在所述步驟101之前,還包括:通過對發(fā)起請求的用戶的歷史數(shù)據(jù)進行分析,獲取用戶需求特點。3.如權利要求1所述一種提高數(shù)據(jù)質(zhì)量的方法,所述數(shù)據(jù)質(zhì)量維度包括覆蓋性、實時性和準確性。4.如權利要求1所述一種提高數(shù)據(jù)質(zhì)量的方法,所述步驟103具體包括根據(jù)用戶的需求特點確定所述用戶的適用數(shù)據(jù)質(zhì)量維度。5.如權利要求1所述一種提高數(shù)據(jù)質(zhì)量的方法,所述步驟105具體包括:用戶適用的數(shù)據(jù)質(zhì)量維度不同采用不同的評估方法。6.如權利要求3所述一種提高數(shù)據(jù)質(zhì)量的方法,其中所述步驟107具體包括:如果所述用戶適用數(shù)據(jù)維度為覆蓋性,并且所述數(shù)據(jù)質(zhì)量無法滿足要求,則使用數(shù)據(jù)自動修復技術,所述數(shù)據(jù)自動修復技術利用網(wǎng)絡提供的海量數(shù)據(jù)及從...
【專利技術屬性】
技術研發(fā)人員:陳敏,張磊,李首峰,陳放,
申請(專利權)人:國政通科技股份有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。