• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于大數據的非結構化數據壓縮處理系統及其方法技術方案

    技術編號:15639666 閱讀:220 留言:0更新日期:2017-06-16 01:00
    本發明專利技術公開了一種基于大數據的非結構化數據壓縮處理系統及其方法,系統中數據采集模塊、差量緩存模塊、ExUDP模塊、數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口依次單向數據傳輸。方法步驟包括:數據流的采集、數據的壓縮、數據的存儲、數據的還原。本發明專利技術在大數據采集生成的非結構型數據的數據量更少,傳輸所需要的帶寬更低,存儲所占用的空間更小,既可以滿足對帶寬與數據數度要求等苛刻的應用場景,又可實現穩定可靠的數據收集、傳輸與存儲。

    【技術實現步驟摘要】
    一種基于大數據的非結構化數據壓縮處理系統及其方法
    本專利技術涉及大數據處理的數據流采集、傳輸、存儲以及分析領域,特別是一種基于大數據的非結構化數據壓縮處理系統及其方法。
    技術介紹
    據IDC的一項調查報告中指出:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。非結構化數據,顧名思義,是存儲在文件系統的信息,而不是數據庫。據報道指出:平均只有1%-5%的數據是結構化的數據,更多有價值的信息都保存在非結構化數據當中,而傳統的數據處理技術無法挖掘出這些數據中所潛藏的價值。為了應對這種挑戰,大數據技術應運而生,全球越來越多的企業采用其來對企業在業務運營中所獲得的數據進行采集,存儲,分析。大數據環境下的數據分為三類:結構化數據,半結構化數據,非結構化數據。結構化數據,即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據。傳統的數據庫系統完全能夠滿足處理需求。非結構化數據,即為不方便用數據庫二維邏輯表來表現的數據,包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等等。針對于音視頻及圖片等數據,行業中已經開發出了多種壓縮算法來有效地降低采集,存儲,處理時所占用的計算存儲資源。但是針對于文檔,文本等其它類型的非結構化數據,例如企業收集到的用戶行為,業務數據報表等高價值數據采用的都是文本或者XML等格式保存,并未有有效的處理方法來節省傳輸時所消耗的帶寬,與存儲時所占用的物理存儲空間。所以現在針對文本類非結構化數據的采集,傳輸,存儲系統的現狀是:1.采集時,所有采集節點都將產生的數據都完整地采集下來;2.傳輸時,將所有的數據只進行傳統的Zip壓縮再進行傳輸,不能最大化節省各個分部式節點間的傳輸帶寬;3.存儲時,若將數據按時間順序與邏輯關系將數據進行完整的存儲,會占用大量的物理存儲空間。因此,在針對文本類非結構化數據處理時,可以在以下幾個節點進行優化:1.按時間高效的對數據進行采集,天然地形成數據流狀態;2.高效率地對數據進行壓縮,有效節省傳輸流數據的帶寬;3.低成本的存儲流數據。
    技術實現思路
    針對現有技術中存在的問題,本專利技術提供了一種采集效率高,傳輸可靠性高,存儲成本低,支持進行實時數據挖掘與分析的基于大數據的非結構化數據壓縮處理系統及其方法。本專利技術的目的通過以下技術方案實現。一種基于大數據的非結構化數據壓縮處理系統,包括數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊和大數據存儲分析平臺,所述大數據存儲分析平臺包括數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口,所述數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊、數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口依次單向數據傳輸。進一步的,所述數據采集模塊用于設定了數據結構體,所述數據采集模塊中間包含所有需要監控的變量,所述數據采集模塊每間隔一個單位時間ΔT,對每個所監控的變量采樣得到當前幀,并與參考幀進行對比,計算出變化變量的差值,將所有的變化變量記錄下Key值與變化量。進一步的,所述差量緩存模塊將每個變化量按順序存儲到一塊內存空間M中、并記錄下每個變化量的存儲相對于該內存空間起點的Offset,接著將Offset與Key通過Hash函數做成一一對應的Hash表。進一步的,所述ExUDP模塊在應用層擴展UDP協議,所述ExUDP模塊將Offset-KeyHash表及存儲空間M通過ExUDP模塊發送到大數據存儲分析平臺上。進一步的,所述數據接收模塊提用于將Offset-KeyHash表及存儲空間M轉存到時間序列數據庫上的接口,所述數據接收模塊將數據以幀為單位接收下來、并存儲到時間序列數據庫中。進一步的,所述時間序列數據庫用于實現按幀為單位的非結構化數據存儲。進一步的,所述數據還原模塊以幀為單位從數據庫中讀取數據、并將其轉化為流數據。一種基于大數據的非結構化數據壓縮處理方法,步驟包括:1)數據流的采集:數據生成結點以固定的速率A樣本每秒在生成文本類非結構化數據,數據采集節點分布在各個數據生成結點上進行實時監測,以B樣本每秒的采樣速率對數據流進行監測采樣,當數據以覆蓋的形式生成時,B≥A,當數據以追加的形式生成時,B<A,之后執行步驟2);2)數據的壓縮:進行數據壓縮處理時,以采樣到的第一幀數據為基礎樣本,第二幀數據通過壓縮比較模塊,與第一幀數據進行比較,得出兩幀數據上變化的變量,及相應變量的變化值,同理,在處理第N幀采樣數據與第N-1幀采樣數據時,比較兩幀數據,得到變化值,之后執行步驟3);3)數據的存儲:變量通過Hash算法,映射到固定內存空間中,將與變量對應的變化差值存儲到相應的內存空間中,之后執行步驟4);4)數據的還原:進行數據還原時,從存儲中取出第一幀數據做為參照系,然后將第二幀的變化變量表與變化量值表取出,將差量解出,疊加回到第一幀數據之上,同理,以還原出的第N-1幀數據為參考,將第N幀變化值疊加回第N-1幀,并將所有的數據按時間先后順序排列,恢復出數據流。相比于現有技術,本專利技術的優點在于:本專利技術是在充分理解了當今大數據時代的數據特點,專門針對大數據時代非結構性數據在采集,傳輸,存儲上提出的獨特的解決方案,使得在依托大數據的數據分析處理平臺進入一個資源“輕量級”時代。通過本專利技術,在具有同等信息量的條件下,大數據采集生成的非結構型數據的數據量更少,傳輸所需要的帶寬更低,存儲所占用的空間更小,既可以滿足對帶寬與數據數度要求等苛刻的應用場景,又可實現穩定可靠的數據收集、傳輸與存儲,還可以通過采用本專利技術,對數據平臺進行優化,疏通平臺數據傳輸通道,改善平臺存儲結構,實現物理資源的合理分配,有效地降低大數據系統的采集,存儲,分析處理成本。附圖說明圖1為本專利技術的系統結構示意圖。圖2為本專利技術的方法流程圖。具體實施方式下面結合說明書附圖和具體的實施例,對本專利技術作詳細描述。本專利技術專門針對當前大數據下的文本信息類的非結構性數據特征,即不方便用數據庫二維邏輯表來表現的文本、文檔數據,包括所有格式的辦公文檔、文本、標準通用標記語言下的子集XML、HTML、各類報表等等。本專利技術實現實時的數據流采集,在采集時采用本專利提出的非結構化數據壓縮處理算法,高效地對非結構化數據流進行壓縮,以節約在對數據進行傳輸時的網絡帶寬成本與存儲時數據所占用的物理資源。如圖1所示,一種基于大數據的非結構化數據壓縮處理系統,包括數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊和大數據存儲分析平臺,所述大數據存儲分析平臺包括數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口,所述數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊、數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口依次單向數據傳輸。所述數據采集模塊用于設定了數據結構體,所述數據采集模塊中間包含所有需要監控的變量,所述數據采集模塊每間隔一個單位時間ΔT,對每個所監控的變量采樣得到當前幀,并與參考幀進行對比,計算出變化變量的差值,將所有的變化變量記錄下Key值與變化量,如此便不需要將所有的變量。所述差量緩存模塊將每個變化量按順序存儲到一塊內存空間M中,以壓縮存儲信息所需要的內存本文檔來自技高網
    ...
    一種基于大數據的非結構化數據壓縮處理系統及其方法

    【技術保護點】
    一種基于大數據的非結構化數據壓縮處理系統,其特征在于包括數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊和大數據存儲分析平臺,所述大數據存儲分析平臺包括數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口,所述數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊、數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口依次單向數據傳輸。

    【技術特征摘要】
    1.一種基于大數據的非結構化數據壓縮處理系統,其特征在于包括數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊和大數據存儲分析平臺,所述大數據存儲分析平臺包括數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口,所述數據采集模塊、壓縮比較模塊、差量緩存模塊、ExUDP模塊、數據接收模塊、時間序列數據庫、數據還原模塊、數據分析/挖掘接口依次單向數據傳輸。2.根據權利要求1所述的一種基于大數據的非結構化數據壓縮處理系統,其特征在于所述數據采集模塊用于設定了數據結構體,所述數據采集模塊中間包含所有需要監控的變量,所述數據采集模塊每間隔一個單位時間ΔT,對每個所監控的變量采樣得到當前幀,并與參考幀進行對比,計算出變化變量的差值,將所有的變化變量記錄下Key值與變化量。3.根據權利要求2所述的一種基于大數據的非結構化數據壓縮處理系統,其特征在于所述差量緩存模塊將每個變化量按順序存儲到一塊內存空間M中、并記錄下每個變化量的存儲相對于該內存空間起點的Offset,接著將Offset與Key通過Hash函數做成一一對應的Hash表。4.根據權利要求3所述的一種基于大數據的非結構化數據壓縮處理系統,其特征在于所述ExUDP模塊在應用層擴展UDP協議,所述ExUDP模塊將Offset-KeyHash表及存儲空間M通過ExUDP模塊發送到大數據存儲分析平臺上。5.根據權利要求4所述的一種基于大數據的非結構化數據壓縮處理系統,其特征在于所述數據接收模塊提用于將Offset-KeyHash表及存儲空間M轉存到時間序...

    【專利技術屬性】
    技術研發人員:王倬遙高振國楊海雷
    申請(專利權)人:深圳市高星文網絡科技有限公司
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码色AV一二区在线播放| 国产丰满乱子伦无码专| 无码人妻一区二区三区免费n鬼沢| 国产Av激情久久无码天堂| 午夜无码A级毛片免费视频| 丰满少妇人妻无码专区| 亚洲国产精品无码专区在线观看| 精品久久无码中文字幕| 一本色道无码道在线观看| 无码熟妇人妻AV在线影院| 国产精品无码无在线观看| 精品少妇人妻av无码专区| 亚洲午夜无码久久久久小说| 亚洲AV永久无码精品水牛影视| 亚洲av永久无码一区二区三区| 久久久久无码精品亚洲日韩| 国产av无码专区亚洲国产精品| 亚洲熟妇无码一区二区三区| 亚洲不卡中文字幕无码| 免费看无码特级毛片| 无码AV一区二区三区无码| 无码中文av有码中文av| 人妻丰满av无码中文字幕| 亚洲AV综合色区无码一区爱AV | 亚洲日韩国产二区无码| 国精品无码一区二区三区在线 | 久久精品无码专区免费青青| 亚洲一区精品无码| 精品人妻系列无码人妻免费视频| 精品久久久久久无码中文字幕一区 | 日韩精品无码一区二区三区四区| 少妇人妻av无码专区| 免费无码不卡视频在线观看 | 日韩毛片无码永久免费看| 亚洲av无码偷拍在线观看| 无码精油按摩潮喷在播放| 亚洲a无码综合a国产av中文 | 久久久久亚洲AV无码网站| 日韩精品中文字幕无码一区| 台湾无码一区二区| 精品成在人线AV无码免费看|