本發明專利技術涉及大數據處理技術領域,且公開了一種流式企業大數據處理方法和存儲介質,述方法包含以下步驟:步驟一,對流式數據進行預處理1)處理累積的大數據即歷史數據生成中間結果集,劃分該結果集并進行緩存到各計算節點;2)實時監聽數據源,并按照時間前后順序對流式大數據進行升序排序。該種流式企業大數據處理方法和存儲介質,通過預先對累積的歷史大數據生成結果積,并對結果集進行劃分,便于對上次的結果集進行承接,通過對數據源進行實時監聽,使得自動對數據源進行監控,無需進行手動觸發,而對數據的流式讀取方式,大大的降低了對內存的占用,使得數據處理速度大大提升,當數據源的實時數據有更新時可以實時得到處理結果。結果。結果。
【技術實現步驟摘要】
一種流式企業大數據處理方法和存儲介質
[0001]本專利技術涉及大數據處理
,具體為一種流式企業大數據處理方法和存儲介質。
技術介紹
[0002]大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產,大數據技術的廣泛應用使其成為引領眾多行業技術進步、促進效益增長的關鍵支撐技術,根據數據處理的時效性,大數據處理系統可分為批式(batch)大數據和流式(streaming)大數據兩類,其中,批式大數據又被稱為歷史大數據,流式大數據又被稱為實時大數據。
[0003]為了滿足用戶的實時服務需求,網絡應用不僅需要對大量的歷史數據進行分析處理,還需要進一步對實時流式數據做出快速的處理,而每次手動觸發程序運行,兩次觸發時間點之間的數據,不會立即處理,常規的批處理存在嚴重的滯后性,同時在每一個時間片中,當數據源發生更新時,將會重復應用靜態數據處理方法,從而可以得到每個時間片內的結果,當讀取超大文件,需要消耗大量內存,運行速度大大降低,當數據庫中的數據過多時,批處理查詢性能會大幅下降,無法滿足用戶需要實時、有效地處理數據。
技術實現思路
[0004]針對現有技術的不足,本專利技術提供了一種流式企業大數據處理方法和存儲介質,具備可以準確實時、有效地處理數據的優點,解決了
技術介紹
中提出的問題。
[0005]本專利技術提供如下技術方案:一種流式企業大數據處理方法和存儲介質,所述方法包含以下步驟:
[0006]步驟一,對流式數據進行預處理
[0007]1)處理累積的大數據即歷史數據生成中間結果集,劃分該結果集并進行緩存到各計算節點;
[0008]2)實時監聽數據源,并按照時間前后順序對流式大數據進行升序排序;
[0009]3)針對待處理流式數據,劃分設定時間段內的數據構建出初始化數據集,處理設定時間內指定的大數據,指定的大數據為歷史數據生成中間結果集,并劃分該結果集并分布緩存到各計算節點;
[0010]步驟二,對流式數據進行初始化處理
[0011]1)每個計算節點定時的接收全部的流式數據,并可通過Map處理得到中間結果;
[0012]2)通過中間結果劃分方法過濾得到該節點的中間結果,并將其緩存到本地節點上,對本地節點設定閥值,在達到閥值后可形成一個分片,發送該分片;
[0013]3)將多路、多個企業數據匯集放入分片并存入至數據庫中;
[0014]步驟三,將多組數據進行分類存儲
[0015]1)當數據源的實時數據有更新時,將更新數據接收進第一分片節點消息隊列里,并將更新數據及對應的標簽發送到第二分片節點消息隊列,其中,標簽用于標識數據的關鍵信息,對流式大數據進行預處理以減少數據錯誤,得到待處理流式數據;
[0016]2)將更新后的待處理流式數據及對應將預設時間范圍內的第二分片節點消息隊列里的數據及對應的標簽存儲到第一數據庫;
[0017]3)基于標簽對第二分片節點消息隊列里的數據過濾,將與標簽一致的對應數據存放到第二數據庫;
[0018]4)將第二數據庫里的數據按照主題分類,篩選主題與預設主題一致的數據,并將其儲存至第三數據庫;
[0019]步驟四,建立基于企業數據的算法模型,對多個數據庫并行數據分析和運算
[0020]1)當中間結果分片到達后,可根據流水線調度算法,把歷史數據中間結果與該中間結果共同作為Reduce輸入;
[0021]2)數據集增量劃分步驟,依據差異變量,從待處理流式數據中劃分時間段內的數據作為增量數據集,對增量數據集進行算法處理,得到結果集;
[0022]3)增量結果合并步驟,將集合流式數據進行合并,得到更新后的結果集。
[0023]其中,所述步驟一中數據源的數據可以是文本數據、音頻數據、視頻數據中任一種,同時數據還包括數據的事件時間屬性和數據的處理時間屬性。
[0024]其中,所述步驟一中的累積大數據即為歷史數據,均備份在分布式文件系統上,在系統啟動或者開始計算任務之前,均需要對這部分數據進行讀取作預處理,且分布式地存儲到各個相對應的計算節點,便于對上次的結果集進行承接。
[0025]其中,所述步驟三中的第一數據庫為全量數據庫,用于存儲在預設時間范圍內的全部數據及該數據對應的標簽,所述全量數據庫對其內部存儲的數據設有數據存儲周期,將會基于數據存儲周期定期清除超出數據存儲周期的數據,所述第二數據庫是現行數據庫,現行數據庫用于存儲基于標簽過濾所述第二分片節點消息隊列內后的數據,且現行數據庫對應的上層應用可顯示或查詢現行數據庫,所述第三數據庫是存檔數據庫,所述存檔數據庫用于存儲與人工篩選的數據,所述第三數據庫中的數據為永久保存。
[0026]其中,所述步驟四中在更新過程中,應用哈希算法對結果進行索引,提升結果合并中的查找和檢索效率。
[0027]其中,所述用于數據存儲的數據庫均通過存儲介質實現。
[0028]與現有技術對比,本專利技術具備以下有益效果:
[0029]1、該種流式企業大數據處理方法和存儲介質,通過預先對累積的歷史大數據生成結果集,并對結果集進行劃分,便于對上次的結果集進行承接,同過對數據源進行實時監聽,使得自動對數據源進項監控,無需進行手動觸發,而對數據的流式讀取方式,大大的降低了對內存的占用,使得數據處理速度大大提升,當數據源的實時數據有更新時可以實時得到處理結果,并且通過存儲介質提供了三種數據庫,分別存儲全量數據、現行處理的數據和永久存檔的數據,保證數據存儲后不易丟失,同時保證高效的查詢數據性能,使得數據分批存儲,細化了數據處理的粒度,加快了計算速度,符合高響應比的任務需要,解決了常規的批處理存在嚴重的滯后性,當讀取超大文件時需要消耗大量內存,運行速度大大降低的問題。
[0030]2、該種流式企業大數據處理方法和存儲介質,通過數據集增量劃分步驟,依據差異變量,從待處理流式數據中劃分時間段內的數據作為增量數據集,對增量數據集進行算法處理,克服了基于時間的增加而處理的效率隨數據儲存內存的增大而下降,解決了由于增量式中會對每一個數據點反復多次更新使得操作過于頻繁,避免重復操作對數據的處理效率大大提升,簡捷了操作步驟,避免了對已處理的數據進行反復刷新處理,提高了數據處理過程的效率,同時保證數據處理結果的準確性,通過運用流式大數據處理方法,兼顧了效率和準確性,方便對數據庫進行索引,同時可適用于倒排索引以及外排序。
附圖說明
[0031]圖1為本專利技術方法步驟結構示意圖;
[0032]圖2為本專利技術增量劃分步驟結構示意圖。
具體實施方式
[0033]下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種流式企業大數據處理方法和存儲介質,其特征在于,所述方法包含以下步驟:步驟一,對流式數據進行預處理1)處理累積的大數據即歷史數據生成中間結果集,劃分該結果集并進行緩存到各計算節點;2)實時監聽數據源,并按照時間前后順序對流式大數據進行升序排序;3)針對待處理流式數據,劃分設定時間段內的數據構建出初始化數據集,處理設定時間內指定的大數據,指定的大數據為歷史數據生成中間結果集,并劃分該結果集并分布緩存到各計算節點;步驟二,對流式數據進行初始化處理1)每個計算節點定時的接收全部的流式數據,并可通過Map處理得到中間結果;2)通過中間結果劃分方法過濾得到該節點的中間結果,并將其緩存到本地節點上,對本地節點設定閥值,在達到閥值后可形成一個分片,發送該分片;3)將多路、多個企業數據匯集放入分片并存入至數據庫中;步驟三,將多組數據進行分類存儲1)當數據源的實時數據有更新時,將更新數據接收進第一分片節點消息隊列里,并將更新數據及對應的標簽發送到第二分片節點消息隊列,其中,標簽用于標識數據的關鍵信息,對流式大數據進行預處理以減少數據錯誤,得到待處理流式數據;2)將更新后的待處理流式數據及對應將預設時間范圍內的第二分片節點消息隊列里的數據及對應的標簽存儲到第一數據庫;3)基于標簽對第二分片節點消息隊列里的數據過濾,將與標簽一致的對應數據存放到第二數據庫;4)將第二數據庫里的數據按照主題分類,篩選主題與預設主題一致的數據,并將其儲存至第三數據庫;步驟四,建立基于企業數據的算法模型,對多個數據庫并行數據分析和運算1)當中間結果分片到達后,可根據流水線調度算法,把歷史數據中間結果與該中間結果共同作為Reduce輸入;2)數據集增量劃分步驟,依據差...
【專利技術屬性】
技術研發人員:劉子曜,白峻峰,張文戰,
申請(專利權)人:北京基智科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。