本發明專利技術公開了一種基于Hadoop的網絡數據挖掘與分析平臺及其方法,其中,該平臺包括數據采集層、數據存儲層、業務應用層和用戶層;所述數據采集層,采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;其中,每個基本任務單位采用獨立的采集規則及策略;及所述數據存儲層,用于完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;所述數據存儲層采用Hadoop框架實現;及所述業務應用層,用于調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示。
【技術實現步驟摘要】
一種基于Hadoop的網絡數據挖掘與分析平臺及其方法
本專利技術屬于網絡數據處理領域,尤其涉及一種基于Hadoop的網絡數據挖掘與分析平臺及其方法。
技術介紹
近年來,“大數據”已經成為科技界和企業界關注的熱點,數據已成為與自然資源、人力資源同等重要的戰略資源,其所隱含的巨大社會和經濟價值已引起科技界和企業也的高度重視。如果有效地組織和使用這些大數據將對社會和經濟的發展起到巨大的推動作用。這些急劇增長的數據主要來自于人們的日常生活,特別是互聯網已經成為我國最大的公共信息集散地和社會群體平臺。與報紙、無線廣播和電視等傳統的傳播媒體相比,網絡媒體具有進入門檻低、信息超大規模、信息發布與傳播迅速、參與群體龐大、實時交互性強等綜合性特點,已經成為社會政治、經濟各領域最快速、廣泛的信息渠道。而如何從大量的互聯網數據中及時發現有用信息成為政府及各行業的關注熱點。網絡數據資源的特點是規模大,且來源于世界各地不同站點,分布分散,因此分布式的組織和管理成為一種必要的手段。此外,各類網絡用戶及網絡接入點的迅速增長以及多種新型網絡媒體的出現,使得各種非結構化、半結構化網絡數據的數據量急劇膨脹,而傳統關系型數據管理系統(并行數據庫)的擴展性遇到了前所未有的障礙,使得其在處理新型數據方面顯得力不從心。由于各行業所產生的數據規模巨大、形態多樣、動態變化,若仍沿用傳統關系數據庫來存儲這些非結構化數據,其存儲性能和擴展性能都將成為制約數據有效應用的瓶頸。
技術實現思路
為了解決現有技術的不足,本專利技術的第一目的提供一種基于Hadoop的網絡數據挖掘與分析平臺。本專利技術的一種基于Hadoop的網絡數據挖掘與分析平臺,包括數據采集層、數據存儲層、業務應用層和用戶層;所述數據采集層,采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;其中,每個基本任務單位采用獨立的采集規則及策略;及所述數據存儲層,用于完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;所述數據存儲層采用Hadoop框架實現;及所述業務應用層,用于調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示。進一步的,所述基本任務單位包括論壇數據采集單元,其用于分別通過動態網頁采集方法和網頁信息抽取方法對在線論壇及離線論壇內的網絡數據進行采集。本專利技術通過動態網頁高效采集技術和網頁信息抽取技術的相互結合,實時、全面、精確地獲取到指定論壇網站中指定版塊中的帖子及其相關元信息。進一步的,所述基本任務單位包括博客數據采集單元,其用于負責廣度遍歷博客站點,目的是獲取博客Feed地址;對每個Feed地址對應的博客進行實時采集,跟蹤更新的博客文章,以增量更新方式采集博客信息。本專利技術能夠實時采集更新的博客數據,使得數據采集實時且準確。進一步的,所述基本任務單位包括新聞數據采集單元,其用于采用基于行塊分布函數的方法抽取新聞網頁中的正文文本,進而獲取新聞數據。本專利技術能夠直觀高效準確地獲取新聞數據。進一步的,所述Hadoop框架由分布式文件系統HDFS和MapReduce組成;HDFS是Hadoop的文件系統,用于存儲超大文件;MapReduce是Hadoop的并行編程模型,用于對HDFS上存儲的數據進行深度分析。本專利技術的第二目的是提供一種基于所述的Hadoop的網絡數據挖掘與分析平臺的工作方法,本專利技術的一種基于Hadoop的網絡數據挖掘與分析平臺的工作方法,包括:數據采集層采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;數據存儲層完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;業務應用層調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示。進一步的,該方法還包括:在基本任務單位中設置論壇數據采集單元,所述論壇數據采集單元分別通過動態網頁采集方法和網頁信息抽取方法對在線論壇及離線論壇內的網絡數據進行采集。進一步的,該方法還包括:在基本任務單位中設置博客數據采集單元,所述博客數據采集單元負責廣度遍歷博客站點,目的是獲取博客Feed地址;對每個Feed地址對應的博客進行實時采集,跟蹤更新的博客文章,以增量更新方式采集博客信息。進一步的,該方法還包括:在基本任務單位中設置新聞數據采集單元,所述新聞數據采集單元采用基于行塊分布函數的方法抽取新聞網頁中的正文文本,進而獲取新聞數據。進一步的,在數據存儲層中對原始網絡數據的處理過程包括:首先,根據數據的變化分塊數據,將未變化部分數據的模式存入滑窗;其次,分別計算添加和刪除部分數據的模式;最后,根據變化部分數據的模式,更新滑窗中所保存的模式。與現有技術相比,本專利技術的有益效果是:(1)當前研究領域通常采用關系數據庫或自定義的文件格式存儲從不同網絡上獲取的數據,因此在擴展性、穩定性、易開發性和移植性、通用性等方面容易產生問題。本專利技術采用分布式Hadoop架構作為網絡數據的存儲平臺,根據各類網絡數據的特征及其訪問特點布置控制節點和存儲節點,以提高存取性能,針對不同的網絡類型提出適合于相應網絡的個性化Hadoop存儲平臺。(2)本專利技術在數據存儲層內,當數據變化時,通過利用原有數據中的模式,僅計算變化部分數據的模式減少模式計算量,提高算法效率,而且采用窗口技術,包括固定窗口和可變窗口兩類技術分別對不同類型用戶的需求進行響應,以實現較高性能實時性的網絡數據監測。附圖說明構成本申請的一部分的說明書附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。圖1是本專利技術的一種基于Hadoop的網絡數據挖掘與分析平臺結構示意圖。圖2是多通道數據采集的邏輯視圖。圖3是垂直爬蟲的架構示意圖。圖4是論壇信息獲取過程圖。圖5是論壇的論壇的版塊頁面數據獲取流程圖。圖6是博客數據采集單元的系統架構圖。圖7是博客數據采集單元的功能圖。圖8是基于行塊分布函數方法的正文抽取框架。圖9是HDFS的框架圖。圖10是MapReduce程序的具體執行過程。圖11是MapReduce的工作原理圖。圖12是本專利技術的一種基于Hadoop的網絡數據挖掘與分析平臺的工作方法流程圖。具體實施方式應該指出,以下詳細說明都是例示性的,旨在對本申請提供進一步的說明。除非另有指明,本文使用的所有技術和科學術語具有與本申請所屬
的普通技術人員通常理解的相同含義。需要注意的是,這里所使用的術語僅是為了描述具體實施方式,而非意圖限制根據本申請的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數形式也意圖包括復數形式,此外,還應當理解的是,當在本說明書中使用術語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。圖1是本專利技術的一種基于Hadoop的網絡數據挖掘與分析平臺結構示意圖。如圖1所示,本專利技術的一種基于Hadoop的網絡數據挖掘與分析平臺,包括數據采集層、數據存儲層、本文檔來自技高網...

【技術保護點】
一種基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,包括數據采集層、數據存儲層、業務應用層和用戶層;所述數據采集層,采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;其中,每個基本任務單位采用獨立的采集規則及策略;及所述數據存儲層,用于完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;所述數據存儲層采用Hadoop框架實現;及所述業務應用層,用于調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示。
【技術特征摘要】
1.一種基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,包括數據采集層、數據存儲層、業務應用層和用戶層;所述數據采集層,采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;其中,每個基本任務單位采用獨立的采集規則及策略;及所述數據存儲層,用于完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;所述數據存儲層采用Hadoop框架實現;及所述業務應用層,用于調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示。2.如權利要求1所述的基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,所述基本任務單位包括論壇數據采集單元,其用于分別通過動態網頁采集方法和網頁信息抽取方法對在線論壇及離線論壇內的網絡數據進行采集。3.如權利要求1所述的基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,所述基本任務單位包括博客數據采集單元,其用于負責廣度遍歷博客站點,目的是獲取博客Feed地址;對每個Feed地址對應的博客進行實時采集,跟蹤更新的博客文章,以增量更新方式采集博客信息。4.如權利要求1所述的基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,所述基本任務單位包括新聞數據采集單元,其用于采用基于行塊分布函數的方法抽取新聞網頁中的正文文本,進而獲取新聞數據。5.如權利要求1所述的基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,所述Hadoop框架由分布式文件系統HDFS和MapReduce組成;HDFS是Hadoop的文件系統,用于存儲超大文件;MapReduce是Hadoop的并行編程模型,用于對HDFS上存儲的數據進行...
【專利技術屬性】
技術研發人員:朱世偉,趙燕清,閻淮海,鞠鎂隆,于俊鳳,魏墨濟,李晨,李思思,徐蓓蓓,李憲毅,王愛萍,
申請(專利權)人:山東省科學院情報研究所,
類型:發明
國別省市:山東,37
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。