System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請的實施例涉及數(shù)據(jù)采集領(lǐng)域,具體涉及基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法。
技術(shù)介紹
1、網(wǎng)頁大數(shù)據(jù)可以是但不限于:電影信息的網(wǎng)頁數(shù)據(jù)、書籍信息的網(wǎng)頁數(shù)據(jù)。網(wǎng)頁大數(shù)據(jù)的處理主要涉及到數(shù)據(jù)的收集、處理、分析和可視化等方面。在技術(shù)層面上,這包括使用各種技術(shù)如?flume、?sqoop、?kettle進行數(shù)據(jù)采集,使用?hdfs、?hbase、?mongodb等進行數(shù)據(jù)存儲,以及使用?spark技術(shù)棧進行數(shù)據(jù)分析。此外,數(shù)據(jù)可視化通常通過?html、?css、?javascript等技術(shù)實現(xiàn),使得數(shù)據(jù)以圖表、圖像等形式展示在大屏幕上,便于監(jiān)控、分析和展示數(shù)據(jù)。
2、?通過搜索引擎向用戶終端發(fā)送與網(wǎng)頁關(guān)鍵信息相關(guān)度較高的網(wǎng)頁信息,可以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息。目前,在進行數(shù)據(jù)采集時,通常采用的方式為:通過單一搜索引擎采集單臺服務(wù)器存儲的網(wǎng)頁信息,然后將采集到的網(wǎng)頁信息發(fā)送給用戶終端。
3、然而,實踐中發(fā)現(xiàn),當(dāng)采用上述方式進行數(shù)據(jù)采集時,經(jīng)常會存在如下技術(shù)問題:
4、第一,單一搜索引擎采集到的網(wǎng)頁信息較為單一,導(dǎo)致采集到的網(wǎng)頁信息難以符合用戶需求,造成難以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源;
5、在采用技術(shù)方案來解決上述技術(shù)問題一的過程中,往往又會伴隨著如下問題:通過全文搜索算法檢索對不同的搜索引擎所存儲的每個網(wǎng)頁信息均進行檢索時,由于網(wǎng)頁信息所包含的信息較多且網(wǎng)頁信息的數(shù)量較多,導(dǎo)致需要消耗大量計算資源對每個網(wǎng)頁信息所包含的所有信息進行遍歷,導(dǎo)致浪費了計算資
6、第三,將未按照用戶需求進行排序的網(wǎng)頁信息發(fā)送至用戶終端,會導(dǎo)致用戶終端難以查看最符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源。
技術(shù)實現(xiàn)思路
1、本申請的內(nèi)容部分用于以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細描述。本申請的內(nèi)容部分并不旨在標(biāo)識要求保護的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護的技術(shù)方案的范圍。
2、本申請的一些實施例提出了基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,來解決以上
技術(shù)介紹
部分提到的技術(shù)問題中的一項或多項。
3、第一方面,本申請的一些實施例提供了一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),上述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,該方法包括:上述數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息;上述數(shù)據(jù)處理子系統(tǒng)將上述網(wǎng)頁關(guān)鍵信息發(fā)送至上述至少一個數(shù)據(jù)檢索子系統(tǒng);上述至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到上述數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對上述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,以及將上述初始數(shù)據(jù)檢索信息集發(fā)送至上述數(shù)據(jù)處理子系統(tǒng);上述數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到上述至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對上述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,得到數(shù)據(jù)檢索清洗信息集;上述數(shù)據(jù)處理子系統(tǒng)對上述數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列,以及將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述用戶終端;上述數(shù)據(jù)處理子系統(tǒng)將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述存儲器,以將上述數(shù)據(jù)檢索排序信息序列存儲至上述存儲器。
4、本申請的上述各個實施例具有如下有益效果:通過本申請的一些實施例的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,可以減少網(wǎng)頁推送資源的浪費。具體來說,浪費了網(wǎng)頁推送資源的原因在于:單一搜索引擎采集到的網(wǎng)頁信息較為單一,導(dǎo)致采集到的網(wǎng)頁信息難以符合用戶需求,造成難以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息。基于此,本申請的一些實施例的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,首先,上述數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息。由此,可以獲取到網(wǎng)頁關(guān)鍵信息,以便后續(xù)根據(jù)網(wǎng)頁關(guān)鍵信息檢索到符合用戶需求的網(wǎng)頁信息。其次,上述數(shù)據(jù)處理子系統(tǒng)將上述網(wǎng)頁關(guān)鍵信息發(fā)送至上述至少一個數(shù)據(jù)檢索子系統(tǒng)。接著,上述至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到上述數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對上述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,以及將上述初始數(shù)據(jù)檢索信息集發(fā)送至上述數(shù)據(jù)處理子系統(tǒng)。由此,可以通過不同的數(shù)據(jù)檢索子系統(tǒng),檢索出不同搜索引擎下的符合用戶需求的初始數(shù)據(jù)檢索信息集。然后,上述數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到上述至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對上述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,得到數(shù)據(jù)檢索清洗信息集。由此,可以得到數(shù)據(jù)清洗后的符合用戶需求的數(shù)據(jù)檢索清洗信息集。之后,上述數(shù)據(jù)處理子系統(tǒng)對上述數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列,以及將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述用戶終端。由此,可以得到進行排序后的符合用戶需求的數(shù)據(jù)檢索信息序列。最后,上述數(shù)據(jù)處理子系統(tǒng)將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述存儲器,以將上述數(shù)據(jù)檢索排序信息序列存儲至上述存儲器。由此,可以將數(shù)據(jù)檢索排序信息序列存儲至存儲器,當(dāng)用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息相同時,可以直接調(diào)用存儲器中存儲的數(shù)據(jù)檢索排序信息序列以減少用戶終端的等待時間。因此,可以通過至少一個數(shù)據(jù)檢索子系統(tǒng)從不同的搜索引擎采集初始數(shù)據(jù)檢索信息集,并對初始數(shù)據(jù)檢索信息集進行排序以得到符合用戶需求的數(shù)據(jù)檢索排序信息序列。從而,可以向用戶終端發(fā)送符合用戶需求的數(shù)據(jù)檢索排序信息序列。進而,可以減少網(wǎng)頁推送資源的浪費。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,包括:
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,包括:
3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行數(shù)據(jù)檢索處理,以生成初始網(wǎng)頁檢索信息集,包括:
4.根據(jù)權(quán)利要求3所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述初始網(wǎng)頁信息集中的每個初始網(wǎng)頁信息進行特征提取處理,以生成初始特征網(wǎng)頁信息,包括:
5.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,包括:
【技術(shù)特征摘要】
1.一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,包括:
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,包括:
3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行數(shù)據(jù)檢索...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:歐智堅,趙賢宇,劉巖,孫磊,
申請(專利權(quán))人:它思科技天津有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。