System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 成人免费无码视频在线网站,av色欲无码人妻中文字幕,亚洲国产精品无码久久久
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法技術(shù)

    技術(shù)編號:43647840 閱讀:6 留言:0更新日期:2024-12-13 12:43
    本申請的實施例涉及數(shù)據(jù)采集領(lǐng)域,具體涉及基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法。該方法的一具體實施方式包括:數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息;至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集;數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理;數(shù)據(jù)處理子系統(tǒng)對數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列。該實施方式可以減少網(wǎng)頁推送資源的浪費。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請的實施例涉及數(shù)據(jù)采集領(lǐng)域,具體涉及基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法


    技術(shù)介紹

    1、網(wǎng)頁大數(shù)據(jù)可以是但不限于:電影信息的網(wǎng)頁數(shù)據(jù)、書籍信息的網(wǎng)頁數(shù)據(jù)。網(wǎng)頁大數(shù)據(jù)的處理主要涉及到數(shù)據(jù)的收集、處理、分析和可視化等方面。在技術(shù)層面上,這包括使用各種技術(shù)如?flume、?sqoop、?kettle進行數(shù)據(jù)采集,使用?hdfs、?hbase、?mongodb等進行數(shù)據(jù)存儲,以及使用?spark技術(shù)棧進行數(shù)據(jù)分析。此外,數(shù)據(jù)可視化通常通過?html、?css、?javascript等技術(shù)實現(xiàn),使得數(shù)據(jù)以圖表、圖像等形式展示在大屏幕上,便于監(jiān)控、分析和展示數(shù)據(jù)。

    2、?通過搜索引擎向用戶終端發(fā)送與網(wǎng)頁關(guān)鍵信息相關(guān)度較高的網(wǎng)頁信息,可以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息。目前,在進行數(shù)據(jù)采集時,通常采用的方式為:通過單一搜索引擎采集單臺服務(wù)器存儲的網(wǎng)頁信息,然后將采集到的網(wǎng)頁信息發(fā)送給用戶終端。

    3、然而,實踐中發(fā)現(xiàn),當(dāng)采用上述方式進行數(shù)據(jù)采集時,經(jīng)常會存在如下技術(shù)問題:

    4、第一,單一搜索引擎采集到的網(wǎng)頁信息較為單一,導(dǎo)致采集到的網(wǎng)頁信息難以符合用戶需求,造成難以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源;

    5、在采用技術(shù)方案來解決上述技術(shù)問題一的過程中,往往又會伴隨著如下問題:通過全文搜索算法檢索對不同的搜索引擎所存儲的每個網(wǎng)頁信息均進行檢索時,由于網(wǎng)頁信息所包含的信息較多且網(wǎng)頁信息的數(shù)量較多,導(dǎo)致需要消耗大量計算資源對每個網(wǎng)頁信息所包含的所有信息進行遍歷,導(dǎo)致浪費了計算資源。針對上述問題,常規(guī)的解決方案一般是:通過對網(wǎng)頁信息進行拆分并構(gòu)建網(wǎng)頁信息圖的方式,可以無需遍歷整個網(wǎng)頁信息。然而,上述常規(guī)解決方案依然存在如下技術(shù)問題二:由于每個搜索引擎檢索出的網(wǎng)頁信息的數(shù)量較多,且檢索出的部分網(wǎng)頁信息不符合用戶需求,用戶終端在查看網(wǎng)頁信息時,難以直接查看到符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源;

    6、第三,將未按照用戶需求進行排序的網(wǎng)頁信息發(fā)送至用戶終端,會導(dǎo)致用戶終端難以查看最符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源。


    技術(shù)實現(xiàn)思路

    1、本申請的內(nèi)容部分用于以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細描述。本申請的內(nèi)容部分并不旨在標(biāo)識要求保護的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護的技術(shù)方案的范圍。

    2、本申請的一些實施例提出了基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,來解決以上
    技術(shù)介紹
    部分提到的技術(shù)問題中的一項或多項。

    3、第一方面,本申請的一些實施例提供了一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),上述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,該方法包括:上述數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息;上述數(shù)據(jù)處理子系統(tǒng)將上述網(wǎng)頁關(guān)鍵信息發(fā)送至上述至少一個數(shù)據(jù)檢索子系統(tǒng);上述至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到上述數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對上述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,以及將上述初始數(shù)據(jù)檢索信息集發(fā)送至上述數(shù)據(jù)處理子系統(tǒng);上述數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到上述至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對上述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,得到數(shù)據(jù)檢索清洗信息集;上述數(shù)據(jù)處理子系統(tǒng)對上述數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列,以及將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述用戶終端;上述數(shù)據(jù)處理子系統(tǒng)將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述存儲器,以將上述數(shù)據(jù)檢索排序信息序列存儲至上述存儲器。

    4、本申請的上述各個實施例具有如下有益效果:通過本申請的一些實施例的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,可以減少網(wǎng)頁推送資源的浪費。具體來說,浪費了網(wǎng)頁推送資源的原因在于:單一搜索引擎采集到的網(wǎng)頁信息較為單一,導(dǎo)致采集到的網(wǎng)頁信息難以符合用戶需求,造成難以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息。基于此,本申請的一些實施例的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,首先,上述數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息。由此,可以獲取到網(wǎng)頁關(guān)鍵信息,以便后續(xù)根據(jù)網(wǎng)頁關(guān)鍵信息檢索到符合用戶需求的網(wǎng)頁信息。其次,上述數(shù)據(jù)處理子系統(tǒng)將上述網(wǎng)頁關(guān)鍵信息發(fā)送至上述至少一個數(shù)據(jù)檢索子系統(tǒng)。接著,上述至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到上述數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對上述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,以及將上述初始數(shù)據(jù)檢索信息集發(fā)送至上述數(shù)據(jù)處理子系統(tǒng)。由此,可以通過不同的數(shù)據(jù)檢索子系統(tǒng),檢索出不同搜索引擎下的符合用戶需求的初始數(shù)據(jù)檢索信息集。然后,上述數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到上述至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對上述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,得到數(shù)據(jù)檢索清洗信息集。由此,可以得到數(shù)據(jù)清洗后的符合用戶需求的數(shù)據(jù)檢索清洗信息集。之后,上述數(shù)據(jù)處理子系統(tǒng)對上述數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列,以及將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述用戶終端。由此,可以得到進行排序后的符合用戶需求的數(shù)據(jù)檢索信息序列。最后,上述數(shù)據(jù)處理子系統(tǒng)將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述存儲器,以將上述數(shù)據(jù)檢索排序信息序列存儲至上述存儲器。由此,可以將數(shù)據(jù)檢索排序信息序列存儲至存儲器,當(dāng)用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息相同時,可以直接調(diào)用存儲器中存儲的數(shù)據(jù)檢索排序信息序列以減少用戶終端的等待時間。因此,可以通過至少一個數(shù)據(jù)檢索子系統(tǒng)從不同的搜索引擎采集初始數(shù)據(jù)檢索信息集,并對初始數(shù)據(jù)檢索信息集進行排序以得到符合用戶需求的數(shù)據(jù)檢索排序信息序列。從而,可以向用戶終端發(fā)送符合用戶需求的數(shù)據(jù)檢索排序信息序列。進而,可以減少網(wǎng)頁推送資源的浪費。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,包括:

    2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,包括:

    3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行數(shù)據(jù)檢索處理,以生成初始網(wǎng)頁檢索信息集,包括:

    4.根據(jù)權(quán)利要求3所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述初始網(wǎng)頁信息集中的每個初始網(wǎng)頁信息進行特征提取處理,以生成初始特征網(wǎng)頁信息,包括:

    5.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,包括:

    【技術(shù)特征摘要】

    1.一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,包括:

    2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,包括:

    3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行數(shù)據(jù)檢索...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:歐智堅趙賢宇劉巖孫磊
    申請(專利權(quán))人:它思科技天津有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产日产欧洲无码视频| 亚洲AV无码成人精品区大在线| 亚洲AV无码乱码在线观看富二代| AV无码久久久久不卡蜜桃| 国产精品亚洲а∨无码播放不卡| 国产成人AV片无码免费| 国产精品亚洲а∨无码播放不卡 | 国产嫖妓一区二区三区无码 | 日韩精品久久无码中文字幕| 国产精品无码一区二区三区免费| 久久水蜜桃亚洲av无码精品麻豆 | 西西人体444www大胆无码视频| 曰韩精品无码一区二区三区| 久青草无码视频在线观看 | 中文字幕乱码人妻无码久久| 最新亚洲人成无码网站| 亚洲色无码专区一区| 无码国产色欲XXXXX视频| 亚洲乱码无码永久不卡在线| 亚洲Av无码乱码在线播放| 免费无码又爽又刺激毛片| 无码日本电影一区二区网站| 一本久道综合在线无码人妻| 免费无遮挡无码永久视频| 伊人久久综合精品无码AV专区| 亚洲精品无码久久不卡| 久久精品无码一区二区日韩AV| 国产午夜无码片在线观看| 亚洲&#228;v永久无码精品天堂久久 | 粉嫩大学生无套内射无码卡视频 | 亚洲AV综合色区无码一区| 人妻丰满熟妇aⅴ无码| 精品国产v无码大片在线观看| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 国产成人无码精品久久久露脸| 亚洲av成人无码网站…| 亚洲AV日韩AV无码污污网站| 无码精品一区二区三区| 无码少妇一区二区浪潮免费| 国产成人精品无码一区二区老年人| 无码不卡亚洲成?人片|