本發(fā)明專利技術(shù)涉及網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)提取技術(shù)領(lǐng)域,且公開(kāi)了一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),包括輸入模塊、數(shù)據(jù)采集模塊、預(yù)處理模塊、深度處理模塊、傳輸模塊、數(shù)據(jù)對(duì)比模塊和存儲(chǔ)模塊,所述輸入模塊的輸出端與數(shù)據(jù)采集模塊的輸入端連接,該裝置結(jié)構(gòu)簡(jiǎn)單,設(shè)計(jì)新穎,便于實(shí)時(shí)監(jiān)測(cè)收集數(shù)據(jù)過(guò)程中的網(wǎng)絡(luò)環(huán)境,避免在進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)信息收集的過(guò)程中,進(jìn)入不法網(wǎng)站,影響信息收集的效率,且防止收集的信息泄露,由預(yù)處理模塊和深度處理模塊,對(duì)網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度加工和價(jià)值提取,便于根據(jù)不同的客戶要求和信息量進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)加工,從而提高工作效率,便于從不同維度收集和提取網(wǎng)頁(yè)數(shù)據(jù)信息,提高信息采集的全面性,適合廣泛推廣。適合廣泛推廣。適合廣泛推廣。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng)
[0001]本專利技術(shù)涉及網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)提取
,具體為一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng)。
技術(shù)介紹
[0002]隨著人工智能與大數(shù)據(jù)技術(shù)的快速發(fā)展,數(shù)據(jù)作為智能商業(yè)時(shí)代的重要生產(chǎn)要素,不僅互聯(lián)網(wǎng)企業(yè)重視,眾多傳統(tǒng)企業(yè)也紛紛布局,欲通過(guò)數(shù)據(jù)進(jìn)行轉(zhuǎn)型升級(jí),通過(guò)大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),對(duì)海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、分析和挖掘,提取數(shù)據(jù)中所包含的有價(jià)值的信息和知識(shí),使數(shù)據(jù)具有“智能”,并通過(guò)建立模型尋求現(xiàn)有問(wèn)題的解決方案以及實(shí)現(xiàn)預(yù)測(cè),最終實(shí)現(xiàn)“用數(shù)據(jù)智能驅(qū)動(dòng)決策,實(shí)現(xiàn)高凈值業(yè)務(wù)增長(zhǎng)。
[0003]但是現(xiàn)有的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng)在使用時(shí),不便于實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)環(huán)境,易在收集信息的過(guò)程中進(jìn)入不法或含有病毒的網(wǎng)站,降低收集信息的效率且易導(dǎo)致信息泄露,不便于網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度加工和價(jià)值提取,不便于從不同維度收集和提取網(wǎng)頁(yè)數(shù)據(jù)信息,降低信息采集的全面性。
技術(shù)實(shí)現(xiàn)思路
[0004](一)解決的技術(shù)問(wèn)題針對(duì)現(xiàn)有技術(shù)的不足,本專利技術(shù)提供了一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),具備便于實(shí)時(shí)監(jiān)測(cè)收集數(shù)據(jù)過(guò)程中的網(wǎng)絡(luò)環(huán)境,避免在進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)信息收集的過(guò)程中,進(jìn)入不法網(wǎng)站,影響信息收集的效率,且防止收集的信息泄露,由預(yù)處理模塊和深度處理模塊,對(duì)網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度加工和價(jià)值提取,便于根據(jù)不同的客戶要求和信息量進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)加工,從而提高工作效率,便于從不同維度收集和提取網(wǎng)頁(yè)數(shù)據(jù)信息,提高信息采集全面性的優(yōu)點(diǎn),解決了現(xiàn)有的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng)在使用時(shí),不便于實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)環(huán)境,易在收集信息的過(guò)程中進(jìn)入不法或含有病毒的網(wǎng)站,降低收集信息的效率且易導(dǎo)致信息泄露,不便于網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度加工和價(jià)值提取,不便于從不同維度收集和提取網(wǎng)頁(yè)數(shù)據(jù)信息,降低信息采集全面性的問(wèn)題。
[0005](二)技術(shù)方案為實(shí)現(xiàn)上述具備便于實(shí)時(shí)監(jiān)測(cè)收集數(shù)據(jù)過(guò)程中的網(wǎng)絡(luò)環(huán)境,避免在進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)信息收集的過(guò)程中,進(jìn)入不法網(wǎng)站,影響信息收集的效率,且防止收集的信息泄露,由預(yù)處理模塊和深度處理模塊,對(duì)網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度加工和價(jià)值提取,便于根據(jù)不同的客戶要求和信息量進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)加工,從而提高工作效率,便于從不同維度收集和提取網(wǎng)頁(yè)數(shù)據(jù)信息,提高信息采集全面性的目的,本專利技術(shù)提供如下技術(shù)方案:一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),包括輸入模塊、數(shù)據(jù)采集模塊、預(yù)處理模塊、深度處理模塊、傳輸模塊、數(shù)據(jù)對(duì)比模塊和存儲(chǔ)模塊,所述輸入模塊的輸出端與數(shù)據(jù)采集模塊的輸入端連接,所述數(shù)據(jù)采集模塊的輸出端與預(yù)處理模塊的輸入端連接,所述預(yù)處理模塊的輸出端分別與深度處理模塊的輸出端和傳輸模塊的輸出端連接,所述深度處理模塊的輸出端與傳輸模塊的
輸入端連接,所述傳輸模塊的輸出端與數(shù)據(jù)對(duì)比模塊的輸入端連接,所述數(shù)據(jù)對(duì)比模塊的輸出端與存儲(chǔ)模塊的輸入端連接。
[0006]優(yōu)選的,還包括監(jiān)控模塊,所述監(jiān)控模塊的輸出端與數(shù)據(jù)采集模塊的輸入端連接,所述監(jiān)控模塊用于實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)采集過(guò)程中的網(wǎng)絡(luò)環(huán)境,避免在進(jìn)行數(shù)據(jù)采集的過(guò)程中瀏覽或進(jìn)入不法網(wǎng)站,影響數(shù)據(jù)采集的效率。
[0007]優(yōu)選的,所述輸入模塊用于輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素,以此進(jìn)行索引;所述數(shù)據(jù)采集模塊用于根據(jù)所述目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)信息的收集和提取。
[0008]優(yōu)選的,所述預(yù)處理模塊用于對(duì)所述數(shù)據(jù)采集模塊收集和提取的網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行加工和價(jià)值提取;所述深度處理模塊用于對(duì)所述預(yù)處理模塊處理的網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行深度處理。
[0009]優(yōu)選的,所述傳輸模塊用于對(duì)所述預(yù)處理和深度處理完成的網(wǎng)頁(yè)網(wǎng)絡(luò)信息進(jìn)行傳輸;所述數(shù)據(jù)對(duì)比模塊用于將預(yù)處理模塊和深度處理模塊處理完成的網(wǎng)頁(yè)數(shù)據(jù)信息與輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素進(jìn)行對(duì)比,并保留與輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素相近的網(wǎng)絡(luò)數(shù)據(jù);所述存儲(chǔ)模塊用于對(duì)輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素相近的網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行保存。
[0010]優(yōu)選的,所述數(shù)據(jù)采集模塊包括通用爬蟲(chóng)、聚焦爬蟲(chóng)、增量爬蟲(chóng)和深層爬蟲(chóng),所述通用爬蟲(chóng)用于收集并提取搜索引擎網(wǎng)頁(yè)的數(shù)據(jù)信息,所述搜索引擎如(百度、搜狗、谷歌等)。
[0011]優(yōu)選的,所述聚焦爬蟲(chóng)用于收集并提取特定領(lǐng)域或主題的網(wǎng)頁(yè)數(shù)據(jù)信息,所述增量爬蟲(chóng)用于收集并提取新產(chǎn)生或發(fā)生變化的網(wǎng)頁(yè)數(shù)據(jù)信息,所述深層爬蟲(chóng)用于收集并提取需要登錄才能訪問(wèn)下載的網(wǎng)頁(yè)數(shù)據(jù)信息。
[0012]優(yōu)選的,所述通用爬蟲(chóng)、聚焦爬蟲(chóng)、增量爬蟲(chóng)和深層爬蟲(chóng)相互獨(dú)立運(yùn)行,所述通用爬蟲(chóng)、聚焦爬蟲(chóng)、增量爬蟲(chóng)和深層爬蟲(chóng)收集的網(wǎng)頁(yè)數(shù)據(jù)信息均發(fā)送到預(yù)處理模塊。
[0013](三)有益效果與現(xiàn)有技術(shù)相比,本專利技術(shù)提供了一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),具備以下有益效果:1、該裝置通過(guò)監(jiān)控模塊等結(jié)構(gòu),實(shí)現(xiàn)了實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)環(huán)境的效果,避免在進(jìn)行數(shù)據(jù)采集的過(guò)程中瀏覽或進(jìn)入不法網(wǎng)站,影響數(shù)據(jù)采集的效率,避免進(jìn)入含有病毒的網(wǎng)站,造成系統(tǒng)卡頓甚至死機(jī),保證網(wǎng)頁(yè)數(shù)據(jù)收集的流暢度,且防止進(jìn)入不法網(wǎng)站造成信息泄露。
[0014]2、該裝置通過(guò)通用爬蟲(chóng)、聚焦爬蟲(chóng)、增量爬蟲(chóng)和深層爬蟲(chóng)等結(jié)構(gòu),提高信息收集的全面性,便于從不同維度根據(jù)輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)收集和提取,從而提高信息采集的全面性。
[0015]3、該裝置通過(guò)預(yù)處理模塊和深度處理模塊等結(jié)構(gòu),實(shí)現(xiàn)了對(duì)網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度的加工和價(jià)值提取,便于根據(jù)不同的客戶要求和信息量進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)加工,減少對(duì)收集完成的網(wǎng)頁(yè)數(shù)據(jù)信息處理的時(shí)間,從而提高工作效率。
[0016]該裝置結(jié)構(gòu)簡(jiǎn)單,設(shè)計(jì)新穎,便于實(shí)時(shí)監(jiān)測(cè)收集數(shù)據(jù)過(guò)程中的網(wǎng)絡(luò)環(huán)境,避免在進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)信息收集的過(guò)程中,進(jìn)入不法網(wǎng)站,影響信息收集的效率,且防止收集的信息泄露,由預(yù)處理模塊和深度處理模塊,對(duì)網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行不同程度加工和價(jià)值提取,便于根據(jù)不同的客戶要求和信息量進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)加工,從而提高工作效率,便于從不同維度收集和提取網(wǎng)頁(yè)數(shù)據(jù)信息,提高信息采集的全面性,適合廣泛推廣。
附圖說(shuō)明
[0017]圖1為本專利技術(shù)一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng)的結(jié)構(gòu)示意圖;圖2為本專利技術(shù)一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng)的流程示意圖。
具體實(shí)施方式
[0018]下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對(duì)本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例。基于本專利技術(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。
[0019]實(shí)施例一;請(qǐng)參閱圖1
?
2,一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),包括輸入模塊、數(shù)據(jù)采集模塊、預(yù)處理模塊、深度處理模塊、傳輸模塊、數(shù)據(jù)對(duì)比模塊和存儲(chǔ)模塊,輸入模塊的輸出端與數(shù)據(jù)采集模塊的輸入端連接,輸入要提取數(shù)據(jù)的相關(guān)信息,便于收集,數(shù)據(jù)采集模塊的輸出端與預(yù)處理模塊的本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),包括輸入模塊、數(shù)據(jù)采集模塊、預(yù)處理模塊、深度處理模塊、傳輸模塊、數(shù)據(jù)對(duì)比模塊和存儲(chǔ)模塊,其特征在于:所述輸入模塊的輸出端與數(shù)據(jù)采集模塊的輸入端連接,所述數(shù)據(jù)采集模塊的輸出端與預(yù)處理模塊的輸入端連接,所述預(yù)處理模塊的輸出端分別與深度處理模塊的輸出端和傳輸模塊的輸出端連接,所述深度處理模塊的輸出端與傳輸模塊的輸入端連接,所述傳輸模塊的輸出端與數(shù)據(jù)對(duì)比模塊的輸入端連接,所述數(shù)據(jù)對(duì)比模塊的輸出端與存儲(chǔ)模塊的輸入端連接。2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),其特征在于:還包括監(jiān)控模塊,所述監(jiān)控模塊的輸出端與數(shù)據(jù)采集模塊的輸入端連接,所述監(jiān)控模塊用于實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)采集過(guò)程中的網(wǎng)絡(luò)環(huán)境,避免在進(jìn)行數(shù)據(jù)采集的過(guò)程中瀏覽或進(jìn)入不法網(wǎng)站,影響數(shù)據(jù)采集的效率。3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),其特征在于:所述輸入模塊用于輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素,以此進(jìn)行索引;所述數(shù)據(jù)采集模塊用于根據(jù)所述目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)信息的收集和提取。4.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),其特征在于:所述預(yù)處理模塊用于對(duì)所述數(shù)據(jù)采集模塊收集和提取的網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行加工和價(jià)值提取;所述深度處理模塊用于對(duì)所述預(yù)處理模塊處理的網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行深度處理。5.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁(yè)目標(biāo)數(shù)據(jù)自動(dòng)提取系統(tǒng),其特征在于:所述傳輸模塊用于對(duì)所述預(yù)處理和深度處理完成的網(wǎng)頁(yè)網(wǎng)絡(luò)信息進(jìn)行傳輸;所述數(shù)據(jù)對(duì)比模塊用于將預(yù)處理模塊和深度處理模塊處理完成的網(wǎng)頁(yè)數(shù)據(jù)信息與輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制性因素進(jìn)行對(duì)比,并保留與輸入目標(biāo)數(shù)據(jù)或目標(biāo)數(shù)據(jù)相關(guān)特征和目標(biāo)數(shù)據(jù)的限制...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:尹娜,
申請(qǐng)(專利權(quán))人:安徽壹零貳肆加科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。