System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及爬蟲,尤其涉及一種自定義的可視化爬蟲配置方法。
技術介紹
1、爬蟲是一種根據預定規(guī)則模擬瀏覽器行為,自動化發(fā)出網絡請求,接收請求響并解析提取萬維網信息的軟件程序。網絡爬蟲又被稱為網絡機器人,其主要通過對瀏覽器網頁中的文本協(xié)議、地址等進行訪問實現數據的爬取,不需要人為的干預或操作,就能夠完成網站中數據信息的自動爬取,網絡爬蟲技術就是對網頁中數據爬取、分析的技術,可以被應用到多種網絡信息的檢索、存儲之中。
2、申請?zhí)枮?02211211224.8的專利公開了一種可視化自定義爬蟲執(zhí)行方法及系統(tǒng),從過程導向出發(fā),讓用戶通過可視化交互界面來實現爬蟲執(zhí)行流程的自定義,降低操作難度和用戶理解掌握難度,最大限度降低數據的冗余度,減少爬蟲程序的系統(tǒng)損耗,在采集到所需數據的同時提高爬取數據的效率,用戶能夠自定義爬蟲執(zhí)行流程,了解數據采集的具體過程,提升了用戶體驗。但該申請文件通過自定義可視化交互界面,完成爬蟲執(zhí)行,有一定的局限性。
3、現有的可視化爬蟲技術在配置上比較簡單,一些網站具有反爬蟲機制,可視化爬蟲的應用存在一定的障礙,導致爬取的數據不夠全面,影響到爬蟲技術的使用效率。
4、因此,需要一種自定義的可視化爬蟲配置方法。
技術實現思路
1、本專利技術提供了一種自定義的可視化爬蟲配置方法,通過對測試網頁進行爬蟲測試,并根據對爬蟲測試結果的評估,獲得爬取規(guī)則,根據整合爬取規(guī)則后生成的可視化爬蟲規(guī)則模型進行爬取操作,提高了爬取規(guī)則的應用靈活性和爬取的質量
2、一種自定義的可視化爬蟲配置方法,包括:
3、s1:基于獲取的若干個測試網頁,按照預設若干個第一規(guī)則進行可視化爬蟲,生成可視化爬蟲結果;
4、s2:基于可視化爬蟲結果的評估結果,對若干個第一規(guī)則進行篩選整合并進行應用定義,生成可視化爬蟲規(guī)則模型;
5、s3:基于可視化爬蟲規(guī)則模型,對目標網頁執(zhí)行爬取操作。
6、進一步地,s1包括:
7、s101:基于網站平臺獲取若干個測試網頁;
8、s102:針對若干個測試網頁,分別基于預設的若干個第一規(guī)則進行可視化爬蟲,獲得若干個測試網頁的若干個可視化爬蟲結果。
9、進一步地,s102中的第一規(guī)則為:基于自定義參數的爬蟲工具、或基于python語言的爬蟲方法、或基于爬蟲軟件程序進行配置后生成。
10、進一步地,s2包括:
11、s201:基于預設的可視化爬蟲結果評估條件,對可視化爬蟲結果進行評估,獲得若干個評估結果為合格的第一評估結果;
12、s202:設置評估結果篩選標準條件,在第一評估結果中,利用評估結果篩選標準條件,篩選出若干個測試網頁的若干個最佳評估結果,根據最佳評估結果獲得對應的最佳可視化爬蟲結果,根據最佳可視化爬蟲結果獲得對應的最佳第一規(guī)則;
13、s203:將若干個最佳第一規(guī)則整合,并進行規(guī)則應用定義,生成可視化爬蟲規(guī)則模型。
14、進一步地,s201包括:
15、s2011:基于可視化爬蟲結果的爬取速度和爬取量,設置評估條件;若爬取速度大于預設的爬取速度閾值,并且爬取量大于預設的爬取量閾值,則將評估結果評估為合格;
16、s2012:基于評估條件,對若干個測試網頁的若干個可視化爬蟲結果進行評估,獲得若干個評估結果評估為合格的第一評估結果。
17、進一步地,s202中的設置評估結果篩選條件包括:
18、s2021:基于第一規(guī)則中的反爬取的效果,生成反爬取效果評估值;若反爬取效果評估值大于預設的反爬取效果評估值閾值,則生成第一評估結果篩選條件;
19、s2022:基于k-means聚類算法對可視化爬蟲結果中的內容進行聚類分析,獲得聚類分析準確度值;若聚類分析準確度值大于預設的聚類分析準確度閾值,則生成第二評估結果篩選條件;
20、s2023:將同時滿足第一評估結果篩選條件和第二評估結果篩選條件的篩選條件,設置為評估結果篩選標準條件。
21、進一步地,s203包括:
22、s2031:提取測試網頁的屬性特征,基于屬性特征和最佳第一規(guī)則,利用神經網絡模型建立屬性特征與最佳第一規(guī)則的對應關系庫;
23、s2032:基于最佳第一規(guī)則,定義最佳第一規(guī)則的應用標簽;并基于對應關系庫,獲得應用標簽與測試網頁的匹配關系;
24、s2033:基于知識圖譜技術,根據測試網頁、應用標簽和最佳第一規(guī)則相互間的關系,生成可視化爬蟲規(guī)則模型。
25、進一步地,s3包括:
26、s301:獲取需要執(zhí)行爬蟲的目標網頁,并獲取目標網頁的屬性特征;
27、s302:根據目標網頁的屬性特征,基于可視化爬蟲規(guī)則模型,執(zhí)行爬取操作。
28、進一步地,還包括s4,在移動終端上配置可視化爬蟲客戶端app,用于操作爬取過程和顯示爬取結果;具體步驟為:
29、s401:基于可視化爬蟲規(guī)則模型,以及利用可視化爬蟲規(guī)則模型進行爬取的歷史爬取數據,開發(fā)設計可視化爬蟲客戶端app;
30、s402:將可視化爬蟲客戶端app安裝在移動終端上,并根據可視化爬蟲客戶端app的配置界面,配置用戶的操作使用步驟和爬取結果顯示的內容選項;
31、s403:根據操作使用步驟,由用戶操作使用可視化爬蟲客戶端app,實現網頁內容的爬取;并根據爬取結果顯示的內容選項,由用戶選擇要讀取的爬取結果。
32、進一步地,還包括s5,將可視化爬蟲規(guī)則模型用于周期性地爬取操作,根據爬取操作的結果,獲取網頁的關鍵詞被關注的變化趨勢,并根據變化趨勢更新可視化爬蟲規(guī)則模型;具體步驟為:
33、s501:按照預設的周期,利用可視化爬蟲規(guī)則模型,對目標網頁進行爬取操作,獲取若干個周期爬取結果;
34、s502:提取周期爬取結果中的關鍵詞特征,基于關鍵詞特征,利用樸素貝葉斯模型分析獲得關鍵詞的關注度值,并獲得周期爬取結果的關注度值數據集;
35、s503:根據關注度值數據集,進行關鍵詞關注度的跟蹤和分析,根據跟蹤和分析的結果,獲得對關鍵詞進行深度爬取或拓展爬取的觸發(fā)條件;
36、s504:若達到觸發(fā)條件,根據預設的改進策略對可視化爬蟲規(guī)則模型進行規(guī)則應用定義的改進、或進行第一規(guī)則的調整。
37、本專利技術與現有技術相比,具有如下的優(yōu)點和有益效果:通過對測試網頁進行爬蟲測試,并根據對爬蟲測試結果的評估,獲得爬取規(guī)則,根據整合爬取規(guī)則后生成的可視化爬蟲規(guī)則模型進行爬取操作,提高了爬取規(guī)則的應用靈活性和爬取的質量,有利于可視化爬蟲技術的高效靈活使用。
38、本專利技術的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本專利技術而了解。本專利技術的目的和其他優(yōu)點可通過在所寫的說明書以及附圖中所特別指出的本文檔來自技高網...
【技術保護點】
1.一種自定義的可視化爬蟲配置方法,其特征在于,包括:
2.根據權利要求1所述的一種自定義的可視化爬蟲配置方法,其特征在于,S1包括:
3.根據權利要求2所述的一種自定義的可視化爬蟲配置方法,其特征在于,S102中的第一規(guī)則為:基于自定義參數的爬蟲工具、或基于Python語言的爬蟲方法、或基于爬蟲軟件程序進行配置后生成。
4.根據權利要求1所述的一種自定義的可視化爬蟲配置方法,其特征在于,S2包括:
5.根據權利要求4所述的一種自定義的可視化爬蟲配置方法,其特征在于,S201包括:
6.根據權利要求4所述的一種自定義的可視化爬蟲配置方法,其特征在于,S202中的設置評估結果篩選條件包括:
7.根據權利要求4所述的一種自定義的可視化爬蟲配置方法,其特征在于,S203包括:
8.根據權利要求1所述的一種自定義的可視化爬蟲配置方法,其特征在于,S3包括:
9.根據權利要求1所述的一種自定義的可視化爬蟲配置方法,其特征在于,還包括S4,在移動終端上配置可視化爬蟲客戶端APP,用于操作爬取過程和
10.根據權利要求4所述的一種自定義的可視化爬蟲配置方法,其特征在于,還包括S5,將可視化爬蟲規(guī)則模型用于周期性地爬取操作,根據爬取操作的結果,獲取網頁的關鍵詞被關注的變化趨勢,并根據變化趨勢更新可視化爬蟲規(guī)則模型;具體步驟為:
...【技術特征摘要】
1.一種自定義的可視化爬蟲配置方法,其特征在于,包括:
2.根據權利要求1所述的一種自定義的可視化爬蟲配置方法,其特征在于,s1包括:
3.根據權利要求2所述的一種自定義的可視化爬蟲配置方法,其特征在于,s102中的第一規(guī)則為:基于自定義參數的爬蟲工具、或基于python語言的爬蟲方法、或基于爬蟲軟件程序進行配置后生成。
4.根據權利要求1所述的一種自定義的可視化爬蟲配置方法,其特征在于,s2包括:
5.根據權利要求4所述的一種自定義的可視化爬蟲配置方法,其特征在于,s201包括:
6.根據權利要求4所述的一種自定義的可視化爬蟲配置方法,其特征在于,s202中的設置...
【專利技術屬性】
技術研發(fā)人員:黃永軍,藺思濤,高紅彥,趙永杰,陳喬,周俊,謝學勤,陸正松,
申請(專利權)人:北京東方通網信科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。