本發明專利技術提供一種通用的網絡爬蟲模擬登錄方法,所述方法為:配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;網絡爬蟲調用無UI瀏覽器訪問各個站點;無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。本發明專利技術解決了爬蟲模擬登錄過程需要人工參與或需要針對特定站點進行定制程序開發的問題,減少開發工作量并避免了需要人工參與的弊端。
【技術實現步驟摘要】
本專利技術涉及計算機軟件
,尤其涉及一種通用的網絡爬蟲模擬登錄方法及系統。
技術介紹
隨著網絡的迅速發展,萬維網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。網絡爬蟲是一個自動提取網頁的程序,它從萬維網上下載網頁,是搜索引擎的重要組成,其一般是從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。在網絡爬蟲爬取網站內容時,大部分網站要求驗證用戶信息后才可以訪問網站的頁面,因此爬蟲中都會實現一些基本的模擬登錄功能,能實現對多數網站的模擬登錄,之后爬取網站頁面內容。然而隨著技術的不斷發展,網站的驗證機制越來越復雜,基本的模擬登錄已經無法應對。1.業界現在通常的做法是采用基本的模擬登錄方法來應對驗證機制比較簡單的網站,對于驗證復雜的網站采用針對性定制開發的方法來模擬登陸:對特定站點進行手工登錄,截取登錄過程中的網絡數據包,分析網站的認證機制及認證參數,最后編寫程序模擬登錄過程。這種方案的缺點是開發工作量很大,站點認證規則變化的時候需要修改原先的程序。2.采用人工干預的方式來進行爬蟲的模擬登錄:爬蟲爬取特定網站時先彈出網站的登陸頁面,然后由人工進行用戶、密碼等認證信息的錄入,驗證通過后再由爬蟲進行網站頁面內容的抓取。這種方案的缺點是需要人工參與,無法實現全自動化內容爬取。現有技術中公開了一種“支持人工會話嫁接的網絡爬蟲系統和實現方法”,公開號為:CN104298716A,公開日為:2015-01-21的中國專利,該專利技術涉及一種支持人工會話嫁接的網絡爬蟲系統和實現方法。首先分析要爬取的目標網站,將登錄頁面設為初始頁面;用戶模擬模塊與目標網站建立網絡連接,為人工操作提供信息輸入接口;人工智力參與模塊輸入所需要的信息并傳遞給用戶模擬模塊;用戶模擬模塊定位登錄頁面中的輸入框和登錄按鈕,輸入相關信息并通過網絡訪問模塊外發到目標網站進行登錄;登錄完成后用戶模擬模塊打開爬蟲要爬取的頁面,并將頁面的回應信息傳遞給爬蟲模塊;爬蟲模塊獲得執行權限后,沿用人工在用戶模擬模塊中創建的網絡會話,訪問目標網站,爬取網站內容。該專利技術將人工智力參與所建立的網絡會話用于爬蟲模塊,能夠讓網絡爬蟲獲得與真人上網完全相同的網絡訪問能力。該專利技術需要人工參與,才能完成網絡爬取網站內容。且該專利技術實現的技術方案與本專利申請并不相同。
技術實現思路
本專利技術要解決的技術問題之一,在于提供一種通用的網絡爬蟲模擬登錄方法,通過調用無UI瀏覽器模擬人工登錄過程并獲得cookie,爬蟲利用cookie實現免登陸訪問站點;減少開發工作量并避免了需要人工參與的弊端。本專利技術問題之一是這樣實現的:一種通用的網絡爬蟲模擬登錄方法,所述方法為:配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;網絡爬蟲調用無UI瀏覽器訪問各個站點;無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。進一步的,所述無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息,具體為:步驟1、網絡爬蟲調用無UI瀏覽器訪問網頁API,將要訪問的網站登陸網頁地址傳給無UI瀏覽器;步驟2、無UI瀏覽器加載網站登陸網頁,網絡爬蟲調用無UI瀏覽器的獲取網頁API,并獲得網頁的html內容;步驟3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域,填入站點的用戶名、密碼信息,調用無UI瀏覽器的提交表單API,將驗證信息提交給網站驗證;步驟4、提交的驗證信息認證成功后,網絡爬蟲調用無UI瀏覽器獲得cookie接口,通過cookie接口取得該站點的cookie信息并保存。進一步的,所述網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容,具體為:網絡爬蟲發送http請求訪問站點,并在http請求中設置所述取得的cookie信息,在cookie失效前網絡爬蟲免登錄訪問站點,網絡爬取站點網頁內容。本專利技術要解決的技術問題之二,在于提供一種通用的網絡爬蟲模擬登錄系統,通過調用無UI瀏覽器模擬人工登錄過程并獲得cookie,爬蟲利用cookie實現免登陸訪問站點;減少開發工作量并避免了需要人工參與的弊端。本專利技術問題之二是這樣實現的:一種通用的網絡爬蟲模擬登錄系統,所述系統包括:配置模塊、訪問模塊、模擬登錄模塊以及爬取網頁內容模塊;所述配置模塊,用于配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;所述訪問模塊,用于網絡爬蟲調用無UI瀏覽器訪問各個站點;所述模擬登錄模塊,通過無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;所述爬取網頁內容模塊,通過網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。進一步的,所述模擬登錄模塊具體的實現方式為:1、網絡爬蟲調用無UI瀏覽器訪問網頁API,將要訪問的網站登陸網頁地址傳給無UI瀏覽器;2、無UI瀏覽器加載網站登陸網頁,網絡爬蟲調用無UI瀏覽器的獲取網頁API,并獲得網頁的html內容;3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域,填入站點的用戶名、密碼信息,調用無UI瀏覽器的提交表單API,將驗證信息提交給網站驗證;4、提交的驗證信息認證成功后,網絡爬蟲調用無UI瀏覽器獲得cookie接口,通過cookie接口取得該站點的cookie信息并保存。進一步的,所述網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容,具體為:網絡爬蟲發送http請求訪問站點,并在http請求中設置所述取得的cookie信息,在cookie失效前網絡爬蟲免登錄訪問站點,網絡爬取站點網頁內容。本專利技術具有如下優點:本專利技術通過調用無UI瀏覽器模擬人工登錄過程,認證成功后保存cookie,爬取利用cookie實現免登陸訪問站點爬取站點內容。解決了爬蟲模擬登錄過程需要人工參與或需要針對特定站點進行定制程序開發的問題,減少開發工作量并避免了需要人工參與的弊端。附圖說明圖1為本專利技術方法流程示意圖。圖2為本專利技術系統的結構示意圖。具體實施方式請參閱圖1所示,本專利技術的一種通用的網絡爬蟲模擬登錄方法,所述方法為本文檔來自技高網...
【技術保護點】
一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述方法為:配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;網絡爬蟲調用無UI瀏覽器訪問各個站點;無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。
【技術特征摘要】
1.一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述方法為:
配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;
網絡爬蟲調用無UI瀏覽器訪問各個站點;
無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;
網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。
2.根據權利要求1所述的一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息,具體為:
步驟1、網絡爬蟲調用無UI瀏覽器訪問網頁API,將要訪問的網站登陸網頁地址傳給無UI瀏覽器;
步驟2、無UI瀏覽器加載網站登陸網頁,網絡爬蟲調用無UI瀏覽器的獲取網頁API,并獲得網頁的html內容;
步驟3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域,填入站點的用戶名、密碼信息,調用無UI瀏覽器的提交表單API,將驗證信息提交給網站驗證;
步驟4、提交的驗證信息認證成功后,網絡爬蟲調用無UI瀏覽器獲得cookie接口,通過cookie接口取得該站點的cookie信息并保存。
3.根據權利要求1所述的一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容,具體為:網絡爬蟲發送http請求訪問站點,并在http請求中設置所述取得的cookie信息,在cookie失效前網絡爬蟲免登錄訪問站點,網絡爬取站點網頁內容。
4.一種通用的網絡爬蟲模擬登錄系統,其特征在于:...
【專利技術屬性】
技術研發人員:倪時龍,蘇江文,張垚,
申請(專利權)人:福建億榕信息技術有限公司,
類型:發明
國別省市:福建;35
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。