一種通用的網絡爬蟲模擬登錄方法及系統技術方案

技術編號：14860817 閱讀：66 留言：0更新日期：2017-03-19 13:54

本發明專利技術提供一種通用的網絡爬蟲模擬登錄方法，所述方法為：配置要爬取的各個站點的認證信息，所述認證信息包括：用戶名、密碼以及用戶權限；網絡爬蟲調用無UI瀏覽器訪問各個站點；無UI瀏覽器模擬人工登錄過程，認證成功后保存各個站點的cookie信息；網絡爬蟲攜帶cookie信息訪問站點，爬取站點網頁內容。本發明專利技術解決了爬蟲模擬登錄過程需要人工參與或需要針對特定站點進行定制程序開發的問題，減少開發工作量并避免了需要人工參與的弊端。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機軟件
，尤其涉及一種通用的網絡爬蟲模擬登錄方法及系統。
技術介紹
隨著網絡的迅速發展，萬維網成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰。網絡爬蟲是一個自動提取網頁的程序，它從萬維網上下載網頁，是搜索引擎的重要組成，其一般是從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。在網絡爬蟲爬取網站內容時，大部分網站要求驗證用戶信息后才可以訪問網站的頁面，因此爬蟲中都會實現一些基本的模擬登錄功能，能實現對多數網站的模擬登錄，之后爬取網站頁面內容。然而隨著技術的不斷發展，網站的驗證機制越來越復雜，基本的模擬登錄已經無法應對。1.業界現在通常的做法是采用基本的模擬登錄方法來應對驗證機制比較簡單的網站，對于驗證復雜的網站采用針對性定制開發的方法來模擬登陸：對特定站點進行手工登錄，截取登錄過程中的網絡數據包，分析網站的認證機制及認證參數，最后編寫程序模擬登錄過程。這種方案的缺點是開發工作量很大，站點認證規則變化的時候需要修改原先的程序。2.采用人工干預的方式來進行爬蟲的模擬登錄：爬蟲爬取特定網站時先彈出網站的登陸頁面，然后由人工進行用戶、密碼等認證信息的錄入，驗證通過后再由爬蟲進行網站頁面內容的抓取。這種方案的缺點是需要人工參與，無法實現全自動化內容爬取。...

【技術保護點】
一種通用的網絡爬蟲模擬登錄方法，其特征在于：所述方法為：配置要爬取的各個站點的認證信息，所述認證信息包括：用戶名、密碼以及用戶權限；網絡爬蟲調用無UI瀏覽器訪問各個站點；無UI瀏覽器模擬人工登錄過程，認證成功后保存各個站點的cookie信息；網絡爬蟲攜帶cookie信息訪問站點，爬取站點網頁內容。

【技術特征摘要】
1.一種通用的網絡爬蟲模擬登錄方法，其特征在于：所述方法為：
配置要爬取的各個站點的認證信息，所述認證信息包括：用戶名、密碼以及用戶權限；
網絡爬蟲調用無UI瀏覽器訪問各個站點；
無UI瀏覽器模擬人工登錄過程，認證成功后保存各個站點的cookie信息；
網絡爬蟲攜帶cookie信息訪問站點，爬取站點網頁內容。
2.根據權利要求1所述的一種通用的網絡爬蟲模擬登錄方法，其特征在于：所述無UI瀏覽器模擬人工登錄過程，認證成功后保存各個站點的cookie信息，具體為：
步驟1、網絡爬蟲調用無UI瀏覽器訪問網頁API，將要訪問的網站登陸網頁地址傳給無UI瀏覽器；
步驟2、無UI瀏覽器加載網站登陸網頁，網絡爬蟲調用無UI瀏覽器的獲取網頁API，并獲得網頁的html內容；
步驟3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域，填入站點的用戶名、密碼信息，調用無UI瀏覽器的提交表單API，將驗證信息提交給網站驗證；
步驟4、提交的驗證信息認證成功后，網絡爬蟲調用無UI瀏覽器獲得cookie接口，通過cookie接口取得該站點的cookie信息并保存。
3.根據權利要求1所述的一種通用的網絡爬蟲模擬登錄方法，其特征在于：所述網絡爬蟲攜帶cookie信息訪問站點，爬取站點網頁內容，具體為：網絡爬蟲發送http請求訪問站點，并在http請求中設置所述取得的cookie信息，在cookie失效前網絡爬蟲免登錄訪問站點，網絡爬取站點網頁內容。
4.一種通用的網絡爬蟲模擬登錄系統，其特征在于：...

【專利技術屬性】
技術研發人員：倪時龍，蘇江文，張垚，
申請(專利權)人：福建億榕信息技術有限公司，
類型：發明
國別省市：福建;35

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

<li id="qkemu"><dl id="qkemu"></dl></li><nav id="qkemu"></nav>