• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種通用的網絡爬蟲模擬登錄方法及系統技術方案

    技術編號:14860817 閱讀:66 留言:0更新日期:2017-03-19 13:54
    本發明專利技術提供一種通用的網絡爬蟲模擬登錄方法,所述方法為:配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;網絡爬蟲調用無UI瀏覽器訪問各個站點;無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。本發明專利技術解決了爬蟲模擬登錄過程需要人工參與或需要針對特定站點進行定制程序開發的問題,減少開發工作量并避免了需要人工參與的弊端。

    【技術實現步驟摘要】

    本專利技術涉及計算機軟件
    ,尤其涉及一種通用的網絡爬蟲模擬登錄方法及系統
    技術介紹
    隨著網絡的迅速發展,萬維網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。網絡爬蟲是一個自動提取網頁的程序,它從萬維網上下載網頁,是搜索引擎的重要組成,其一般是從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。在網絡爬蟲爬取網站內容時,大部分網站要求驗證用戶信息后才可以訪問網站的頁面,因此爬蟲中都會實現一些基本的模擬登錄功能,能實現對多數網站的模擬登錄,之后爬取網站頁面內容。然而隨著技術的不斷發展,網站的驗證機制越來越復雜,基本的模擬登錄已經無法應對。1.業界現在通常的做法是采用基本的模擬登錄方法來應對驗證機制比較簡單的網站,對于驗證復雜的網站采用針對性定制開發的方法來模擬登陸:對特定站點進行手工登錄,截取登錄過程中的網絡數據包,分析網站的認證機制及認證參數,最后編寫程序模擬登錄過程。這種方案的缺點是開發工作量很大,站點認證規則變化的時候需要修改原先的程序。2.采用人工干預的方式來進行爬蟲的模擬登錄:爬蟲爬取特定網站時先彈出網站的登陸頁面,然后由人工進行用戶、密碼等認證信息的錄入,驗證通過后再由爬蟲進行網站頁面內容的抓取。這種方案的缺點是需要人工參與,無法實現全自動化內容爬取。現有技術中公開了一種“支持人工會話嫁接的網絡爬蟲系統和實現方法”,公開號為:CN104298716A,公開日為:2015-01-21的中國專利,該專利技術涉及一種支持人工會話嫁接的網絡爬蟲系統和實現方法。首先分析要爬取的目標網站,將登錄頁面設為初始頁面;用戶模擬模塊與目標網站建立網絡連接,為人工操作提供信息輸入接口;人工智力參與模塊輸入所需要的信息并傳遞給用戶模擬模塊;用戶模擬模塊定位登錄頁面中的輸入框和登錄按鈕,輸入相關信息并通過網絡訪問模塊外發到目標網站進行登錄;登錄完成后用戶模擬模塊打開爬蟲要爬取的頁面,并將頁面的回應信息傳遞給爬蟲模塊;爬蟲模塊獲得執行權限后,沿用人工在用戶模擬模塊中創建的網絡會話,訪問目標網站,爬取網站內容。該專利技術將人工智力參與所建立的網絡會話用于爬蟲模塊,能夠讓網絡爬蟲獲得與真人上網完全相同的網絡訪問能力。該專利技術需要人工參與,才能完成網絡爬取網站內容。且該專利技術實現的技術方案與本專利申請并不相同。
    技術實現思路
    本專利技術要解決的技術問題之一,在于提供一種通用的網絡爬蟲模擬登錄方法,通過調用無UI瀏覽器模擬人工登錄過程并獲得cookie,爬蟲利用cookie實現免登陸訪問站點;減少開發工作量并避免了需要人工參與的弊端。本專利技術問題之一是這樣實現的:一種通用的網絡爬蟲模擬登錄方法,所述方法為:配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;網絡爬蟲調用無UI瀏覽器訪問各個站點;無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。進一步的,所述無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息,具體為:步驟1、網絡爬蟲調用無UI瀏覽器訪問網頁API,將要訪問的網站登陸網頁地址傳給無UI瀏覽器;步驟2、無UI瀏覽器加載網站登陸網頁,網絡爬蟲調用無UI瀏覽器的獲取網頁API,并獲得網頁的html內容;步驟3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域,填入站點的用戶名、密碼信息,調用無UI瀏覽器的提交表單API,將驗證信息提交給網站驗證;步驟4、提交的驗證信息認證成功后,網絡爬蟲調用無UI瀏覽器獲得cookie接口,通過cookie接口取得該站點的cookie信息并保存。進一步的,所述網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容,具體為:網絡爬蟲發送http請求訪問站點,并在http請求中設置所述取得的cookie信息,在cookie失效前網絡爬蟲免登錄訪問站點,網絡爬取站點網頁內容。本專利技術要解決的技術問題之二,在于提供一種通用的網絡爬蟲模擬登錄系統,通過調用無UI瀏覽器模擬人工登錄過程并獲得cookie,爬蟲利用cookie實現免登陸訪問站點;減少開發工作量并避免了需要人工參與的弊端。本專利技術問題之二是這樣實現的:一種通用的網絡爬蟲模擬登錄系統,所述系統包括:配置模塊、訪問模塊、模擬登錄模塊以及爬取網頁內容模塊;所述配置模塊,用于配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;所述訪問模塊,用于網絡爬蟲調用無UI瀏覽器訪問各個站點;所述模擬登錄模塊,通過無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;所述爬取網頁內容模塊,通過網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。進一步的,所述模擬登錄模塊具體的實現方式為:1、網絡爬蟲調用無UI瀏覽器訪問網頁API,將要訪問的網站登陸網頁地址傳給無UI瀏覽器;2、無UI瀏覽器加載網站登陸網頁,網絡爬蟲調用無UI瀏覽器的獲取網頁API,并獲得網頁的html內容;3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域,填入站點的用戶名、密碼信息,調用無UI瀏覽器的提交表單API,將驗證信息提交給網站驗證;4、提交的驗證信息認證成功后,網絡爬蟲調用無UI瀏覽器獲得cookie接口,通過cookie接口取得該站點的cookie信息并保存。進一步的,所述網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容,具體為:網絡爬蟲發送http請求訪問站點,并在http請求中設置所述取得的cookie信息,在cookie失效前網絡爬蟲免登錄訪問站點,網絡爬取站點網頁內容。本專利技術具有如下優點:本專利技術通過調用無UI瀏覽器模擬人工登錄過程,認證成功后保存cookie,爬取利用cookie實現免登陸訪問站點爬取站點內容。解決了爬蟲模擬登錄過程需要人工參與或需要針對特定站點進行定制程序開發的問題,減少開發工作量并避免了需要人工參與的弊端。附圖說明圖1為本專利技術方法流程示意圖。圖2為本專利技術系統的結構示意圖。具體實施方式請參閱圖1所示,本專利技術的一種通用的網絡爬蟲模擬登錄方法,所述方法為本文檔來自技高網
    ...

    【技術保護點】
    一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述方法為:配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;網絡爬蟲調用無UI瀏覽器訪問各個站點;無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。

    【技術特征摘要】
    1.一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述方法為:
    配置要爬取的各個站點的認證信息,所述認證信息包括:用戶名、密碼以及用戶權限;
    網絡爬蟲調用無UI瀏覽器訪問各個站點;
    無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息;
    網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容。
    2.根據權利要求1所述的一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述無UI瀏覽器模擬人工登錄過程,認證成功后保存各個站點的cookie信息,具體為:
    步驟1、網絡爬蟲調用無UI瀏覽器訪問網頁API,將要訪問的網站登陸網頁地址傳給無UI瀏覽器;
    步驟2、無UI瀏覽器加載網站登陸網頁,網絡爬蟲調用無UI瀏覽器的獲取網頁API,并獲得網頁的html內容;
    步驟3、網絡爬蟲分析獲得的html內容查找登錄頁面的用戶名、密碼輸入域,填入站點的用戶名、密碼信息,調用無UI瀏覽器的提交表單API,將驗證信息提交給網站驗證;
    步驟4、提交的驗證信息認證成功后,網絡爬蟲調用無UI瀏覽器獲得cookie接口,通過cookie接口取得該站點的cookie信息并保存。
    3.根據權利要求1所述的一種通用的網絡爬蟲模擬登錄方法,其特征在于:所述網絡爬蟲攜帶cookie信息訪問站點,爬取站點網頁內容,具體為:網絡爬蟲發送http請求訪問站點,并在http請求中設置所述取得的cookie信息,在cookie失效前網絡爬蟲免登錄訪問站點,網絡爬取站點網頁內容。
    4.一種通用的網絡爬蟲模擬登錄系統,其特征在于:...

    【專利技術屬性】
    技術研發人員:倪時龍蘇江文張垚
    申請(專利權)人:福建億榕信息技術有限公司
    類型:發明
    國別省市:福建;35

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品va无码二区| 精品乱码一区内射人妻无码| 亚洲a∨无码一区二区| 亚洲av永久无码精品三区在线4 | 人妻无码一区二区三区| 亚洲无码在线播放| 免费无码AV电影在线观看| 无码丰满少妇2在线观看| 精品亚洲av无码一区二区柚蜜 | 人妻少妇伦在线无码| 日韩精品无码一本二本三本| 无码精品人妻一区二区三区影院| 日韩乱码人妻无码中文字幕| a级毛片免费全部播放无码| 国产午夜鲁丝片AV无码| 久久精品国产亚洲AV无码偷窥| 无码乱人伦一区二区亚洲一| 久久久久无码精品国产h动漫| 亚洲AV日韩AV永久无码下载| 国产av无码专区亚洲av桃花庵| 日韩精品无码视频一区二区蜜桃 | 无码av中文一二三区| 亚洲AV无码XXX麻豆艾秋| 亚洲中文久久精品无码1 | 精品亚洲AV无码一区二区| 日韩精品无码免费专区网站 | 曰韩无码AV片免费播放不卡| 中文字幕乱偷无码av先锋蜜桃| 亚洲人AV在线无码影院观看 | 国产精品无码AV天天爽播放器| 在线观看无码AV网站永久免费| 亚洲精品无码成人AAA片| 国产精品一级毛片无码视频| 亚洲日韩精品一区二区三区无码| av无码精品一区二区三区四区| 国产精品无码亚洲一区二区三区 | 成人无码区免费A∨直播| 久久中文字幕无码专区| 无码日韩人妻AV一区二区三区| 无码AV动漫精品一区二区免费| 青春草无码精品视频在线观|