本申請公開了一種爬蟲檢測方法、設備及可讀存儲介質,分析服務器周期性的獲取目標網站的流量數據,根據流量數據中各訪問請求的IP地址對流量數據進形分組,從而得到對應不同IP地址的分組。接著,分析服務器對各分組進行特征提取,以得到每個IP地址的第一特征集合,第一特征集合中的特征用于表征IP地址的訪問行為。之后,分析服務器將各IP地址的第一特征集合中的特征輸入到分析模型中,從而確定出當前周期內,多個訪問目標網站的IP地址中,哪些IP地址是正常IP,哪些IP地址是異常IP。采用該種方案,預先對歷史訪問流量進行分析,得到分析模型,利用分析模型對網絡爬蟲進行檢測,降低對安全人員專業經驗的依賴的。人員專業經驗的依賴的。人員專業經驗的依賴的。
【技術實現步驟摘要】
爬蟲檢測方法、設備及可讀存儲介質
[0001]本申請實施例涉及網絡安全
,特別涉及一種爬蟲檢測方法、設備及可讀存儲介質。
技術介紹
[0002]網絡爬蟲,也叫網絡蜘蛛,是一種按照一定的規則自動地抓取網絡信息的程序或者腳本。有些不法份子利用網絡爬蟲進行惡意的爬蟲操作。
[0003]傳統的網絡爬蟲檢測技術主要依賴于頻率限制、cookie/js特性檢測、瀏覽器指紋分析、業務流分析等方式。隨著爬蟲和反爬蟲的對抗升級,一些高級爬蟲不斷的調整爬取手段,從而成功的繞過防護策略,對目標網站進行爬蟲。
[0004]為了應對高級爬蟲,網絡安全人員持續不斷的對線上數據進行分析,制定出新的防護策略。該方式嚴重依賴安全人員的專業經驗,且依舊有大部分爬蟲能夠繞過新的防護策略,網絡安全性差。
技術實現思路
[0005]本申請實施例提供一種爬蟲檢測方法、設備及可讀存儲介質,預先對歷史訪問流量進行機器學習,得到分析模型,利用分析模型對網絡爬蟲進行檢測,降低對安全人員專業經驗的依賴的同時,提高網絡安全性。
[0006]第一方面,本申請實施例提供一種爬蟲檢測方法,包括:
[0007]周期性獲取請求訪問目標網站的訪問請求以得到流量數據;
[0008]根據各訪問請求的IP地址對所述流量數據分組,以得到多個分組,屬于同一分組的訪問請求具有相同的IP地址;
[0009]對于每個IP地址,根據所述IP地址的分組,確定第一特征集合,以得到每個IP地址的第一特征集合,所述第一特征集合中的特征用于表征所述IP地址的訪問行為;
[0010]將各IP地址的第一特征集合輸入預先訓練好的分析模型,以使得分析模型輸出異常IP和正常IP。
[0011]第二方面,本申請實施例提供一種電子設備,包括:處理器、存儲器及存儲在所述存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時使得所述電子設備實現如上第一方面各種可能的實現方式所述的方法。
[0012]第三方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機指令,所述計算機指令在被處理器執行時用于實現如上第一方面各種可能的實現方式所述的方法。
[0013]第四方面,本申請實施例提供一種包含計算程序的計算機程序產品,所述計算機程序被處理器執行時實現如上第一方面各種可能的實現方式所述的方法。
[0014]本申請實施例提供的爬蟲檢測方法、設備及可讀存儲介質,分析服務器周期性的獲取目標網站的流量數據,根據流量數據中各訪問請求的IP地址對流量數據進形分組,從
而得到對應不同IP地址的分組。接著,分析服務器對各分組進行特征提取,以得到每個IP地址的第一特征集合,第一特征集合中的特征用于表征IP地址的訪問行為。之后,分析服務器將各IP地址的第一特征集合中的特征輸入到分析模型中,從而確定出當前周期內,多個訪問目標網站的IP地址中,哪些IP地址是正常IP,哪些IP地址是異常IP。采用該種方案,預先對歷史訪問流量進行分析,得到分析模型,利用分析模型對網絡爬蟲進行檢測,降低對安全人員專業經驗的依賴的同時,降低誤報率和網絡安全維護成本,提高網絡防護效果。
附圖說明
[0015]為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0016]圖1是本申請實施例提供的爬蟲檢測方法所適用的網絡架構示意圖;
[0017]圖2是本申請實施例提供的爬蟲檢測方法的流程圖;
[0018]圖3是本申請實施例提供的爬蟲檢測方法的過程示意圖;
[0019]圖4為本申請實施例提供的一種爬蟲檢測裝置的示意圖;
[0020]圖5為本申請實施例提供的一種電子設備的結構示意圖;
[0021]圖6為本申請實施例提供的一種爬蟲檢測裝置的示意圖;
[0022]圖7為本申請實施例提供的一種電子設備的結構示意圖。
具體實施方式
[0023]為了防止網絡爬蟲爬取網站內容,業界通過機器人協議對網絡爬蟲的行為進行規范,機器人協議也稱之為爬蟲協議、robots協議等。然而,一些惡意的網絡爬蟲并不遵守機器人協議,需利用爬蟲檢測技術檢測出該類爬蟲。
[0024]當前網絡爬蟲檢測技術主要依賴于頻率限制、cookie/js特性檢測、瀏覽器指紋分析、業務流分析等方式,從而實現對異常的網絡爬蟲的檢測、攔截等。隨著爬蟲和反爬蟲的對抗升級,實際對抗場景中,高級爬蟲通過模擬正常訪問、控制訪問頻率、變化爬取行為等方式,快速不斷地調整爬取手段。為了應對這種網絡爬蟲,網絡安全人員需要不斷地對線上數據進行分析以制定新的防護手段。即便如此,還是有大量的爬蟲成功繞過防護手段,對目標網站進行爬取,對網絡安全造成極大威脅。而且,這種方式嚴重依賴安全人員的專業經驗,成本高、誤報率高、防護效果不好。
[0025]基于此,本申請實施例提供一種爬蟲檢測方法、設備及可讀存儲介質,預先對歷史訪問流量進行分析,得到分析模型,利用分析模型對網絡爬蟲進行檢測,降低對安全人員專業經驗的依賴的同時,降低誤報率和網絡安全維護成本,提高網絡防護效果。
[0026]圖1是本申請實施例提供的爬蟲檢測方法所適用的網絡架構示意圖。請參照圖1,該網絡架構包括檢測服務器11、分析服務器12、網站服務器13和終端設備14。檢測服務器11與分析服務器12之間建立網絡連接,檢測服務器11與網站服務器13之間建立網絡連接,檢測服務器11還與終端設備14建立網絡連接。
[0027]檢測服務器11上部署bot邊緣引擎等,對終端設備發起的、請求訪問網站服務器13
的訪問請求進行爬蟲檢測,若一條訪問請求是爬蟲程序發起的,則對該訪問請求進行攔截、監控、驗證碼挑戰等防護處理。若一條訪問請求是正常用戶發起的,則將該訪問請求發送給網站服務器13。
[0028]分析服務器12上部署預先訓練好的分析模型。分析服務器12周期性的獲取目標網站,即網站服務器13的流量數據,如每五分鐘獲取一次流量數據,對5分鐘的流量數據根據IP地址進行分組,并對每個分組提取用于表征IP地址的訪問行為的特征,得到每個IP地址的第一特征集合。然后,將各IP地址的第一特征集合輸入至分析模型,從而得到異常IP和正常IP。正常IP即為真實用戶的IP地址,異常IP為網絡爬蟲的IP地址。之后,分析服務器將異常IP下發給檢測服務器11,由檢測服務器11對異常IP的流量進行攔截等。
[0029]網站服務器13用于提供各種業務,可以是硬件也可以是軟件。當網站服務器13為硬件時,該網站服務器13為單個服務器或多個服務器組成的分布式服務器集群。當網站服務器13為軟件時,可以為多個軟件模塊或單個軟件模塊等,本申請實施例并不限制。
[0030]終端設備14可以是硬件也可以是軟件。當終端設備14為本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種爬蟲檢測方法,其特征在于,包括:周期性獲取請求訪問目標網站的訪問請求以得到流量數據;根據各訪問請求的IP地址對所述流量數據分組,以得到多個分組,屬于同一分組的訪問請求具有相同的IP地址;對于每個IP地址,根據所述IP地址的分組,確定第一特征集合,以得到每個IP地址的第一特征集合,所述第一特征集合中的特征用于表征所述IP地址的訪問行為;將各IP地址的第一特征集合輸入預先訓練好的分析模型,以使得分析模型輸出異常IP和正常IP。2.根據權利要求1所述的方法,其特征在于,所述將各IP地址的第一特征集合輸入預先訓練好的分析模型,以使得分析模型輸出異常IP和正常IP之前,還包括:獲取所述目標網站的歷史流量;將所述歷史流量中具有相同IP地址的訪問請求劃分為一組,以得到多個樣本IP以及各樣本IP的流量組;根據各樣本IP的流量組,對對應的樣本IP打標簽,標簽用于指示所述樣本IP為正常IP或異常IP;根據各所述樣本IP的流量組,確定第二特征集合,以得到各樣本IP的第二特征集合;根據各樣本IP的標簽以及各樣本IP的第二特征集合,訓練出所述分析模型。3.根據權利要求2所述的方法,其特征在于,所述根據各樣本IP的流量組,對對應的樣本IP打標簽,包括:對于每個樣本IP,確定所述樣本IP的訪問次數以及訪問的URL的種類數;當所述種類數小于第一閾值,且所述訪問次數大于第二閾值時,確定所述樣本IP為異常IP;當所述種類數大于或等于第一閾值、所述種類數小于第三閾值,且所述樣本IP未訪問靜態資源時,確定所述樣本IP為異常IP。4.根據權利要求1~3任一項所述的方法,其特征在于,所述將各IP地址的第一特征集合輸入預先訓練好的分析模型,以使得分析模型輸出異常IP和正常IP之后,還包括:對于每個異常IP,根據所述異常IP的分組,確定所述異常IP是否滿足第一預設條件,所述第一預設條件包括下述條件中的至少一個:所述異常IP訪問過目標URL、所述異常IP的訪問行為對應目標URL序列、所述異常IP的訪問請求的請求頭的值為目標值、所述異常IP的訪問頻率小于預設頻率、所述異常IP的訪問次數小于預設次數;當所述異常IP滿足所述第一預設條件時,確定所述異常IP為正常IP。5.根據權利要求1~3任一項所述的方法,其特征在于,所...
【專利技術屬性】
技術研發人員:劉卓龍,
申請(專利權)人:廈門網宿有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。