本發明專利技術涉及一種實時日志收集方法、系統和應用服務器集群。其中,所述方法包括:在用戶終端打開第一應用服務器所提供網頁的情況下,第一應用服務器控制用戶終端運行預設的日志記錄腳本;在日志記錄腳本檢測到用戶進行設定的臨時用戶行為的情況下,生成包括與臨時用戶行為相關的臨時日志信息的HTTP請求,并從用戶終端向實時日志收集系統的第一接收源發送HTTP請求;以及第一接收源將HTTP請求經由實時日志收集系統的第一Kafka通道發送至存儲系統。根據本發明專利技術實施例的實時日志收集方法、系統和應用服務器集群能夠快速、準確地收集用戶行為日志,并快速、準確地獲取與關注用戶行為相關的信息。
【技術實現步驟摘要】
本專利技術涉及互聯網
,尤其涉及一種實時日志收集方法、系統和應用服務器集群。
技術介紹
對于大型互聯網門戶,每天都有上千萬用戶的訪問量。可以通過收集和記錄用戶對網站功能的消費,然后對這些消費進行離線分析,為網站更好地向用戶提供個性化服務提供數據依據。并且,還可以為網安在應對網絡熱門事件或突發事件時提供調查依據。傳統收集日志的方法是通過前端(客戶端)在網頁中添加JavaScript腳本,事先確定動作屬性(例如播放視頻和發布視頻等),將用戶的點擊動作匯總到遠程服務器來分析。這種方法存在能夠通過模擬用戶行為來捏造點擊數據等的缺陷。目前還有一種收集日志的方法,在后端生成日志后,通過scp命令上傳、下載或通過rsync命令定時同步等方式收集匯總,然后通過機器腳本分析、或者人工觀察統計、或者圖形繪制等方式來分析。這種方法的實時性較差。另外,由于上述兩種方法均需要人工干預,因此對數據規模的適用性較差,無法支持網站持續發展產生的大量日志,并且人工干預過多,不能保證較高的準確性。
技術實現思路
技術問題有鑒于此,本專利技術要解決的技術問題是,如何快速、準確地收集用戶行為日志,并快速、準確地獲取與關注用戶行為相關的信息。解決方案根據本專利技術的一個方面,提供了一種實時日志收集方法,用于收集用戶行為日志,包括:在用戶終端打開第一應用服務器所提供網頁的情況下,所述第一應用服務器控制所述用戶終端運行預設的日志記錄腳本;在所述日志記錄腳本檢測到所述用戶進行設定的臨時用戶行為的情況下,生成包括與所述臨時用戶行為相關的臨時日志信息的超文本傳輸協議HTTP請求,并從所述用戶終端向實時日志收集系統的第一接收源發送所述HTTP請求,所述臨時日志信息包括所述用戶終端的IP地址、進行所述臨時用戶行為的時間和用戶ID中的至少一項;以及所述第一接收源將所述HTTP請求經由所述實時日志收集系統的第一卡夫卡Kaf ka通道發送至存儲系統。對于上述實時日志收集方法,在一種可能的實現方式中,在所述第一接收源接收到從所述用戶終端發送的所述HTTP請求之后,還包括:所述實時日志收集系統的攔截器根據所述HTTP請求,統計第一時間間隔內進行所述臨時用戶行為的次數。對于上述實時日志收集方法,在一種可能的實現方式中,還包括:第二應用服務器記錄與所述用戶行為相關的行為屬性,并將在第二時間間隔內所記錄的行為屬性按照預先設定的日志格式生成日志文件,所述行為屬性包括所述用戶終端的IP地址、所述用戶行為的名稱、進行所述用戶行為的時間和用戶ID中的至少一項;所述實時日志收集系統的代理模塊在檢測到存在所述日志文件的情況下,將所述日志文件發送至所述實時日志收集系統的第二接收源;以及所述第二接收源將所述日志文件經由所述實時日志收集系統的第二Kaf ka通道發送至所述存儲系統。對于上述實時日志收集方法,在一種可能的實現方式中,還包括:所述實時日志收集系統的攔截器根據所述日志文件統計第三時間間隔內進行特定用戶行為的次數,并在統計出的次數大于設定閾值的情況下,發送異常信息。對于上述實時日志收集方法,在一種可能的實現方式中,所述存儲系統包括分布式文件系統和/或數據庫。根據本專利技術的另一個方面,提供了一種實時日志收集系統,用于收集用戶行為日志,包括:第一接收源,與用戶終端連接,用于從所述用戶終端接收包括與臨時用戶行為相關的臨時日志信息的HTTP請求,所述臨時日志信息包括所述用戶終端的IP地址、進行所述臨時用戶行為的時間和用戶ID中的至少一項,其中,在所述用戶終端打開第一應用服務器所提供網頁的情況下,所述第一應用服務器控制所述用戶終端運行預設的日志記錄腳本,在所述日志記錄腳本檢測到所述用戶進行設定的臨時用戶行為的情況下,生成所述HTTP請求;以及第一Kafka通道,與所述第一接收源連接,用于從所述第一接收源接收所述HTTP請求,并發送至存儲系統。對于上述實時日志收集系統,在一種可能的實現方式中,還包括:攔截器,與所述第一接收源和所述第一Kafka通道分別連接,用于從所述第一接收源攔截所述HTTP請求;以及分析模塊,與所述攔截器連接,用于從所述攔截器接收所述HTTP請求,并根據所述HTTP請求,統計第一時間間隔內進行所述臨時用戶行為的次數。對于上述實時日志收集系統,在一種可能的實現方式中,還包括:代理模塊,與第二應用服務器連接,用于檢測是否存在日志文件,在檢測到存在所述日志文件的情況下,獲取所述日志文件,其中,第二應用服務器記錄與所述用戶行為相關的行為屬性,并將在第二時間間隔內所記錄的行為屬性按照預先設定的日志格式生成所述日志文件,所述行為屬性包括所述用戶終端的IP地址、所述用戶行為的名稱、進行所述用戶行為的時間和用戶ID中的至少一項;第二接收源,與所述代理模塊連接,用于從所述代理模塊接收所述日志文件;以及第二Kaf ka通道,與所述第二接收源連接,用于從所述第二接收源接收所述日志文件,并發送至所述存儲系統。對于上述實時日志收集系統,在一種可能的實現方式中,所述攔截器還與所述第二接收源和所述第二 Kafka通道分別連接,并且用于從所述第二接收源攔截所述日志文件;所述分析模塊還用于統計第三時間間隔內進行特定用戶行為的次數,并在統計出的次數大于設定閾值的情況下,發送異常信息。根據本專利技術的又一個方面,提供了一種應用服務器集群,包括第一應用服務器,所述第一應用服務器包括:腳本設置模塊,與所述用戶終端連接,用于預設日志記錄腳本;網頁提供模塊,與所述用戶終端連接,用于為所述用戶終端提供網頁服務;控制模塊,與所述用戶終端連接,用于在所述用戶終端打開所述網頁提供模塊所提供網頁的情況下,控制所述用戶終端運行所述日志記錄腳本;以及HTTP請求生成模塊,與所述用戶終端連接,在所述日志記錄腳本檢測到所述用戶進行設定的臨時用戶行為的情況下,生成包括與所述臨時用戶行為相關的臨時日志信息的超文本傳輸協議HTTP請求,所述臨時日志信息包括所述用戶終端的IP地址、進行所述臨時用戶行為的時間和用戶ID中的至少一項。對于上述應用服務器集群,在一種可能的實現方式中,還包括多個第二應用服務器,其中,各所述第二應用服務器包括:記錄模塊,用于記錄與用戶行為相關的行為屬性;以及日志文件生成模塊,與所述記錄模塊連接,用于將在第二時間間隔內所記錄的行為屬性按照預先設定的日志格式生成日志文件,所述行為屬性包括所述用戶終端的IP地址、所述用戶行為的名稱、進行所述用戶行為的時間和用戶ID中的至少一項。有益效果通過在用戶終端預先設置日志記錄腳本,并在用戶終端打開特定網頁的情況下,運行該日志記錄腳本,在日志記錄腳本檢測到用戶進行設定的臨時用戶行為的情況下,生成包括與臨當前第1頁1 2 3 4 本文檔來自技高網...
【技術保護點】
一種實時日志收集方法,用于收集用戶行為日志,其特征在于,包括:在用戶終端打開第一應用服務器所提供網頁的情況下,所述第一應用服務器控制所述用戶終端運行預設的日志記錄腳本;在所述日志記錄腳本檢測到所述用戶進行設定的臨時用戶行為的情況下,生成包括與所述臨時用戶行為相關的臨時日志信息的超文本傳輸協議HTTP請求,并從所述用戶終端向實時日志收集系統的第一接收源發送所述HTTP請求,所述臨時日志信息包括所述用戶終端的IP地址、進行所述臨時用戶行為的時間和用戶ID中的至少一項;以及所述第一接收源將所述HTTP請求經由所述實時日志收集系統的第一卡夫卡Kafka通道發送至存儲系統。
【技術特征摘要】
【專利技術屬性】
技術研發人員:歐樑,楊華濤,韋杰,林岳,顧思斌,潘柏宇,王冀,
申請(專利權)人:傳線網絡科技上海有限公司,
類型:發明
國別省市:上海;31
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。