本發明專利技術涉及網站信息數據采集分析領域,尤其涉及一種用于網站信息數據的綜合采集分析方法,包括:S1、根據網站對應類型獲取網站信息數據得到信息數據采集配置;S2、根據所述信息數據采集配置進行數據采集得到基礎網站信息數據;S3、利用所述基礎網站信息數據根據網站通用特征得到網站信息數據的綜合采集分析結果,通過語言項目分類,提高了對不同國家和語言網站的支持,并據此建立初步驗證標簽,為后續方案的多級驗證打下基礎,同時,可以根據需求自定義采集策略,更加靈活,有完善的錯誤處理和報警機制,確保方案的穩定自循環運行,最終形成一個閉環的實施方案,提高了數據采集分析的效率。
【技術實現步驟摘要】
本專利技術涉及網站信息數據采集分析領域,具體涉及一種用于網站信息數據的綜合采集分析方法。
技術介紹
1、在大規模數據采集領域,網站配置和數據提取過程繁瑣且復雜,尤其是在面對不同類型、國家、功能的網站時,現有技術通常只能針對某一個或某一類網站進行數據分析采集,對于高需求、大范圍采集分析請求時,則存在方案單一且實施存在邏輯漏洞等風險。
技術實現思路
1、針對現有技術的不足,本專利技術提供了一種用于網站信息數據的綜合采集分析方法,通過采集網站多種類信息數據,實現多目標多層次的綜合采集、分析、驗證等功能的方法實現。
2、為實現上述目的,本專利技術提供了一種用于網站信息數據的綜合采集分析方法,包括:
3、s1、根據網站對應類型獲取網站信息數據得到信息數據采集配置;
4、s2、根據所述信息數據采集配置進行數據采集得到基礎網站信息數據;
5、s3、利用所述基礎網站信息數據根據網站通用特征得到網站信息數據的綜合采集分析結果。
6、優選的,所述根據網站對應類型獲取網站信息數據得到信息數據采集配置包括:
7、s1-1、獲取網站的語言類型作為初始采集標簽;
8、s1-2、根據所述初始采集標簽進行合規性驗證建立信息數據采集通用配置;
9、s1-3、利用所述初始采集標簽與信息數據采集通用配置作為信息數據采集配置。
10、進一步的,根據所述初始采集標簽進行合規性驗證建立信息數據采集通用配置包括:
11、s1-2-1、根據所述初始采集標簽獲取網絡服務器地址;
12、s1-2-2、判斷所述網絡服務器地址的通訊狀態是否正常,若是,則執行s1-2-3,否則,放棄處理;
13、s1-2-3、判斷所述網絡服務器地址的通訊線路是否存在網絡代理,若是,則獲取所述網絡代理對應網絡代理類型與網絡代理地址作為信息數據采集通用預配置,并執行s1-2-4,否則,直接執行s1-2-5;
14、s1-2-4、利用所述信息數據采集通用預配置與初始采集標簽對應網絡通信協議作為信息數據采集通用配置;
15、s1-2-5、利用所述初始采集標簽對應網絡通信協議作為信息數據采集通用配置。
16、進一步的,根據所述信息數據采集配置進行數據采集得到基礎網站信息數據包括:
17、s2-1、根據所述信息數據采集配置進行數據采集得到初始網站信息數據;
18、s2-2、利用所述初始網站信息數據進行交叉驗證得到基礎網站信息數據。
19、進一步的,根據所述信息數據采集配置進行數據采集得到初始網站信息數據包括:
20、s2-1-1、判斷網站是否存在網絡代理,若是,則執行s2-1-2,否則,利用所述信息數據采集配置的信息數據采集通用配置建立數據采集通信線路,并執行s2-1-3;
21、s2-1-2、根據所述信息數據采集配置的信息數據采集通用預配置建立數據采集通信中轉節點,并根據所述信息數據采集配置的信息數據采集通用配置與數據采集通信中轉節點建立數據采集通信線路;
22、s2-1-3、利用所述數據采集通信線路獲取網站對應全部類型數據作為初始網站信息數據;
23、其中,所述網站對應全部類型數據包括數值類型數據、字符串類型數據、布爾類型數據、未定義數據、空對象數據與特殊類型數據。
24、進一步的,利用所述初始網站信息數據進行交叉驗證得到基礎網站信息數據包括:
25、s2-2-1、判斷所述初始網站信息數據是否存在特殊類型數據,若是,則利用所述特殊類型數據作為交叉驗證標簽,并直接執行s2-2-3,否則,執行s2-2-2;
26、s2-2-2、判斷初始網站信息數據的數據類型數量是否為1,若是,則獲取初始網站信息數據的數據流作為交叉驗證標簽,否則,利用所述初始網站信息數據的數據類型建立交叉驗證標簽;
27、s2-2-3、判斷當前時刻的數據采集通信線路是否存在網絡代理,若是,則執行s2-2-4,否則,直接執行s2-2-5;
28、s2-2-4、判斷所述交叉驗證標簽與網絡代理的數據流轉歷史記錄是否對應,若是,則執行s2-2-5,否則,所述交叉驗證失敗,返回s2-2-1;
29、s2-2-5、判斷所述交叉驗證標簽與數據采集通信線路的終端數據流轉歷史記錄是否對應,若是,則所述交叉驗證成功,否則,所述交叉驗證失敗,返回s2-2-1;
30、其中,所述終端數據流轉歷史記錄為數據采集通信線路的兩個終端的數據流轉歷史記錄。
31、進一步的,利用所述基礎網站信息數據根據網站通用特征得到網站信息數據的綜合采集分析結果包括:
32、s3-1、利用所述基礎網站信息數據建立基礎網站信息數據庫;
33、s3-2、根據所述基礎網站信息數據庫進行順序輸出得到時序性輸出數據;
34、s3-3、根據所述信息數據采集配置建立對應網站通用特征;
35、s3-4、利用所述時序性輸出數據根據網站通用特征得到網站信息數據的綜合采集分析結果。
36、進一步的,根據所述基礎網站信息數據庫進行順序輸出得到時序性輸出數據包括:
37、s3-2-1、獲取當前時刻作為時序輸出起始時刻t;
38、s3-2-2、利用所述基礎網站信息數據庫根據時序輸出起始時刻t進行輸出得到基礎網站信息數據的時序輸出結果;
39、s3-2-3、判斷當前時刻時序輸出結果與信息數據采集配置是否對應,若是,則執行s3-2-4,否則,放棄處理;
40、s3-2-4、判斷當前時刻是否存在相鄰上一時刻時序輸出結果,若是,則利用當前時刻時序輸出結果與相鄰上一時刻時序輸出結果建立映射得到時序輸出映射,并執行s3-2-5,否則,利用當前時刻時序輸出結果作為時序輸出映射起點,并返回s3-2-2;
41、s3-2-5、判斷當前時刻是否存在相鄰下一時刻時序輸出結果,若是,則返回s3-2-2,否則,輸出當前時刻時序輸出映射作為時序性輸出數據。
42、進一步的,根據所述信息數據采集配置建立對應網站通用特征包括:
43、獲取網站對應平均數據流量作為網站第一特征;
44、根據所述網站第一特征獲取對應終端的發送流量數據與接收流量數據作為網站第二特征;
45、根據所述網站第二特征獲取對應通信線路的數據量作為網站第三特征;
46、利用所述網站第一特征、網站第二特征與網站第三特征作為網站通用特征。
47、進一步的,利用所述時序性輸出數據根據網站通用特征得到網站信息數據的綜合采集分析結果包括:
48、s3-4-1、判斷所述時序性輸出數據與網站通用特征的網站第一特征是否對應,若是,則執行s3-4-2,否則,網站信息數據的綜合采集分析狀態為異常,并輸出時序性輸出數據與網站第一特征不對應的數據作為本文檔來自技高網
...
【技術保護點】
1.一種用于網站信息數據的綜合采集分析方法,其特征在于,包括:
2.如權利要求1所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,所述根據網站對應類型獲取網站信息數據得到信息數據采集配置包括:
3.如權利要求2所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述初始采集標簽進行合規性驗證建立信息數據采集通用配置包括:
4.如權利要求3所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述信息數據采集配置進行數據采集得到基礎網站信息數據包括:
5.如權利要求4所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述信息數據采集配置進行數據采集得到初始網站信息數據包括:
6.如權利要求5所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,利用所述初始網站信息數據進行交叉驗證得到基礎網站信息數據包括:
7.如權利要求4所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,利用所述基礎網站信息數據根據網站通用特征得到網站信息數據的綜合采集分析結果包括:
>8.如權利要求7所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述基礎網站信息數據庫進行順序輸出得到時序性輸出數據包括:
9.如權利要求8所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述信息數據采集配置建立對應網站通用特征包括:
10.如權利要求9所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,利用所述時序性輸出數據根據網站通用特征得到網站信息數據的綜合采集分析結果包括:
...
【技術特征摘要】
1.一種用于網站信息數據的綜合采集分析方法,其特征在于,包括:
2.如權利要求1所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,所述根據網站對應類型獲取網站信息數據得到信息數據采集配置包括:
3.如權利要求2所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述初始采集標簽進行合規性驗證建立信息數據采集通用配置包括:
4.如權利要求3所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述信息數據采集配置進行數據采集得到基礎網站信息數據包括:
5.如權利要求4所述的一種用于網站信息數據的綜合采集分析方法,其特征在于,根據所述信息數據采集配置進行數據采集得到初始網站信息數據包括:
6.如權利要求5所述的一種用于網站信息數據...
【專利技術屬性】
技術研發人員:趙志慶,余毛猛,董席峰,侯玉柱,張雨銘威,
申請(專利權)人:天津戎行集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。