System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及網(wǎng)絡(luò)爬蟲(chóng),具體為一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法。
技術(shù)介紹
1、網(wǎng)絡(luò)爬蟲(chóng)的產(chǎn)生背景主要源于大數(shù)據(jù)時(shí)代對(duì)海量數(shù)據(jù)的需求。隨著互聯(lián)網(wǎng)的快速發(fā)展,萬(wàn)維網(wǎng)成為了大量信息的載體,如何快速且正確地利用這些信息成為了一個(gè)挑戰(zhàn)。網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)運(yùn)而生,成為了一種自動(dòng)提取網(wǎng)頁(yè)信息的程序或腳本,它按照一定的規(guī)則自動(dòng)地抓取萬(wàn)維網(wǎng)上的信息。這種技術(shù)不僅提高了信息采集的效率,還降低了人力成本,使得信息的獲取變得更加便捷。
2、網(wǎng)絡(luò)爬蟲(chóng)的研發(fā)背景可以追溯到搜索引擎的出現(xiàn)。早期的搜索引擎需要從大量的網(wǎng)頁(yè)中提取有用的信息,而人工進(jìn)行這樣的工作不僅效率低下,而且成本高昂。因此,開(kāi)發(fā)能夠自動(dòng)抓取、處理和索引網(wǎng)頁(yè)內(nèi)容的程序成為了必要之舉。這些程序最初被稱(chēng)為網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)頁(yè)蜘蛛,它們能夠模擬人類(lèi)瀏覽網(wǎng)頁(yè)的行為,從互聯(lián)網(wǎng)上抓取數(shù)據(jù),為搜索引擎提供數(shù)據(jù)支持。
3、網(wǎng)絡(luò)爬蟲(chóng)的技術(shù)實(shí)現(xiàn)并不局限于特定的編程語(yǔ)言,而是可以使用多種編程語(yǔ)言進(jìn)行開(kāi)發(fā),包括但不限于python、java、php、c/c++/c#、go和node.js等。這些語(yǔ)言都可以用來(lái)編寫(xiě)爬蟲(chóng)程序或腳本,實(shí)現(xiàn)自動(dòng)化的信息抓取和處理。
4、總的來(lái)說(shuō),網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是一個(gè)非常重要的工具,可以幫助我們更好地獲取想要的數(shù)據(jù),但是由于爬取技術(shù)獲取的數(shù)據(jù)過(guò)于龐大,存在數(shù)據(jù)冗余,導(dǎo)致爬取過(guò)多不需要的數(shù)據(jù),加大了信息篩選的任務(wù)量。
5、綜上所述,現(xiàn)在亟需一種基于網(wǎng)絡(luò)爬蟲(chóng)的爬取方法,用于解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利
2、本專(zhuān)利技術(shù)提供如下技術(shù)方案:一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,
3、可選的,一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,包括,
4、收集網(wǎng)址信息,對(duì)網(wǎng)址進(jìn)行爬取測(cè)試;
5、根據(jù)爬取測(cè)試結(jié)果,判斷是否進(jìn)行爬取操作;
6、若不進(jìn)行爬取操作,則重新選取網(wǎng)址并進(jìn)行爬取測(cè)試;
7、若進(jìn)行爬取操作,則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理;
8、將爬取預(yù)處理結(jié)果作為第一集合;
9、對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略;
10、爬取數(shù)據(jù)收集策略包括,第一次爬取操作,第二次爬取操作和第三次爬取操作;
11、通過(guò)爬取數(shù)據(jù)收集策略計(jì)算爬取重復(fù)率;
12、根據(jù)爬取重復(fù)率預(yù)測(cè),預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù);
13、根據(jù)預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù),進(jìn)行第一輪預(yù)測(cè)爬取數(shù)據(jù)處理;
14、根據(jù)第一輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果,判斷是否進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理;
15、若不進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理,則保留第一輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果;
16、若進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理,則保留第二輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果。
17、可選的,所述收集網(wǎng)址信息,對(duì)網(wǎng)址進(jìn)行爬取測(cè)試,包括:
18、收集所有金融信息網(wǎng)址,并錄入爬取網(wǎng)址集合;
19、依次選取爬取網(wǎng)址集合內(nèi)的元素作為目標(biāo)網(wǎng)址;
20、對(duì)目標(biāo)網(wǎng)址進(jìn)行爬取測(cè)試;
21、若通過(guò)爬取測(cè)試獲取的數(shù)據(jù)個(gè)數(shù)為零,則重新選取爬取網(wǎng)址集合內(nèi)的元素作為新的目標(biāo)網(wǎng)站;
22、若通過(guò)爬取測(cè)試獲取的數(shù)據(jù)個(gè)數(shù)不為零,則對(duì)目標(biāo)網(wǎng)站進(jìn)行爬取預(yù)處理操作。
23、可選的,所述若進(jìn)行爬取操作,則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理,包括:
24、設(shè)置第一爬取區(qū)間和目標(biāo)關(guān)鍵字;
25、爬取處于第一爬取區(qū)間內(nèi)所有包括目標(biāo)關(guān)鍵字的爬取數(shù)據(jù),將爬取數(shù)據(jù)錄入第一集合;
26、設(shè)置數(shù)據(jù)量閾值;
27、獲取第一集合內(nèi)元素個(gè)數(shù);
28、若第一集合內(nèi)元素個(gè)數(shù)小于數(shù)據(jù)量閾值,則設(shè)置第二爬取區(qū)間;
29、爬取處于第二爬取區(qū)間內(nèi)所有包括目標(biāo)關(guān)鍵字的爬取數(shù)據(jù),第二爬取區(qū)間包含第一爬取區(qū)間;
30、若第一集合內(nèi)元素個(gè)數(shù)大于等于數(shù)據(jù)量閾值,則對(duì)第一集合內(nèi)元素進(jìn)行爬取數(shù)據(jù)收集策略。
31、可選的,所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
32、設(shè)置爬取數(shù)量閾值a;
33、進(jìn)行第一次爬取操作;
34、隨機(jī)選取第一集合內(nèi)個(gè)數(shù)為a的爬取數(shù)據(jù),并錄入對(duì)比集合。
35、可選的,所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
36、進(jìn)行第二次爬取操作;
37、獲取第一集合與對(duì)比集合之間的交集,記為第一交集集合;
38、剔除第一集合內(nèi)所有第一交集集合元素;
39、隨機(jī)選取第一集合內(nèi)個(gè)數(shù)為爬取數(shù)據(jù)閾值a的爬取數(shù)據(jù),并錄入第一預(yù)選集合;
40、于第一預(yù)選集合內(nèi),依次選取每個(gè)元素,并將每次所選取的元素通過(guò)自然語(yǔ)言處理技術(shù)與對(duì)比集合內(nèi)所有元素進(jìn)行對(duì)比;
41、若對(duì)比結(jié)果為雷同,則將當(dāng)前所選取的元素標(biāo)記為重復(fù)元素;
42、若對(duì)比結(jié)果為非雷同,則將當(dāng)前所選取的元素錄入對(duì)比集合;
43、獲取重復(fù)元素個(gè)數(shù);
44、計(jì)算重復(fù)元素個(gè)數(shù)與爬取數(shù)據(jù)閾值a之間的比值,記為第一重復(fù)率。
45、可選的,所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
46、進(jìn)行第三次爬取操作;
47、獲取第一集合與對(duì)比集合之間的交集,記為第二交集集合;
48、剔除第一集合內(nèi)所有第二交集集合元素;
49、隨機(jī)選取第一集合內(nèi)個(gè)數(shù)為爬取數(shù)據(jù)閾值a的爬取數(shù)據(jù),并錄入第二預(yù)選集合;
50、于第二預(yù)選集合內(nèi),依次選取每個(gè)元素,并將每次所選取的元素通過(guò)自然語(yǔ)言處理技術(shù)與對(duì)比集合內(nèi)所有元素進(jìn)行對(duì)比;
51、若對(duì)比結(jié)果為雷同,則標(biāo)記第二預(yù)選集合內(nèi)當(dāng)前元素為重復(fù)元素;
52、若對(duì)比結(jié)果為非雷同,則將第二預(yù)選集合內(nèi)當(dāng)前元素錄入對(duì)比集合;
53、獲取重復(fù)元素個(gè)數(shù);
54、計(jì)算重復(fù)元素個(gè)數(shù)與爬取數(shù)據(jù)閾值a之間的比值,記為第二重復(fù)率;
55、通過(guò)對(duì)第一重復(fù)率和第二重復(fù)率進(jìn)行計(jì)算,預(yù)測(cè)爬取次數(shù)。
56、可選的,所述通過(guò)對(duì)第一重復(fù)率和第二重復(fù)率進(jìn)行計(jì)算,預(yù)測(cè)爬取次數(shù),包括:
57、將第一重復(fù)率和第二重復(fù)率錄入重復(fù)集合;
58、計(jì)算重復(fù)集合內(nèi)相鄰元素之間的差值,記為b1,b2……bn,n為重復(fù)集合內(nèi)元素個(gè)數(shù);
59、通過(guò)下列公式計(jì)算第一平均重復(fù)率,具體如下:
60、
61、上述公式中,d表示第一平均重復(fù)率,bi表示重復(fù)集合內(nèi)相鄰元素之間第i個(gè)差值,i表示當(dāng)前重復(fù)集合內(nèi)元素個(gè)數(shù),n表示重復(fù)集合內(nèi)元素的個(gè)數(shù);
62、設(shè)置爬取截止閾值e;
63、通過(guò)下列公式計(jì)算預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù),具體如下:
64、
65、上述公式中,f表示預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù),c表示重復(fù)集合內(nèi)元素的個(gè)數(shù),bn表示重復(fù)集合內(nèi)第n個(gè)元素,n為重復(fù)集合元素個(gè)數(shù),e表示爬取本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:包括,
2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述收集網(wǎng)址信息,對(duì)網(wǎng)址進(jìn)行爬取測(cè)試,包括:
3.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述若進(jìn)行爬取操作,則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理,包括:
4.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
5.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
6.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
7.根據(jù)權(quán)利要求6所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述通過(guò)對(duì)第一重復(fù)率和第二重復(fù)率進(jìn)行計(jì)算,預(yù)測(cè)爬取次數(shù),包括:
8.根據(jù)權(quán)利要求7所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述根據(jù)預(yù)測(cè)所需爬取次數(shù),進(jìn)行第一輪預(yù)測(cè)爬取數(shù)據(jù)處理
9.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述若進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理,則保留第二輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果,包括:
...【技術(shù)特征摘要】
1.一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:包括,
2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述收集網(wǎng)址信息,對(duì)網(wǎng)址進(jìn)行爬取測(cè)試,包括:
3.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述若進(jìn)行爬取操作,則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理,包括:
4.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:
5.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法,其特征在于:所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略,包括:<...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:于佳旻,
申請(qǐng)(專(zhuān)利權(quán))人:上海界吉信息技術(shù)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。