當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>上海界吉信息技術(shù)有限公司專(zhuān)利>正文

一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法技術(shù)

技術(shù)編號(hào)：44515556 閱讀：0 留言：0更新日期：2025-03-07 13:10

本發(fā)明專(zhuān)利技術(shù)涉及網(wǎng)絡(luò)爬蟲(chóng)技術(shù)領(lǐng)域，且公開(kāi)了一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，包括：通過(guò)收集需要爬取的網(wǎng)址，對(duì)網(wǎng)址進(jìn)行爬取測(cè)試，根據(jù)爬取測(cè)試結(jié)果判斷當(dāng)前網(wǎng)址是否能夠進(jìn)行爬取操作，對(duì)能夠進(jìn)行爬取操作的網(wǎng)址進(jìn)行爬取，將符合關(guān)鍵字的數(shù)據(jù)作為第一集合，對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，數(shù)據(jù)收集策略具體為，通過(guò)設(shè)置單次收集數(shù)量，對(duì)第一集合內(nèi)元素進(jìn)行選取，并錄入對(duì)比集合，判斷每次收集的數(shù)據(jù)與對(duì)比集合內(nèi)元素之間的的重復(fù)個(gè)數(shù)，進(jìn)而計(jì)算每次的重復(fù)率，根據(jù)重復(fù)率預(yù)測(cè)后續(xù)需要進(jìn)行爬取次數(shù)。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)涉及網(wǎng)絡(luò)爬蟲(chóng)，具體為一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法。

技術(shù)介紹

1、網(wǎng)絡(luò)爬蟲(chóng)的產(chǎn)生背景主要源于大數(shù)據(jù)時(shí)代對(duì)海量數(shù)據(jù)的需求。隨著互聯(lián)網(wǎng)的快速發(fā)展，萬(wàn)維網(wǎng)成為了大量信息的載體，如何快速且正確地利用這些信息成為了一個(gè)挑戰(zhàn)。網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)運(yùn)而生，成為了一種自動(dòng)提取網(wǎng)頁(yè)信息的程序或腳本，它按照一定的規(guī)則自動(dòng)地抓取萬(wàn)維網(wǎng)上的信息。這種技術(shù)不僅提高了信息采集的效率，還降低了人力成本，使得信息的獲取變得更加便捷。

2、網(wǎng)絡(luò)爬蟲(chóng)的研發(fā)背景可以追溯到搜索引擎的出現(xiàn)。早期的搜索引擎需要從大量的網(wǎng)頁(yè)中提取有用的信息，而人工進(jìn)行這樣的工作不僅效率低下，而且成本高昂。因此，開(kāi)發(fā)能夠自動(dòng)抓取、處理和索引網(wǎng)頁(yè)內(nèi)容的程序成為了必要之舉。這些程序最初被稱(chēng)為網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)頁(yè)蜘蛛，它們能夠模擬人類(lèi)瀏覽網(wǎng)頁(yè)的行為，從互聯(lián)網(wǎng)上抓取數(shù)據(jù)，為搜索引擎提供數(shù)據(jù)支持。

3、網(wǎng)絡(luò)爬蟲(chóng)的技術(shù)實(shí)現(xiàn)并不局限于特定的編程語(yǔ)言，而是可以使用多種編程語(yǔ)言進(jìn)行開(kāi)發(fā)，包括但不限于python、java、php、c/c++/c#、go和node.js等。這些語(yǔ)言都可以用來(lái)編寫(xiě)爬蟲(chóng)程序或腳本，實(shí)現(xiàn)自動(dòng)化的信息抓取和處理。

4、總的來(lái)說(shuō)，網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是一個(gè)非常重要的工具，可以幫助我們更好地獲取想要的數(shù)據(jù)，但是由于爬取技術(shù)獲取的數(shù)據(jù)過(guò)于龐大，存在數(shù)據(jù)冗余，導(dǎo)致爬取過(guò)多不需要的數(shù)據(jù)，加大了信息篩選的任務(wù)量。

5、綜上所述，現(xiàn)在亟需一種基于網(wǎng)絡(luò)爬蟲(chóng)的爬取方法，用于解決上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本專(zhuān)利

2、本專(zhuān)利技術(shù)提供如下技術(shù)方案：一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，

3、可選的，一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，包括，

4、收集網(wǎng)址信息，對(duì)網(wǎng)址進(jìn)行爬取測(cè)試；

5、根據(jù)爬取測(cè)試結(jié)果，判斷是否進(jìn)行爬取操作；

6、若不進(jìn)行爬取操作，則重新選取網(wǎng)址并進(jìn)行爬取測(cè)試；

7、若進(jìn)行爬取操作，則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理；

8、將爬取預(yù)處理結(jié)果作為第一集合；

9、對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略；

10、爬取數(shù)據(jù)收集策略包括，第一次爬取操作，第二次爬取操作和第三次爬取操作；

11、通過(guò)爬取數(shù)據(jù)收集策略計(jì)算爬取重復(fù)率；

12、根據(jù)爬取重復(fù)率預(yù)測(cè)，預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù)；

13、根據(jù)預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù)，進(jìn)行第一輪預(yù)測(cè)爬取數(shù)據(jù)處理；

14、根據(jù)第一輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果，判斷是否進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理；

15、若不進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理，則保留第一輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果；

16、若進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理，則保留第二輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果。

17、可選的，所述收集網(wǎng)址信息，對(duì)網(wǎng)址進(jìn)行爬取測(cè)試，包括：

18、收集所有金融信息網(wǎng)址，并錄入爬取網(wǎng)址集合；

19、依次選取爬取網(wǎng)址集合內(nèi)的元素作為目標(biāo)網(wǎng)址；

20、對(duì)目標(biāo)網(wǎng)址進(jìn)行爬取測(cè)試；

21、若通過(guò)爬取測(cè)試獲取的數(shù)據(jù)個(gè)數(shù)為零，則重新選取爬取網(wǎng)址集合內(nèi)的元素作為新的目標(biāo)網(wǎng)站；

22、若通過(guò)爬取測(cè)試獲取的數(shù)據(jù)個(gè)數(shù)不為零，則對(duì)目標(biāo)網(wǎng)站進(jìn)行爬取預(yù)處理操作。

23、可選的，所述若進(jìn)行爬取操作，則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理，包括：

24、設(shè)置第一爬取區(qū)間和目標(biāo)關(guān)鍵字；

25、爬取處于第一爬取區(qū)間內(nèi)所有包括目標(biāo)關(guān)鍵字的爬取數(shù)據(jù)，將爬取數(shù)據(jù)錄入第一集合；

26、設(shè)置數(shù)據(jù)量閾值；

27、獲取第一集合內(nèi)元素個(gè)數(shù)；

28、若第一集合內(nèi)元素個(gè)數(shù)小于數(shù)據(jù)量閾值，則設(shè)置第二爬取區(qū)間；

29、爬取處于第二爬取區(qū)間內(nèi)所有包括目標(biāo)關(guān)鍵字的爬取數(shù)據(jù)，第二爬取區(qū)間包含第一爬取區(qū)間；

30、若第一集合內(nèi)元素個(gè)數(shù)大于等于數(shù)據(jù)量閾值，則對(duì)第一集合內(nèi)元素進(jìn)行爬取數(shù)據(jù)收集策略。

31、可選的，所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：

32、設(shè)置爬取數(shù)量閾值a；

33、進(jìn)行第一次爬取操作；

34、隨機(jī)選取第一集合內(nèi)個(gè)數(shù)為a的爬取數(shù)據(jù)，并錄入對(duì)比集合。

35、可選的，所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：

36、進(jìn)行第二次爬取操作；

37、獲取第一集合與對(duì)比集合之間的交集，記為第一交集集合；

38、剔除第一集合內(nèi)所有第一交集集合元素；

39、隨機(jī)選取第一集合內(nèi)個(gè)數(shù)為爬取數(shù)據(jù)閾值a的爬取數(shù)據(jù)，并錄入第一預(yù)選集合；

40、于第一預(yù)選集合內(nèi)，依次選取每個(gè)元素，并將每次所選取的元素通過(guò)自然語(yǔ)言處理技術(shù)與對(duì)比集合內(nèi)所有元素進(jìn)行對(duì)比；

41、若對(duì)比結(jié)果為雷同，則將當(dāng)前所選取的元素標(biāo)記為重復(fù)元素；

42、若對(duì)比結(jié)果為非雷同，則將當(dāng)前所選取的元素錄入對(duì)比集合；

43、獲取重復(fù)元素個(gè)數(shù)；

44、計(jì)算重復(fù)元素個(gè)數(shù)與爬取數(shù)據(jù)閾值a之間的比值，記為第一重復(fù)率。

45、可選的，所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：

46、進(jìn)行第三次爬取操作；

47、獲取第一集合與對(duì)比集合之間的交集，記為第二交集集合；

48、剔除第一集合內(nèi)所有第二交集集合元素；

49、隨機(jī)選取第一集合內(nèi)個(gè)數(shù)為爬取數(shù)據(jù)閾值a的爬取數(shù)據(jù)，并錄入第二預(yù)選集合；

50、于第二預(yù)選集合內(nèi)，依次選取每個(gè)元素，并將每次所選取的元素通過(guò)自然語(yǔ)言處理技術(shù)與對(duì)比集合內(nèi)所有元素進(jìn)行對(duì)比；

51、若對(duì)比結(jié)果為雷同，則標(biāo)記第二預(yù)選集合內(nèi)當(dāng)前元素為重復(fù)元素；

52、若對(duì)比結(jié)果為非雷同，則將第二預(yù)選集合內(nèi)當(dāng)前元素錄入對(duì)比集合；

53、獲取重復(fù)元素個(gè)數(shù)；

54、計(jì)算重復(fù)元素個(gè)數(shù)與爬取數(shù)據(jù)閾值a之間的比值，記為第二重復(fù)率；

55、通過(guò)對(duì)第一重復(fù)率和第二重復(fù)率進(jìn)行計(jì)算，預(yù)測(cè)爬取次數(shù)。

56、可選的，所述通過(guò)對(duì)第一重復(fù)率和第二重復(fù)率進(jìn)行計(jì)算，預(yù)測(cè)爬取次數(shù)，包括：

57、將第一重復(fù)率和第二重復(fù)率錄入重復(fù)集合；

58、計(jì)算重復(fù)集合內(nèi)相鄰元素之間的差值，記為b1，b2……bn，n為重復(fù)集合內(nèi)元素個(gè)數(shù)；

59、通過(guò)下列公式計(jì)算第一平均重復(fù)率，具體如下：

60、

61、上述公式中，d表示第一平均重復(fù)率，bi表示重復(fù)集合內(nèi)相鄰元素之間第i個(gè)差值，i表示當(dāng)前重復(fù)集合內(nèi)元素個(gè)數(shù)，n表示重復(fù)集合內(nèi)元素的個(gè)數(shù)；

62、設(shè)置爬取截止閾值e；

63、通過(guò)下列公式計(jì)算預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù)，具體如下：

64、

65、上述公式中，f表示預(yù)計(jì)爬取數(shù)據(jù)處理次數(shù)，c表示重復(fù)集合內(nèi)元素的個(gè)數(shù)，bn表示重復(fù)集合內(nèi)第n個(gè)元素，n為重復(fù)集合元素個(gè)數(shù)，e表示爬取本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：包括，

2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述收集網(wǎng)址信息，對(duì)網(wǎng)址進(jìn)行爬取測(cè)試，包括：

3.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述若進(jìn)行爬取操作，則對(duì)網(wǎng)址進(jìn)行爬取預(yù)處理，包括：

4.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：

5.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：

6.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：

7.根據(jù)權(quán)利要求6所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述通過(guò)對(duì)第一重復(fù)率和第二重復(fù)率進(jìn)行計(jì)算，預(yù)測(cè)爬取次數(shù)，包括：

8.根據(jù)權(quán)利要求7所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述根據(jù)預(yù)測(cè)所需爬取次數(shù)，進(jìn)行第一輪預(yù)測(cè)爬取數(shù)據(jù)處理，包括：

9.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述若進(jìn)行第二輪預(yù)測(cè)爬取數(shù)據(jù)處理，則保留第二輪預(yù)測(cè)爬取數(shù)據(jù)處理結(jié)果，包括：

...

【技術(shù)特征摘要】

1.一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：包括，

5.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲(chóng)的金融信息爬取方法，其特征在于：所述對(duì)第一集合進(jìn)行爬取數(shù)據(jù)收集策略，包括：<...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：于佳旻，
申請(qǐng)(專(zhuān)利權(quán))人：上海界吉信息技術(shù)有限公司，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)