System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本公開涉及數(shù)據(jù)處理領域,具體涉及一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及存儲介質(zhì)。
技術介紹
1、隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,ipv6地址作為新一代的互聯(lián)網(wǎng)協(xié)議地址,正在逐漸取代ipv4地址。同時,spark作為一個快速,通用的大數(shù)據(jù)處理引擎,它允許在內(nèi)存中以集群的方式處理大規(guī)模的數(shù)據(jù)集。spark基于scala語言開發(fā),并具有java、scala及python等語言的api接口。spark提供了包括sql查詢、流處理、機器學習、圖處理等在內(nèi)的一體化的數(shù)據(jù)湖解決方案。然而,隨著網(wǎng)站的ipv6活躍地址訪問數(shù)據(jù)日益增加,傳統(tǒng)的采集與數(shù)據(jù)處理手段存在各種問題,首先在處理海量數(shù)據(jù)時存在處理時間較長和響應慢的問題,以及在做一些復雜處理時需要反復進行數(shù)據(jù)的讀取操作,其次在容錯方面,當出現(xiàn)一些數(shù)據(jù)問題時需要人工判斷錯誤數(shù)據(jù)的來源,導致處理效率低下。
技術實現(xiàn)思路
1、(一)要解決的技術問題
2、鑒于上述問題,本公開提供了一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及存儲介質(zhì),以至少部分解決數(shù)據(jù)處理時效率低,反應時間長,實時數(shù)據(jù)處理不夠及時等問題。
3、(二)技術方案
4、本公開的第一方面提供一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法,包括:采集網(wǎng)站的日活數(shù)據(jù);基于sparksql查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲;根據(jù)用戶需求對彈性分布式數(shù)據(jù)集中的所述日活數(shù)據(jù)進行篩選,得到待處理數(shù)據(jù);將
5、根據(jù)本公開的實施例,所述采集網(wǎng)站的日活數(shù)據(jù)包括:從各種數(shù)據(jù)源獲取數(shù)據(jù)和/或動態(tài)監(jiān)聽數(shù)據(jù)庫的變化并記錄所述數(shù)據(jù),其中,所述數(shù)據(jù)源包括數(shù)據(jù)庫整表和源文件;對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)。
6、根據(jù)本公開的實施例,所述對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)包括:對所述數(shù)據(jù)進行特征分析,去除與網(wǎng)站無關的第一流量數(shù)據(jù),得到第二流量數(shù)據(jù);分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)。
7、根據(jù)本公開的實施例,所述分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)包括:通過地址庫將所述第二流量數(shù)據(jù)劃分為入網(wǎng)流量和出網(wǎng)流量;基于所述入網(wǎng)流量和出網(wǎng)流量,分別比較各字段的特征,以篩選出符合預設字段條件的所述日活數(shù)據(jù)。
8、根據(jù)本公開的實施例,所述采集網(wǎng)站的日活數(shù)據(jù)之后,所述方法包括:根據(jù)所述日活數(shù)據(jù)中各字段的特征,將所述日活數(shù)據(jù)存儲進對應的數(shù)據(jù)庫表中。
9、根據(jù)本公開的實施例,所述基于sparksql查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲包括:將所述彈性分布式數(shù)據(jù)集提交到分布式集群,以并行處理所述彈性分布式數(shù)據(jù)集中的日活數(shù)據(jù)。
10、根據(jù)本公開的實施例,還包括:將所述日活數(shù)據(jù)進行可視化和圖形化,并以多種圖形化的方式展示所述日活數(shù)據(jù)。
11、本公開的第二方面提供了一種基于spark框架下的ipv6地址數(shù)據(jù)處理系統(tǒng),包括:采集模塊,用于采集網(wǎng)站的日活數(shù)據(jù);查詢和存儲模塊,用于基于sparksql查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲;篩選模塊,用于根據(jù)用戶需求對彈性分布式數(shù)據(jù)集中的所述日活數(shù)據(jù)進行篩選,得到待處理數(shù)據(jù);計算模塊,用于將所述待處理數(shù)據(jù)進行聚合處理,對聚合得到的數(shù)據(jù)集合分別進行預設指標計算,得到各所述數(shù)據(jù)集合的計算結果。
12、本公開的第三方面提供了一種電子設備,包括:存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)所述的ipv6地址數(shù)據(jù)處理方法中的各個步驟。
13、本公開的第四方面提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)所述的ipv6地址數(shù)據(jù)處理方法中的各個步驟。
14、(三)有益效果
15、本公開提供的基于spark框架下的ipv6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及存儲介質(zhì),基于spark框架將一些中間數(shù)據(jù)存儲在內(nèi)存中,以對數(shù)據(jù)進行迭代計算,極大的提高了數(shù)據(jù)處理的效率。并且,采用rdd數(shù)據(jù)集,可以自動從節(jié)點失敗中恢復過來,即如果某個節(jié)點上的rdd分區(qū),因為節(jié)點故障,導致數(shù)據(jù)丟失,會自動通過自己的數(shù)據(jù)來源重新計算該分區(qū)。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,包括:
2.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)包括:
3.根據(jù)權利要求2所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)包括:
4.根據(jù)權利要求3所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)包括:
5.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)之后,所述方法包括:
6.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述基于SparkSQL查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲包括:
7.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,還包括:
>8.一種基于Spark框架下的IPV6地址數(shù)據(jù)處理系統(tǒng),其特征在于,包括:
9.一種電子設備,包括:存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)權利要求1至7中的任一項所述的IPV6地址數(shù)據(jù)處理方法中的各個步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)權利要求1至7中的任一項所述的IPV6地址數(shù)據(jù)處理方法中的各個步驟。
...【技術特征摘要】
1.一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,包括:
2.根據(jù)權利要求1所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)包括:
3.根據(jù)權利要求2所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)包括:
4.根據(jù)權利要求3所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)包括:
5.根據(jù)權利要求1所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)之后,所述方法包括:
6.根據(jù)權利要求1所述的基于...
【專利技術屬性】
技術研發(fā)人員:王顯,李星,吳建平,劉知剛,李騰,陶敬東,李樸,謝華,
申請(專利權)人:賽爾網(wǎng)絡有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。