System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 东京热人妻无码人av,国产成人亚洲综合无码精品,人妻丰满熟妇岳AV无码区HD
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于Spark框架下的IPV6地址數(shù)據(jù)處理方法、系統(tǒng)及設備技術方案

    技術編號:40536856 閱讀:32 留言:0更新日期:2024-03-01 13:59
    本公開提供了一種基于Spark框架下的IPV6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及介質(zhì),該方法包括:采集網(wǎng)站的日活數(shù)據(jù);基于SparkSQL查詢?nèi)栈顢?shù)據(jù),并將日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲;根據(jù)用戶需求對彈性分布式數(shù)據(jù)集中的日活數(shù)據(jù)進行篩選,得到待處理數(shù)據(jù);將待處理數(shù)據(jù)進行聚合處理,對聚合得到的數(shù)據(jù)集合分別進行預設指標計算,得到各數(shù)據(jù)集合的計算結果。

    【技術實現(xiàn)步驟摘要】

    本公開涉及數(shù)據(jù)處理領域,具體涉及一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及存儲介質(zhì)。


    技術介紹

    1、隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,ipv6地址作為新一代的互聯(lián)網(wǎng)協(xié)議地址,正在逐漸取代ipv4地址。同時,spark作為一個快速,通用的大數(shù)據(jù)處理引擎,它允許在內(nèi)存中以集群的方式處理大規(guī)模的數(shù)據(jù)集。spark基于scala語言開發(fā),并具有java、scala及python等語言的api接口。spark提供了包括sql查詢、流處理、機器學習、圖處理等在內(nèi)的一體化的數(shù)據(jù)湖解決方案。然而,隨著網(wǎng)站的ipv6活躍地址訪問數(shù)據(jù)日益增加,傳統(tǒng)的采集與數(shù)據(jù)處理手段存在各種問題,首先在處理海量數(shù)據(jù)時存在處理時間較長和響應慢的問題,以及在做一些復雜處理時需要反復進行數(shù)據(jù)的讀取操作,其次在容錯方面,當出現(xiàn)一些數(shù)據(jù)問題時需要人工判斷錯誤數(shù)據(jù)的來源,導致處理效率低下。


    技術實現(xiàn)思路

    1、(一)要解決的技術問題

    2、鑒于上述問題,本公開提供了一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及存儲介質(zhì),以至少部分解決數(shù)據(jù)處理時效率低,反應時間長,實時數(shù)據(jù)處理不夠及時等問題。

    3、(二)技術方案

    4、本公開的第一方面提供一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法,包括:采集網(wǎng)站的日活數(shù)據(jù);基于sparksql查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲;根據(jù)用戶需求對彈性分布式數(shù)據(jù)集中的所述日活數(shù)據(jù)進行篩選,得到待處理數(shù)據(jù);將所述待處理數(shù)據(jù)進行聚合處理,對聚合得到的數(shù)據(jù)集合分別進行預設指標計算,得到各所述數(shù)據(jù)集合的計算結果。

    5、根據(jù)本公開的實施例,所述采集網(wǎng)站的日活數(shù)據(jù)包括:從各種數(shù)據(jù)源獲取數(shù)據(jù)和/或動態(tài)監(jiān)聽數(shù)據(jù)庫的變化并記錄所述數(shù)據(jù),其中,所述數(shù)據(jù)源包括數(shù)據(jù)庫整表和源文件;對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)。

    6、根據(jù)本公開的實施例,所述對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)包括:對所述數(shù)據(jù)進行特征分析,去除與網(wǎng)站無關的第一流量數(shù)據(jù),得到第二流量數(shù)據(jù);分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)。

    7、根據(jù)本公開的實施例,所述分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)包括:通過地址庫將所述第二流量數(shù)據(jù)劃分為入網(wǎng)流量和出網(wǎng)流量;基于所述入網(wǎng)流量和出網(wǎng)流量,分別比較各字段的特征,以篩選出符合預設字段條件的所述日活數(shù)據(jù)。

    8、根據(jù)本公開的實施例,所述采集網(wǎng)站的日活數(shù)據(jù)之后,所述方法包括:根據(jù)所述日活數(shù)據(jù)中各字段的特征,將所述日活數(shù)據(jù)存儲進對應的數(shù)據(jù)庫表中。

    9、根據(jù)本公開的實施例,所述基于sparksql查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲包括:將所述彈性分布式數(shù)據(jù)集提交到分布式集群,以并行處理所述彈性分布式數(shù)據(jù)集中的日活數(shù)據(jù)。

    10、根據(jù)本公開的實施例,還包括:將所述日活數(shù)據(jù)進行可視化和圖形化,并以多種圖形化的方式展示所述日活數(shù)據(jù)。

    11、本公開的第二方面提供了一種基于spark框架下的ipv6地址數(shù)據(jù)處理系統(tǒng),包括:采集模塊,用于采集網(wǎng)站的日活數(shù)據(jù);查詢和存儲模塊,用于基于sparksql查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲;篩選模塊,用于根據(jù)用戶需求對彈性分布式數(shù)據(jù)集中的所述日活數(shù)據(jù)進行篩選,得到待處理數(shù)據(jù);計算模塊,用于將所述待處理數(shù)據(jù)進行聚合處理,對聚合得到的數(shù)據(jù)集合分別進行預設指標計算,得到各所述數(shù)據(jù)集合的計算結果。

    12、本公開的第三方面提供了一種電子設備,包括:存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)所述的ipv6地址數(shù)據(jù)處理方法中的各個步驟。

    13、本公開的第四方面提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)所述的ipv6地址數(shù)據(jù)處理方法中的各個步驟。

    14、(三)有益效果

    15、本公開提供的基于spark框架下的ipv6地址數(shù)據(jù)處理方法、系統(tǒng)、設備及存儲介質(zhì),基于spark框架將一些中間數(shù)據(jù)存儲在內(nèi)存中,以對數(shù)據(jù)進行迭代計算,極大的提高了數(shù)據(jù)處理的效率。并且,采用rdd數(shù)據(jù)集,可以自動從節(jié)點失敗中恢復過來,即如果某個節(jié)點上的rdd分區(qū),因為節(jié)點故障,導致數(shù)據(jù)丟失,會自動通過自己的數(shù)據(jù)來源重新計算該分區(qū)。

    本文檔來自技高網(wǎng)...

    【技術保護點】

    1.一種基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,包括:

    2.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)包括:

    3.根據(jù)權利要求2所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)包括:

    4.根據(jù)權利要求3所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)包括:

    5.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)之后,所述方法包括:

    6.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,所述基于SparkSQL查詢所述日活數(shù)據(jù),并將所述日活數(shù)據(jù)轉化為彈性分布式數(shù)據(jù)集存儲包括:

    7.根據(jù)權利要求1所述的基于Spark框架下的IPV6地址數(shù)據(jù)處理方法,其特征在于,還包括:>

    8.一種基于Spark框架下的IPV6地址數(shù)據(jù)處理系統(tǒng),其特征在于,包括:

    9.一種電子設備,包括:存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)權利要求1至7中的任一項所述的IPV6地址數(shù)據(jù)處理方法中的各個步驟。

    10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)權利要求1至7中的任一項所述的IPV6地址數(shù)據(jù)處理方法中的各個步驟。

    ...

    【技術特征摘要】

    1.一種基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,包括:

    2.根據(jù)權利要求1所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)包括:

    3.根據(jù)權利要求2所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述對所述數(shù)據(jù)進行清洗,得到符合要求的所述日活數(shù)據(jù)包括:

    4.根據(jù)權利要求3所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述分析所述第二流量數(shù)據(jù)中各字段的特征,從所述第二流量數(shù)據(jù)中篩選出符合預設字段條件的所述日活數(shù)據(jù)包括:

    5.根據(jù)權利要求1所述的基于spark框架下的ipv6地址數(shù)據(jù)處理方法,其特征在于,所述采集網(wǎng)站的日活數(shù)據(jù)之后,所述方法包括:

    6.根據(jù)權利要求1所述的基于...

    【專利技術屬性】
    技術研發(fā)人員:王顯,李星,吳建平劉知剛,李騰,陶敬東李樸,謝華,
    申請(專利權)人:賽爾網(wǎng)絡有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩AV无码精品一二三区| 中文字幕无码播放免费| 用舌头去添高潮无码视频| 精品人妻无码专区在中文字幕| 熟妇人妻中文a∨无码| 人妻少妇乱子伦无码视频专区| 嫩草影院无码av| AA区一区二区三无码精片| 色综合久久久无码中文字幕波多| 日韩精品无码一区二区三区AV | 国产羞羞的视频在线观看 国产一级无码视频在线| 无码人妻精品一区二区三区99不卡 | 亚洲2022国产成人精品无码区| 成人免费午夜无码视频| 成人无码A区在线观看视频| mm1313亚洲国产精品无码试看| 无码精品人妻一区二区三区人妻斩| 成人免费无码精品国产电影| 无码人妻精品一区二区三区99性| 中文无码熟妇人妻AV在线| 无码av天天av天天爽| 亚洲国产超清无码专区| 十八禁视频在线观看免费无码无遮挡骂过| 亚洲av永久无码天堂网| 中文字幕无码视频手机免费看| 国产爆乳无码一区二区麻豆| 久99久无码精品视频免费播放| 日产无码1区2区在线观看| 亚洲精品无码久久久久久| 久久亚洲精品无码VA大香大香| 无码国产伦一区二区三区视频 | 亚洲无码在线播放| 国产成人无码免费看片软件 | 国产真人无码作爱视频免费| 日韩精品无码永久免费网站| 日韩av片无码一区二区三区不卡| 无码A级毛片日韩精品| 无码视频在线播放一二三区| 国产精品va无码免费麻豆| 国产成年无码久久久久下载| 久久精品日韩av无码|