System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品无码一区二区三区不卡,中文有码无码人妻在线,国产精品成人无码免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種抽樣數據的實時更新方法、裝置、設備及介質制造方法及圖紙

    技術編號:44500507 閱讀:7 留言:0更新日期:2025-03-04 18:09
    本發明專利技術實施例公開了一種抽樣數據的實時更新方法、裝置、設備及介質。其中,該方法包括:基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;根據所述抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定所述抽樣數據的目標索引信息;若檢測到所述目標數據集發生數據變更,確定所述目標數據集的數據變更信息;其中,所述數據變更信息包括目標主鍵信息以及對應的目標數據;根據所述數據變更信息和所述目標索引信息對所述抽樣集合中的抽樣數據進行更新。本技術方案,當數據集發生數據變更時,能夠基于構建的抽樣數據的索引信息對抽樣數據進行實時更新,提高了抽樣數據的更新速度和準確性。

    【技術實現步驟摘要】

    本專利技術涉及數據處理,尤其涉及一種抽樣數據的實時更新方法、裝置、設備及介質


    技術介紹

    1、使用少量的抽樣數據可以高效生成大數據統計信息,以便大數據計算引擎或者數據庫使用最優的執行計劃,例如spark在對數據按照范圍分區時就采用了水塘抽樣算法。水塘抽樣算法使得按照范圍分區后,數據在各分區的分布是均勻的,不會有哈希分區可能引起數據分局不均導致的數據傾斜問題。

    2、但spark僅僅在對數據做排序的時候才使用范圍分區,是因為在發起分區時才使用水塘抽樣算法生成抽樣數據,很消耗時間。spark可以生成各個字段的數據直方圖,以便了解數據分布情況,但數據直方圖需要運行命令批量生成,比較耗時,并且當數據發生變更時,數據直方圖將會變得不準確,如果查詢條件按照其他條件過濾,那么數據直方圖就無效了。


    技術實現思路

    1、本專利技術提供了一種抽樣數據的實時更新方法、裝置、設備及介質,當數據集發生數據變更時,能夠基于構建的抽樣數據的索引信息對抽樣數據進行實時更新,有效提高了抽樣數據的更新速度和準確性。

    2、根據本專利技術的一方面,提供了一種抽樣數據的實時更新方法,所述方法包括:

    3、基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;

    4、根據所述抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定所述抽樣數據的目標索引信息;

    5、若檢測到所述目標數據集發生數據變更,確定所述目標數據集的數據變更信息;其中,所述數據變更信息包括目標主鍵信息以及對應的目標數據;

    6、根據所述數據變更信息和所述目標索引信息對所述抽樣集合中的抽樣數據進行更新。

    7、根據本專利技術的另一方面,提供了一種抽樣數據的實時更新裝置,所述裝置包括:

    8、數據抽樣模塊,用于基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;

    9、數據索引信息確定模塊,用于根據所述抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定所述抽樣數據的目標索引信息;

    10、數據變更信息確定模塊,用于若檢測到所述目標數據集發生數據變更,確定所述目標數據集的數據變更信息;其中,所述數據變更信息包括目標主鍵信息以及對應的目標數據;

    11、抽樣數據更新模塊,用于根據所述數據變更信息和所述目標索引信息對所述抽樣集合中的抽樣數據進行更新。

    12、根據本專利技術的另一方面,提供了一種電子設備,所述電子設備包括:

    13、至少一個處理器;以及,

    14、與所述至少一個處理器通信連接的存儲器;其中,

    15、所述存儲器存儲有可被所述至少一個處理器執行的計算機程序,所述計算機程序被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本專利技術任一實施例所述的抽樣數據的實時更新方法。

    16、根據本專利技術的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現本專利技術任一實施例所述的抽樣數據的實時更新方法。

    17、本專利技術實施例的技術方案,基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;根據抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定抽樣數據的目標索引信息;若檢測到目標數據集發生數據變更,確定目標數據集的數據變更信息;其中,數據變更信息包括目標主鍵信息以及對應的目標數據;根據數據變更信息和目標索引信息對抽樣集合中的抽樣數據進行更新。本技術方案,當數據集發生數據變更時,能夠基于構建的抽樣數據的索引信息對抽樣數據進行實時更新,有效提高了抽樣數據的更新速度和準確性。

    18、應當理解,本部分所描述的內容并非旨在標識本專利技術的實施例的關鍵或重要特征,也不用于限制本專利技術的范圍。本專利技術的其它特征將通過以下的說明書而變得容易理解。

    本文檔來自技高網...

    【技術保護點】

    1.一種抽樣數據的實時更新方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據插入;

    3.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據修改;

    4.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據刪除;

    5.根據權利要求4所述的方法,其特征在于,在將所述目標位置信息對應的抽樣數據清空,并對所述目標位置信息添加刪除標記,同時保留所述目標位置信息對應的候選主鍵信息之后,還包括:

    6.根據權利要求5所述的方法,其特征在于,在基于更新結果確定所述抽樣集合中所述目標位置信息是否對應所述目標數據之后,還包括:

    7.一種抽樣數據的實時更新裝置,其特征在于,所述裝置包括:

    8.根據權利要求7所述的裝置,其特征在于,所述目標數據集的數據變更包括數據插入;

    9.一種電子設備,其特征在于,所述電子設備包括:

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現權利要求1-6中任一項所述的抽樣數據的實時更新方法。

    ...

    【技術特征摘要】

    1.一種抽樣數據的實時更新方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據插入;

    3.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據修改;

    4.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據刪除;

    5.根據權利要求4所述的方法,其特征在于,在將所述目標位置信息對應的抽樣數據清空,并對所述目標位置信息添加刪除標記,同時保留所述目標位置信息對應的候選主鍵信息之后,還包括:

    【專利技術屬性】
    技術研發人員:呂虎
    申請(專利權)人:中國農業銀行股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码av人妻一区二区三区四区| 亚洲中文久久精品无码ww16| 国产精品无码无在线观看| 无码免费午夜福利片在线| 国产在线无码视频一区| 国产午夜无码视频在线观看| 无码国产精品一区二区免费式直播| 亚洲午夜无码久久久久小说| 人妻少妇伦在线无码专区视频| 国产精品无码无片在线观看3D| 国产乱子伦精品无码码专区| 亚洲AV成人无码网站| 永久免费AV无码国产网站| 精品无码国产自产拍在线观看蜜 | 自拍偷在线精品自拍偷无码专区| 亚洲AV永久无码精品一福利| 国产精品ⅴ无码大片在线看| 波多野42部无码喷潮在线| 亚洲最大av无码网址| AV无码久久久久不卡蜜桃| 亚洲av无码专区国产乱码在线观看| 毛片亚洲AV无码精品国产午夜 | 国产精品无码日韩欧| 日韩乱码人妻无码中文字幕视频| 日韩AV无码一区二区三区不卡| 精品无码人妻夜人多侵犯18| 久久久久无码精品亚洲日韩| 日韩人妻无码精品一专区| 亚洲最大无码中文字幕| 国产成年无码久久久免费| 亚洲精品无码专区久久同性男| 中文字幕AV中文字无码亚| 亚洲国产综合无码一区二区二三区 | 久久精品无码专区免费东京热| 亚洲欧洲无码AV电影在线观看| 亚洲AV蜜桃永久无码精品| 亚洲日韩精品无码专区| 一本色道无码道DVD在线观看| 亚洲日韩中文字幕无码一区 | 色综合久久久久无码专区| 亚洲∧v久久久无码精品|