System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,尤其涉及一種抽樣數據的實時更新方法、裝置、設備及介質。
技術介紹
1、使用少量的抽樣數據可以高效生成大數據統計信息,以便大數據計算引擎或者數據庫使用最優的執行計劃,例如spark在對數據按照范圍分區時就采用了水塘抽樣算法。水塘抽樣算法使得按照范圍分區后,數據在各分區的分布是均勻的,不會有哈希分區可能引起數據分局不均導致的數據傾斜問題。
2、但spark僅僅在對數據做排序的時候才使用范圍分區,是因為在發起分區時才使用水塘抽樣算法生成抽樣數據,很消耗時間。spark可以生成各個字段的數據直方圖,以便了解數據分布情況,但數據直方圖需要運行命令批量生成,比較耗時,并且當數據發生變更時,數據直方圖將會變得不準確,如果查詢條件按照其他條件過濾,那么數據直方圖就無效了。
技術實現思路
1、本專利技術提供了一種抽樣數據的實時更新方法、裝置、設備及介質,當數據集發生數據變更時,能夠基于構建的抽樣數據的索引信息對抽樣數據進行實時更新,有效提高了抽樣數據的更新速度和準確性。
2、根據本專利技術的一方面,提供了一種抽樣數據的實時更新方法,所述方法包括:
3、基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;
4、根據所述抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定所述抽樣數據的目標索引信息;
5、若檢測到所述目標數據集發生數據變更,確定所述目標數據集的數據變更信息;其中,所述數據變更信息包括目標主鍵信息以及對
6、根據所述數據變更信息和所述目標索引信息對所述抽樣集合中的抽樣數據進行更新。
7、根據本專利技術的另一方面,提供了一種抽樣數據的實時更新裝置,所述裝置包括:
8、數據抽樣模塊,用于基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;
9、數據索引信息確定模塊,用于根據所述抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定所述抽樣數據的目標索引信息;
10、數據變更信息確定模塊,用于若檢測到所述目標數據集發生數據變更,確定所述目標數據集的數據變更信息;其中,所述數據變更信息包括目標主鍵信息以及對應的目標數據;
11、抽樣數據更新模塊,用于根據所述數據變更信息和所述目標索引信息對所述抽樣集合中的抽樣數據進行更新。
12、根據本專利技術的另一方面,提供了一種電子設備,所述電子設備包括:
13、至少一個處理器;以及,
14、與所述至少一個處理器通信連接的存儲器;其中,
15、所述存儲器存儲有可被所述至少一個處理器執行的計算機程序,所述計算機程序被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本專利技術任一實施例所述的抽樣數據的實時更新方法。
16、根據本專利技術的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現本專利技術任一實施例所述的抽樣數據的實時更新方法。
17、本專利技術實施例的技術方案,基于水塘抽樣算法對目標數據集進行數據抽樣得到抽樣集合;根據抽樣集合中每個抽樣數據的候選主鍵信息和候選位置信息確定抽樣數據的目標索引信息;若檢測到目標數據集發生數據變更,確定目標數據集的數據變更信息;其中,數據變更信息包括目標主鍵信息以及對應的目標數據;根據數據變更信息和目標索引信息對抽樣集合中的抽樣數據進行更新。本技術方案,當數據集發生數據變更時,能夠基于構建的抽樣數據的索引信息對抽樣數據進行實時更新,有效提高了抽樣數據的更新速度和準確性。
18、應當理解,本部分所描述的內容并非旨在標識本專利技術的實施例的關鍵或重要特征,也不用于限制本專利技術的范圍。本專利技術的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網...【技術保護點】
1.一種抽樣數據的實時更新方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據插入;
3.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據修改;
4.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據刪除;
5.根據權利要求4所述的方法,其特征在于,在將所述目標位置信息對應的抽樣數據清空,并對所述目標位置信息添加刪除標記,同時保留所述目標位置信息對應的候選主鍵信息之后,還包括:
6.根據權利要求5所述的方法,其特征在于,在基于更新結果確定所述抽樣集合中所述目標位置信息是否對應所述目標數據之后,還包括:
7.一種抽樣數據的實時更新裝置,其特征在于,所述裝置包括:
8.根據權利要求7所述的裝置,其特征在于,所述目標數據集的數據變更包括數據插入;
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計
...【技術特征摘要】
1.一種抽樣數據的實時更新方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據插入;
3.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據修改;
4.根據權利要求1所述的方法,其特征在于,所述目標數據集的數據變更包括數據刪除;
5.根據權利要求4所述的方法,其特征在于,在將所述目標位置信息對應的抽樣數據清空,并對所述目標位置信息添加刪除標記,同時保留所述目標位置信息對應的候選主鍵信息之后,還包括:
【專利技術屬性】
技術研發人員:呂虎,
申請(專利權)人:中國農業銀行股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。