System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,尤其涉及大數據集群遷移的數據驗證方法、裝置、設備及介質。
技術介紹
1、隨著大數據技術的快速發展與普及,大數據集群的規模日益擴大,跨城市的大數據集群搬遷需求也隨之增加。在搬遷過程中,需要確保大數據集群不停機運行,以維持業務的連續性和穩定性。
2、為了實現大數據集群的平穩切換,現有技術通過搭建一套新大數據集群并與原大數據集群來實現并行,在并行過程中,新大數據集群的數據和原大數據集群的數據需要保持同步。
3、現有的同步方案主要包括一讀雙寫方案、雙跑方案以及任務拆分方案,對于一讀雙寫方案來說,雖然該方案能實現兩個集群的數據的同步更新,但需要大量人力對原大數據集群的數據同步程序進行改造,且改造過程中可能對原大數據集群的穩定性造成不利影響,此外,將原大數據集群的大量數據寫入新大數據集群中還存在帶寬性能瓶頸問題;對于雙跑方案,通過讓原大數據集群和新大數據集群分別從源庫取數,互不影響。然而,這種方案會導致ods層數據因同步時間點的差異而產生不一致,進而影響到兩個集群下ods層下游程序加工出來的數據結果的一致性,這不僅需要投入大量人力進行差異核查,還影響搬遷成果;對于任務拆分方案,通過將原大數據集群和新大數據集群中的導入動作和合并動作進行拆分,拆分后只針對導入的增量變化數據進行一讀雙寫。這一方案同樣需要投入大量人力對同步程序和工作流進行拆分,且可能對原大數據集群的程序穩定性造成不利影響。
技術實現思路
1、本專利技術實施例提供了大數據集群遷移的數據驗
2、第一方面,本專利技術實施例提供了一種大數據集群遷移的數據驗證方法,包括:
3、基于原始數據集群,創建目標數據集群,并對所述目標數據集群進行預處理;
4、對預處理后的目標數據集群進行標記,得到ods同步任務;
5、識別所述ods同步任務中的導入命令,若識別成功,則從所述原始數據集群中抓取增量變化表數據至所述目標數據集群;
6、判斷所述原始數據集群的當前存儲數據以及所述目標數據集群的當前存儲數據是否為相同數據量,若為相同數據量,則將兩個存儲數據以及所述增量變化表數據分別在對應的數據集群上進行同步和合并,得到兩個合并表;
7、驗證兩個所述合并表的數據一致性。
8、第二方面,本專利技術實施例提供了一種基于大數據集群遷移的數據驗證裝置,包括:
9、預處理單元,用于基于原始數據集群,創建目標數據集群,并對所述目標數據集群進行預處理;
10、標記單元,用于對預處理后的目標數據集群進行標記,得到ods同步任務;
11、識別單元,用于識別所述ods同步任務中的導入命令,若識別成功,則從所述原始數據集群中抓取增量變化表數據至所述目標數據集群;
12、合并單元,用于判斷所述原始數據集群的當前存儲數據以及所述目標數據集群的當前存儲數據是否為相同數據量,若為相同數據量,則將兩個存儲數據以及所述增量變化表數據分別在對應的數據集群上進行同步和合并,得到兩個合并表;
13、驗證單元,用于驗證兩個所述合并表的數據一致性。
14、第三方面,本專利技術實施例提供了一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如前所述的數據驗證方法。
15、第四方面,本專利技術實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如前所述的數據驗證方法。
16、本專利技術實施例提供了一種大數據集群遷移的數據驗證方法、裝置、設備及介質,該驗證方法通過在原始數據集群上新建一個目標數據集群,并對目標數據集群進行預處理,然后對預處理后的目標數據集群進行標記,得到ods同步任務,通過識別ods同步任務中的導入命令,根據識別結果將目標數據集群從原始數據集群中抓取增量變化表數據,直至目標數據集群和原始數據集群的當前存儲數據的數據量相同時,再進行同步和合并,得到兩個合并表。本實施例導入的增量變化表數據使得兩個集群的數據能夠保持一致,有效避免了遷移數據不一致的問題,并且導入的增量變化表數據較合并后的全量數據小,此時只需從原始數據集群中抓取增量變化表數據即可,無需每天拷貝全量數據,大大降低了跨城市數據遷移的帶寬瓶頸。
本文檔來自技高網...【技術保護點】
1.一種大數據集群遷移的數據驗證方法,其特征在于,包括:
2.根據權利要求1所述的數據驗證方法,其特征在于,所述基于原始數據集群,創建目標數據集群,并對所述目標數據集群進行預處理,包括:
3.根據權利要求1所述的數據驗證方法,其特征在于,所述對預處理后的目標數據集群進行標記,得到ODS同步任務,包括:
4.根據權利要求1所述的數據驗證方法,其特征在于,所述識別所述ODS同步任務中的導入命令,若識別成功,則從所述原始數據集群中抓取增量變化表數據至所述目標數據集群,包括:
5.根據權利要求1所述的數據驗證方法,其特征在于,還包括:
6.根據權利要求1所述的數據驗證方法,其特征在于,所述驗證兩個所述合并表的數據一致性,包括:
7.根據權利要求1所述的數據驗證方法,其特征在于,還包括:
8.一種大數據集群遷移的數據驗證裝置,用于實現權利要求1-7任一項所述的數據驗證方法,其特征在于,包括:
9.一種計算機設備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的數據驗證方法。
...【技術特征摘要】
1.一種大數據集群遷移的數據驗證方法,其特征在于,包括:
2.根據權利要求1所述的數據驗證方法,其特征在于,所述基于原始數據集群,創建目標數據集群,并對所述目標數據集群進行預處理,包括:
3.根據權利要求1所述的數據驗證方法,其特征在于,所述對預處理后的目標數據集群進行標記,得到ods同步任務,包括:
4.根據權利要求1所述的數據驗證方法,其特征在于,所述識別所述ods同步任務中的導入命令,若識別成功,則從所述原始數據集群中抓取增量變化表數據至所述目標數據集群,包括:
5.根據權利要求1所述的數據驗證方法,其特征在于,還包括:
6.根據權利要求1所述的數據驗...
【專利技術屬性】
技術研發人員:戴建明,馬志偉,
申請(專利權)人:中國平安人壽保險股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。