System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及醫(yī)療數(shù)據(jù)系統(tǒng),具體涉及一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法。
技術(shù)介紹
1、在一個醫(yī)療數(shù)據(jù)領(lǐng)應(yīng)用實踐領(lǐng)域中,常常遇到異構(gòu)數(shù)據(jù)源之間的全量、增量數(shù)據(jù)抽取,在大型的醫(yī)療領(lǐng)域數(shù)據(jù)中,異構(gòu)數(shù)據(jù)源之間的增量同步場景尤為常見,然而很多數(shù)據(jù)廠商常常面臨的數(shù)據(jù)增量同步中數(shù)據(jù)缺失、準(zhǔn)確率不高、故而導(dǎo)致公司業(yè)務(wù)面臨著巨大挑戰(zhàn)。
2、為了實現(xiàn)異構(gòu)數(shù)據(jù)源之間增量抽取后的數(shù)據(jù)缺失補償方案,傳統(tǒng)的數(shù)據(jù)實施人員采用基于not?exists的sql語句和基于sort-merge?join(s-mj)方法。
3、基于not?exists的sql語句的方案數(shù)據(jù)庫執(zhí)行過充中需要執(zhí)行m*n次比較,時間復(fù)雜度o(n)2?n的平方,性能急劇下降。
4、基于sort-merge?join(s-mj)方法的方案?排序(sort)?對兩個數(shù)據(jù)集按照連接進行外部排序算法、合并(merge)?對排序后數(shù)據(jù)集進行合并操作,合并類似歸并排序,連接操作(join)?時間復(fù)雜度o(logn)2?n。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)主要解決現(xiàn)有技術(shù)中存在的不足,提供了一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其極大降低了比對次數(shù),同時通過whirlpool算法對限定屬性字段數(shù)據(jù)記錄行轉(zhuǎn)化成hash值,并對數(shù)據(jù)行的分段切片,對限定屬性字段分片數(shù)據(jù)行記錄進行算法處理得到的hash值結(jié)果通過比對。實現(xiàn)提高兩個數(shù)據(jù)集的比對效率和準(zhǔn)確率。
2、本專利技術(shù)的上述技術(shù)問題主要
3、一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,包括如下操作步驟:
4、第一步:配置比對的數(shù)據(jù)集a、數(shù)據(jù)集b,同時數(shù)據(jù)集a和數(shù)據(jù)集b分別連接url信息、數(shù)據(jù)分段大小、提供封裝好的whirlpool算法程序。
5、第二步:配置數(shù)據(jù)集a、數(shù)據(jù)集b對應(yīng)的數(shù)據(jù)集jdbc的連接url地址、用戶名-username、密碼-password、庫-schema;比對的數(shù)據(jù)集a源表、數(shù)據(jù)集b目標(biāo)表對應(yīng)的信息。每一信息資源都有統(tǒng)一的且在網(wǎng)上的地址,該地址就叫url,即uniform?resource?locator,又稱為統(tǒng)一資源定位器。
6、第三步:批量抽取數(shù)據(jù)記錄,然后根據(jù)切片分段大小值來生成每一小分段數(shù)據(jù)記錄的計算后hash值。
7、第四步:記錄對應(yīng)的hash值到記錄到散列表中,對數(shù)據(jù)集a、數(shù)據(jù)集b中每個數(shù)據(jù)記錄小分段動態(tài)whirlpool生成對應(yīng)的hash值,代表某一小分片記錄。
8、第五步:數(shù)據(jù)集a限定的字段列表分片記錄經(jīng)過計算得到hash值ha,數(shù)據(jù)集b限定的字段列表分片經(jīng)過計算得到的hash值hb,進行字符串之間ha、hb比對r=culatewhirlpool.ha==culatewhirlpool.hb?判斷比對的結(jié)果。
9、第六步:進行比對結(jié)果不一致的前提下,需要對數(shù)據(jù)集a、數(shù)據(jù)集b缺失的數(shù)據(jù)記錄填充進去。
10、作為優(yōu)選,數(shù)據(jù)集a、數(shù)據(jù)集b的切片分段為0-10000,a={?m(0-10000)};b={?m(0-10000)}。
11、作為優(yōu)選,數(shù)據(jù)經(jīng)過分片后經(jīng)過whirlpool算法得到對應(yīng)的hash值,ha=culatewhirlpool為數(shù)據(jù)集a的分片數(shù),hb?=culatewhirlpool為數(shù)據(jù)集b的分片數(shù)。
12、作為優(yōu)選,whirlpool算法采用了六個不同的主要架構(gòu)組件,分別為密鑰擴展、初始置換、同部置換、非線性步驟、短陣置換和輸出轉(zhuǎn)換。
13、作為優(yōu)選,融入了whirlpool算法的hash值獲得的分片的記錄、限定了每次比對的數(shù)據(jù)行數(shù)、每次比較的字符串長度和數(shù)據(jù)記錄數(shù)、降低了總的比對次數(shù)、在數(shù)據(jù)量大且屬性字段多的情況下,優(yōu)勢更加明顯、提高了比對過程中的準(zhǔn)確率、比對效率。
14、作為優(yōu)選,比對結(jié)果出現(xiàn)相同、則認(rèn)為0-10000區(qū)域內(nèi)增量數(shù)據(jù)記錄未未缺失;如果比對結(jié)果出不等,則需要進行2分切半為0-5000和5000-10000獲取到對應(yīng)的culate_whirlpool.helf.ha=culate_whirlpool.helf.hb依次二分法式比較,拆半進一步比對。
15、作為優(yōu)選,當(dāng)0-5000相同時,在5000-10000區(qū)域拆分為5000-7500和7500-10000進行比較,找出不同處。
16、作為優(yōu)選,當(dāng)5000-10000相同時,在0-5000區(qū)域拆分為0-2500和2500-5000進行比較,找出不同處。
17、作為優(yōu)選,切片分段成四段,每一小分段數(shù)據(jù)分別為0-2500、2500-5000、5000-7500和7500-10000;代表某一小分片記錄為這4段中的其中一段數(shù)據(jù)。
18、本專利技術(shù)能夠達到如下效果:
19、本專利技術(shù)提供了一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,與現(xiàn)有技術(shù)相比較,極大降低了比對次數(shù),同時通過whirlpool算法對限定屬性字段數(shù)據(jù)記錄行轉(zhuǎn)化成hash值,并對數(shù)據(jù)行的分段切片,對限定屬性字段分片數(shù)據(jù)行記錄進行算法處理得到的hash值結(jié)果通過比對。實現(xiàn)提高兩個數(shù)據(jù)集的比對效率和準(zhǔn)確率。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于包括如下操作步驟:
2.根據(jù)權(quán)利要求1所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:數(shù)據(jù)集A、數(shù)據(jù)集B的切片分段為0-10000,A={?M(0-10000)};B={?M(0-10000)}。
3.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:數(shù)據(jù)經(jīng)過分片后經(jīng)過Whirlpool算法得到對應(yīng)的Hash值,Ha=culatewhirlpool為數(shù)據(jù)集A的分片數(shù),Hb?=culatewhirlpool為數(shù)據(jù)集B的分片數(shù)。
4.根據(jù)權(quán)利要求3所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:Whirlpool算法采用了六個不同的主要架構(gòu)組件,分別為密鑰擴展、初始置換、同部置換、非線性步驟、短陣置換和輸出轉(zhuǎn)換。
5.根據(jù)權(quán)利要求2或4所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:融入了Whirlpool算法的hash值獲得的分片的記錄、限定了每次比對的數(shù)據(jù)行數(shù)、每次比較的字符串長度和數(shù)
6.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:比對結(jié)果出現(xiàn)相同、則認(rèn)為0-10000區(qū)域內(nèi)增量數(shù)據(jù)記錄未未缺失;如果比對結(jié)果出不等,則需要進行2分切半為0-5000和5000-10000獲取到對應(yīng)的culate_whirlpool.helf.ha=culate_whirlpool.helf.hb依次二分法式比較,拆半進一步比對。
7.根據(jù)權(quán)利要求6所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:當(dāng)0-5000相同時,在5000-10000區(qū)域拆分為5000-7500和7500-10000進行比較,找出不同處。
8.根據(jù)權(quán)利要求6所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:當(dāng)5000-10000相同時,在0-5000區(qū)域拆分為0-2500和2500-5000進行比較,找出不同處。
9.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:切片分段成四段,每一小分段數(shù)據(jù)分別為0-2500、2500-5000、5000-7500和7500-10000;代表某一小分片記錄為這4段中的其中一段數(shù)據(jù)。
...【技術(shù)特征摘要】
1.一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于包括如下操作步驟:
2.根據(jù)權(quán)利要求1所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:數(shù)據(jù)集a、數(shù)據(jù)集b的切片分段為0-10000,a={?m(0-10000)};b={?m(0-10000)}。
3.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:數(shù)據(jù)經(jīng)過分片后經(jīng)過whirlpool算法得到對應(yīng)的hash值,ha=culatewhirlpool為數(shù)據(jù)集a的分片數(shù),hb?=culatewhirlpool為數(shù)據(jù)集b的分片數(shù)。
4.根據(jù)權(quán)利要求3所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:whirlpool算法采用了六個不同的主要架構(gòu)組件,分別為密鑰擴展、初始置換、同部置換、非線性步驟、短陣置換和輸出轉(zhuǎn)換。
5.根據(jù)權(quán)利要求2或4所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法,其特征在于:融入了whirlpool算法的hash值獲得的分片的記錄、限定了每次比對的數(shù)據(jù)行數(shù)、每次比較的字符串長度和數(shù)據(jù)記錄數(shù)、降低了總的比對次數(shù)、在數(shù)據(jù)量大且屬性字段多的情況下,優(yōu)勢更加明顯、提高了比對過...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:韓敏,童晶繼,周潤澤,汪利東,
申請(專利權(quán))人:杭州古珀醫(yī)療科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。