當(dāng)前位置: 首頁 > 專利查詢>杭州古珀醫(yī)療科技有限公司專利>正文

醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法技術(shù)

技術(shù)編號：42371154 閱讀：13 留言：0更新日期：2024-08-16 14:53

本發(fā)明專利技術(shù)涉及一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，所屬醫(yī)療數(shù)據(jù)系統(tǒng)技術(shù)領(lǐng)域，包括如下操作步驟：第一步：配置比對的數(shù)據(jù)集A、數(shù)據(jù)集B，同時數(shù)據(jù)集A和數(shù)據(jù)集B分別連接URL信息、數(shù)據(jù)分段大小、提供封裝好的Whirlpool算法程序。第二步：比對的數(shù)據(jù)集A源表、數(shù)據(jù)集B目標(biāo)表對應(yīng)的信息。第三步：根據(jù)切片分段大小值來生成每一小分段數(shù)據(jù)記錄的計算后Hash值。第四步：對數(shù)據(jù)集A、數(shù)據(jù)集B中每個數(shù)據(jù)記錄小分段動態(tài)Whirlpool生成對應(yīng)的Hash值。第五步：數(shù)據(jù)集A經(jīng)過計算得到Hash值ha，數(shù)據(jù)集B經(jīng)過計算得到的Hash值hb。第六步：進行比對結(jié)果不一致的前提下，需要對數(shù)據(jù)集A、數(shù)據(jù)集缺失的數(shù)據(jù)記錄填充進去。實現(xiàn)提高兩個數(shù)據(jù)集的比對效率和準(zhǔn)確率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及醫(yī)療數(shù)據(jù)系統(tǒng)，具體涉及一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法。

技術(shù)介紹

1、在一個醫(yī)療數(shù)據(jù)領(lǐng)應(yīng)用實踐領(lǐng)域中，常常遇到異構(gòu)數(shù)據(jù)源之間的全量、增量數(shù)據(jù)抽取，在大型的醫(yī)療領(lǐng)域數(shù)據(jù)中，異構(gòu)數(shù)據(jù)源之間的增量同步場景尤為常見，然而很多數(shù)據(jù)廠商常常面臨的數(shù)據(jù)增量同步中數(shù)據(jù)缺失、準(zhǔn)確率不高、故而導(dǎo)致公司業(yè)務(wù)面臨著巨大挑戰(zhàn)。

2、為了實現(xiàn)異構(gòu)數(shù)據(jù)源之間增量抽取后的數(shù)據(jù)缺失補償方案，傳統(tǒng)的數(shù)據(jù)實施人員采用基于not?exists的sql語句和基于sort-merge?join（s-mj)方法。

3、基于not?exists的sql語句的方案數(shù)據(jù)庫執(zhí)行過充中需要執(zhí)行m*n次比較，時間復(fù)雜度o(n)2?n的平方，性能急劇下降。

4、基于sort-merge?join（s-mj)方法的方案?排序(sort)?對兩個數(shù)據(jù)集按照連接進行外部排序算法、合并(merge)?對排序后數(shù)據(jù)集進行合并操作，合并類似歸并排序，連接操作（join)?時間復(fù)雜度o(logn)2?n。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)主要解決現(xiàn)有技術(shù)中存在的不足，提供了一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其極大降低了比對次數(shù)，同時通過whirlpool算法對限定屬性字段數(shù)據(jù)記錄行轉(zhuǎn)化成hash值，并對數(shù)據(jù)行的分段切片，對限定屬性字段分片數(shù)據(jù)行記錄進行算法處理得到的hash值結(jié)果通過比對。實現(xiàn)提高兩個數(shù)據(jù)集的比對效率和準(zhǔn)確率。

2、本專利技術(shù)的上述技術(shù)問題主要

3、一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，包括如下操作步驟：

4、第一步：配置比對的數(shù)據(jù)集a、數(shù)據(jù)集b，同時數(shù)據(jù)集a和數(shù)據(jù)集b分別連接url信息、數(shù)據(jù)分段大小、提供封裝好的whirlpool算法程序。

5、第二步：配置數(shù)據(jù)集a、數(shù)據(jù)集b對應(yīng)的數(shù)據(jù)集jdbc的連接url地址、用戶名-username、密碼-password、庫-schema；比對的數(shù)據(jù)集a源表、數(shù)據(jù)集b目標(biāo)表對應(yīng)的信息。每一信息資源都有統(tǒng)一的且在網(wǎng)上的地址，該地址就叫url，即uniform?resource?locator，又稱為統(tǒng)一資源定位器。

6、第三步：批量抽取數(shù)據(jù)記錄，然后根據(jù)切片分段大小值來生成每一小分段數(shù)據(jù)記錄的計算后hash值。

7、第四步：記錄對應(yīng)的hash值到記錄到散列表中，對數(shù)據(jù)集a、數(shù)據(jù)集b中每個數(shù)據(jù)記錄小分段動態(tài)whirlpool生成對應(yīng)的hash值，代表某一小分片記錄。

8、第五步：數(shù)據(jù)集a限定的字段列表分片記錄經(jīng)過計算得到hash值ha，數(shù)據(jù)集b限定的字段列表分片經(jīng)過計算得到的hash值hb，進行字符串之間ha、hb比對r=culatewhirlpool.ha==culatewhirlpool.hb?判斷比對的結(jié)果。

9、第六步：進行比對結(jié)果不一致的前提下，需要對數(shù)據(jù)集a、數(shù)據(jù)集b缺失的數(shù)據(jù)記錄填充進去。

10、作為優(yōu)選，數(shù)據(jù)集a、數(shù)據(jù)集b的切片分段為0-10000，a={?m(0-10000)}；b={?m(0-10000)}。

11、作為優(yōu)選，數(shù)據(jù)經(jīng)過分片后經(jīng)過whirlpool算法得到對應(yīng)的hash值，ha=culatewhirlpool為數(shù)據(jù)集a的分片數(shù)，hb?=culatewhirlpool為數(shù)據(jù)集b的分片數(shù)。

12、作為優(yōu)選，whirlpool算法采用了六個不同的主要架構(gòu)組件，分別為密鑰擴展、初始置換、同部置換、非線性步驟、短陣置換和輸出轉(zhuǎn)換。

13、作為優(yōu)選，融入了whirlpool算法的hash值獲得的分片的記錄、限定了每次比對的數(shù)據(jù)行數(shù)、每次比較的字符串長度和數(shù)據(jù)記錄數(shù)、降低了總的比對次數(shù)、在數(shù)據(jù)量大且屬性字段多的情況下，優(yōu)勢更加明顯、提高了比對過程中的準(zhǔn)確率、比對效率。

14、作為優(yōu)選，比對結(jié)果出現(xiàn)相同、則認(rèn)為0-10000區(qū)域內(nèi)增量數(shù)據(jù)記錄未未缺失；如果比對結(jié)果出不等，則需要進行2分切半為0-5000和5000-10000獲取到對應(yīng)的culate_whirlpool.helf.ha=culate_whirlpool.helf.hb依次二分法式比較，拆半進一步比對。

15、作為優(yōu)選，當(dāng)0-5000相同時，在5000-10000區(qū)域拆分為5000-7500和7500-10000進行比較，找出不同處。

16、作為優(yōu)選，當(dāng)5000-10000相同時，在0-5000區(qū)域拆分為0-2500和2500-5000進行比較，找出不同處。

17、作為優(yōu)選，切片分段成四段，每一小分段數(shù)據(jù)分別為0-2500、2500-5000、5000-7500和7500-10000；代表某一小分片記錄為這4段中的其中一段數(shù)據(jù)。

18、本專利技術(shù)能夠達到如下效果：

19、本專利技術(shù)提供了一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，與現(xiàn)有技術(shù)相比較，極大降低了比對次數(shù)，同時通過whirlpool算法對限定屬性字段數(shù)據(jù)記錄行轉(zhuǎn)化成hash值，并對數(shù)據(jù)行的分段切片，對限定屬性字段分片數(shù)據(jù)行記錄進行算法處理得到的hash值結(jié)果通過比對。實現(xiàn)提高兩個數(shù)據(jù)集的比對效率和準(zhǔn)確率。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于包括如下操作步驟：

2.根據(jù)權(quán)利要求1所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：數(shù)據(jù)集A、數(shù)據(jù)集B的切片分段為0-10000，A={?M(0-10000)}；B={?M(0-10000)}。

3.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：數(shù)據(jù)經(jīng)過分片后經(jīng)過Whirlpool算法得到對應(yīng)的Hash值，Ha=culatewhirlpool為數(shù)據(jù)集A的分片數(shù)，Hb?=culatewhirlpool為數(shù)據(jù)集B的分片數(shù)。

4.根據(jù)權(quán)利要求3所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：Whirlpool算法采用了六個不同的主要架構(gòu)組件，分別為密鑰擴展、初始置換、同部置換、非線性步驟、短陣置換和輸出轉(zhuǎn)換。

5.根據(jù)權(quán)利要求2或4所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：融入了Whirlpool算法的hash值獲得的分片的記錄、限定了每次比對的數(shù)據(jù)行數(shù)、每次比較的字符串長度和數(shù)

6.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：比對結(jié)果出現(xiàn)相同、則認(rèn)為0-10000區(qū)域內(nèi)增量數(shù)據(jù)記錄未未缺失；如果比對結(jié)果出不等，則需要進行2分切半為0-5000和5000-10000獲取到對應(yīng)的culate_whirlpool.helf.ha=culate_whirlpool.helf.hb依次二分法式比較，拆半進一步比對。

7.根據(jù)權(quán)利要求6所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：當(dāng)0-5000相同時，在5000-10000區(qū)域拆分為5000-7500和7500-10000進行比較，找出不同處。

8.根據(jù)權(quán)利要求6所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：當(dāng)5000-10000相同時，在0-5000區(qū)域拆分為0-2500和2500-5000進行比較，找出不同處。

9.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：切片分段成四段，每一小分段數(shù)據(jù)分別為0-2500、2500-5000、5000-7500和7500-10000；代表某一小分片記錄為這4段中的其中一段數(shù)據(jù)。

...

【技術(shù)特征摘要】

1.一種醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于包括如下操作步驟：

2.根據(jù)權(quán)利要求1所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：數(shù)據(jù)集a、數(shù)據(jù)集b的切片分段為0-10000，a={?m(0-10000)}；b={?m(0-10000)}。

3.根據(jù)權(quán)利要求2所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：數(shù)據(jù)經(jīng)過分片后經(jīng)過whirlpool算法得到對應(yīng)的hash值，ha=culatewhirlpool為數(shù)據(jù)集a的分片數(shù)，hb?=culatewhirlpool為數(shù)據(jù)集b的分片數(shù)。

4.根據(jù)權(quán)利要求3所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：whirlpool算法采用了六個不同的主要架構(gòu)組件，分別為密鑰擴展、初始置換、同部置換、非線性步驟、短陣置換和輸出轉(zhuǎn)換。

5.根據(jù)權(quán)利要求2或4所述的醫(yī)療領(lǐng)域數(shù)據(jù)增量同步過程數(shù)據(jù)缺失的補償填充方法，其特征在于：融入了whirlpool算法的hash值獲得的分片的記錄、限定了每次比對的數(shù)據(jù)行數(shù)、每次比較的字符串長度和數(shù)據(jù)記錄數(shù)、降低了總的比對次數(shù)、在數(shù)據(jù)量大且屬性字段多的情況下，優(yōu)勢更加明顯、提高了比對過...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：韓敏，童晶繼，周潤澤，汪利東，
申請(專利權(quán))人：杭州古珀醫(yī)療科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)