System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,具體涉及一種數據質量提升處理方法。
技術介紹
1、數據質量提升是一個涉及多個步驟和策略的過程,以下是一些具體的方法,這些方法可以幫助組織提高其數據的質量;包括數據清洗、數據驗證、標準化、數據審計、數據映射、數據歸檔和數據監控等。
2、數據清洗是重新審查和校驗數據的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性;涵蓋了從數據預處理到轉換、驗證、存儲的多個環節;包括數據預處理、數據轉換、數據集成、數據驗證和數據存儲等。
3、現有技術中,在對原始數據進行數據預處理時,往往包括刪除重復數據,過程為依次檢查原始數據中是否存在重復數據,若存在刪除重復數據;但對于大量且存在較多的字段的原始數據時,依次檢查各字段內的數據內容來檢查重復數據的方法的效率較低,大大增加數據處理的時間和成本。
技術實現思路
1、本專利技術的目的在于提供一種數據質量提升處理方法,解決以上技術問題。
2、本專利技術的目的可以通過以下技術方案實現:
3、一種數據質量提升處理方法,包括以下步驟:
4、步驟s1:在數據庫中,獲取全部字段,并獲取數據庫中已存儲的數據,根據已存儲的數據獲得各字段的重復率;設定重復率閾值,將各字段的重復率從小到大進行排列,選取重復率相加后最接近所述重復率閾值的前若干個字段,記為差異字段;
5、步驟s2:記新導入所述數據庫的全部數據為原始數據,獲取原始數據的差異字段;獲取所述差異字段內的字段內容并
6、步驟s3:將組合內的二進制字符從大到小進行排列,得到{b1,b2,...,bk},其中b1為第1個二進制字符,k為二進制字符的總個數;并將組合內的二進制字符劃分為若干對照組,得到{(b1,b2),(b3,b4),...,(bk-1,bk)},其中(b1,b2)表示由b1和b2構成的對照組;
7、分別記bk-1和bk各數位上的值為bk={v1k,v2k,...,vsk},bk-1={v1k-1,v2k-1,...,vsk-1},其中s為bk-1和bk的位數,v1k為bk第1個數位上的值,v1k-1為bk-1第1個數位上的值;并獲得對照組的差值和s=|v1j-v1j-1|+|v2j-v2j-1|+...+|vsj-vsj-1|,其中j∈[1,k]且j為正整數;
8、步驟s4:組合內,若s均不為0,則重新排列{b2,b3,...,bk-1},重新得到對照組{(b2,b3),(b4,b5),...,(bk-2,bk-1)},并重新獲得對照組的差值和,記為二次差值和s′;
9、步驟s5:組合內,若存在s或s′為0,則記該對照組為重復對,去除所述重復對內任意一個二進制字符,并重新劃分對照組,判斷對照組的差值和;以此類推;
10、步驟s6:若s和s′均不為0,則組合內全部二進制字符對應的原始數據不存在重復;若組合內存在重復對,獲取重復對內兩個二進制字符對應的原始數據,核驗兩個原始數據是否重復。
11、作為本專利技術進一步的方案:在步驟s1中,所述重復率的獲得過程包括:
12、獲取所述數據庫中已存儲的數據的總數目n,設定初始重復次數為0;對于任意一個字段,在已存儲的數據中任意選取一個數據,檢查該數據在字段內是否存在與其重復的數據;
13、若檢查后該數據存在與其重復的數據,則使初始重復次數的值加1,并排除該數據及與其重復的全部數據,在剩余的數據中繼續任意選取一個新的數據,檢查是否存在與其重復的數據;若檢查后該數據不存在與其重復的數據,則排除該數據,在剩余的數據中繼續任意選取一個新的數據,檢查是否存在與其重復的數據;
14、當字段內的全部數據均檢查結束后,獲得最終的初始重復次數,記為n,則該字段的重復率r=n/n*100%。
15、作為本專利技術進一步的方案:在步驟s1中,所述重復率閾值的設定范圍為[10%,30%]。
16、作為本專利技術進一步的方案:在步驟s1中,所述差異字段的確定過程包括:
17、將全部字段的重復率從小到大進行排序,記排序后的全部重復率為{r1,r2,...,ri},其中r1表示第1個字段重復率,i為重復率的總個數;
18、記所述重復率閾值為rt,選取前x個重復率,使得的值達到最小值,則記這x個重復率對應的字段為差異字段,m∈[1,x]且m為正整數。
19、作為本專利技術進一步的方案:在步驟s2中,當組合內只有一個二進制字符時,直接記該二進制字符對應的原始數據不存在重復數據。
20、作為本專利技術進一步的方案:在步驟s3中,當{b1,b2,...,bk}中,k為奇數時,若干對照組的劃分過程為{(b1,b2),(b3,b4),...,(bk-2,bk-1)},此時存在單獨的bk;
21、此時獲得{(b1,b2),(b3,b4),...,(bk-2,bk-1)}中各對照組的差值和s,若s不為0,則重新排列為{b2,b3,...,bk},并重新劃分對照組為{(b2,b3),(b4,b5),...,(bk-1,bk)}。
22、作為本專利技術進一步的方案:在步驟s6中,核驗兩個原始數據是否重復的過程包括:
23、在重復率大小排序后的全部字段中,篩除差異字段,獲得全部的其余字段;根據重復率的大小,從小到大依次分析兩個原始數據其余字段的字段內容;
24、獲取兩個原始數據的其余字段的字段內容,并將兩個原始數據的字段內容轉換為二進制字符,根據兩個二進制字符的差值和,核驗兩個原始數據是否重復。
25、作為本專利技術進一步的方案:在步驟s6中,核驗兩個原始數據是否重復的過程還包括:
26、若兩個原始數據的全部其余字段的二進制字符的差值和均為0,則這兩個原始數據互為重復數據,并在所述數據庫中刪除其中任意一個原始數據;若兩個原始數據的全部其余字段的二進制字符的差值和中存在任意一個不為0,則這兩個原始數據不重復。
27、本專利技術的有益效果:
28、現有技術中,在對原始數據進行數據預處理時,往往包括刪除重復數據,過程為依次檢查原始數據中是否存在重復數據,若存在刪除重復數據;但對于大量且存在較多的字段的原始數據時,依次檢查各字段內的數據內容來檢查重復數據的方法的效率較低,大大增加數據處理的時間和成本;相較于現有技術,本專利技術在數據庫中計算字段的重復率,并根據設定的重復率閾值,選擇重復率相加后最接近該閾值的一組字段,稱為差異字段;將新導入的原始數據中的差異字段進行二進制轉換,生成二進制字符,按二進制字符的位數將它們分組;將每個組內的二進制字符從大到小排列,生成對照組并計算每個對照組的差值和;如果某對照組的差值和為零,則認為該對照組包含重復數據;如果所有對照組的差值和都不為零,重新排列字符并再次生成對照組,計算新的差值和;重復以上步驟,直到識本文檔來自技高網...
【技術保護點】
1.一種數據質量提升處理方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟S1中,所述重復率的獲得過程包括:
3.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟S1中,所述重復率閾值的設定范圍為[10%,30%]。
4.根據權利要求3所述的一種數據質量提升處理方法,其特征在于,在步驟S1中,所述差異字段的確定過程包括:
5.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟S2中,當組合內只有一個二進制字符時,直接記該二進制字符對應的原始數據不存在重復數據。
6.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟S3中,當{B1,B2,...,Bk}中,k為奇數時,若干對照組的劃分過程為{(B1,B2),(B3,B4),...,(Bk-2,Bk-1)},此時存在單獨的Bk;
7.根據權利要求4所述的一種數據質量提升處理方法,其特征在于,在步驟S6中,核驗兩個原始數據是否重復的過程包括:
8.根據權利要
...【技術特征摘要】
1.一種數據質量提升處理方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟s1中,所述重復率的獲得過程包括:
3.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟s1中,所述重復率閾值的設定范圍為[10%,30%]。
4.根據權利要求3所述的一種數據質量提升處理方法,其特征在于,在步驟s1中,所述差異字段的確定過程包括:
5.根據權利要求1所述的一種數據質量提升處理方法,其特征在于,在步驟s2中,當組合內只有一個二進制字符時,直...
【專利技術屬性】
技術研發人員:于洪方,
申請(專利權)人:北京遠景視點科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。