【技術實現步驟摘要】
一種獲取最終用戶ID的數據處理系統
[0001]本專利技術涉及數據處理領域,特別是涉及一種獲取最終用戶ID的數據處理系統。
技術介紹
[0002]聯邦學習是一種新興的人工智能基礎技術,其目的是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私,在多參與方或多計算結點之間展開高效率的機器學習。聯邦學習系統架構由加密樣本對齊、加密模型訓練、效果激勵三部分組成,加密樣本對齊是指數據擁有方在不公開各自數據的前提下確定雙方的共有用戶,并且不暴露不互相重疊的用戶。在現有技術中,完成加密樣本對齊可以采用基于Bind RSA和哈希算法的解決方案、基于Diffie
?
Hellman的方案、基于OT和OPRF的實現等各種實現方案,但現有技術的實現對于數據量較大的樣本處理效率比較低,占用的內存空間大。
技術實現思路
[0003]針對上述技術問題,本專利技術采用的技術方案為:
[0004]一種獲取最終用戶ID的數據處理系統,系統包括數據庫、處理器和存儲有計算機程序的存儲器,存儲器中存儲有哈希函數列表B={B1,
…
,B
j
,
…
,B
n
},B
j
是指哈希函數列表中第j個哈希函數,j的取值范圍是1到n,n是指哈希函數的數量;其中,B
j
≠B
j+1
;當處理器執行一段計算機程序時,執行如下步驟:
[0005]S100,獲取原始用戶ID列表E={E1,
…r/>,E
g
,
…
,E
z
},E
g
是指第g個用戶ID,g的取值范圍是1到z,z是原始用戶ID的數量;
[0006]S200,將E通過哈希函數列表B生成對應的第一中間哈希值列表E
′
={E
′1,
…
,E
′
g
,
…
,E
′
z
},E
′
g
={E
′
g1
,
…
,E
′
gj
,
…
,E
′
gn
},E
′
gj
是指E
g
通過B
j
生成的哈希值;
[0007]S300,基于E
′
,將布隆過濾器對應的點位變成“1”;
[0008]S400,獲取目標用戶ID列表A={A1,
…
,A
i
,
…
,A
m
},A
i
是指目標用戶ID列表中第i個用戶ID,i的取值范圍是1到m,m是指目標用戶ID的數量;
[0009]S500,將A通過哈希函數列表B生成對應的第二中間哈希值列表A
′
={A
′1,
…
,A
′
i
,
…
,A
′
m
},A
′
i
={A
′
i1
,
…
,A
′
ij
,
…
,A
′
in
},A
′
ij
是指E
g
通過B
j
生成的哈希值;
[0010]S600,當A
′
i
對應布隆過濾器的點位均為“1”時,將A
i
標記為最終用戶ID并基于A
′
獲取最終用戶ID列表。
[0011]本專利技術至少具有以下有益效果:
[0012]最終用戶ID是指兩個數據提供方中的相同的用戶ID,同時在原始用戶ID在進行完哈希函數后生成的哈希值映射到布隆過濾器,目標用戶ID在經過哈希函數后第二中間哈希值和布隆過濾器中進行匹配,當第二中間哈希值對應布隆過濾器的點位均為“1”時,將A
i
標記為最終用戶ID;本專利技術在不公開數據提供方的其它的數據的情況下,找到兩個數據提供方的共有用戶ID,且使用哈希函數生成哈希值的方法,使得在數據的存儲占用空間更小,同時使用布隆過濾器,將哈希值映射到布隆過濾器中,使得在目標用戶和原始用戶匹配過程
中,匹配的效率更高。
附圖說明
[0013]為了更清楚地說明本專利技術實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0014]圖1為本專利技術實施例提供的一種獲取最終用戶ID的數據處理系統執行計算機程序的流程圖。
具體實施方式
[0015]下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。
[0016]實施例一
[0017]本實施例一提供了一種獲取最終用戶ID的數據處理系統,所述系統包括數據庫、處理器和存儲有計算機程序的存儲器,存儲器中存儲有哈希函數列表B={B1,
…
,B
j
,
…
,B
n
},B
j
是指哈希函數列表中第j個哈希函數,j的取值范圍是1到n,n是指哈希函數的數量;其中,B
j
≠B
j+1
;當處理器執行一段計算機程序時,執行如下步驟,如圖1所示:
[0018]S100,獲取原始用戶ID列表E={E1,
…
,E
g
,
…
,E
z
},E
g
是指第g個原始用戶ID,g的取值范圍是1到z,z是原始用戶ID的數量。
[0019]具體地,所述原始用戶ID用于表征原始用戶身份的唯一標識,其中,所述原始用戶是指數據擁有方提供的用戶的信息數據。
[0020]S200,將E通過哈希函數列表B生成對應的第一中間哈希值列表E
′
={E
′1,
…
,E
′
g
,
…
,E
′
z
},E
′
g
={E
′
g1
,
…
,E
′
gj
,
…
,E
′
gn
},E
′
gj
是指E
g
通過B
本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種獲取最終用戶ID的數據處理系統,其特征在于,所述系統包括數據庫、處理器和存儲有計算機程序的存儲器,存儲器中存儲有哈希函數列表B={B1,
…
,B
j
,
…
,B
n
},B
j
是指哈希函數列表中第j個哈希函數,j的取值范圍是1到n,n是指哈希函數的數量;其中,B
j
≠B
j+1
;當處理器執行一段計算機程序時,執行如下步驟:S100,獲取原始用戶ID列表E={E1,
…
,E
g
,
…
,E
z
},E
g
是指第g個用戶ID,g的取值范圍是1到z,z是原始用戶ID的數量;S200,將E通過哈希函數列表B生成對應的第一中間哈希值列表E
′
={E
′1,
…
,E
′
g
,
…
,E
′
z
},E
′
g
={E
′
g1
,
…
,E
′
gj
,
…
,E
′
gn
},E
′
gj
是指E
g
通過B
j
生成的哈希值;S300,基于E
′
,將布隆過濾器對應的點位變成“1”;S400,獲取目標用戶ID列表A={A1,
…
,A
i
,
…
,A
m
},A
i
是指目標用戶ID列表中第i個用戶ID,i的取值范圍是1到m,m是指目標用戶ID的數量;S500,...
【專利技術屬性】
技術研發人員:張靜雅,張波,
申請(專利權)人:北京云真信科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。