System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及特征工程,特別涉及一種基于秘密共享的隱私保護(hù)特征工程方法及系統(tǒng)。
技術(shù)介紹
1、秘密共享是安全多方計(jì)算中使用的基礎(chǔ)技術(shù)模塊,主要包括秘密分發(fā)和秘密重構(gòu)兩個(gè)階段,其中有負(fù)責(zé)秘密分發(fā)和重構(gòu)的秘密管理員和保存秘密份額的秘密參與方。
2、隱私保護(hù)特征工程是指在確保數(shù)據(jù)隱私的前提下,進(jìn)行特征提取、選擇和變換等特征工程操作。特征工程是機(jī)器學(xué)習(xí)中的關(guān)鍵步驟,旨在從原始數(shù)據(jù)中提取出能夠提高模型性能的特征。
3、在特征工程的應(yīng)用場(chǎng)景下,需要將原始數(shù)據(jù)集加工為模型訓(xùn)練數(shù)據(jù),并需要數(shù)據(jù)集以密文的方式分布在多個(gè)計(jì)算方服務(wù)器參與運(yùn)算,此時(shí)需要分布式的隱私保護(hù)特征工程,并保證參與方輸入數(shù)據(jù)、輸出結(jié)果的隱私性。目前在隱私保護(hù)特征工程中,主要采用縱向聯(lián)邦學(xué)習(xí)和半同態(tài)加密實(shí)現(xiàn)特征工程中的某一個(gè)環(huán)節(jié):
4、(1)縱向聯(lián)邦學(xué)習(xí)技術(shù):縱向聯(lián)邦學(xué)習(xí)是一種特定的聯(lián)邦學(xué)習(xí)方式,適用于參與方擁有不同特征但包含相同用戶(hù)的數(shù)據(jù)場(chǎng)景。縱向聯(lián)邦學(xué)習(xí)允許各方在不直接共享數(shù)據(jù)的前提下進(jìn)行特征工程和模型訓(xùn)練,從而保護(hù)用戶(hù)隱私。
5、(2)半同態(tài)加密技術(shù):半同態(tài)加密技術(shù)是一種允許在加密數(shù)據(jù)上進(jìn)行有限次的算術(shù)運(yùn)算的加密方法,可以實(shí)現(xiàn)特定的隱私保護(hù)特征工程算法。
6、上述現(xiàn)有技術(shù)存在以下缺點(diǎn):
7、(1)縱向聯(lián)邦學(xué)習(xí)技術(shù):縱向聯(lián)邦學(xué)習(xí)主要針對(duì)的是具有相同用戶(hù)和不同特征的數(shù)據(jù)集的場(chǎng)景,不支持任意形式數(shù)據(jù)集的隱私保護(hù)運(yùn)算。
8、(2)半同態(tài)加密方法:半同態(tài)加密方法的計(jì)算量大,因?yàn)閿?shù)據(jù)以密文形式表示時(shí),數(shù)
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利技術(shù)的主要目的是提出一種基于秘密共享的隱私保護(hù)特征工程方法及系統(tǒng),旨在解決現(xiàn)有的在分布式環(huán)境下進(jìn)行特征工程容易導(dǎo)致數(shù)據(jù)隱私泄露的安全問(wèn)題和算法單一的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本專(zhuān)利技術(shù)提出的基于秘密共享的隱私保護(hù)特征工程方法,?包括以下步驟:
3、s100、在數(shù)據(jù)集秘密分發(fā)階段,n個(gè)數(shù)據(jù)提供方分別將各自的隱私數(shù)據(jù)特征及其標(biāo)簽通過(guò)加法算術(shù)秘密共享分發(fā)給第一服務(wù)器s1和第二服務(wù)器s2,得到數(shù)據(jù)特征的秘密份額和數(shù)據(jù)標(biāo)簽的秘密份額;
4、s200、在兩方分布式運(yùn)算階段,第一服務(wù)器s1和第二服務(wù)器s2基于獲得的數(shù)據(jù)特征的秘密份額和數(shù)據(jù)標(biāo)簽的秘密份額在密態(tài)環(huán)境分別進(jìn)行安全兩方分布式運(yùn)算,第一服務(wù)器s1與第二服務(wù)器s2之間不共謀;在兩方分布式運(yùn)算過(guò)程中,具體流程過(guò)程如下:
5、s201、服務(wù)器根據(jù)指令判斷是否進(jìn)行數(shù)據(jù)特征標(biāo)準(zhǔn)化,若執(zhí)行特征標(biāo)準(zhǔn)化,通過(guò)使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法進(jìn)行計(jì)算,獲取標(biāo)準(zhǔn)化后數(shù)據(jù)特征的秘密份額后執(zhí)行下一步,否則直接執(zhí)行下一步;
6、s202、服務(wù)器根據(jù)指令進(jìn)行特征選擇,通過(guò)使用隱私保護(hù)特征選擇算法得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出數(shù)據(jù)特征后執(zhí)行下一步;
7、s203、將秘密份額作為輸入進(jìn)行隱私保護(hù)線性回歸;
8、s204、得到模型參數(shù)的秘密份額;
9、s300、運(yùn)算結(jié)果恢復(fù)階段,即恢復(fù)秘密,第一服務(wù)器s1和第二服務(wù)器s2分別將各自的模型參數(shù)的秘密份額r1和r2發(fā)送給數(shù)據(jù)使用方,然后數(shù)據(jù)使用方在本地恢復(fù)秘密得到模型參數(shù)的明文結(jié)果r=r1+r2。
10、可選地,s100中,對(duì)于數(shù)據(jù)提供方ci(i∈n)來(lái)說(shuō),ci選擇隨機(jī)數(shù)rx,ry,然后將(-ry)發(fā)送給s1,將(rx,ry)發(fā)送給s2,其中和rx成為數(shù)據(jù)xi的秘密份額,yi-ry和ry稱(chēng)為yi的秘密份額,用sin(i∈)來(lái)分別表示s1和s2手中的秘密份額,因此有s1i=,-ry),s2i=(rx,ry)。
11、可選地,所述步驟s201中,執(zhí)行特征標(biāo)準(zhǔn)化,通過(guò)使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法進(jìn)行計(jì)算,獲取標(biāo)準(zhǔn)化后特征的秘密份額,具體為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,首先服務(wù)器基于各自的秘密份額使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法計(jì)算出來(lái)數(shù)據(jù)集的平均數(shù)mean和標(biāo)準(zhǔn)差std,然后計(jì)算,即可獲取標(biāo)準(zhǔn)化后特征的秘密份額。
12、可選地,面向密態(tài)數(shù)據(jù)的密態(tài)加法可以實(shí)現(xiàn)安全聯(lián)合平均數(shù)計(jì)算,支持兩個(gè)以上的參與方,并且可以在本地進(jìn)行計(jì)算,無(wú)需多方交互和通信,而面向密態(tài)數(shù)據(jù)的密態(tài)加法和密態(tài)乘法可以實(shí)現(xiàn)安全兩方的聯(lián)合方差計(jì)算,隱私保護(hù)標(biāo)準(zhǔn)差算法可以在隱私保護(hù)方差算法的基礎(chǔ)上實(shí)現(xiàn),通過(guò)將隱私保護(hù)方差算法得到的結(jié)果進(jìn)行秘密重構(gòu),并將重構(gòu)得到的結(jié)果進(jìn)行密態(tài)開(kāi)方運(yùn)算。
13、可選地,步驟s202中,執(zhí)行特征選擇,通過(guò)使用隱私保護(hù)特征選擇算法得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出特征,具體為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,首先利用秘密份額計(jì)算出各個(gè)特征平均數(shù)的秘密份額,然后利用基于函數(shù)秘密共享的安全比較協(xié)議計(jì)算數(shù)據(jù)集中特征大于的數(shù)量和小于等于的數(shù)量,然后計(jì)算標(biāo)簽在特征大于和特征小于等于所占的比例,利用公式得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出特征。
14、可選地,步驟s203中,基于特征工程的隱私保護(hù)線性回歸的具體過(guò)程為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,并將初始參數(shù)作為秘密分享給服務(wù)器,然后在次循環(huán)迭代的過(guò)程中按線性回歸的過(guò)程計(jì)算的梯度和并進(jìn)行參數(shù)更新。在這一過(guò)程中,線性回歸的輸入是隱私保護(hù)特征工程得到的密態(tài)結(jié)果,即以秘密份額的形式進(jìn)行運(yùn)算。
15、可選地,所述的大小根據(jù)訓(xùn)練情況調(diào)整大小。
16、基于秘密共享的隱私保護(hù)特征工程系統(tǒng),包括秘密分發(fā)模塊、兩方分布式運(yùn)算模塊以及結(jié)果恢復(fù)模塊;所述秘密分發(fā)模塊,用于在數(shù)據(jù)集秘密分發(fā)階段,數(shù)據(jù)提供方分別將各自的隱私數(shù)據(jù)特征及其標(biāo)簽通過(guò)統(tǒng)計(jì)量運(yùn)算秘密共享分發(fā)給第一服務(wù)器s1和第二服務(wù)器s2,得到數(shù)據(jù)特征的秘密份額和數(shù)據(jù)標(biāo)簽的秘密份額;所述兩方分布式運(yùn)算模塊,用于在兩方分布式運(yùn)算階段,第一服務(wù)器s1和第二服務(wù)器s2基于獲得的數(shù)據(jù)特征的秘密份額和數(shù)據(jù)標(biāo)簽的秘密份額在密態(tài)環(huán)境進(jìn)行安全兩方分布式運(yùn)算,第一服務(wù)器s1與第二服務(wù)器s2之間不共謀;所述結(jié)果恢復(fù)模塊,用于在運(yùn)算結(jié)果恢復(fù)階段,即恢復(fù)秘密,第一服務(wù)器s1和第二服務(wù)器s2分別將各自的秘密份額經(jīng)過(guò)運(yùn)算得到的模型參數(shù)的秘密份額r1和r2發(fā)送給數(shù)據(jù)使用方,然后數(shù)據(jù)使用方在本地恢復(fù)秘密得到模型參數(shù)的明文結(jié)果。
17、一種電子設(shè)備,所述電子設(shè)備包括:至少一個(gè)處理器,以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行所述的基于秘密共享的隱私保護(hù)特征工程方法。
18、一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì),存儲(chǔ)有程序,所述程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的基于秘密共享的隱私保護(hù)特征工程方法
19、本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,S100中,對(duì)于數(shù)據(jù)提供方Ci(i∈n)來(lái)說(shuō),Ci選擇隨機(jī)數(shù)rx,ry,然后將(-ry)發(fā)送給S1,將(rx,ry)發(fā)送給S2,其中和rx成為數(shù)據(jù)xi的秘密份額,yi-ry和ry稱(chēng)為yi的秘密份額,用Sin(i∈)來(lái)分別表示S1和S2手中的秘密份額,因此有S1i=,-ry),S2i=(rx,ry)。
3.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,所述步驟S201中,執(zhí)行特征標(biāo)準(zhǔn)化,通過(guò)使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法進(jìn)行計(jì)算,獲取標(biāo)準(zhǔn)化后特征的秘密份額,具體為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,首先服務(wù)器基于各自的秘密份額使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法計(jì)算出來(lái)數(shù)據(jù)集的平均數(shù)mean和標(biāo)準(zhǔn)差std,然后計(jì)算,即可獲取標(biāo)準(zhǔn)化后特征的秘密份額。
4.根據(jù)權(quán)利要求3所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,面向密態(tài)數(shù)據(jù)的密態(tài)加法可以實(shí)現(xiàn)安全聯(lián)合平均數(shù)計(jì)
5.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,步驟S202中,執(zhí)行特征選擇,通過(guò)使用隱私保護(hù)特征選擇算法得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出特征,具體為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,首先利用秘密份額計(jì)算出各個(gè)特征平均數(shù)的秘密份額,然后利用基于函數(shù)秘密共享的安全比較協(xié)議計(jì)算數(shù)據(jù)集中特征大于的數(shù)量和小于等于的數(shù)量,然后計(jì)算標(biāo)簽在特征大于和特征小于等于所占的比例,利用公式得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出特征。
6.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,步驟S203中,基于特征工程的隱私保護(hù)線性回歸的具體過(guò)程為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,并將初始參數(shù)作為秘密分享給服務(wù)器,然后在次循環(huán)迭代的過(guò)程中按線性回歸的過(guò)程計(jì)算的梯度和并進(jìn)行參數(shù)更新,在這一過(guò)程中,線性回歸的輸入是隱私保護(hù)特征工程得到的密態(tài)結(jié)果,即以秘密份額的形式進(jìn)行運(yùn)算。
7.根據(jù)權(quán)利要求6所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,所述的大小根據(jù)訓(xùn)練情況調(diào)整大小。
8.根據(jù)權(quán)利要求1~7任一項(xiàng)所述的基于秘密共享的隱私保護(hù)特征工程方法的系統(tǒng),其特征在于,包括秘密分發(fā)模塊、兩方分布式運(yùn)算模塊以及結(jié)果恢復(fù)模塊;所述秘密分發(fā)模塊,用于在數(shù)據(jù)集秘密分發(fā)階段,數(shù)據(jù)提供方分別將各自的隱私數(shù)據(jù)特征及其標(biāo)簽通過(guò)統(tǒng)計(jì)量運(yùn)算秘密共享分發(fā)給第一服務(wù)器S1和第二服務(wù)器S2,得到數(shù)據(jù)特征的秘密份額和數(shù)據(jù)標(biāo)簽的秘密份額;所述兩方分布式運(yùn)算模塊,用于在兩方分布式運(yùn)算階段,第一服務(wù)器S1和第二服務(wù)器S2基于獲得的數(shù)據(jù)特征的秘密份額和數(shù)據(jù)標(biāo)簽的秘密份額在密態(tài)環(huán)境進(jìn)行安全兩方分布式運(yùn)算,第一服務(wù)器S1與第二服務(wù)器S2之間不共謀;所述結(jié)果恢復(fù)模塊,用于在運(yùn)算結(jié)果恢復(fù)階段,即恢復(fù)秘密,第一服務(wù)器S1和第二服務(wù)器S2分別將各自的秘密份額經(jīng)過(guò)運(yùn)算得到的模型參數(shù)的秘密份額R1和R2發(fā)送給數(shù)據(jù)使用方,然后數(shù)據(jù)使用方在本地恢復(fù)秘密得到模型參數(shù)的明文結(jié)果。
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:至少一個(gè)處理器,以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行如權(quán)利要求1-7中任意一項(xiàng)所述的基于秘密共享的隱私保護(hù)特征工程方法。
10.一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì),存儲(chǔ)有程序,其特征在于,所述程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1~7任意一項(xiàng)所述的基于秘密共享的隱私保護(hù)特征工程方法。
...【技術(shù)特征摘要】
1.一種基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,s100中,對(duì)于數(shù)據(jù)提供方ci(i∈n)來(lái)說(shuō),ci選擇隨機(jī)數(shù)rx,ry,然后將(-ry)發(fā)送給s1,將(rx,ry)發(fā)送給s2,其中和rx成為數(shù)據(jù)xi的秘密份額,yi-ry和ry稱(chēng)為yi的秘密份額,用sin(i∈)來(lái)分別表示s1和s2手中的秘密份額,因此有s1i=,-ry),s2i=(rx,ry)。
3.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,所述步驟s201中,執(zhí)行特征標(biāo)準(zhǔn)化,通過(guò)使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法進(jìn)行計(jì)算,獲取標(biāo)準(zhǔn)化后特征的秘密份額,具體為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,首先服務(wù)器基于各自的秘密份額使用隱私保護(hù)平均數(shù)算法和隱私保護(hù)標(biāo)準(zhǔn)差算法計(jì)算出來(lái)數(shù)據(jù)集的平均數(shù)mean和標(biāo)準(zhǔn)差std,然后計(jì)算,即可獲取標(biāo)準(zhǔn)化后特征的秘密份額。
4.根據(jù)權(quán)利要求3所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,面向密態(tài)數(shù)據(jù)的密態(tài)加法可以實(shí)現(xiàn)安全聯(lián)合平均數(shù)計(jì)算,支持兩個(gè)以上的參與方,并且可以在本地進(jìn)行計(jì)算,無(wú)需多方交互和通信,而面向密態(tài)數(shù)據(jù)的密態(tài)加法和密態(tài)乘法可以實(shí)現(xiàn)安全兩方的聯(lián)合方差計(jì)算,隱私保護(hù)標(biāo)準(zhǔn)差算法可以在隱私保護(hù)方差算法的基礎(chǔ)上實(shí)現(xiàn),通過(guò)將隱私保護(hù)方差算法得到的結(jié)果進(jìn)行秘密重構(gòu),并將重構(gòu)得到的結(jié)果進(jìn)行密態(tài)開(kāi)方運(yùn)算。
5.根據(jù)權(quán)利要求1所述的基于秘密共享的隱私保護(hù)特征工程方法,其特征在于,步驟s202中,執(zhí)行特征選擇,通過(guò)使用隱私保護(hù)特征選擇算法得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出特征,具體為:服務(wù)器各自持有隱私數(shù)據(jù)的秘密份額,首先利用秘密份額計(jì)算出各個(gè)特征平均數(shù)的秘密份額,然后利用基于函數(shù)秘密共享的安全比較協(xié)議計(jì)算數(shù)據(jù)集中特征大于的數(shù)量和小于等于的數(shù)量,然后計(jì)算標(biāo)簽在特征大于和特征小于等于所占的比例,利用公式得到每一個(gè)特征的得分,根據(jù)得分從大到小進(jìn)行比較并選擇出特...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:方楚慶,蔣琳,段灝,方俊彬,陳宇月,
申請(qǐng)(專(zhuān)利權(quán))人:深圳市華匯數(shù)據(jù)服務(wù)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。