The invention relates to a method and a device for processing user identification. The method comprises the following steps: data source table scan characteristics corresponding to the field source data acquisition data; matching rules characteristics and user identification characteristics corresponding to the field data, if the rules of characteristics and user identification characteristics corresponding to the data of field matching is successful the corresponding field data for user identification, if the rules of characteristics and user identification characteristics corresponding to the data of field match fails, the corresponding field data for user identification; the corresponding source data field in the table number according to the user identification data into the third party user account corresponding to the source data table field data for user identification data remains unchanged. The method and the device for processing the user identification can improve the accuracy and efficiency of the identification of the user identification, obtain the user identification of the third party platform, and improve the security of the user identification.
【技術實現步驟摘要】
用戶標識處理的方法和裝置
本專利技術涉及數據識別領域,特別是涉及一種用戶標識處理的方法和裝置。
技術介紹
隨著計算機和互聯網技術的發展,越來越多的用戶享受著互聯網技術所帶來的便利,同時也產生了海量的數據。海量的數據中涉及到很多用戶標識信息,該用戶標識信息關乎用戶的隱私,需要對用戶標識信息進行保護。然而,這些用戶標識信息涉及大量的表,表結構復雜,且存儲達到百TB(太字節),無法做到人工識別覆蓋整體數據。傳統的用戶標識識別方法主要是通過模糊搜索識別字段,或者通過限制用戶標識數據值范圍,或者基于全量注冊數據進行匹配,然而,采用模糊搜索匹配出現錯誤率較高,通過數據值范圍匹配,因數據范圍變化較大,無法準確捕捉正確的用戶標識,采用全量注冊數據進行匹配,效率低,且用戶標識安全性低。
技術實現思路
基于此,有必要針對傳統的用戶標識識別方法識別準確率低且效率低的問題,提供一種用戶標識處理的方法,能提高識別的準確率和效率,且能提高用戶標識安全性。此外,還有必要提供一種用戶標識處理的裝置,能提高識別的準確率和效率,且能提高用戶標識安全性。一種用戶標識處理的方法,包括以下步驟:掃描源數據表,獲取所述源數據表的各字段所對應的數據的特征;將各字段所對應的數據的特征與用戶標識的特征規則進行匹配,若字段所對應的數據的特征與用戶標識的特征規則匹配成功,則所述字段所對應的數據為用戶標識,若字段所對應的數據的特征與用戶標識的特征規則匹配失敗,則所述字段所對應的數據不為用戶標識;將源數據表中字段所對應的數據為用戶標識的數據轉化為第三方用戶帳號,將源數據表中字段所對應的數據不為用戶標識的數據保持數據不 ...
【技術保護點】
一種用戶標識處理的方法,包括以下步驟:掃描源數據表,獲取所述源數據表的各字段所對應的數據的特征;將各字段所對應的數據的特征與用戶標識的特征規則進行匹配,若字段所對應的數據的特征與用戶標識的特征規則匹配成功,則所述字段所對應的數據為用戶標識,若字段所對應的數據的特征與用戶標識的特征規則匹配失敗,則所述字段所對應的數據不為用戶標識;將源數據表中字段所對應的數據為用戶標識的數據轉化為第三方用戶帳號,將源數據表中字段所對應的數據不為用戶標識的數據保持數據不變。
【技術特征摘要】
1.一種用戶標識處理的方法,包括以下步驟:掃描源數據表,獲取所述源數據表的各字段所對應的數據的特征;將各字段所對應的數據的特征與用戶標識的特征規則進行匹配,若字段所對應的數據的特征與用戶標識的特征規則匹配成功,則所述字段所對應的數據為用戶標識,若字段所對應的數據的特征與用戶標識的特征規則匹配失敗,則所述字段所對應的數據不為用戶標識;將源數據表中字段所對應的數據為用戶標識的數據轉化為第三方用戶帳號,將源數據表中字段所對應的數據不為用戶標識的數據保持數據不變。2.根據權利要求1所述的方法,其特征在于,在掃描源數據表,獲取所述源數據表的各字段所對應的數據的特征的步驟之前,所述方法還包括:從測試數據中選取用戶標識字段的數據作為正樣本數據,選取非用戶標識字段的數據作為負樣本數據;對所述正樣本數據和負樣本數據分別進行特征計算;將正樣本數據的特征和負樣本數據的特征進行比對,得到所述正樣本數據的特征規則。3.根據權利要求1所述的方法,其特征在于,在所述將源數據表中字段所對應的數據為用戶標識的數據轉化為第三方用戶帳號,將源數據表中字段所對應的數據不為用戶標識的數據保持數據不變的步驟之后,所述方法還包括:獲取源數據表中已匹配成功的字段所對應的數據和包含用戶標識而未被匹配成功的字段所對應的數據;根據已匹配成功的字段所對應的數據和包含用戶標識而未被匹配成功的字段所對應的數據對所述用戶標識的特征規則進行修正。4.根據權利要求1所述的方法,其特征在于,在所述將源數據表中字段所對應的數據為用戶標識的數據轉化為第三方用戶帳號,將源數據表中字段所對應的數據不為用戶標識的數據保持數據不變的步驟之后,所述方法還包括:獲取源數據表中包含用戶標識而未被匹配成功的字段所對應的數據;根據所述包含用戶標識而未被匹配成功的字段所對應的數據對所述用戶標識的特征規則進行修正。5.根據權利要求1所述的方法,其特征在于,所述特征包括平均值和標準差;所述用戶標識為即時通信帳號或移動通信標識或電子郵箱或身份證號碼或支付帳號。6.一種用戶標識處理的裝置,其特征在于,包括:掃描模塊,用于掃描源數據表...
【專利技術屬性】
技術研發人員:姚乾乾,葉幸春,劉鶴,張海川,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。