【技術實現步驟摘要】
數據處理方法、裝置、設備及存儲介質
[0001]本申請屬于計算機
,具體涉及一種數據處理方法、裝置、電子設備及存儲介質。
技術介紹
[0002]隨著信息技術的飛速發展,人們在生產、生活中產生的各類數據呈指數級增長,如何在海量數據中識別敏感數據,以對其進行保護成為亟需關注的問題。
[0003]在相關技術中,雖然可以通過文本識別的方式識別海量數據中的文本敏感數據,但是,該方式無法識別海量數據中非文本如圖像、音頻等敏感數據,如此,識別敏感數據的方式較為單一,無法識別多種類型的敏感數據。
技術實現思路
[0004]本申請實施例提供一種數據處理方法、裝置、設備及存儲介質,能夠解決現有技術中識別敏感數據的方式較為單一,導致無法識別多種類型的敏感數據的問題。
[0005]第一方面,本申請實施例提供一種數據處理方法,該方法可以包括:
[0006]獲取待識別資源和待識別資源的資源信息,待識別資源包括N種類型的資源,資源信息包括N種類型的資源中每種類型的資源的類型標識和位置向量,N為大于1的整數;
[0007]將待識別資源和資源信息輸入敏感數據識別模型,通過敏感數據識別模型對待識別資源進行特征抽取,得到N種類型的資源的隱藏特征;
[0008]根據N種類型的資源的隱藏特征中任意兩種類型的資源的隱藏特征,計算任意兩種類型中每種類型的資源的注意力隱藏特征,注意力隱藏特征用于表征任意兩種類型的資源中的一種類型的資源的隱藏特征對另一種類型的資源的隱藏特征的注意力分布;
[000 ...
【技術保護點】
【技術特征摘要】
1.一種數據處理方法,其特征在于,包括:獲取待識別資源和所述待識別資源的資源信息,所述待識別資源包括N種類型的資源,所述資源信息包括所述N種類型的資源中每種類型的資源的類型標識和位置向量,N為大于1的整數;將所述待識別資源和所述資源信息輸入敏感數據識別模型,通過所述敏感數據識別模型對所述待識別資源進行特征抽取,得到所述N種類型的資源的隱藏特征;根據所述N種類型的資源的隱藏特征中任意兩種類型的資源的隱藏特征,計算所述任意兩種類型中每種類型的資源的注意力隱藏特征,所述注意力隱藏特征用于表征所述任意兩種類型的資源中的一種類型的資源的隱藏特征對另一種類型的資源的隱藏特征的注意力分布;基于所述N種類型的資源的注意力隱藏特征,從所述敏感數據識別模型中輸出所述待識別資源的識別結果。2.根據權利要求1所述的方法,其特征在于,所述將所述待識別資源和所述資源信息輸入敏感數據識別模型,通過所述敏感數據識別模型對所述待識別資源進行特征抽取,得到所述N種類型的資源的隱藏特征,包括:通過所述敏感數據識別模型,根據預設類型標識和預設映射算法的關聯信息,獲取所述資源信息中N種類型標識的每種類型標識對應的映射算法;通過所述每種類型標識對應的映射算法,對所述N種類型的資源中與所述每種類型標識對應的資源和位置向量進行映射,得到N個映射向量,所述N個映射向量的向量格式與所述敏感數據識別模型中編碼器的輸入格式對應:通過所述編碼器對所述N個映射向量中每個映射向量進行特征提取,得到所述N種類型的資源的隱藏特征。3.根據權利要求2所述的方法,其特征在于,所述N種類型標識包括第一種類型標識和第二種類型標識,所述第一種類型標識對應第一映射算法,所述第二種類型標識對應第二映射算法,所述N個映射向量包括多維向量和二維矩陣;所述通過所述每種類型標識對應的映射算法,對所述N種類型的資源中與所述每種類型標識對應的資源和位置向量進行映射,得到N個映射向量,包括:通過所述第一映射算法,將所述N種類型的資源中與第一種類型標識對應的資源和位置向量映射到預設空間,得到所述多維向量;以及,通過所述第二映射算法將所述第二種類型標識對應的資源映射到一維向量,并將所述第二種類型標識對應的資源的位置向量轉換為二維矩陣。4.根據權利要求1所述的方法,其特征在于,所述根據所述N種類型的資源的隱藏特征中任意兩種類型的資源的隱藏特征,計算所述任意兩種類型中每種類型的資源的注意力隱藏特征,包括:根據所述N種類型的資源的隱藏特征,生成所述N種類型的資源的隱藏特征中每種類型的資源的隱藏特征的第一向量集合,所述第一向量集合包括查詢向量、關鍵向量和內容向量;將所述任意兩種類型的資源的隱藏特征的向量集合中的查詢向量進行交叉互換,得到所述任意兩種類型中每種類型的資源的隱藏特征的第二向量集合,所述第二向量集合包括
所述任意兩種類型中第一種類型的關鍵向量、內容向量和第二種類型的資源對應的查詢向量;通過多頭注意計算算法,對所述任意兩種類型中每種類型的資源的隱藏特征的第二向量集合進行處理,得到第一處理結果;對所述第一處理結果依次進行殘差連接和歸一化處理,得到第二處理結果;通過所述敏感數據識別模型中前饋神經網絡,對所述第二處理結果再進行殘差連接和歸一化處理,得到所述每種類型的資源的注意力隱藏特征。5.根據權利要求1所述的方法,其特征在于,所述識別結果包括所述每種類型的資源的敏感等級;所述基于所述N種類型的資源的注意力隱藏特征,從所述敏感數據識別模型中輸出所述待識別資源的識別結果,包括:合并所述N種類型的資源的注意力隱藏特征,得到注意力隱藏特征集合;對所述注意力隱藏特征集合依次進行池化和全連接處理,得到所述每種類型的資源中的敏感數據的敏感等級。6.根據權利要求1所述的方法,其特征在于,所述計算所述任意兩種類型中每種類型的資源的注意力隱藏特征之后,所述方法還包括:在所述每種類型的資源包括異常資源的情況下,通過所述敏感數據識別模型中的多層感知器,對所述每種類型的資源的注意力隱藏特征進行重構,得到與所述異常資源對應的重構特征的概率值;根據所述重構特征的概率值,確定所述異常資源的敏感等級;其中,所述異常資源包括下述中的至少一種:被刪除的資源、被修改的...
【專利技術屬性】
技術研發人員:丁鵬勇,劉斌,蘇慧蘭,劉旸旭,馬珺浩,呂正林,鄭瑞剛,周莉,劉瑋,張歆,孫敏,梁恩磊,李莉,汪帆,
申請(專利權)人:中國移動通信集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。