System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據安全,尤其涉及敏感數據識別方法、裝置、電子設備、計算機可讀存儲介質及計算機程序產品。
技術介紹
1、目前,在對文本數據進行敏感識別時通常采用的是敏感詞匹配算法,該算法是基于字母語言的單詞進行匹配的,因為單詞之間存在空格區分,每個單詞含義相對精準規范,所以極少存在歧義。但由于中文的特性,沒有明確的單詞界限,由多個連續的漢字構成更多樣化的語義,每個漢字在不同的詞語中內在含義也可能不同。對于單個漢字而言,可能和前面的字組詞,也可能和后面的字組詞。這一特性使得針對中文文本數據的分詞變得復雜,錯誤的分詞會導致句子的語義發生偏離。所以,由于分詞不準確導致會傳統的敏感詞匹配算法在處理中文文本時發生錯誤,影響敏感數據識別的準確率。
2、上述內容僅用于輔助理解本申請的技術方案,并不代表承認上述內容是現有技術。
技術實現思路
1、本申請的主要目的在于提供一種敏感數據識別方法、裝置、電子設備、計算機可讀存儲介質及計算機程序產品,旨在解決傳統的敏感詞匹配算法在處理中文文本時容易發生錯誤,影響敏感數據識別的準確率的技術問題。
2、為實現上述目的,本申請提出一種敏感數據識別方法,所述的敏感數據識別方法包括:
3、基于待識別文本數據中的標點符號,對所述待識別文本數據進行斷句,得到多個短句;
4、統計各所述短句中不在預設常用詞庫中的特定詞匯,并將各所述特定詞匯的詞頻記錄在對應的時間駐留矩陣;
5、根據預設的分詞規則,對每個短句分別進行分詞,
6、基于各所述時間駐留矩陣的詞頻,計算各所述分詞路徑分別對應的聯合概率,并將聯合概率最高的分詞路徑作為目標分詞路徑;
7、根據各所述短句的目標分詞路徑獲取所述待識別文本數據的所有分詞,對各所述分詞分別進行敏感詞檢索,得到敏感數據識別結果。
8、在一實施例中,所述根據預設的分詞規則,對每個短句分別進行分詞,確定每個短句對應的多種分詞路徑的步驟包括:
9、基于所述分詞規則,確定所述短句中每個字的備選屬性,其中,所述備選屬性包括首字、中字、尾字以及單字中的一種以上,所述分詞規則至少包括:所述短句的第一個字為首字或單字,所述短句的最后一個字為尾字或單字;
10、根據各字分別對應的多種備選屬性,按照所述分詞規則對所述短句進行路徑劃分,得到多種分詞路徑,其中,所述分詞規則至少還包括:首字或中字的后一個字為中字或尾字,尾字或單字的后一個字為首字或單字。
11、在一實施例中,所述基于各所述時間駐留矩陣的詞頻,計算各所述分詞路徑分別對應的聯合概率,并將聯合概率最高的分詞路徑作為目標分詞路徑的步驟包括:
12、將各所述時間駐留矩陣的詞頻和各所述分詞路徑分別對應的聯合概率分別輸入至預設的隱式半馬爾可夫模型中,計算得到每種分詞路徑分別對應的聯合概率;
13、選擇各所述分詞路徑中聯合概率最高的分詞路徑,得到目標分詞路徑。
14、在一實施例中,在所述將各所述時間駐留矩陣的詞頻和各所述分詞路徑分別對應的聯合概率分別輸入至預設的隱式半馬爾可夫模型中的步驟之前,所述方法還包括:
15、通過在預設的原始詞庫中查詢各所述分詞,確定所述原始詞庫中不存在的無意義分詞;
16、刪除各所述分詞路徑中包括所述無意義分詞的分詞路徑,得到更新后的分詞路徑,以基于更新后的分詞路徑執行所述將各所述時間駐留矩陣的詞頻和各所述分詞路徑分別對應的聯合概率分別輸入至預設的隱式半馬爾可夫模型中的步驟。
17、在一實施例中,所述敏感數據識別結果為敏感等級,所述根據各所述短句的目標分詞路徑獲取所述待識別文本數據的所有分詞,對各所述分詞分別進行敏感詞檢索,得到敏感數據識別結果的步驟包括:
18、根據各所述短句分別對應的目標分詞路徑對各所述短句進行劃分,得到每個短句分別對應的多個分詞;
19、基于預設的敏感詞分類表,對每個分詞依次進行敏感等級判定,得到各所述分詞分別對應的敏感等級;
20、將各所述分詞分別對應的敏感等級中的最高敏感等級確定為所述待識別文本數據對應的敏感等級。
21、在一實施例中,所述敏感數據識別方法還包括:
22、從多個訓練素材文件中采集對應的詞匯數據,構建原始詞庫;
23、基于預設的通用素材文件和專業素材文件,統計所述原始詞庫中包含各詞匯和各單字的文件數量;
24、根據包含各詞匯和各單字的文件數量和所述訓練素材文件的總數量,計算每個詞匯或單字分別對應的逆文本頻率指數;
25、選取逆文本頻率指數小于預設逆文本頻率指數閾值的詞匯或單字,組成預設常用詞庫。
26、此外,為實現上述目的,本申請還提出一種敏感數據識別裝置,所述敏感數據識別裝置包括:
27、短句劃分模塊,用于基于待識別文本數據中的標點符號,對所述待識別文本數據進行斷句,得到多個短句;
28、詞匯統計模塊,用于統計各所述短句中不在預設常用詞庫中的特定詞匯,并將各所述特定詞匯的詞頻記錄在對應的時間駐留矩陣;
29、短句分詞模塊,用于根據預設的分詞規則,對每個短句分別進行分詞,確定每個短句對應的多種分詞路徑;
30、路徑選取模塊,用于基于各所述時間駐留矩陣的詞頻,計算各所述分詞路徑分別對應的聯合概率,并將聯合概率最高的分詞路徑作為目標分詞路徑;
31、敏感檢索模塊,用于根據各所述短句的目標分詞路徑獲取所述待識別文本數據的所有分詞,對各所述分詞分別進行敏感詞檢索,得到敏感數據識別結果。
32、此外,為實現上述目的,本申請還提出一種電子設備,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現如上文所述的敏感數據識別方法的步驟。
33、此外,為實現上述目的,本申請還提出一種存儲介質,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如上文所述的敏感數據識別方法的步驟。
34、此外,為實現上述目的,本申請還提供一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現如上文所述的敏感數據識別方法的步驟。
35、本申請提出了一種敏感數據識別方法,首先基于待識別文本數據中的標點符號,對所述待識別文本數據進行斷句,得到多個短句,然后統計各所述短句中不在預設常用詞庫中的特定詞匯,并將各所述特定詞匯的詞頻記錄在對應的時間駐留矩陣,進而根據預設的分詞規則,對每個短句分別進行分詞,確定每個短句對應的多種分詞路徑,再基于各所述時間駐留矩陣的詞頻,計算各所述分詞路徑分別對應的聯合概率,并將聯合概率最高的分詞路徑作為目標分詞路徑,最后根據各所述短句的目標分詞路徑獲取所述待識別文本數據的所有分詞,對各所述分詞分別進行敏感詞檢索,得到敏感數據識別結果。本文檔來自技高網...
【技術保護點】
1.一種敏感數據識別方法,其特征在于,所述敏感數據識別方法包括:
2.如權利要求1所述的敏感數據識別方法,其特征在于,所述根據預設的分詞規則,對每個短句分別進行分詞,確定每個短句對應的多種分詞路徑的步驟包括:
3.如權利要求1所述的敏感數據識別方法,其特征在于,所述基于各所述時間駐留矩陣的詞頻,計算各所述分詞路徑分別對應的聯合概率,并將聯合概率最高的分詞路徑作為目標分詞路徑的步驟包括:
4.如權利要求3所述的敏感數據識別方法,其特征在于,在所述將各所述時間駐留矩陣的詞頻和各所述分詞路徑分別對應的聯合概率分別輸入至預設的隱式半馬爾可夫模型中的步驟之前,所述方法還包括:
5.如權利要求1所述的敏感數據識別方法,其特征在于,所述敏感數據識別結果為敏感等級,所述根據各所述短句的目標分詞路徑獲取所述待識別文本數據的所有分詞,對各所述分詞分別進行敏感詞檢索,得到敏感數據識別結果的步驟包括:
6.如權利要求1至5中任一項所述的敏感數據識別方法,其特征在于,所述敏感數據識別方法還包括:
7.一種敏感數據識別裝置,其特征在于,
8.一種電子設備,其特征在于,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現如權利要求1至6中任一項所述的敏感數據識別方法的步驟。
9.一種存儲介質,其特征在于,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至6中任一項所述的敏感數據識別方法的步驟。
10.一種計算機程序產品,其特征在于,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現如權利要求1至6中任一項所述的敏感數據識別方法的步驟。
...【技術特征摘要】
1.一種敏感數據識別方法,其特征在于,所述敏感數據識別方法包括:
2.如權利要求1所述的敏感數據識別方法,其特征在于,所述根據預設的分詞規則,對每個短句分別進行分詞,確定每個短句對應的多種分詞路徑的步驟包括:
3.如權利要求1所述的敏感數據識別方法,其特征在于,所述基于各所述時間駐留矩陣的詞頻,計算各所述分詞路徑分別對應的聯合概率,并將聯合概率最高的分詞路徑作為目標分詞路徑的步驟包括:
4.如權利要求3所述的敏感數據識別方法,其特征在于,在所述將各所述時間駐留矩陣的詞頻和各所述分詞路徑分別對應的聯合概率分別輸入至預設的隱式半馬爾可夫模型中的步驟之前,所述方法還包括:
5.如權利要求1所述的敏感數據識別方法,其特征在于,所述敏感數據識別結果為敏感等級,所述根據各所述短句的目標分詞路徑獲取所述待識別文本數據的所有分詞,對各所述分詞分別進行敏感詞...
【專利技術屬性】
技術研發人員:劉斌,劉望,丁鵬勇,潘慶鴻,魏佳,劉小珊,李莉,梁恩磊,張琳,汪帆,
申請(專利權)人:中移動信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。