System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理,尤其涉及一種敏感詞過濾方法及相關裝置。
技術介紹
1、在當前的自然語言處理相關應用中,如何快速、準確地過濾敏感詞是一個重要的研究課題。傳統的敏感詞過濾方法通常依賴于預定義的敏感詞詞表,通過簡單的字符串匹配或關鍵字檢索來實現。
2、傳統的敏感詞過濾方法在早期的文本處理應用中得到了廣泛使用,尤其是在社交媒體、論壇和即時通訊等平臺上,通過這種方式可以在一定程度上防止不良信息的傳播。然而,隨著自然語言處理技術的發展和文本數據規模的增大,傳統的敏感詞過濾方法由于缺乏語義理解的能力,導致敏感詞過濾的效果較差。
3、因此,如何提供一種敏感詞過濾方法,以期利用語義理解提升敏感詞過濾的效果,成為本領域技術人員亟待解決的技術問題。
技術實現思路
1、鑒于上述問題,本申請提供了一種敏感詞過濾方法及相關裝置,以實現利用語義理解提升敏感詞過濾的效果的目的。具體方案如下:
2、本申請第一方面提供一種敏感詞過濾方法,包括:
3、獲取待處理的文本,以及,預先構建的敏感詞片段向量知識庫;所述敏感詞片段向量知識庫中包括多個敏感詞片段對應的向量,每個敏感詞片段對應的向量用于表征所述敏感詞片段的語義信息,每個敏感詞片段中包括至少一個敏感詞;
4、對所述文本進行向量化處理,得到所述文本對應的向量,所述文本對應的向量用于表征所述文本的語義信息;
5、至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配
6、基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理。
7、在一種可能的實現中,所述至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級,包括:
8、將所述敏感詞片段向量知識庫中,與所述文本對應的向量的匹配度滿足預設條件的敏感詞片段向量對應的敏感詞片段,確定為所述文本中待處理的敏感詞片段;
9、獲取每個所述待處理的敏感詞片段對應的匹配度分數;
10、至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級。
11、在一種可能的實現中,所述至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級,包括:
12、獲取預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單;所述敏感詞片段黑名單中包括多個明確被識別為包含敏感信息的敏感詞片段;所述敏感詞片段白名單中包括多個可能被識別為合法表達的敏感詞片段;
13、利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級。
14、在一種可能的實現中,所述利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級,包括:
15、針對每個所述待處理的敏感詞片段,確定所述待處理的敏感詞片段是否包含在所述敏感詞片段黑名單或所述敏感詞片段白名單中;
16、如果所述待處理的敏感詞包含在所述敏感詞片段黑名單或所述敏感詞片段白名單中,則基于所述敏感詞片段黑名單或所述敏感詞片段白名單,確定所述待處理的敏感詞片段的敏感等級;
17、如果所述待處理的敏感詞既不包含在所述敏感詞片段白名單中,又不包含在所述敏感詞片段黑名單中,則利用所述待處理的敏感詞片段對應的匹配度分數確定所述待處理的敏感詞片段的敏感等級。
18、在一種可能的實現中,所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理,包括:
19、獲取各個敏感等級對應的處理策略;
20、基于各個所述待處理的敏感詞片段的敏感等級對應的處理策略,對所述待處理的文本進行敏感詞過濾處理。
21、在一種可能的實現中,所述敏感詞片段向量知識庫的構建方式,包括:
22、收集與預設敏感詞相關的文檔;
23、對所述文檔進行預處理,得到預處理后的文檔;
24、將所述預處理后的文檔進行切分,得到多個敏感詞片段;
25、針對每個敏感詞片段,將所述敏感詞片段轉化為向量,得到所述敏感詞片段對應的向量;
26、各個所述敏感詞片段對應的向量存儲在向量知識庫中,得到所述敏感詞片段向量知識庫。
27、在一種可能的實現中,在所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理之后,所述方法還包括:
28、獲取更新指令,所述更新指令用于指示對目標對象進行更新,所述目標對象為所述敏感詞片段向量知識庫、所述敏感詞片段黑名單、所述敏感詞片段白名單以及各個敏感等級對應的處理策略中的任意一個或多個;
29、響應于所述更新指令,更新所述目標對象。
30、本申請第二方面提供一種敏感詞過濾裝置,包括:
31、獲取單元,用于獲取待處理的文本,以及,預先構建的敏感詞片段向量知識庫;所述敏感詞片段向量知識庫中包括多個敏感詞片段對應的向量,每個敏感詞片段對應的向量用于表征所述敏感詞片段的語義信息,每個敏感詞片段中包括至少一個敏感詞;
32、向量化處理單元,用于對所述文本進行向量化處理,得到所述文本對應的向量,所述文本對應的向量用于表征所述文本的語義信息;
33、確定單元,用于至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級;
34、文本處理單元,用于基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理。
35、在一種可能的實現中,所述確定單元,包括:
36、待處理的敏感詞片段確定單元,用于將所述敏感詞片段向量知識庫中,與所述文本對應的向量的匹配度滿足預設條件的敏感詞片段向量對應的敏感詞片段,確定為所述文本中待處理的敏感詞片段;
37、匹配度分數獲取單元,用于獲取每個所述待處理的敏感詞片段對應的匹配度分數;
38、敏感等級確定單元,用于至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級。
39、在一種可能的實現中,所述敏感等級確定單元,包括:
40、黑名單及白名單獲取單元,用于獲取預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單;所述敏感詞片段黑名單中包括多個明確被識別為包含敏感信息的敏感詞片段;所述敏感詞片段白名單本文檔來自技高網...
【技術保護點】
1.一種敏感詞過濾方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級,包括:
3.根據權利要求2所述的方法,其特征在于,所述至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級,包括:
4.根據權利要求3所述的方法,其特征在于,所述利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及所述預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級,包括:
5.根據權利要求3所述的方法,其特征在于,所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理,包括:
6.根據權利要求1所述的方法,其特征在于,所述敏感詞片段向量知識庫的構建方式,包括:
7.根據權利要求5所述的方法,其特征在于,在所述基于各個所述待處理的敏感詞片段的敏感等級
8.一種敏感詞過濾裝置,其特征在于,包括:
9.一種計算機程序產品,其特征在于,包括計算機可讀指令,當所述計算機可讀指令在電子設備上運行時,使得所述電子設備實現如權利要求1至7中任意一項所述的敏感詞過濾方法。
10.一種電子設備,其特征在于,包括至少一個處理器和與所述處理器連接的存儲器,其中:
11.一種計算機可讀存儲介質,其特征在于,所述存儲介質承載有一個或多個計算機程序,當所述一個或多個計算機程序被電子設備執行時,能夠使所述電子設備實現如權利要求1至7中任意一項所述的敏感詞過濾方法。
...【技術特征摘要】
1.一種敏感詞過濾方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級,包括:
3.根據權利要求2所述的方法,其特征在于,所述至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級,包括:
4.根據權利要求3所述的方法,其特征在于,所述利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及所述預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級,包括:
5.根據權利要求3所述的方法,其特征在于,所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理,包括:
【專利技術屬性】
技術研發人員:洪響斌,李磊,孫淑怡,胡國彪,黃東升,張友國,呂軍,倪東,
申請(專利權)人:訊飛智元信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。