System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() MM1313亚洲精品无码久久,亚洲免费无码在线,亚洲色偷拍区另类无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種敏感詞過濾方法及相關裝置制造方法及圖紙

    技術編號:44498485 閱讀:4 留言:0更新日期:2025-03-04 18:06
    本申請公開了一種敏感詞過濾方法及相關裝置,涉及自然語言處理技術領域,包括:預先構建包括多個敏感詞片段對應的向量的敏感詞片段向量知識庫;在獲取待處理的文本之后,先得到文本對應的向量,由于每個敏感詞片段對應的向量用于表征敏感詞片段的語義信息,每個敏感詞片段中包括至少一個敏感詞;文本對應的向量用于表征文本的語義信息,后續至少利用文本對應的向量與敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級;并基于各個待處理的敏感詞片段的敏感等級,對待處理的文本進行敏感詞過濾處理,能夠實現語義理解的利用,進而能夠提升敏感詞過濾的效果。

    【技術實現步驟摘要】

    本申請涉及自然語言處理,尤其涉及一種敏感詞過濾方法及相關裝置


    技術介紹

    1、在當前的自然語言處理相關應用中,如何快速、準確地過濾敏感詞是一個重要的研究課題。傳統的敏感詞過濾方法通常依賴于預定義的敏感詞詞表,通過簡單的字符串匹配或關鍵字檢索來實現。

    2、傳統的敏感詞過濾方法在早期的文本處理應用中得到了廣泛使用,尤其是在社交媒體、論壇和即時通訊等平臺上,通過這種方式可以在一定程度上防止不良信息的傳播。然而,隨著自然語言處理技術的發展和文本數據規模的增大,傳統的敏感詞過濾方法由于缺乏語義理解的能力,導致敏感詞過濾的效果較差。

    3、因此,如何提供一種敏感詞過濾方法,以期利用語義理解提升敏感詞過濾的效果,成為本領域技術人員亟待解決的技術問題。


    技術實現思路

    1、鑒于上述問題,本申請提供了一種敏感詞過濾方法及相關裝置,以實現利用語義理解提升敏感詞過濾的效果的目的。具體方案如下:

    2、本申請第一方面提供一種敏感詞過濾方法,包括:

    3、獲取待處理的文本,以及,預先構建的敏感詞片段向量知識庫;所述敏感詞片段向量知識庫中包括多個敏感詞片段對應的向量,每個敏感詞片段對應的向量用于表征所述敏感詞片段的語義信息,每個敏感詞片段中包括至少一個敏感詞;

    4、對所述文本進行向量化處理,得到所述文本對應的向量,所述文本對應的向量用于表征所述文本的語義信息;

    5、至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級;

    6、基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理。

    7、在一種可能的實現中,所述至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級,包括:

    8、將所述敏感詞片段向量知識庫中,與所述文本對應的向量的匹配度滿足預設條件的敏感詞片段向量對應的敏感詞片段,確定為所述文本中待處理的敏感詞片段;

    9、獲取每個所述待處理的敏感詞片段對應的匹配度分數;

    10、至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級。

    11、在一種可能的實現中,所述至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級,包括:

    12、獲取預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單;所述敏感詞片段黑名單中包括多個明確被識別為包含敏感信息的敏感詞片段;所述敏感詞片段白名單中包括多個可能被識別為合法表達的敏感詞片段;

    13、利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級。

    14、在一種可能的實現中,所述利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級,包括:

    15、針對每個所述待處理的敏感詞片段,確定所述待處理的敏感詞片段是否包含在所述敏感詞片段黑名單或所述敏感詞片段白名單中;

    16、如果所述待處理的敏感詞包含在所述敏感詞片段黑名單或所述敏感詞片段白名單中,則基于所述敏感詞片段黑名單或所述敏感詞片段白名單,確定所述待處理的敏感詞片段的敏感等級;

    17、如果所述待處理的敏感詞既不包含在所述敏感詞片段白名單中,又不包含在所述敏感詞片段黑名單中,則利用所述待處理的敏感詞片段對應的匹配度分數確定所述待處理的敏感詞片段的敏感等級。

    18、在一種可能的實現中,所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理,包括:

    19、獲取各個敏感等級對應的處理策略;

    20、基于各個所述待處理的敏感詞片段的敏感等級對應的處理策略,對所述待處理的文本進行敏感詞過濾處理。

    21、在一種可能的實現中,所述敏感詞片段向量知識庫的構建方式,包括:

    22、收集與預設敏感詞相關的文檔;

    23、對所述文檔進行預處理,得到預處理后的文檔;

    24、將所述預處理后的文檔進行切分,得到多個敏感詞片段;

    25、針對每個敏感詞片段,將所述敏感詞片段轉化為向量,得到所述敏感詞片段對應的向量;

    26、各個所述敏感詞片段對應的向量存儲在向量知識庫中,得到所述敏感詞片段向量知識庫。

    27、在一種可能的實現中,在所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理之后,所述方法還包括:

    28、獲取更新指令,所述更新指令用于指示對目標對象進行更新,所述目標對象為所述敏感詞片段向量知識庫、所述敏感詞片段黑名單、所述敏感詞片段白名單以及各個敏感等級對應的處理策略中的任意一個或多個;

    29、響應于所述更新指令,更新所述目標對象。

    30、本申請第二方面提供一種敏感詞過濾裝置,包括:

    31、獲取單元,用于獲取待處理的文本,以及,預先構建的敏感詞片段向量知識庫;所述敏感詞片段向量知識庫中包括多個敏感詞片段對應的向量,每個敏感詞片段對應的向量用于表征所述敏感詞片段的語義信息,每個敏感詞片段中包括至少一個敏感詞;

    32、向量化處理單元,用于對所述文本進行向量化處理,得到所述文本對應的向量,所述文本對應的向量用于表征所述文本的語義信息;

    33、確定單元,用于至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級;

    34、文本處理單元,用于基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理。

    35、在一種可能的實現中,所述確定單元,包括:

    36、待處理的敏感詞片段確定單元,用于將所述敏感詞片段向量知識庫中,與所述文本對應的向量的匹配度滿足預設條件的敏感詞片段向量對應的敏感詞片段,確定為所述文本中待處理的敏感詞片段;

    37、匹配度分數獲取單元,用于獲取每個所述待處理的敏感詞片段對應的匹配度分數;

    38、敏感等級確定單元,用于至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級。

    39、在一種可能的實現中,所述敏感等級確定單元,包括:

    40、黑名單及白名單獲取單元,用于獲取預先構建的敏感詞片段黑名單以及預先構建的敏感詞片段白名單;所述敏感詞片段黑名單中包括多個明確被識別為包含敏感信息的敏感詞片段;所述敏感詞片段白名單本文檔來自技高網...

    【技術保護點】

    1.一種敏感詞過濾方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級,包括:

    3.根據權利要求2所述的方法,其特征在于,所述至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級,包括:

    4.根據權利要求3所述的方法,其特征在于,所述利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及所述預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級,包括:

    5.根據權利要求3所述的方法,其特征在于,所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理,包括:

    6.根據權利要求1所述的方法,其特征在于,所述敏感詞片段向量知識庫的構建方式,包括:

    7.根據權利要求5所述的方法,其特征在于,在所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理之后,所述方法還包括:

    8.一種敏感詞過濾裝置,其特征在于,包括:

    9.一種計算機程序產品,其特征在于,包括計算機可讀指令,當所述計算機可讀指令在電子設備上運行時,使得所述電子設備實現如權利要求1至7中任意一項所述的敏感詞過濾方法。

    10.一種電子設備,其特征在于,包括至少一個處理器和與所述處理器連接的存儲器,其中:

    11.一種計算機可讀存儲介質,其特征在于,所述存儲介質承載有一個或多個計算機程序,當所述一個或多個計算機程序被電子設備執行時,能夠使所述電子設備實現如權利要求1至7中任意一項所述的敏感詞過濾方法。

    ...

    【技術特征摘要】

    1.一種敏感詞過濾方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述至少利用所述文本對應的向量與所述敏感詞片段向量知識庫中各敏感詞片段對應的向量的匹配度,確定所述文本中待處理的敏感詞片段,以及每個待處理的敏感詞片段的敏感等級,包括:

    3.根據權利要求2所述的方法,其特征在于,所述至少利用每個所述待處理的敏感詞片段對應的匹配度分數,確定所述每個待處理的敏感詞片段的敏感等級,包括:

    4.根據權利要求3所述的方法,其特征在于,所述利用每個所述待處理的敏感詞片段對應的匹配度分數、所述預先構建的敏感詞片段黑名單以及所述預先構建的敏感詞片段白名單,確定所述每個待處理的敏感詞片段的敏感等級,包括:

    5.根據權利要求3所述的方法,其特征在于,所述基于各個所述待處理的敏感詞片段的敏感等級,對所述待處理的文本進行敏感詞過濾處理,包括:

    【專利技術屬性】
    技術研發人員:洪響斌李磊孫淑怡胡國彪黃東升張友國呂軍倪東
    申請(專利權)人:訊飛智元信息科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码av天天爽| 国产拍拍拍无码视频免费| 亚洲成AV人在线播放无码| 无码少妇一区二区三区浪潮AV| 伊人久久精品无码二区麻豆| 无码av人妻一区二区三区四区| 直接看的成人无码视频网站| 亚洲国产精品无码一线岛国| 中文字幕人妻无码系列第三区 | 亚洲AⅤ永久无码精品AA| 中文字幕精品无码久久久久久3D日动漫 | 亚洲av永久无码精品天堂久久| yy111111少妇影院无码| 亚洲av无码无在线观看红杏| 国产午夜av无码无片久久96| 亚洲AV无码资源在线观看| 免费A级毛片无码无遮挡内射| 国产日产欧洲无码视频| 亚洲精品无码不卡在线播放| 人妻精品久久无码专区精东影业| 国产亚洲情侣一区二区无码AV| 国产亚洲AV无码AV男人的天堂| 久久AV无码精品人妻糸列| 国产成人精品无码免费看 | 亚洲va中文字幕无码| 亚洲a∨无码精品色午夜| 色窝窝无码一区二区三区成人网站 | 国产AV无码专区亚洲AV麻豆丫| 狠狠精品久久久无码中文字幕| 亚洲AV无码一区二区三区久久精品| 亚洲精品一级无码鲁丝片| 成人免费一区二区无码视频| 亚洲Aⅴ在线无码播放毛片一线天| 亚洲精品无码乱码成人| 亚洲乱码无码永久不卡在线| 精品人妻无码专区中文字幕| 亚洲AⅤ无码一区二区三区在线| 中文字幕无码不卡一区二区三区| 亚洲av永久无码精品古装片 | 无码一区二区三区亚洲人妻| 久久中文字幕无码一区二区|