基于分類查找的敏感詞識別處理方法技術(shù)

技術(shù)編號：9569061 閱讀：663 留言：0更新日期：2014-01-16 02:37

本發(fā)明專利技術(shù)提供了一種基于分類查找的敏感詞識別處理方法，通過預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別，并分別記錄了每一類敏感詞的字符數(shù)特征以及字符組合特征，并且通過統(tǒng)計記錄了每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞；在后續(xù)對待處理文本信息的敏感詞匹配處理過程中，就利用此前記錄的這些信息：一方面有效確認了將待處理文本信息中應(yīng)當參與敏感詞匹配的匹配字符數(shù)N，避免了因?qū)⒋幚砦谋拘畔⒅衅ヅ渥址麛?shù)不確定而對待處理文本信息中可能的字符串組合方式進行遍歷嘗試；另一方面還成功的定位到更有可能匹配成功的敏感詞類別中進行敏感詞匹配處理；從而盡可能的減少了匹配次數(shù)，提高了匹配處理效率。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】
【專利摘要】本專利技術(shù)提供了一種，通過預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別，并分別記錄了每一類敏感詞的字符數(shù)特征以及字符組合特征，并且通過統(tǒng)計記錄了每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞；在后續(xù)對待處理文本信息的敏感詞匹配處理過程中，就利用此前記錄的這些信息：一方面有效確認了將待處理文本信息中應(yīng)當參與敏感詞匹配的匹配字符數(shù)N，避免了因?qū)⒋幚砦谋拘畔⒅衅ヅ渥址麛?shù)不確定而對待處理文本信息中可能的字符串組合方式進行遍歷嘗試；另一方面還成功的定位到更有可能匹配成功的敏感詞類別中進行敏感詞匹配處理；從而盡可能的減少了匹配次數(shù)，提高了匹配處理效率。【專利說明】
本專利技術(shù)涉及計算機通信網(wǎng)絡(luò)技術(shù)和敏感詞匹配
，具體涉及一種。
技術(shù)介紹
隨著計算機通信網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和進步，基于文本信息的計算機網(wǎng)絡(luò)服務(wù)已經(jīng)深入到人們生活的各個方面。但是計算機網(wǎng)絡(luò)服務(wù)中的文本信息在給人們帶來無障礙交流便利的同時，不可避免地也會散播一些未經(jīng)證實的消息或不良內(nèi)容，很多情況下均違反國家法律法規(guī)并損害公眾利益的言辭會出現(xiàn)在計算機網(wǎng)絡(luò)文本信息中；為了盡可能的限制這些不良信息的網(wǎng)絡(luò)傳播，越來越多的計算機網(wǎng)絡(luò)服務(wù)中集成了敏感詞匹配過濾功能，將不良信息的相關(guān)詞作為敏感詞，以對文本信息進行敏感詞匹配和過濾。敏感詞匹配技術(shù)則是保證計算機網(wǎng)絡(luò)服務(wù)中敏感詞匹配過濾功能得以準確實現(xiàn)的一項重要技術(shù)。目前公知的敏感詞匹配技術(shù)，通常采用敏感詞庫中的敏感詞向待判定信息全文匹配的方式進行的，具體為:把敏感詞庫中的所有敏感詞依次向待判定信息進行比對，如果敏感詞被完全...
<a title="基于分類查找的敏感詞識別處理方法原文來自X技術(shù)">基于分類查找的敏感詞識別處理方法</a>

【技術(shù)保護點】
基于分類查找的敏感詞匹配處理方法，其特征在于，包括如下步驟：1）根據(jù)敏感詞的字符數(shù)特征以及字符組合特征，預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別，將各類別敏感詞分別存儲于不同的敏感詞哈希表中，并分別記錄每一類敏感詞的字符數(shù)特征以及字符組合特征；2）預(yù)設(shè)定首字符特征值的計算方式，通過統(tǒng)計記錄每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞；3）依次將待處理文本信息中每一個字符分別作為匹配起始字符，執(zhí)行敏感詞匹配處理；其中，對待處理文本信息中的每一個匹配起始字符，按如下步驟執(zhí)行敏感詞匹配處理：3a）判斷該匹配起始字符的首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞；若是，則繼續(xù)執(zhí)行步驟3b）；否則，判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞，執(zhí)行步驟3c）；3b）將相應(yīng)敏感詞類別作為該匹配起始字符對應(yīng)的匹配處理敏感詞類別，根據(jù)所述匹配處理敏感詞類別的字符數(shù)特征確定匹配字符數(shù)N，將待處理文本信息中以所述匹配起始字符作為首字符且字符數(shù)為N的字符串作為匹配對象詞，結(jié)合所述匹配處理敏感詞類別的字符組合特征加以查找判斷所述匹配對象詞是否與所述匹配處...

【技術(shù)特征摘要】

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：錢國紅，趙鵬，
申請(專利權(quán))人：重慶新媒農(nóng)信科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)