本發(fā)明專利技術(shù)提供了一種基于分類查找的敏感詞識別處理方法,通過預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別,并分別記錄了每一類敏感詞的字符數(shù)特征以及字符組合特征,并且通過統(tǒng)計記錄了每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞;在后續(xù)對待處理文本信息的敏感詞匹配處理過程中,就利用此前記錄的這些信息:一方面有效確認了將待處理文本信息中應(yīng)當參與敏感詞匹配的匹配字符數(shù)N,避免了因?qū)⒋幚砦谋拘畔⒅衅ヅ渥址麛?shù)不確定而對待處理文本信息中可能的字符串組合方式進行遍歷嘗試;另一方面還成功的定位到更有可能匹配成功的敏感詞類別中進行敏感詞匹配處理;從而盡可能的減少了匹配次數(shù),提高了匹配處理效率。
【技術(shù)實現(xiàn)步驟摘要】
【專利摘要】本專利技術(shù)提供了一種,通過預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別,并分別記錄了每一類敏感詞的字符數(shù)特征以及字符組合特征,并且通過統(tǒng)計記錄了每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞;在后續(xù)對待處理文本信息的敏感詞匹配處理過程中,就利用此前記錄的這些信息:一方面有效確認了將待處理文本信息中應(yīng)當參與敏感詞匹配的匹配字符數(shù)N,避免了因?qū)⒋幚砦谋拘畔⒅衅ヅ渥址麛?shù)不確定而對待處理文本信息中可能的字符串組合方式進行遍歷嘗試;另一方面還成功的定位到更有可能匹配成功的敏感詞類別中進行敏感詞匹配處理;從而盡可能的減少了匹配次數(shù),提高了匹配處理效率。【專利說明】
本專利技術(shù)涉及計算機通信網(wǎng)絡(luò)技術(shù)和敏感詞匹配
,具體涉及一種。
技術(shù)介紹
隨著計算機通信網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和進步,基于文本信息的計算機網(wǎng)絡(luò)服務(wù)已經(jīng)深入到人們生活的各個方面。但是計算機網(wǎng)絡(luò)服務(wù)中的文本信息在給人們帶來無障礙交流便利的同時,不可避免地也會散播一些未經(jīng)證實的消息或不良內(nèi)容,很多情況下均違反國家法律法規(guī)并損害公眾利益的言辭會出現(xiàn)在計算機網(wǎng)絡(luò)文本信息中;為了盡可能的限制這些不良信息的網(wǎng)絡(luò)傳播,越來越多的計算機網(wǎng)絡(luò)服務(wù)中集成了敏感詞匹配過濾功能,將不良信息的相關(guān)詞作為敏感詞,以對文本信息進行敏感詞匹配和過濾。敏感詞匹配技術(shù)則是保證計算機網(wǎng)絡(luò)服務(wù)中敏感詞匹配過濾功能得以準確實現(xiàn)的一項重要技術(shù)。目前公知的敏感詞匹配技術(shù),通常采用敏感詞庫中的敏感詞向待判定信息全文匹配的方式進行的,具體為:把敏感詞庫中的所有敏感詞依次向待判定信息進行比對,如果敏感詞被完全包含在特判定信息中,則認為匹配到敏感詞。這樣的匹配技術(shù)存在的問題是,需要把敏感詞庫中的每一個敏感詞都依次與待判定信息進行從頭到尾的匹配嘗試,即需要遍歷一遍敏感詞庫以及反復(fù)遍歷待判定信息進行匹配,過多的匹配次數(shù),使得敏感詞匹配的整體耗時長、匹配處理效率低。此外,在前述方案的基礎(chǔ)上有以下的改進方案。采用逐字匹配的方式進行匹配:在待判定信息中從頭開始逐字拿出來與敏感詞庫中的敏感詞的首字進行匹配,如果首字匹配成功,則將此敏感詞的后續(xù)部分與待判定信息的后續(xù)部分進行匹配,如果全部匹配,則認為匹配到敏感詞。這樣的方案雖然較第一種方案得到的改進,但依舊存在以下問題:雖然待判定信息中不需要像方案一那樣遍歷(如果首字不命中,可直接開始判斷下一個字),但是,在首字命中后仍然需要對首字的后續(xù)部分進行反復(fù)比較,匹配次數(shù)依然較多,敏感詞匹配耗時長、匹配處理效率低的問題沒有得到本質(zhì)解決。
技術(shù)實現(xiàn)思路
針對現(xiàn)有技術(shù)中存在的上述不足,本專利技術(shù)的目的在于提供一種,以提升計算機網(wǎng)絡(luò)業(yè)務(wù)中對文本信息進行敏感詞匹配的匹配處理效率。為實現(xiàn)上述目的,本專利技術(shù)采用了如下技術(shù)手段: 基于分類查找的敏感詞匹配處理方法,包括如下步驟: 1)根據(jù)敏感詞的字符數(shù)特征以及字符組合特征,預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別,將各類別敏感詞分別存儲于不同的敏感詞哈希表中,并分別記錄每一類敏感詞的字符數(shù)特征以及字符組合特征; 2)預(yù)設(shè)定首字符特征值的計算方式,通過統(tǒng)計記錄每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞; 3)依次將待處理文本信息中每一個字符分別作為匹配起始字符,執(zhí)行敏感詞匹配處理;其中,對待處理文本信息中的每一個匹配起始字符,按如下步驟執(zhí)行敏感詞匹配處理:3a)判斷該匹配起始字符的首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞;若是,則繼續(xù)執(zhí)行步驟3b);否則,判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c); 3b)將相應(yīng)敏感詞類別作為該匹配起始字符對應(yīng)的匹配處理敏感詞類別,根據(jù)所述匹配處理敏感詞類別的字符數(shù)特征確定匹配字符數(shù)N,將待處理文本信息中以所述匹配起始字符作為首字符且字符數(shù)為N的字符串作為匹配對象詞,結(jié)合所述匹配處理敏感詞類別的字符組合特征加以查找判斷所述匹配對象詞是否與所述匹配處理敏感詞類別中的一個敏感詞相匹配;若是,則判定存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c);否則,判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c); 3c)輸出對該匹配起始字符的敏感詞匹配處理結(jié)果。上述的敏感詞判斷方法中,作為一種優(yōu)選方案,所述步驟I)具體為:預(yù)先將敏感詞庫中的敏感詞分為單低編碼值敏感詞類別、單高編碼值敏感詞類別、雙低編碼值敏感詞類別、三低編碼值敏感詞類別以及復(fù)雜串敏感詞類別,分別存儲于單低編碼值敏感詞哈希表、單高編碼值敏感詞哈希表、雙低編碼值敏感詞哈希表、三低編碼值敏感詞哈希表和復(fù)雜串敏感詞哈希表中;分別記錄每一類敏感詞的字符數(shù)特征以及字符組合特征如下: 單低編碼值敏感詞類別中:字符數(shù)特征為,每個敏感詞的字符數(shù)均為單個;字符組合特征為:構(gòu)成敏感詞的單個字符的字符編碼不大于OxOOFF ; 單高編碼值敏感詞類別中:字符數(shù)特征為,每個敏感詞的字符數(shù)均為單個;字符組合特征為:構(gòu)成敏感詞的單個字符的字符編碼大于OxOOFF ; 雙低編碼值敏感詞類別中:字符數(shù)特征為,每個敏感詞的字符數(shù)均為兩個;字符組合特征為:構(gòu)成敏感詞的兩個字符的字符編碼均不大于OxOOFF ; 三低編碼值敏感詞類別中:字符數(shù)特征為,每個敏感詞的字符數(shù)均為三個;字符組合特征為:構(gòu)成敏感詞的三個字符的字符編碼均不大于OxOOFF ; 復(fù)雜串敏感詞類別中:字符數(shù)特征為,每個敏感詞的字符數(shù)在復(fù)雜串長度字典表中記錄;所述復(fù)雜串長度字典表記錄有復(fù)雜串敏感詞類別中每一個敏感詞的哈希特征值及其相應(yīng)的字符數(shù);所述敏感詞的哈希特征值的計算方式為,將敏感詞作為一個復(fù)雜串,該復(fù)雜串前K個字符構(gòu)成的字符串對應(yīng)的哈希值即作為哈希特征值,K為復(fù)雜串哈希參數(shù);字符組合特征為,敏感詞庫中除了單低編碼值敏感詞類別、單高編碼值敏感詞類別、雙低編碼值敏感詞類別以及三低編碼值敏感詞類別之外的其它字符組合。上述的敏感詞判斷方法中,作為一種優(yōu)選方案,所述首字符特征值的計算方式為,計算字符串首字符的字符編碼低8位的值。上述的敏感詞判斷方法中,作為一種優(yōu)選方案,在步驟3)中,若步驟3a)中判斷該匹配起始字符的首字符特征值在單低編碼值敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞,則步驟3b)具體為: 如果該匹配起始字符的字符編碼不大于OxOOFF,則直接判定該匹配起始字符自身與單低編碼值敏感詞類別中一個敏感詞相匹配,執(zhí)行步驟3c);否則,判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c)。上述的敏感詞判斷方法中,作為一種優(yōu)選方案,在步驟3)中,若步驟3a)中判斷該匹配起始字符的首字符特征值在單高編碼值敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞,則步驟3b)具體為: 如果該匹配起始字符的字符編碼大于OxOOFF,則查找單高編碼值敏感詞類別中是否存在敏感詞與該匹配起始字符自身相匹配;若是,則判定存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c);否則,判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c)。 上述的敏感詞判斷方法中,作為一種優(yōu)選方案,在步驟3)中,若步驟3a)中判斷該匹配起始字符的首字符特征值在雙低編碼值敏感詞類別中對應(yīng)有具有該首字符特征值的本文檔來自技高網(wǎng)...

【技術(shù)保護點】
基于分類查找的敏感詞匹配處理方法,其特征在于,包括如下步驟:1)根據(jù)敏感詞的字符數(shù)特征以及字符組合特征,預(yù)先將敏感詞庫中的敏感詞分為數(shù)個類別,將各類別敏感詞分別存儲于不同的敏感詞哈希表中,并分別記錄每一類敏感詞的字符數(shù)特征以及字符組合特征;2)預(yù)設(shè)定首字符特征值的計算方式,通過統(tǒng)計記錄每一個首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞;3)依次將待處理文本信息中每一個字符分別作為匹配起始字符,執(zhí)行敏感詞匹配處理;其中,對待處理文本信息中的每一個匹配起始字符,按如下步驟執(zhí)行敏感詞匹配處理:3a)判斷該匹配起始字符的首字符特征值是否在一個或多個敏感詞類別中對應(yīng)有具有該首字符特征值的敏感詞;若是,則繼續(xù)執(zhí)行步驟3b);否則,判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c);3b)將相應(yīng)敏感詞類別作為該匹配起始字符對應(yīng)的匹配處理敏感詞類別,根據(jù)所述匹配處理敏感詞類別的字符數(shù)特征確定匹配字符數(shù)N,將待處理文本信息中以所述匹配起始字符作為首字符且字符數(shù)為N的字符串作為匹配對象詞,結(jié)合所述匹配處理敏感詞類別的字符組合特征加以查找判斷所述匹配對象詞是否與所述匹配處理敏感詞類別中的一個敏感詞相匹配;若是,則判定存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c);否則,判定不存在與該匹配起始字符對應(yīng)匹配的敏感詞,執(zhí)行步驟3c);3c)輸出對該匹配起始字符的敏感詞匹配處理結(jié)果。...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:錢國紅,趙鵬,
申請(專利權(quán))人:重慶新媒農(nóng)信科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。