【技術實現步驟摘要】
本專利技術涉及互聯網通信領域,特別涉及一種獲取跳轉距離的方法及裝置。
技術介紹
隨著網絡媒體和SNS(SocialNetworkingServices,社會性網絡服務)的發展,越來越多的網民喜愛在網絡上分享自己的信息,以及對別人的信息進行評論,拉近了自己與他人的距離。但總是有人寄予從網絡中獲取自己的物質利益,發布各類廣告信息、色情信息、暴力信息、詆毀信息、敏感信息等,惡意損害網絡的健康發展和他人的身心健康,甚至危害公共安全。為了解決這類問題,需要把這些不良信息進行屏蔽。對于網絡中每條信息,可以將該信息與多模字符串樹中的關鍵詞進行匹配,如果匹配出該信息包含多模字符串樹中的一個或多個關鍵詞,則認為該信息為不良信息并將其屏蔽。例如,假設某條信息為nothingtowoeryaboutinthis,多模字符串樹如圖1-1所示,該多模字符串樹包括關鍵詞ethernetmovesme,ethernetisking,ethernetisdead和ethernetforever。將該信息與多模字符串樹中的關鍵詞進行匹配過程如下:首先將該信息包括的字符從最后一個字符s開始輸入到匹配窗口,直到輸入到匹配窗口中的字符串長度與多模字符串樹中的最短關鍵詞的長度相等時為止,圖1-1所示的多模字符串樹中最短關鍵詞的長度為14。參見圖1-2,往匹配窗口輸入14個字符后,該匹配窗口包括字符e、r、y、a、b、o、u、t、i、n、t、h、i和s,獲 ...
【技術保護點】
一種獲取跳轉距離的方法,其特征在于,所述方法包括:將所述待匹配的字符串中的字符從最后一個字符開始輸入到匹配窗口,直到所述匹配窗口中的字符串長度與多模字符串樹中的最短關鍵詞長度相等時為止;將所述匹配窗口中的字符從第一個字符開始逐個與所述多模字符串樹中對應的目標字符進行匹配;當出現所述匹配窗口中的字符與所述多模字符串樹中對應的目標字符不匹配時,根據跳轉表和所述不匹配的字符,獲取所述匹配窗口的跳轉距離,所述跳轉表包括當前層次號、字符與跳轉后的層次號的對應關系。
【技術特征摘要】
1.一種獲取跳轉距離的方法,其特征在于,所述方法包括:
將所述待匹配的字符串中的字符從最后一個字符開始輸入到匹配窗口,直
到所述匹配窗口中的字符串長度與多模字符串樹中的最短關鍵詞長度相等時為
止;
將所述匹配窗口中的字符從第一個字符開始逐個與所述多模字符串樹中對
應的目標字符進行匹配;
當出現所述匹配窗口中的字符與所述多模字符串樹中對應的目標字符不匹
配時,根據跳轉表和所述不匹配的字符,獲取所述匹配窗口的跳轉距離,所述
跳轉表包括當前層次號、字符與跳轉后的層次號的對應關系。
2.如權利要求1所述的方法,其特征在于,所述根據跳轉表和所述不匹配
的字符,獲取所述匹配窗口的跳轉距離,包括:
從所述多模字符串樹中獲取所述不匹配的字符對應的目標字符所在的層次
號,將所述不匹配的字符對應的目標字符所在的層次號作為第一當前層次號;
根據所述不匹配的字符和所述第一當前層次號,從所述跳轉表中獲取跳轉
后的層次號,將所述跳轉后的層次號作為第一跳轉層次號;
根據所述第一當前層次號和所述第一跳轉層次號,確定所述匹配窗口的跳
轉距離。
3.如權利要求2所述的方法,其特征在于,所述根據所述第一當前層次號
和所述第一跳轉層次號,確定所述匹配窗口的跳轉距離,包括:
如果所述不匹配的字符不是所述匹配窗口中的第一個字符,則獲取所述不
匹配的字符前一個相鄰的相鄰字符,以及獲取所述多模字符串樹中所述相鄰字
符對應的目標字符所在的層次號,將所述相鄰字符對應的目標字符所在的層次
號作為第二當前層次號;
根據所述相鄰字符和所述第二當前層次號,從所述跳轉表中獲取跳轉后的
層次號,將所述跳轉后的層次號作為第二跳轉層次號;
計算所述第一跳轉層次號與所述第一當前層次號之間的第一差值以及所述
\t第二跳轉層次號與所述第二當前層次號之間的第二差值;
選擇最小的差值,將所述選擇的差值確定為所述匹配窗口的跳轉距離。
4.如權利要求1所述的方法,其特征在于,所述根據跳轉表和所述不匹配
的字符,獲取所述匹配窗口的跳轉距離之后,還包括:
根據所述跳轉距離,移動所述匹配窗口,使所述待匹配的字符串中的字符
輸入到所述匹配窗口中,然后執行將所述匹配窗口中的字符從第一個字符開始
逐個與所述多模字符串樹中對應的目標字符進行匹配的操作。
5.如權利要求1所述的方法,其特征在于,所述方法還包括:
當出現所述匹配窗口中的一字符與所述多模字符串樹中的一關鍵詞的尾節
點中的字符匹配時,獲取所述關鍵詞的屬性信息,所述尾節點中的字符為所述
關鍵詞的最后一個字符;
根據所述待匹配的字符串的屬性信息和所述關鍵詞的屬性信息,確定所述
關鍵詞在所述待匹配的字符串中是否有效。
6.如權利要求5所述的方法,其特征在于,所述獲取所述關鍵詞的屬性信
息,包括:
從所述尾節點中讀取屬性節點對應的指針;
根據所述指針,獲取所述屬性節點;
從所述屬性節點中提取所述關鍵詞的屬性信息。
7.如權利要5所述的方法,其特征在于,所述待匹配的字符串的屬性信
息包括所述待匹配的字符串所在的有效區域和有效場景;所述關鍵詞的屬性信
息包括所述關鍵詞適用的有效區域和在所述有效區域下適用的有效場景;
所述根據所述待匹配的字符串的屬性信息和所述關鍵詞的屬性信息,確定
所述關鍵詞在所述待匹配的字符串中是否有效,包括:
如果所述關鍵詞適用的有效區域包括所述待匹配的字符串所在的有效區域
以及在所述關鍵詞適用的有效區域下所述關鍵詞適用的有效場景包括所述待匹
配的字符串所在的有效場景,則確定所述關鍵詞在所述待匹配的字符串中有效,
\t否則,確定所述關鍵詞在所述待匹配的字符串中無效。
8.如權利要求1至7任一項權利要求所述的方法,其特征在于,所述方法
還包括:
將待添加的關鍵詞添加到所述多模字符串樹中,根據待添加的字符串的屬
性信息創建屬性節點,所述屬性節點包括所述待添加的關鍵詞的屬性信息,在
所述待添加的關鍵詞的尾節點中設置用于指向所述屬性節點的指針。
9.如權利要求1至7所述的方法,其特征在于,所述方法還包括:
從所述多模字符串樹中獲取所述待刪除的關鍵詞的尾節點,根據所述尾節
點包括的指針獲取所述待刪除的關鍵詞對應的屬性節點,刪除所述屬性節點以
及從所述多模字符串樹中刪除所述待刪除的關鍵詞。
1...
【專利技術屬性】
技術研發人員:王軍,周小會,
申請(專利權)人:騰訊科技北京有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。