本申請公開了文本處理方法、裝置及服務器。該方法的一具體實施方式包括:查詢目標文件的文本信息;通過預置的敏感詞集合對文本信息進行篩選,確定文本信息中的敏感詞;對所確定的敏感詞進行文字擴展,生成敏感詞的聯想詞,其中,聯想詞中包括了敏感詞中的文字;將聯想詞中除敏感詞中的文字之外的文字與文本信息進行文字對比,并根據對比結果對文本信息進行處理。該實施方式提高了對文本信息審核的準確性。
【技術實現步驟摘要】
文本處理方法、裝置及服務器
本申請涉及數據處理
,具體涉及信息檢測
,尤其涉及文本處理方法、裝置及服務器。
技術介紹
當前,網絡和媒體向用戶傳遞著各種信息,通過網絡和媒體,用戶可以獲取最新的資訊信息或有針對性地選擇自己需要的信息。考慮到信息安全等因素,信息提供方需要先將信息發送給信息服務器,由信息服務器一側的工作人員對接收到的信息進行審核。當審核通過后再將信息發布在網絡上,以供其他用戶獲取。然而,現有的對信息審核的方法還存在一些問題。例如,現有的信息審核主要由人工來完成。隨著信息量的增加,信息審核的工作量也極大提高,這就降低了信息審核的效率;同時,由人工審核容易出現對信息審核的主觀性判斷,導致信息審核的準確性不高。
技術實現思路
本申請提供了文本處理方法、裝置及服務器,以解決
技術介紹
中提到的技術問題。第一方面,本申請提供了一種文本處理方法,該方法包括:查詢目標文件的文本信息;通過預置的敏感詞集合對上述文本信息進行篩選,確定上述文本信息中的敏感詞;對所確定的敏感詞進行文字擴展,生成上述敏感詞的聯想詞,其中,上述聯想詞中包括了敏感詞中的文字;將上述聯想詞中除敏感詞中的文字之外的文字與上述文本信息進行文字對比,并根據對比結果對上述文本信息進行處理。在一些實施例中,上述通過預置的敏感詞集合對上述文本信息進行篩選,確定上述文本信息中的敏感詞包括:查詢上述文本信息中是否存在屬于上述敏感詞集合的詞語,若有,則確定該詞語為敏感詞。在一些實施例中,上述通過預置的敏感詞集合對上述文本信息進行篩選,確定上述文本信息中的敏感詞包括:查詢上述文本信息中是否存與上述敏感詞集合中的敏感詞諧音的詞語,若有,則確定該詞語為敏感詞。在一些實施例中,上述對所確定的敏感詞進行文字擴展,生成上述敏感詞的聯想詞包括:對上述敏感詞增加前綴文字和/或后綴文字,生成上述敏感詞的聯想詞。在一些實施例中,上述將上述聯想詞中除敏感詞中的文字之外的文字與上述文本信息進行文字對比包括:將上述聯想詞中除敏感詞中的文字之外的文字設置為待匹配文字,將上述待匹配文字與文本信息進行文字對比,查找出上述文本信息的待匹配文字。在一些實施例中,上述根據對比結果對上述文本信息進行處理包括:若上述文本信息的待匹配文字與上述敏感詞相鄰,則刪除上述文本信息中的上述敏感詞和待匹配文字。第二方面,本申請提供了一種文本處理裝置,該裝置包括:文本信息查詢單元,用于查詢目標文件的文本信息;敏感詞確定單元,用于通過預置的敏感詞集合對上述文本信息進行篩選,確定上述文本信息中的敏感詞;聯想詞生成單元,用于對所確定的敏感詞進行文字擴展,生成上述敏感詞的聯想詞,其中,上述聯想詞中包括了敏感詞中的文字;文本處理單元,用于將上述聯想詞中除敏感詞中的文字之外的文字與上述文本信息進行文字對比,并根據對比結果對上述文本信息進行處理。在一些實施例中,上述敏感詞確定單元用于:查詢上述文本信息中是否存在屬于上述敏感詞集合的詞語,若有,則確定該詞語為敏感詞。在一些實施例中,上述敏感詞確定單元用于:查詢上述文本信息中是否存與上述敏感詞集合中的敏感詞諧音的詞語,若有,則確定該詞語為敏感詞。在一些實施例中,上述聯想詞生成單元用于:對上述敏感詞增加前綴文字和/或后綴文字,生成上述敏感詞的聯想詞。在一些實施例中,上述文本處理單元包括:文字匹配子單元,用于將上述聯想詞中除敏感詞中的文字之外的文字設置為待匹配文字,將上述待匹配文字與文本信息進行文字對比,查找出上述文本信息的待匹配文字。在一些實施例中,上述文本處理單元包括:刪除子單元,用于在上述文本信息的待匹配文字與上述敏感詞不相鄰,并且上述敏感詞不是以諧音的方式存在時,則刪除上述文本信息中的上述敏感詞。第三方面,本申請提供了一種服務器,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序,當上述一個或多個程序被上述一個或多個處理器執行時,使得上述一個或多個處理器執行上述第一方面的文本處理方法。第四方面,本申請提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述第一方面的文本處理方法。本申請提供的文本處理方法、裝置及服務器,首先通過預置的敏感詞集合確定文本信息中的敏感詞,然后對敏感詞擴展得到聯想詞,并將聯想詞中除敏感詞中的文字之外的文字與文本信息進行文字對比,能夠在確定敏感詞的基礎上,進一步通過聯想詞對文本信息進行文字對比,提高了對文本信息審核的準確性。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:圖1是本申請可以應用于其中的示例性系統架構圖;圖2是根據本申請的文本處理方法的一個實施例的流程圖;圖3是根據本申請的文本處理方法的一個實施例的一個示意圖;圖4是根據本申請的文本處理方法的一個實施例的另一個示意圖;圖5是對圖4示意圖進行文字替換后得到的示意圖;圖6是根據本申請的文本處理方法的應用場景的一個示意圖;圖7是根據本申請的文本處理裝置的一個實施例的結構示意圖;圖8是根據本申請的服務器的一個實施例的結構示意圖。具體實施方式下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋相關專利技術,而非對該專利技術的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關專利技術相關的部分。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。圖1示出了可以應用本申請的文本處理方法或文本處理裝置的實施例的示例性系統架構100。如圖1所示,系統架構100可以包括終端設備101、102、103,網絡104和服務器105。網絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。終端設備101、102、103通過網絡104與服務器105交互,以接收或發送目標文件等。終端設備101、102、103上可以安裝有各種信息處理應用,例如信息編輯應用、信息發送應用等。終端設備101、102、103可以是運行應用的各種電子設備,包括但不限于智能手機、平板電腦、膝上型便攜計算機和臺式計算機等等。服務器105可以是對終端設備101、102、103發來的目標文件進行處理的服務器。例如,服務器105可以是對目標文件進行文字審核的服務器。服務器105接收終端設備101、102、103發來的目標文件,查詢目標文件的文本信息,查找出文本信息內的敏感詞,對敏感詞擴展得到聯想詞,進而通過聯想詞完成對文本信息的審核。需要說明的是,本申請實施例所提供的文本處理方法由服務器105執行。相應地,文本處理裝置一般設置于服務器105中。應該理解,圖1中的終端設備、網絡和服務器的數目僅僅是示意性的。根據實現需要,可以具有任意數目的終端設備、網絡和服務器。圖2,其示出了一種文本處理方法的一個實施例的流程圖200,該文本處理方法包括:步驟201,查詢目標文件的文本信息。在本實施例中,電子設備(例如圖1所示的服務器105)可以通過有線或無線的方式接收終端設備101、102、103發來的目標文件,并對該目標文件進行處理。其中,屏幕內容可以是文字本文檔來自技高網...

【技術保護點】
一種文本處理方法,其特征在于,所述方法包括:查詢目標文件的文本信息;通過預置的敏感詞集合對所述文本信息進行篩選,確定所述文本信息中的敏感詞;對所確定的敏感詞進行文字擴展,生成所述敏感詞的聯想詞,其中,所述聯想詞中包括了敏感詞中的文字;將所述聯想詞中除敏感詞中的文字之外的文字與所述文本信息進行文字對比,并根據對比結果對所述文本信息進行處理。
【技術特征摘要】
1.一種文本處理方法,其特征在于,所述方法包括:查詢目標文件的文本信息;通過預置的敏感詞集合對所述文本信息進行篩選,確定所述文本信息中的敏感詞;對所確定的敏感詞進行文字擴展,生成所述敏感詞的聯想詞,其中,所述聯想詞中包括了敏感詞中的文字;將所述聯想詞中除敏感詞中的文字之外的文字與所述文本信息進行文字對比,并根據對比結果對所述文本信息進行處理。2.根據權利要求1所述的方法,其特征在于,所述通過預置的敏感詞集合對所述文本信息進行篩選,確定所述文本信息中的敏感詞包括:查詢所述文本信息中是否存在屬于所述敏感詞集合的詞語,若有,則確定該詞語為敏感詞。3.根據權利要求1所述的方法,其特征在于,所述通過預置的敏感詞集合對所述文本信息進行篩選,確定所述文本信息中的敏感詞包括:查詢所述文本信息中是否存與所述敏感詞集合中的敏感詞諧音的詞語,若有,則確定該詞語為敏感詞。4.根據權利要求1所述的方法,其特征在于,所述對所確定的敏感詞進行文字擴展,生成所述敏感詞的聯想詞包括:對所述敏感詞增加前綴文字和/或后綴文字,生成所述敏感詞的聯想詞。5.根據權利要求4所述的方法,其特征在于,所述將所述聯想詞中除敏感詞中的文字之外的文字與所述文本信息進行文字對比包括:將所述聯想詞中除敏感詞中的文字之外的文字設置為待匹配文字,將所述待匹配文字與文本信息進行文字對比,查找出所述文本信息的待匹配文字。6.根據權利要求5所述的方法,其特征在于,所述根據對比結果對所述文本信息進行處理包括:若所述文本信息的待匹配文字與所述敏感詞不相鄰,并且所述敏感詞不是以諧音的方式存在時,則刪除所述文本信息中的所述敏感詞。7.一種文本處理裝置,其特征在于,所述裝置包括:文本信息查詢單元,用于查詢目標文件的文本信息;敏感詞確...
【專利技術屬性】
技術研發人員:劉大偉,趙宏利,劉建榮,段偉,劉彤,
申請(專利權)人:百度在線網絡技術北京有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。