本發明專利技術涉及一種基于多語種輿情預警的方法。本發明專利技術通過數據語種判斷,進行歸類翻譯,滿足中文用戶簡單閱讀海內外全媒體數據的關鍵點;通過相近事件信息算法,實現簡稱、縮寫、錯別字、相近錯別字、近義詞等內容的識別,并進行相近信息事件歸類,達到信息相近聚類的關鍵點,從而達到對不同語種所公布的信息進行輿情監測的目的,檢測面更廣,獲取的信息更加的全面,輿情監測更加及時到位。輿情監測更加及時到位。輿情監測更加及時到位。
【技術實現步驟摘要】
一種基于多語種輿情預警的方法
[0001]本專利技術涉及網絡信息處理
,具體為一種基于多語種輿情預警的方法。
技術介紹
[0002]具互聯網各大機構統計,截止2021年,全球總人口數量達到78億,互聯網用戶數量約達到48億人,截止2022年1月,全球互聯網用戶數量達到49.5億人,同比增長4%,互聯網用戶占總人口的62.5%。以及各大社交新聞平臺發表內容越來越多,互聯網和信息化技術發展越來越快等問題,網絡信息對日常生活造成的影響也越來越大。隨之而來的國內外網絡輿情問題,便成了影響社會、企業穩定的重要因素,需要對海量輿情數據進行監控、分析以及預警。
[0003]目前的技術通常是針對中文簡體的數據進行關鍵詞抓取,如出現關鍵詞頻繁觸發的問題,則判斷為輿情問題,并進行預警通知。
[0004]而現如今該技術已無法滿足全球各地多語種多社交平臺自由發表言論的情況,且預警結果更多是跟關鍵詞命中有關,無法滿足輿情信息在出現未知關鍵內容時的問題。
技術實現思路
[0005]鑒于現有技術中所存在的問題,本專利技術公開了一種基于多語種輿情預警的方法,包括步驟如下:步驟一、通過數據爬蟲技術進行國內全媒體和國外全媒體的數據采集,將采集到的數據進行臨時存放,而數據爬蟲應用的為其常用技術;步驟二、將采集回來臨時存放的數據,通過判斷規則進行數據發表語種的分類,并將分類好的被判定為中文繁體或其他語種的數據新增一個中譯文翻譯結果字段,將翻譯后的數據儲存到該字段,最終將翻譯完成后的數據及被判定為中文簡體的數據存放入采集數據庫;步驟三、將所有采集到并入庫的數據,都默認加入突發事件預警隊列,通過常見分詞提詞的方式得到多個詞語,并統計詞匯出現次數,如多個詞匯出現次數觸碰到設定閾值,則判斷該信息為突發信息,同步進行常用的關鍵詞匹配邏輯,并將其作為預警信息通知用戶;步驟四、將判斷為突發信息的詞匯進行自研相近事件信息算法處理,如有相近事件信息,則同樣統計到信息預警隊列,通過常見分詞提詞的方式得到多個詞語,并統計詞匯出現次數,如多個詞匯出現次數觸碰到設定閾值,將該信息判斷為突發信息,并作為預警信息通知用戶,以達到智能算法預警推送的功能。
[0006]作為本專利技術的一種優選方案,步驟二中所述數據發表語種的具體分類判斷規則如下:(1)判斷是否為中文簡體:既該數據文本不包含標點符號的內容90%以上的字符為中文簡體時,則將其歸類到中文簡體;
(2)判斷是否為中文繁體或其他語種:既該數據文本不包含標點符號的內容90%以上的字符為中文繁體或其他語種時,則將其歸類到中文繁體或其他語種。
[0007]作為本專利技術的一種優選方案,步驟三中統計詞匯出現次數的統計方式是在排除廣告詞詞庫、助詞詞庫、代詞詞庫的基礎上計算的。
[0008]作為本專利技術的一種優選方案,步驟四中所述自研相近事件信息算法是通過大批量相近詞匯、相近事件、相近內容進行訓練學習得出,用于判斷一個詞匯或信息是否有相近的信息或事件。
[0009]本專利技術的有益效果:本專利技術通過數據語種判斷,進行歸類翻譯,滿足中文用戶簡單閱讀海內外全媒體數據的關鍵點;通過相近事件信息算法,實現簡稱、縮寫、錯別字、相近錯別字、近義詞等內容的識別,并進行相近信息事件歸類,達到信息相近聚類的關鍵點,從而達到對不同語種所公布的信息進行輿情監測的目的,檢測面更廣,獲取的信息更加的全面,輿情監測更加及時到位。
附圖說明
[0010]圖1為專利技術的語種分類判斷規則示意圖;
具體實施方式
[0011]實施例1
[0012]一種基于多語種輿情預警的方法,結合目前對國外媒體社交軟件在討論國際事件時的數據分析監測實驗,包括步驟如下:步驟一、通過數據爬蟲技術進行國內全媒體和國外全媒體的數據采集,將采集到的數據進行臨時存放;其中,數據爬蟲應用的為其常用技術,該信息是可以被采集的,采集過程是合法合規的;步驟二、將臨時存放的數據取出,通過判斷規則進行數據發表語種的分類,并將分類好的被判定為中文繁體或其他語種的數據新增一個中譯文翻譯結果字段,將翻譯后的數據儲存到該字段,最終將翻譯完成后的數據及被判定為中文簡體的數據存放入采集數據庫;如圖1所示,分類判斷規則為:(1)判斷是否為中文簡體:既該數據文本不包含標點符號的內容90%以上的字符為中文簡體時,則將其歸類到中文簡體;(2)判斷是否為中文繁體或其他語種:既該數據文本不包含標點符號的內容90%以上的字符為中文繁體或其他語種時,則將其歸類到中文繁體或其他語種;步驟三、將所有采集到并入庫的數據,都默認加入突發事件預警隊列,通過常見分詞提詞的方式得到多個詞語,并統計詞匯出現次數,該統計方式是在排除廣告詞詞庫、助詞詞庫、代詞詞庫的基礎上計算的。從中提取詞匯,如其中的詞匯出現次數觸碰到設定閾值,在以此詞匯持續分析其他數據,如觸發到一定閾值,則判斷該信息為突發信息,同步進行常用的關鍵詞匹配邏輯,并將其作為預警信息通知用戶;步驟四、將判斷為突發信息的詞匯進行自研相近事件信息算法處理,如提及的詞匯有相近信息,則通過算法處理,得到相近事件,則同樣將提到的詞匯頻次統計到信息預警
隊列,通過常見分詞提詞的方式得到多個詞語,并統計詞匯出現次數,如多個詞匯出現次數觸碰到設定閾值,將該信息判斷為突發信息,并作為預警信息通知用戶,以達到智能算法預警推送的功能。
[0013]所述自研相近事件信息算法是通過大批量相近詞匯、相近事件、相近內容進行訓練學習得出,用于判斷一個詞匯或信息是否有相近的信息或事件。
[0014]本文中未詳細說明的部分為現有技術。
[0015]上述雖然對本專利技術的具體實施例作了詳細說明,但是本專利技術并不限于上述實施例,在本領域普通技術人員所具備的知識范圍內,還可以在不脫離本專利技術宗旨的前提下做出各種變化,而不具備創造性勞動的修改或變形仍在本專利技術的保護范圍以內。
本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于多語種輿情預警的方法,其特征在于:包括步驟如下:步驟一、通過數據爬蟲技術進行國內全媒體和國外全媒體的數據采集,將采集到的數據進行臨時存放;步驟二、將采集回來臨時存放的數據,通過判斷規則進行數據發表語種的分類,并將分類好的被判定為中文繁體或其他語種的數據新增一個中譯文翻譯結果字段,將翻譯后的數據儲存到該字段,最終將翻譯完成后的數據及被判定為中文簡體的數據存放入采集數據庫;步驟三、將所有采集到并入庫的數據,都默認加入突發事件預警隊列,通過常見分詞提詞的方式得到多個詞語,并統計詞匯出現次數,如多個詞匯出現次數觸碰到設定閾值,則判斷該信息為突發信息,同步進行常用的關鍵詞匹配邏輯,并將其作為預警信息通知用戶;步驟四、將判斷為突發信息的詞匯進行自研相近事件信息算法處理,如有相近事件信息,則同樣統計到信息預警隊列,通過常見分詞提詞的方式得到多個詞語,并統計詞匯出現次數,如多個詞匯出現次數觸碰到設定閾值,...
【專利技術屬性】
技術研發人員:田平,陳學言,張慶余,王波,
申請(專利權)人:廣東數源智匯科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。