一種基于多語種輿情預警的方法技術

技術編號：36942002 閱讀：57 留言：0更新日期：2023-03-22 19:03

本發明專利技術涉及一種基于多語種輿情預警的方法。本發明專利技術通過數據語種判斷，進行歸類翻譯，滿足中文用戶簡單閱讀海內外全媒體數據的關鍵點；通過相近事件信息算法，實現簡稱、縮寫、錯別字、相近錯別字、近義詞等內容的識別，并進行相近信息事件歸類，達到信息相近聚類的關鍵點，從而達到對不同語種所公布的信息進行輿情監測的目的，檢測面更廣，獲取的信息更加的全面，輿情監測更加及時到位。輿情監測更加及時到位。輿情監測更加及時到位。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于多語種輿情預警的方法

[0001]本專利技術涉及網絡信息處理
，具體為一種基于多語種輿情預警的方法。

技術介紹

[0002]具互聯網各大機構統計，截止2021年,全球總人口數量達到78億,互聯網用戶數量約達到48億人,截止2022年1月,全球互聯網用戶數量達到49.5億人,同比增長4％,互聯網用戶占總人口的62.5％。以及各大社交新聞平臺發表內容越來越多，互聯網和信息化技術發展越來越快等問題，網絡信息對日常生活造成的影響也越來越大。隨之而來的國內外網絡輿情問題，便成了影響社會、企業穩定的重要因素，需要對海量輿情數據進行監控、分析以及預警。
[0003]目前的技術通常是針對中文簡體的數據進行關鍵詞抓取，如出現關鍵詞頻繁觸發的問題，則判斷為輿情問題，并進行預警通知。
[0004]而現如今該技術已無法滿足全球各地多語種多社交平臺自由發表言論的情況，且預警結果更多是跟關鍵詞命中有關，無法滿足輿情信息在出現未知關鍵內容時的問題。

技術實現思路

[0005]鑒于現有技術中所存在的問題，本專利技術公開了一種基于多語種輿情預警的方法，包括步驟如下：步驟一、通過數據爬蟲技術進行國內全媒體和國外全媒體的數據采集，將采集到的數據進行臨時存放，而數據爬蟲應用的為其常用技術；步驟二、將采集回來臨時存放的數據，通過判斷規則進行數據發表語種的分類，并將分類好的被判定為中文繁體或其他語種的數據新增一個中譯文翻譯結果字段，將翻譯后的數據儲存到該字段，最終將翻譯完成后的數據及被判定為中文簡體的數據存放入采集...

【技術保護點】

【技術特征摘要】
1.一種基于多語種輿情預警的方法，其特征在于：包括步驟如下：步驟一、通過數據爬蟲技術進行國內全媒體和國外全媒體的數據采集，將采集到的數據進行臨時存放；步驟二、將采集回來臨時存放的數據，通過判斷規則進行數據發表語種的分類，并將分類好的被判定為中文繁體或其他語種的數據新增一個中譯文翻譯結果字段，將翻譯后的數據儲存到該字段，最終將翻譯完成后的數據及被判定為中文簡體的數據存放入采集數據庫；步驟三、將所有采集到并入庫的數據，都默認加入突發事件預警隊列，通過常見分詞提詞的方式得到多個詞語，并統計詞匯出現次數，如多個詞匯出現次數觸碰到設定閾值，則判斷該信息為突發信息，同步進行常用的關鍵詞匹配邏輯，并將其作為預警信息通知用戶；步驟四、將判斷為突發信息的詞匯進行自研相近事件信息算法處理，如有相近事件信息，則同樣統計到信息預警隊列，通過常見分詞提詞的方式得到多個詞語，并統計詞匯出現次數，如多個詞匯出現次數觸碰到設定閾值，...

【專利技術屬性】
技術研發人員：田平，陳學言，張慶余，王波，
申請(專利權)人：廣東數源智匯科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術