基于大數據的新聞智能選稿方法及系統技術方案

技術編號：14483335 閱讀：130 留言：0更新日期：2017-01-26 02:50

本發明專利技術公開了一種基于大數據的新聞智能選稿方法及系統，解決了現有技術數據處理能力差、響應速度慢、熱點信息挖掘效率低等問題。新聞智能選稿方法包括：（1）采集并收錄目標網站的內容信息；（2）數據清洗；（3）文本及圖片格式處理；（4）進行標題與內容的分詞處理；（5）地域識別；（6）人名識別；（7）數據入庫；（8）熱點計算；（10）瀏覽、查詢、調用數據信息，將符合條件的內容推送給內容管理系統，由內容管理系統發布。本發明專利技術結合了大數據處理與數據挖掘技術，為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能，其響應速度快、功能豐富、對新聞內容的聚類、去噪能力強，極大地提高了新聞編輯人員的工作效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于信息處理
，具體的說，是涉及一種基于大數據的新聞智能選稿方法及系統。
技術介紹
現有技術中，有其他公司研發了一套“新聞轉載系統”，其技術原理主要是通過采集和匯總目標網站的相關信息，進而提交給后續負責編輯、審核的工作平臺，以實現新聞的轉載。上述統主要依賴傳統的關系型數據庫進行數據處理與存儲，并運用一些數據采集工具進行信息采集。該系統具備幾方面的缺陷，一是在數據處理上依賴mysql等傳統關系型數據庫，當需要處理海量數據信息時，整套平臺的數據處理能力、響應能力可能會出現瓶頸；二是實現的功能較為單一，僅能實現目標網站的信息采集與后臺提交，缺少對熱點新聞的挖掘方法；三是操作不友好，比如信息更新量大的目標網站，一天的內容生產量可能有上萬條，如此大的信息量沒有聚類或其他數據過濾機制，對于系統的操作人員而言意味著非常沉重的工作負擔；四是不具備文本格式自動處理的能力，編輯人員需要手工進行文字、圖片等內容的調整，工作效率難以得到保障。
技術實現思路
為了改善上述問題，本專利技術的目的在于提供一種實現方便，并以大數據技術為基礎，結合一些數據挖掘方法和爬蟲技術的新聞智能選稿方法。為了實現上述目的，本專利技術采用的技術方案如下：一種新聞智能選稿方法，包括以下步驟：（1）采集并收錄目標網站的內容信息的步驟；（2）數據清洗的步驟；（3）文本及圖片格式處理的步驟；（4）進行標題與內容的分詞處理的步驟；（5）地域識別：對每條新聞內容的地域屬性進行識別，并標注其地域歸屬；（6）人名識別：對每條新聞內容進行人名識別；（7）數據入庫：將數據信息寫入相應的數據庫表中；（8）熱點計...
基于大數據的新聞智能選稿方法及系統

【技術保護點】
一種基于大數據的新聞智能選稿方法，其特征在于，包括以下步驟：（1）采集并收錄目標網站的內容信息的步驟；（2）數據清洗的步驟；（3）文本及圖片格式處理的步驟；（4）進行標題與內容的分詞處理的步驟；（5）地域識別：對每條新聞內容的地域屬性進行識別，并標注其地域歸屬；（6）人名識別：對每條新聞內容進行人名識別；（7）數據入庫：將數據信息寫入相應的數據庫表中；（8）熱點計算：新聞熱點計算與熱點人物計算；（9）根據步驟（8）的計算結果判斷是否為歷史數據，并根據判斷結果，將數據信息寫入對應的數據庫中；（10）瀏覽、查詢、調用數據信息，將符合條件的內容推送給內容管理系統，由內容管理系統發布。

【技術特征摘要】
1.一種基于大數據的新聞智能選稿方法，其特征在于，包括以下步驟：（1）采集并收錄目標網站的內容信息的步驟；（2）數據清洗的步驟；（3）文本及圖片格式處理的步驟；（4）進行標題與內容的分詞處理的步驟；（5）地域識別：對每條新聞內容的地域屬性進行識別，并標注其地域歸屬；（6）人名識別：對每條新聞內容進行人名識別；（7）數據入庫：將數據信息寫入相應的數據庫表中；（8）熱點計算：新聞熱點計算與熱點人物計算；（9）根據步驟（8）的計算結果判斷是否為歷史數據，并根據判斷結果，將數據信息寫入對應的數據庫中；（10）瀏覽、查詢、調用數據信息，將符合條件的內容推送給內容管理系統，由內容管理系統發布。2.根據權利要求1所述的基于大數據的新聞智能選稿方法，其特征在于，在所述步驟（1）中利用多線程自動采集、收錄目標網站的內容信息。3.根據權利要求1所述的基于大數據的新聞智能選稿方法，其特征在于，所述步驟（2）中數據清洗包括：垃圾數據過濾和信息去重處理。4.根據權利要求1所述的基于大數據的新聞智能選稿方法，其特征在于，所述步驟（4）采用stanfordsegmenter分詞算法,進行標題與內容的分詞處理。5.根據權利要求1所述的基于大數據的新聞智能選稿方法，其特征在于，所述步驟（6）的具體方法如下：調用StanfordCoreNLP人名算法，并判斷新聞內容是否進行過人名識別，如果已經進行過識別，則跳過人名識別環節，如果是一篇新的文章，則進行人名識別計算，并存儲、更新分析結果。6.根據權利要求1所述的基于大數據的新聞智能選稿方法，其特征在于，所述步驟（8）的具體方法如下：（81）設定熱點計算的時間范圍；（82）將滿足條件的新聞內容加載到熱點計算隊列中；（83）根據傳播載體渠道權重、信息發布及時性、新聞相似度熱點進行新聞計算；根據人名出現的頻次進...

【專利技術屬性】
技術研發人員：孫于揚，余忠，段朝暉，張濤，吳雷，
申請(專利權)人：成都廣電視訊文化傳播有限公司，
類型：發明
國別省市：四川;51

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術