本發明專利技術公開了一種基于大數據的新聞智能選稿方法及系統,解決了現有技術數據處理能力差、響應速度慢、熱點信息挖掘效率低等問題。新聞智能選稿方法包括:(1)采集并收錄目標網站的內容信息;(2)數據清洗;(3)文本及圖片格式處理;(4)進行標題與內容的分詞處理;(5)地域識別;(6)人名識別;(7)數據入庫;(8)熱點計算;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。本發明專利技術結合了大數據處理與數據挖掘技術,為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能,其響應速度快、功能豐富、對新聞內容的聚類、去噪能力強,極大地提高了新聞編輯人員的工作效率。
【技術實現步驟摘要】
本專利技術屬于信息處理
,具體的說,是涉及一種基于大數據的新聞智能選稿方法及系統。
技術介紹
現有技術中,有其他公司研發了一套“新聞轉載系統”,其技術原理主要是通過采集和匯總目標網站的相關信息,進而提交給后續負責編輯、審核的工作平臺,以實現新聞的轉載。上述統主要依賴傳統的關系型數據庫進行數據處理與存儲,并運用一些數據采集工具進行信息采集。該系統具備幾方面的缺陷,一是在數據處理上依賴mysql等傳統關系型數據庫,當需要處理海量數據信息時,整套平臺的數據處理能力、響應能力可能會出現瓶頸;二是實現的功能較為單一,僅能實現目標網站的信息采集與后臺提交,缺少對熱點新聞的挖掘方法;三是操作不友好,比如信息更新量大的目標網站,一天的內容生產量可能有上萬條,如此大的信息量沒有聚類或其他數據過濾機制,對于系統的操作人員而言意味著非常沉重的工作負擔;四是不具備文本格式自動處理的能力,編輯人員需要手工進行文字、圖片等內容的調整,工作效率難以得到保障。
技術實現思路
為了改善上述問題,本專利技術的目的在于提供一種實現方便,并以大數據技術為基礎,結合一些數據挖掘方法和爬蟲技術的新聞智能選稿方法。為了實現上述目的,本專利技術采用的技術方案如下:一種新聞智能選稿方法,包括以下步驟:(1)采集并收錄目標網站的內容信息的步驟;(2)數據清洗的步驟;(3)文本及圖片格式處理的步驟;(4)進行標題與內容的分詞處理的步驟;(5)地域識別:對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;(6)人名識別:對每條新聞內容進行人名識別;(7)數據入庫:將數據信息寫入相應的數據庫表中;(8)熱點計算:新聞熱點計算與熱點人物計算;(9)根據步驟(8)的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。進一步的,在所述步驟(1)中利用多線程自動采集、收錄目標網站的內容信息。進一步的,所述步驟(2)中數據清洗包括:垃圾數據過濾和信息去重處理。進一步的,所述步驟(3)中對文本及圖片格式進行處理,主要包括:(1)去噪:頁面多余元素的去除;不需要的圖片的去噪;(2)保障數據的完整性:圖片url信息的補全;多個頁面的網頁數據信息的獲取及格式化處理;(3)頁面編碼驗證:通過返回的頁面頭部消息和頁面的自帶的編碼格式,驗證頁面的數據是否為亂碼,如果為亂碼,則刪除相應數據,并重新采集對應的數據。進一步的,所述步驟(4)采用stanfordsegmenter分詞算法,進行標題與內容的分詞處理。進一步的,所述步驟(6)的具體方法如下:調用StanfordCoreNLP人名算法,并判斷新聞內容是否進行過人名識別,如果已經進行過識別,則跳過人名識別環節,如果是一篇新的文章,則進行人名識別計算,并存儲、更新分析結果。進一步的,所述步驟(8)的具體方法如下:(81)設定熱點計算的時間范圍;(82)將滿足條件的新聞內容加載到熱點計算隊列中;(83)根據傳播載體渠道權重、信息發布及時性、新聞相似度熱點進行新聞計算;根據人名出現的頻次進行熱點人物計算。進一步的,所述步驟(9)中,非當日數據同步到hadoop平臺,當日數據則寫入mysql數據庫中。進一步的,在所述步驟(10)中,需對推送給內容管理系統的新聞內容進行去噪處理,包括:(101)根據不同的網站或格式給新聞內容中段落加上<p>標簽,去除縮進;(102)替換所有原有標簽清除樣式;(103)獲取一遍圖片,根據圖片大小,設定圖片樣式。本專利技術還提供了實現所述的新聞智能選稿方法的系統,包括:信息采集模塊,采集并收錄目標網站的內容信息;數據清洗模塊,對采集的內容信息進行數據清洗;文本及圖片格式處理模塊,完成文本及圖片格式的處理;分詞處理模塊,進行標題與內容的分詞處理;地域識別模塊,對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;人名識別模塊:對每條新聞內容進行人名識別;數據入庫模塊:將數據信息寫入相應的數據庫表中;熱點計算模塊:新聞熱點計算與熱點人物計算;數據判斷模塊,根據熱點計算模塊的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;推送模塊,瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。本專利技術與現有技術相比,具有以下優點及有益效果:本專利技術是大數據技術在媒體領域的全新應用,它結合了大數據處理與數據挖掘技術,為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能,其響應速度快、功能豐富、對新聞內容的聚類、去噪能力強,極大地提高了新聞編輯人員的工作效率。附圖說明圖1為本專利技術的流程示意圖。具體實施方式下面結合附圖和實施例對本專利技術作進一步說明,本專利技術的實施方式包括但不限于下列實施例。實施例1如圖1所示,本實施例提供了一種基于大數據的新聞智能選稿方法,該方法結合了大數據處理與數據挖掘技術,實現對海量新聞內容的數據處理和熱點挖掘,與現有技術相比,不僅數據處理能力強、響應迅速,而且為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能,極大的提高了新聞編輯人員的工作效率。為了使得本領域技術人員對本專利技術申請有更清晰的了解和認識,下面對本方法進行詳細的說明:一、數據的采集和收錄通過數據采集工具(主要包含javaee和webmagic技術),利用多線程自動采集、收錄目標網站的內容信息。二、數據清洗通過數據清洗程序(該程序為現有程序),完成垃圾數據過濾,信息去重處理等工作。三、文本及圖片格式處理對文本及圖片格式進行處理,主要包括:(1)去噪<1>頁面多余元素的去除(例如script等標簽);<2>不需要的圖片(像廣告、網站logo、微信公眾號二維碼等)的去噪;(2)保障數據的完整性<1>圖片url信息(主要是將圖片的相對url替換成絕對url)的補全;<2>多個頁面的網頁數據信息的獲取及格式化處理;(3)頁面編碼驗證:通過返回的頁面頭部消息和頁面的自帶的編碼格式,驗證頁面的數據是否為亂碼,如果為亂碼,則刪除相應數據,并重新采集對應的數據。四、分詞處理調用stanfordsegmenter(斯坦福分割)分詞算法,進行標題與內容的分詞處理;五、地域識別調用地域識別組件(該組件為Java編寫的方法),對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;六、人名識別調用StanfordCoreNLP人名算法,并判斷此內容是否進行過人名分析,如果已經進行過識別,則跳過人名識別環節,如果是一篇新的文章,則進行人名識別計算,并存儲、更新分析結果;七、數據入庫通過C3P0數據庫連接池與數據庫建立連接,將數據信息寫入相應的數據庫表中,完成數據入庫;八、熱點計算進行熱點計算(包括熱點新聞計算與熱點人物計算)。在本實施例中,熱點新聞計算組件當前的工作機制為每隔2分鐘計算一次,程序運行一次大約需要1分鐘。首先用戶可設定熱點計算的時間范圍,將滿足條件的新聞內容加載到熱點計算隊列中,并調用熱點新聞與熱點人物計算方法,熱點新聞計算的數據模型包含傳播載體渠道權重、信息發布及時性、新聞相似度等多個維度,而熱點人物計算主要是根據人名出現本文檔來自技高網...

【技術保護點】
一種基于大數據的新聞智能選稿方法,其特征在于,包括以下步驟:(1)采集并收錄目標網站的內容信息的步驟;(2)數據清洗的步驟;(3)文本及圖片格式處理的步驟;(4)進行標題與內容的分詞處理的步驟;(5)地域識別:對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;(6)人名識別:對每條新聞內容進行人名識別;(7)數據入庫:將數據信息寫入相應的數據庫表中;(8)熱點計算:新聞熱點計算與熱點人物計算;(9)根據步驟(8)的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。
【技術特征摘要】
1.一種基于大數據的新聞智能選稿方法,其特征在于,包括以下步驟:(1)采集并收錄目標網站的內容信息的步驟;(2)數據清洗的步驟;(3)文本及圖片格式處理的步驟;(4)進行標題與內容的分詞處理的步驟;(5)地域識別:對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;(6)人名識別:對每條新聞內容進行人名識別;(7)數據入庫:將數據信息寫入相應的數據庫表中;(8)熱點計算:新聞熱點計算與熱點人物計算;(9)根據步驟(8)的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。2.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,在所述步驟(1)中利用多線程自動采集、收錄目標網站的內容信息。3.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(2)中數據清洗包括:垃圾數據過濾和信息去重處理。4.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(4)采用stanfordsegmenter分詞算法,進行標題與內容的分詞處理。5.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(6)的具體方法如下:調用StanfordCoreNLP人名算法,并判斷新聞內容是否進行過人名識別,如果已經進行過識別,則跳過人名識別環節,如果是一篇新的文章,則進行人名識別計算,并存儲、更新分析結果。6.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(8)的具體方法如下:(81)設定熱點計算的時間范圍;(82)將滿足條件的新聞內容加載到熱點計算隊列中;(83)根據傳播載體渠道權重、信息發布及時性、新聞相似度熱點進行新聞計算;根據人名出現的頻次進...
【專利技術屬性】
技術研發人員:孫于揚,余忠,段朝暉,張濤,吳雷,
申請(專利權)人:成都廣電視訊文化傳播有限公司,
類型:發明
國別省市:四川;51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。