• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于大數據的新聞智能選稿方法及系統技術方案

    技術編號:14483335 閱讀:130 留言:0更新日期:2017-01-26 02:50
    本發明專利技術公開了一種基于大數據的新聞智能選稿方法及系統,解決了現有技術數據處理能力差、響應速度慢、熱點信息挖掘效率低等問題。新聞智能選稿方法包括:(1)采集并收錄目標網站的內容信息;(2)數據清洗;(3)文本及圖片格式處理;(4)進行標題與內容的分詞處理;(5)地域識別;(6)人名識別;(7)數據入庫;(8)熱點計算;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。本發明專利技術結合了大數據處理與數據挖掘技術,為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能,其響應速度快、功能豐富、對新聞內容的聚類、去噪能力強,極大地提高了新聞編輯人員的工作效率。

    【技術實現步驟摘要】

    本專利技術屬于信息處理
    ,具體的說,是涉及一種基于大數據的新聞智能選稿方法及系統
    技術介紹
    現有技術中,有其他公司研發了一套“新聞轉載系統”,其技術原理主要是通過采集和匯總目標網站的相關信息,進而提交給后續負責編輯、審核的工作平臺,以實現新聞的轉載。上述統主要依賴傳統的關系型數據庫進行數據處理與存儲,并運用一些數據采集工具進行信息采集。該系統具備幾方面的缺陷,一是在數據處理上依賴mysql等傳統關系型數據庫,當需要處理海量數據信息時,整套平臺的數據處理能力、響應能力可能會出現瓶頸;二是實現的功能較為單一,僅能實現目標網站的信息采集與后臺提交,缺少對熱點新聞的挖掘方法;三是操作不友好,比如信息更新量大的目標網站,一天的內容生產量可能有上萬條,如此大的信息量沒有聚類或其他數據過濾機制,對于系統的操作人員而言意味著非常沉重的工作負擔;四是不具備文本格式自動處理的能力,編輯人員需要手工進行文字、圖片等內容的調整,工作效率難以得到保障。
    技術實現思路
    為了改善上述問題,本專利技術的目的在于提供一種實現方便,并以大數據技術為基礎,結合一些數據挖掘方法和爬蟲技術的新聞智能選稿方法。為了實現上述目的,本專利技術采用的技術方案如下:一種新聞智能選稿方法,包括以下步驟:(1)采集并收錄目標網站的內容信息的步驟;(2)數據清洗的步驟;(3)文本及圖片格式處理的步驟;(4)進行標題與內容的分詞處理的步驟;(5)地域識別:對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;(6)人名識別:對每條新聞內容進行人名識別;(7)數據入庫:將數據信息寫入相應的數據庫表中;(8)熱點計算:新聞熱點計算與熱點人物計算;(9)根據步驟(8)的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。進一步的,在所述步驟(1)中利用多線程自動采集、收錄目標網站的內容信息。進一步的,所述步驟(2)中數據清洗包括:垃圾數據過濾和信息去重處理。進一步的,所述步驟(3)中對文本及圖片格式進行處理,主要包括:(1)去噪:頁面多余元素的去除;不需要的圖片的去噪;(2)保障數據的完整性:圖片url信息的補全;多個頁面的網頁數據信息的獲取及格式化處理;(3)頁面編碼驗證:通過返回的頁面頭部消息和頁面的自帶的編碼格式,驗證頁面的數據是否為亂碼,如果為亂碼,則刪除相應數據,并重新采集對應的數據。進一步的,所述步驟(4)采用stanfordsegmenter分詞算法,進行標題與內容的分詞處理。進一步的,所述步驟(6)的具體方法如下:調用StanfordCoreNLP人名算法,并判斷新聞內容是否進行過人名識別,如果已經進行過識別,則跳過人名識別環節,如果是一篇新的文章,則進行人名識別計算,并存儲、更新分析結果。進一步的,所述步驟(8)的具體方法如下:(81)設定熱點計算的時間范圍;(82)將滿足條件的新聞內容加載到熱點計算隊列中;(83)根據傳播載體渠道權重、信息發布及時性、新聞相似度熱點進行新聞計算;根據人名出現的頻次進行熱點人物計算。進一步的,所述步驟(9)中,非當日數據同步到hadoop平臺,當日數據則寫入mysql數據庫中。進一步的,在所述步驟(10)中,需對推送給內容管理系統的新聞內容進行去噪處理,包括:(101)根據不同的網站或格式給新聞內容中段落加上<p>標簽,去除縮進;(102)替換所有原有標簽清除樣式;(103)獲取一遍圖片,根據圖片大小,設定圖片樣式。本專利技術還提供了實現所述的新聞智能選稿方法的系統,包括:信息采集模塊,采集并收錄目標網站的內容信息;數據清洗模塊,對采集的內容信息進行數據清洗;文本及圖片格式處理模塊,完成文本及圖片格式的處理;分詞處理模塊,進行標題與內容的分詞處理;地域識別模塊,對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;人名識別模塊:對每條新聞內容進行人名識別;數據入庫模塊:將數據信息寫入相應的數據庫表中;熱點計算模塊:新聞熱點計算與熱點人物計算;數據判斷模塊,根據熱點計算模塊的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;推送模塊,瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。本專利技術與現有技術相比,具有以下優點及有益效果:本專利技術是大數據技術在媒體領域的全新應用,它結合了大數據處理與數據挖掘技術,為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能,其響應速度快、功能豐富、對新聞內容的聚類、去噪能力強,極大地提高了新聞編輯人員的工作效率。附圖說明圖1為本專利技術的流程示意圖。具體實施方式下面結合附圖和實施例對本專利技術作進一步說明,本專利技術的實施方式包括但不限于下列實施例。實施例1如圖1所示,本實施例提供了一種基于大數據的新聞智能選稿方法,該方法結合了大數據處理與數據挖掘技術,實現對海量新聞內容的數據處理和熱點挖掘,與現有技術相比,不僅數據處理能力強、響應迅速,而且為新聞編輯人員提供了海量新聞素材、實時新聞熱點挖掘及快速發布功能,極大的提高了新聞編輯人員的工作效率。為了使得本領域技術人員對本專利技術申請有更清晰的了解和認識,下面對本方法進行詳細的說明:一、數據的采集和收錄通過數據采集工具(主要包含javaee和webmagic技術),利用多線程自動采集、收錄目標網站的內容信息。二、數據清洗通過數據清洗程序(該程序為現有程序),完成垃圾數據過濾,信息去重處理等工作。三、文本及圖片格式處理對文本及圖片格式進行處理,主要包括:(1)去噪<1>頁面多余元素的去除(例如script等標簽);<2>不需要的圖片(像廣告、網站logo、微信公眾號二維碼等)的去噪;(2)保障數據的完整性<1>圖片url信息(主要是將圖片的相對url替換成絕對url)的補全;<2>多個頁面的網頁數據信息的獲取及格式化處理;(3)頁面編碼驗證:通過返回的頁面頭部消息和頁面的自帶的編碼格式,驗證頁面的數據是否為亂碼,如果為亂碼,則刪除相應數據,并重新采集對應的數據。四、分詞處理調用stanfordsegmenter(斯坦福分割)分詞算法,進行標題與內容的分詞處理;五、地域識別調用地域識別組件(該組件為Java編寫的方法),對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;六、人名識別調用StanfordCoreNLP人名算法,并判斷此內容是否進行過人名分析,如果已經進行過識別,則跳過人名識別環節,如果是一篇新的文章,則進行人名識別計算,并存儲、更新分析結果;七、數據入庫通過C3P0數據庫連接池與數據庫建立連接,將數據信息寫入相應的數據庫表中,完成數據入庫;八、熱點計算進行熱點計算(包括熱點新聞計算與熱點人物計算)。在本實施例中,熱點新聞計算組件當前的工作機制為每隔2分鐘計算一次,程序運行一次大約需要1分鐘。首先用戶可設定熱點計算的時間范圍,將滿足條件的新聞內容加載到熱點計算隊列中,并調用熱點新聞與熱點人物計算方法,熱點新聞計算的數據模型包含傳播載體渠道權重、信息發布及時性、新聞相似度等多個維度,而熱點人物計算主要是根據人名出現本文檔來自技高網...
    基于大數據的新聞智能選稿方法及系統

    【技術保護點】
    一種基于大數據的新聞智能選稿方法,其特征在于,包括以下步驟:(1)采集并收錄目標網站的內容信息的步驟;(2)數據清洗的步驟;(3)文本及圖片格式處理的步驟;(4)進行標題與內容的分詞處理的步驟;(5)地域識別:對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;(6)人名識別:對每條新聞內容進行人名識別;(7)數據入庫:將數據信息寫入相應的數據庫表中;(8)熱點計算:新聞熱點計算與熱點人物計算;(9)根據步驟(8)的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。

    【技術特征摘要】
    1.一種基于大數據的新聞智能選稿方法,其特征在于,包括以下步驟:(1)采集并收錄目標網站的內容信息的步驟;(2)數據清洗的步驟;(3)文本及圖片格式處理的步驟;(4)進行標題與內容的分詞處理的步驟;(5)地域識別:對每條新聞內容的地域屬性進行識別,并標注其地域歸屬;(6)人名識別:對每條新聞內容進行人名識別;(7)數據入庫:將數據信息寫入相應的數據庫表中;(8)熱點計算:新聞熱點計算與熱點人物計算;(9)根據步驟(8)的計算結果判斷是否為歷史數據,并根據判斷結果,將數據信息寫入對應的數據庫中;(10)瀏覽、查詢、調用數據信息,將符合條件的內容推送給內容管理系統,由內容管理系統發布。2.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,在所述步驟(1)中利用多線程自動采集、收錄目標網站的內容信息。3.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(2)中數據清洗包括:垃圾數據過濾和信息去重處理。4.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(4)采用stanfordsegmenter分詞算法,進行標題與內容的分詞處理。5.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(6)的具體方法如下:調用StanfordCoreNLP人名算法,并判斷新聞內容是否進行過人名識別,如果已經進行過識別,則跳過人名識別環節,如果是一篇新的文章,則進行人名識別計算,并存儲、更新分析結果。6.根據權利要求1所述的基于大數據的新聞智能選稿方法,其特征在于,所述步驟(8)的具體方法如下:(81)設定熱點計算的時間范圍;(82)將滿足條件的新聞內容加載到熱點計算隊列中;(83)根據傳播載體渠道權重、信息發布及時性、新聞相似度熱點進行新聞計算;根據人名出現的頻次進...

    【專利技術屬性】
    技術研發人員:孫于揚余忠段朝暉張濤吳雷
    申請(專利權)人:成都廣電視訊文化傳播有限公司
    類型:發明
    國別省市:四川;51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产成人无码精品一区二区三区 | 精品人妻无码一区二区色欲产成人| 亚洲AV无码一区二区三区国产| 日韩人妻无码一区二区三区久久99| 波多野结衣AV无码久久一区| 国产成人无码AV麻豆| 精品人妻系列无码人妻免费视频| 无码人妻熟妇AV又粗又大| 丰满少妇人妻无码| 久久久精品天堂无码中文字幕| 亚洲大尺度无码专区尤物| 无码中文av有码中文av| 日韩精品久久无码人妻中文字幕| 精品无码一区二区三区水蜜桃| 日韩免费无码视频一区二区三区| 国产精品无码免费专区午夜| 亚洲精品久久久久无码AV片软件| 亚洲av日韩av高潮潮喷无码| 中文字幕无码久久久| 免费看无码自慰一区二区| 亚洲天然素人无码专区| 久久精品无码专区免费东京热| 亚洲AV无码成人精品区蜜桃| 13小箩利洗澡无码视频网站免费| 无码国模国产在线无码精品国产自在久国产 | 精品无码久久久久久尤物| 久久影院午夜理论片无码| 精品无码久久久久久久久| 亚洲人成人无码.www石榴| 2024你懂的网站无码内射| 无码国产精成人午夜视频一区二区 | 中文精品无码中文字幕无码专区| 日韩AV无码一区二区三区不卡 | 国产日产欧洲无码视频无遮挡| 曰韩无码无遮挡A级毛片| 国产成人亚洲精品无码AV大片| 曰韩无码无遮挡A级毛片| 国产精品无码免费专区午夜| 精品久久久久久无码免费| 国产自无码视频在线观看| 亚洲AV无码专区国产乱码4SE|