• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于社交網絡的訓練語料集的構建方法和裝置制造方法及圖紙

    技術編號:10425571 閱讀:259 留言:0更新日期:2014-09-12 15:54
    本發明專利技術公開了一種基于社交網絡的訓練語料集的構建方法和裝置,所述方法包括:對于待構建的訓練語料集所屬的領域,獲取社交網絡中該領域的用戶群體發布的文本內容;對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度;將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。由于本發明專利技術得到的某個領域的訓練語料集中的文本語料與該領域的相關度較高,因此,本發明專利技術可以提高社交網絡中文本內容的分類準確度,并且可以節省人力。

    【技術實現步驟摘要】
    基于社交網絡的訓練語料集的構建方法和裝置
    本專利技術涉及互聯網
    ,尤其涉及一種基于社交網絡的訓練語料集的構建方法和裝置。
    技術介紹
    隨著互聯網技術的發展,通過社交網絡來進行信息的分享、傳播以及獲取,已成為廣大網絡用戶的主要社交方式之一。例如,通過微博或Twitter (推特)等社交網絡,用戶可以發布自己的最新動態等內容,也可以評論、收藏或轉發其他用戶發布的內容。在實際應用中,社交網絡的用戶量在不斷增大,社交網絡中每時每刻都在生成大量的文本內容,這些文本內容往往又涉及到多種不同的領域,例如房地產、體育、醫療等領域。而且,社交網絡中喜愛發布某一領域的文本內容的用戶通常也較為關注社交網絡中該領域的文本內容,因此,社交網絡的運營人員往往希望能夠將社交網絡中生成的大量的文本內容劃分到相應的領域中,并將相應領域的文本內容分發給對應的受眾,從而可以使得用戶獲得更好地體驗,進而能提升用戶的活躍度。目前對社交網絡中的文本內容進行分類的方法通常是:收集若干領域的文本語料后,通過人工方式對收集的每個領域的文本語料進行標注,以確定出與該領域相關度較大的文本語料,加入到該領域的訓練語料集中;并針對每個領域,通過TF-1DF、信息增益或卡方檢測等方法從該領域的訓練語料集中確定出該領域的特征詞;將各領域的特征詞存入到分類特征詞庫中;根據分類特征詞庫以及各領域的訓練語料集,采用現有的分類器訓練方法(例如SVM分類器訓練方法)訓練出領域分類器;使用訓練的領域分類器對待分類的文本內容進行分類。其中,對于訓練領域分類器來說,訓練語料集中的文本語料的質量對于訓練出的領域分類器的質量影響較大。目前,得到各領域的訓練語料集的方式通常有兩種:一種是人工收集社交網絡中的若干領域的文本語料,但是人工方式收集文本語料耗時耗力,工作量大;另一種是確定出需要收集文本語料的相關領域后,向相關領域的網站網頁定向爬取內容;例如,可向新浪體育、搜狐體育等體育網站的網頁爬取體育領域的文本語料。由于相關領域的網站網頁的內容是經過網頁編輯進行編輯過的,與社交網絡中的偏向口語化的文本內容存在較大不同,進而使用基于該方式得到的各領域的文本語料訓練出的領域分類器的適用性較差,導致社交網絡中文本內容的分類也不夠準確。而且,在得到各領域的訓練語料集的過程中,通過人工方式進行語料標注,容易產生因人為主觀因素使得某個領域的訓練語料集中的文本語料的領域相關度不穩定的問題,進而也容易導致后續基于文本語料集對文本內容進行分類的準確度不高的問題。而且,人工方式進行語料標注也浪費了較多的人力。因此,有必要提供一種能夠提高社交網絡中文本內容分類的準確度、且節省人力的訓練語料集的構建方法。
    技術實現思路
    針對上述現有技術存在的缺陷,本專利技術實施例提供了一種基于社交網絡的訓練語料集的構建方法和裝置,用以提高社交網絡中文本內容分類的準確度,并節省人力。本專利技術實施例提供了一種基于社交網絡的訓練語料集的構建方法,包括:對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容;對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度;將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。較佳地,所述根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度,具體包括:對于該篇文本內容的每個特征詞,統計出該特征詞在該篇文本內容中出現的頻次,并從該領域的特征詞庫中查找出該特征詞的權重作為該特征詞的領域權重;根據該篇文本內容的每個特征詞在該篇文本內容中出現的頻次以及領域權重,計算出該篇文本內容與該領域的相關度。較佳地,所述根據該篇文本內容的每個特征詞在該篇文本內容中出現的頻次以及領域權重,計算出該篇文本內容與該領域的相關度,具體為:根據如下公式1,計算出該篇文本內容與該領域的相關度St:本文檔來自技高網
    ...
    基于社交網絡的訓練語料集的構建方法和裝置

    【技術保護點】
    一種基于社交網絡的訓練語料集的構建方法,其特征在于,包括:對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容;對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度;將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。

    【技術特征摘要】
    1.一種基于社交網絡的訓練語料集的構建方法,其特征在于,包括: 對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容; 對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度; 將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。2.如權利要求1所述的方法,其特征在于,所述根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度,具體包括: 對于該篇文本內容的每個特征詞,統計出該特征詞在該篇文本內容中出現的頻次,并從該領域的特征詞庫中查找出該特征詞的權重作為該特征詞的領域權重; 根據該篇文本內容的每個特征詞在該篇文本內容中出現的頻次以及領域權重,計算出該篇文本內容與該領域的相關度。3.如權利要求2所述的方法,其特征在于,所述根據該篇文本內容的每個特征詞在該篇文本內容中出現的頻次以及領域權重,計算出該篇文本內容與該領域的相關度,具體為: 根據如下公式1,計算出該篇文本內容與該領域的相關度St: 4.如權利要求1-3任一所述的方法,其特征在于,所述該領域的特征詞庫是預先構建的: 從文本內容集中獲取該領域的各篇種子文本內容; 對于獲取的該領域的每篇種子文本內容,對該篇種子文本內容分詞,得到該篇種子文本內容分詞后的各詞語;分別統計出該篇種子文本內容分詞后的各詞語的詞頻IF值;并根據統計出的各詞語的IF值,從該篇種子文本內容分詞后的各詞語中選擇出該領域的特征候選詞; 對于選擇出的該領域的每個特征候選詞,統計所述文本內容集中的各領域的種子文本內容中包含該特征候選詞的領域的個數,將其作為該特征候選詞的領域頻率; 針對該領域的每個特征候選詞,根據該特征候選詞的IF值和領域頻率,計算該特征候選詞的特征得分;若該特征得分超過預設的特征得分閾值,則將該特征候選詞及其特征得分,分別作為該領域的特征詞及其權重對應存儲至該領域的特征詞庫中; 其中,所述文本內容集中該領域的各篇種子文本內容是預先從所述社交網絡中該領域的用戶群體中選取若干個用戶后,將選取出的各用戶發布的文本內容作為該領域的種子文本內容存儲在所述文本內容集中的。5.一種領域分類器的訓練方法,其特征在于,包括:將各領域的特征詞庫中的特征詞進行合并,得到分類特征詞庫,并根據得到的分類特征詞庫以及各領域的訓練語料集訓練出領域分類器;其中,一個領域的訓練語料集根據如下方法預先構建: 對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容; 對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度; 將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。6.一種基于社交網絡的訓練語料集的構建裝置,其特征在于,包括: 文本內容獲取模塊,用于對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中所述領域的用戶群體發布的文本內容; 領域相關度計算模塊,用于對于所述文本內容獲取模塊獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與所述領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與所述領域的相關度; 訓練...

    【專利技術屬性】
    技術研發人員:李金奎諶貽榮
    申請(專利權)人:微夢創科網絡科技中國有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码精品蜜桃一区二区三区WW| 精品人妻系列无码人妻漫画| 亚洲av中文无码乱人伦在线咪咕 | 18禁无遮挡无码网站免费| 亚洲精品无码aⅴ中文字幕蜜桃| 国产精品亚洲专区无码唯爱网| 中文字幕av无码专区第一页| av潮喷大喷水系列无码| 综合国产在线观看无码| 亚洲日韩乱码中文无码蜜桃臀 | 国产亚洲精久久久久久无码77777| 人妻丰满熟妇aⅴ无码| 婷婷四虎东京热无码群交双飞视频| 国产仑乱无码内谢| 亚洲爆乳精品无码一区二区| 国产成人精品无码免费看| 免费人成无码大片在线观看| 久久午夜福利无码1000合集| 一本加勒比HEZYO无码人妻 | 国产精品第一区揄拍无码| 18禁无遮挡无码国产免费网站| 久久久精品无码专区不卡| 无码av无码天堂资源网| 中日韩亚洲人成无码网站| 日韩人妻无码一区二区三区| 日韩精品无码永久免费网站 | 亚洲高清无码综合性爱视频| 亚洲av无码有乱码在线观看| 久久精品无码专区免费青青| 曰批全过程免费视频在线观看无码| 无码日韩人妻精品久久| 国产精品午夜无码av体验区| 国产精品无码一区二区三区毛片| 亚洲精品天堂无码中文字幕| 无码精品A∨在线观看十八禁| 99久久无码一区人妻a黑| 亚洲中文字幕在线无码一区二区| 日韩精品人妻系列无码专区| 亚洲av中文无码乱人伦在线咪咕 | 国产乱人伦Av在线无码| 超清无码无卡中文字幕|