【技術實現步驟摘要】
基于社交網絡的訓練語料集的構建方法和裝置
本專利技術涉及互聯網
,尤其涉及一種基于社交網絡的訓練語料集的構建方法和裝置。
技術介紹
隨著互聯網技術的發展,通過社交網絡來進行信息的分享、傳播以及獲取,已成為廣大網絡用戶的主要社交方式之一。例如,通過微博或Twitter (推特)等社交網絡,用戶可以發布自己的最新動態等內容,也可以評論、收藏或轉發其他用戶發布的內容。在實際應用中,社交網絡的用戶量在不斷增大,社交網絡中每時每刻都在生成大量的文本內容,這些文本內容往往又涉及到多種不同的領域,例如房地產、體育、醫療等領域。而且,社交網絡中喜愛發布某一領域的文本內容的用戶通常也較為關注社交網絡中該領域的文本內容,因此,社交網絡的運營人員往往希望能夠將社交網絡中生成的大量的文本內容劃分到相應的領域中,并將相應領域的文本內容分發給對應的受眾,從而可以使得用戶獲得更好地體驗,進而能提升用戶的活躍度。目前對社交網絡中的文本內容進行分類的方法通常是:收集若干領域的文本語料后,通過人工方式對收集的每個領域的文本語料進行標注,以確定出與該領域相關度較大的文本語料,加入到該領域的訓練語料集中;并針對每個領域,通過TF-1DF、信息增益或卡方檢測等方法從該領域的訓練語料集中確定出該領域的特征詞;將各領域的特征詞存入到分類特征詞庫中;根據分類特征詞庫以及各領域的訓練語料集,采用現有的分類器訓練方法(例如SVM分類器訓練方法)訓練出領域分類器;使用訓練的領域分類器對待分類的文本內容進行分類。其中,對于訓練領域分類器來說,訓練語料集中的文本語料的質量對于訓練出的領域分類器的 ...
【技術保護點】
一種基于社交網絡的訓練語料集的構建方法,其特征在于,包括:對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容;對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度;將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。
【技術特征摘要】
1.一種基于社交網絡的訓練語料集的構建方法,其特征在于,包括: 對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容; 對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度; 將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。2.如權利要求1所述的方法,其特征在于,所述根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度,具體包括: 對于該篇文本內容的每個特征詞,統計出該特征詞在該篇文本內容中出現的頻次,并從該領域的特征詞庫中查找出該特征詞的權重作為該特征詞的領域權重; 根據該篇文本內容的每個特征詞在該篇文本內容中出現的頻次以及領域權重,計算出該篇文本內容與該領域的相關度。3.如權利要求2所述的方法,其特征在于,所述根據該篇文本內容的每個特征詞在該篇文本內容中出現的頻次以及領域權重,計算出該篇文本內容與該領域的相關度,具體為: 根據如下公式1,計算出該篇文本內容與該領域的相關度St: 4.如權利要求1-3任一所述的方法,其特征在于,所述該領域的特征詞庫是預先構建的: 從文本內容集中獲取該領域的各篇種子文本內容; 對于獲取的該領域的每篇種子文本內容,對該篇種子文本內容分詞,得到該篇種子文本內容分詞后的各詞語;分別統計出該篇種子文本內容分詞后的各詞語的詞頻IF值;并根據統計出的各詞語的IF值,從該篇種子文本內容分詞后的各詞語中選擇出該領域的特征候選詞; 對于選擇出的該領域的每個特征候選詞,統計所述文本內容集中的各領域的種子文本內容中包含該特征候選詞的領域的個數,將其作為該特征候選詞的領域頻率; 針對該領域的每個特征候選詞,根據該特征候選詞的IF值和領域頻率,計算該特征候選詞的特征得分;若該特征得分超過預設的特征得分閾值,則將該特征候選詞及其特征得分,分別作為該領域的特征詞及其權重對應存儲至該領域的特征詞庫中; 其中,所述文本內容集中該領域的各篇種子文本內容是預先從所述社交網絡中該領域的用戶群體中選取若干個用戶后,將選取出的各用戶發布的文本內容作為該領域的種子文本內容存儲在所述文本內容集中的。5.一種領域分類器的訓練方法,其特征在于,包括:將各領域的特征詞庫中的特征詞進行合并,得到分類特征詞庫,并根據得到的分類特征詞庫以及各領域的訓練語料集訓練出領域分類器;其中,一個領域的訓練語料集根據如下方法預先構建: 對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中該領域的用戶群體發布的文本內容; 對于獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與該領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與該領域的相關度; 將與該領域的相關度大于預設的相關度閾值的文本內容,作為該領域的文本語料加入到該領域的訓練語料集中。6.一種基于社交網絡的訓練語料集的構建裝置,其特征在于,包括: 文本內容獲取模塊,用于對于待構建的訓練語料集所屬的領域,獲取所述社交網絡中所述領域的用戶群體發布的文本內容; 領域相關度計算模塊,用于對于所述文本內容獲取模塊獲取的每篇文本內容,對該篇文本內容進行分詞,將分詞后的各詞語中與所述領域的特征詞庫中的特征詞相同的詞語,作為該篇文本內容的特征詞;并根據該篇文本內容的特征詞,計算該篇文本內容與所述領域的相關度; 訓練...
【專利技術屬性】
技術研發人員:李金奎,諶貽榮,
申請(專利權)人:微夢創科網絡科技中國有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。