一種網頁標題提取方法及裝置制造方法及圖紙

技術編號：8959472 閱讀：173 留言：0更新日期：2013-07-25 19:01

本發明專利技術公開了一種網頁標題提取方法及裝置。該方法包括：構造訓練集，將訓練集中的每個網頁解析為文本塊及其屬性值的序列，標注這些文本塊的類別，將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量；利用訓練集訓練分類器；將需要處理的網頁解析為多個文本塊及其屬性值的序列，將這些屬性值的序列處理成分類器能夠識別的第二屬性向量；利用分類器根據訓練結果將所述第二屬性向量分類，鑒別出該第二屬性向量是否為標題類別，得到類別為標題的文本塊及其屬性值序列的集合。本發明專利技術能夠從沒有“title”標簽或者該標簽內為空或難以總結普適性規則的網頁集合提取標題，并且準確性高、擴展性好。

全部詳細技術資料下載

【技術實現步驟摘要】
一種網頁標題提取方法及裝置
本專利技術涉及一種網頁信息提取技術，具體地說，是一種網頁標題提取方法及裝置。
技術介紹
網頁標題是對一個網頁內容的高度概括，如同一篇文章的標題之于文章。對于網頁的瀏覽者來說，網頁標題的內容很大度上決定了瀏覽者是否會瀏覽一個網頁。所以目前的主流搜索引擎如百度和谷歌的算法中網頁的標題都有著最高的頁面級權重，因此提取網頁的標題是十分必要的。目前來說，對于網頁的標題的提取方法有以下幾類：1.使用網頁的解析技術，提取特定標簽里面的內容。例如，HTML有一個名為“title”的標簽，該標簽的作用就在于指明一個網頁的標題。然而，使用此方法獲取標題有很明顯的缺陷，如果網頁的編寫者并沒有將正確標題寫入該域，或者甚至沒有“title”這個標簽，那么用這種方法是提取不到正確標題的。實際上，出于各種原因，許多網頁的編寫者并沒有按照規范的格式編寫網頁，導致大量的網頁都不能用這種方法提取到正確的標題。2.根據規則的方法提取標題。由于某些系統或子系統的網頁排版及格式通常是一定的。例如，對于某個系統的新聞版面，我們曾得到這樣的規則，標題的后面緊跟的是這樣的文字“發布日期[xxxx-xx-xx]”(每個x是0-9的數字)，于是，我們就能用這樣的規則把這個新聞版面的部分網頁標題抽取出來。然而，這個方法的缺陷也很明顯，即擴展性太差，準確率不高。擴展性差是因為對于新的格式的網頁，這個方法不能有效工作；準確率不高是因為這一規則是根據這些網頁總結出來的，它可能適用于該系統或子系統大部分的網頁，而準確率取決于該規則適用網頁所占總網頁的比率。
技術實現思路
本專利技術要解決的技術...
一種網頁標題提取方法及裝置

【技術保護點】
一種網頁標題提取方法，其特征在于，包括：構造訓練集，將訓練集中的每個網頁解析為文本塊及其屬性值的序列，標注這些文本塊的類別，將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量；利用訓練集訓練分類器；將需要處理的網頁解析為多個文本塊及其屬性值的序列，將這些屬性值的序列處理成分類器能夠識別的第二屬性向量；利用分類器根據訓練結果將所述第二屬性向量分類，鑒別出該第二屬性向量是否為標題類別，得到類別為標題的文本塊及其屬性值序列的集合。

【技術特征摘要】
1.一種網頁標題提取方法，其特征在于，包括：構造訓練集，將訓練集中的每個網頁解析為文本塊及其屬性值的序列，標注這些文本塊的類別，將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量；利用訓練集訓練分類器；將需要處理的網頁解析為多個文本塊及其屬性值的序列，將這些屬性值的序列處理成分類器能夠識別的第二屬性向量；利用分類器根據訓練結果將所述第二屬性向量分類，鑒別出該第二屬性向量是否為標題類別，得到類別為標題的文本塊及其屬性值序列的集合；按照屬性向量的種類選擇正確率最高的分類器進行分類，具體方法為：根據定義的屬性值序列構造屬性樹，使每種屬性值序列對應于一個葉子節點；對訓練集預測，獲得各分類器在各種屬性值的正確率，記錄在屬性樹上；對需要預測的屬性值序列在屬性樹上查找預測準確率最高的分類器，用該分類器對其分類；根據定義的屬性值序列構造屬性樹時，如果某個屬性值不是離散的而是連續的，對該屬性值進行離散化處理；對所述類別為標題的文本塊及其屬性值序列的集合中的文本塊或屬性值序列進行二次鑒別，得出最終的網頁標題。2.根據權利要求1所述的網頁標題提取方法，其特征在于，所述利用分類器根據訓練結果將所述第二屬性向量分類時，采用K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法分類。3.一種網頁標題提取裝置，其特征在于，包括：網頁解析模塊...

【專利技術屬性】
技術研發人員：劉桂林，王呈祥，李勛，李振釗，趙威，劉秀磊，
申請(專利權)人：北京鵬宇成軟件技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

網頁正文提取方法技術