本發明專利技術公開了一種網頁標題提取方法及裝置。該方法包括:構造訓練集,將訓練集中的每個網頁解析為文本塊及其屬性值的序列,標注這些文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;利用訓練集訓練分類器;將需要處理的網頁解析為多個文本塊及其屬性值的序列,將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;利用分類器根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。本發明專利技術能夠從沒有“title”標簽或者該標簽內為空或難以總結普適性規則的網頁集合提取標題,并且準確性高、擴展性好。
【技術實現步驟摘要】
一種網頁標題提取方法及裝置
本專利技術涉及一種網頁信息提取技術,具體地說,是一種網頁標題提取方法及裝置。
技術介紹
網頁標題是對一個網頁內容的高度概括,如同一篇文章的標題之于文章。對于網頁的瀏覽者來說,網頁標題的內容很大度上決定了瀏覽者是否會瀏覽一個網頁。所以目前的主流搜索引擎如百度和谷歌的算法中網頁的標題都有著最高的頁面級權重,因此提取網頁的標題是十分必要的。目前來說,對于網頁的標題的提取方法有以下幾類:1.使用網頁的解析技術,提取特定標簽里面的內容。例如,HTML有一個名為“title”的標簽,該標簽的作用就在于指明一個網頁的標題。然而,使用此方法獲取標題有很明顯的缺陷,如果網頁的編寫者并沒有將正確標題寫入該域,或者甚至沒有“title”這個標簽,那么用這種方法是提取不到正確標題的。實際上,出于各種原因,許多網頁的編寫者并沒有按照規范的格式編寫網頁,導致大量的網頁都不能用這種方法提取到正確的標題。2.根據規則的方法提取標題。由于某些系統或子系統的網頁排版及格式通常是一定的。例如,對于某個系統的新聞版面,我們曾得到這樣的規則,標題的后面緊跟的是這樣的文字“發布日期[xxxx-xx-xx]”(每個x是0-9的數字),于是,我們就能用這樣的規則把這個新聞版面的部分網頁標題抽取出來。然而,這個方法的缺陷也很明顯,即擴展性太差,準確率不高。擴展性差是因為對于新的格式的網頁,這個方法不能有效工作;準確率不高是因為這一規則是根據這些網頁總結出來的,它可能適用于該系統或子系統大部分的網頁,而準確率取決于該規則適用網頁所占總網頁的比率。
技術實現思路
本專利技術要解決的技術問題是提供一種擴展性好、準確率高的網頁標題提取方法及裝置。為了解決上述技術問題,本專利技術提供了一種網頁標題提取方法,包括:構造訓練集,將訓練集中的每個網頁解析為文本塊及其屬性值的序列,標注這些文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;利用訓練集訓練分類器;將需要處理的網頁解析為多個文本塊及屬性值的序列,將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;利用分類器根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。進一步地,所述利用分類器根據訓練結果將所述第二屬性向量分類時,采用K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法分類。進一步地,按照屬性向量的種類選擇正確率最高的分類器進行分類,具體方法為:根據定義的屬性值序列構造屬性樹,使每種屬性值序列對應于一個葉子節點;對訓練集預測,獲得各分類器在各種屬性值的正確率,記錄在屬性樹上;對需要預測的屬性值序列在屬性樹上查找預測準確率最高的分類器,用該分類器對其分類。進一步地,根據定義的屬性值序列構造屬性樹時,如果某個屬性值不是離散的而是連續的,對該屬性值進行離散化處理。進一步地,對所述類別為標題的文本塊及其屬性值序列的集合中的文本塊或屬性值序列進行二次鑒別,得出最終的網頁標題。本專利技術還提供了一種網頁標題提取裝置,包括:網頁解析模塊,用于將用作訓練集的網頁解析為文本塊及其屬性值的序列,還用于將待分析處理的網頁解析為多個文本塊及屬性值的序列,并將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;訓練集構造模塊,用于標注從作為訓練集的網頁解析得到的文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;分類器構造模塊,用于利用所述訓練集訓練分類器;分類器,用于根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。(還需要二次鑒別才能將集合中某個序列對應的文本作為標題)進一步地,所述分類器根據訓練結果將所述第二屬性向量分類時,采用K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法分類。進一步地,所述分類器按照屬性向量的種類選擇正確率最高的分類器進行分類,具體方法為:根據定義的屬性值序列構造屬性樹,使每種屬性值序列對應于一個葉子節點;對訓練集預測,獲得各分類器在各種屬性值的正確率,記錄在屬性樹上;對需要預測的屬性值序列在屬性樹上查找預測準確率最高的分類器,用該分類器對其分類。進一步地,根據定義的屬性值序列構造屬性樹時,如果某個屬性值不是離散的而是連續的,對該屬性值進行離散化處理。進一步地,還包括二次鑒別模塊,用于對所述類別為標題的文本塊及其屬性值序列的集合中的文本塊或屬性值序列進行二次鑒別,得出最終的網頁標題。本專利技術能夠從沒有“title”標簽或者該標簽內為空的網頁提取標題,能夠從難以總結普適性規則的網頁集合提取標題,并且使用多分類器組合分類的方法提高了分類的準確性,從而提高了標題抽取的準確率,且擴展性好。附圖說明圖1是本專利技術的網頁標題提取方法一實施例的流程圖。圖2是本專利技術的網頁標題提取裝置一實施例的原理框圖。具體實施方式下面結合附圖和具體實施例對本專利技術作進一步說明,以使本領域的技術人員可以更好的理解本專利技術并能予以實施,但所舉實施例不作為對本專利技術的限定。如圖1所示,本專利技術的網頁標題提取方法,包括以下步驟:1)制作訓練集,將訓練集中的每個網頁解析為文本塊及其屬性值的序列,標注這些文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;2)利用訓練集訓練分類器;3)將需要處理的網頁解析為多個文本塊及其屬性值的序列,將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;4)利用分類器根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。分類器是分類方法的實現,即機器學習的程序,分類器的設計目標是通過學習后可以自動將數據分到已知類別。本專利技術中,學習數據的來源是訓練集,需要分類的數據是從需要抽取標題的網頁解析處理后得到的多個屬性向量。為提高分類的準確性,可以對多種分類方法進行組合使用。分類方法包括K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法等。K近鄰法假設給定一個訓練實例的類別,通過多數表決等方式進行預測。例如:定義屬性向量含義為<字體大小,字體顏色,是否加粗,是否被H1標簽包含>,類別為“標題類”和“非標題類”,在訓練集中屬性向量值為<12px,黑色,加粗,被H1標簽包含>實例類別為“標題類”的比率大于50%,那么在使用分類器分類的時候,遇到相同值的屬性向量時預測結果就是“標題類”。決策樹分類法是將模型設計成樹形結構,有決策樹分類時,從根節點開始,對實例的某一屬性進行測試,根據測試結果將實例分配到其子節點,直至到達葉節點,最后將實例分到葉節點的類別中。樸素貝葉斯法是基于屬性條件獨立假設的分類方法,對于給定的訓練數據集,首先基于屬性條件獨立假設學習輸入/輸出的聯合概率分布,然后基于此模型,對給定的輸入x,利用貝葉斯定理求出后驗概率最大的輸出y。支持向量機是一種二類分類模型,其基本模型是定義在屬性空間上的間隔最大的線性分類器,支持向量機的學習策略是間隔最大化。在分類器進行分類時,按照屬性向量的種類選擇正確率最高的分類器進行分類,具體方法為:根據定義的屬性值序列構造屬性樹,使每種屬性值序列對應于一個葉子節點;如果某本文檔來自技高網...

【技術保護點】
一種網頁標題提取方法,其特征在于,包括:構造訓練集,將訓練集中的每個網頁解析為文本塊及其屬性值的序列,標注這些文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;利用訓練集訓練分類器;將需要處理的網頁解析為多個文本塊及其屬性值的序列,將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;利用分類器根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。
【技術特征摘要】
1.一種網頁標題提取方法,其特征在于,包括:構造訓練集,將訓練集中的每個網頁解析為文本塊及其屬性值的序列,標注這些文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;利用訓練集訓練分類器;將需要處理的網頁解析為多個文本塊及其屬性值的序列,將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;利用分類器根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合;按照屬性向量的種類選擇正確率最高的分類器進行分類,具體方法為:根據定義的屬性值序列構造屬性樹,使每種屬性值序列對應于一個葉子節點;對訓練集預測,獲得各分類器在各種屬性值的正確率,記錄在屬性樹上;對需要預測的屬性值序列在屬性樹上查找預測準確率最高的分類器,用該分類器對其分類;根據定義的屬性值序列構造屬性樹時,如果某個屬性值不是離散的而是連續的,對該屬性值進行離散化處理;對所述類別為標題的文本塊及其屬性值序列的集合中的文本塊或屬性值序列進行二次鑒別,得出最終的網頁標題。2.根據權利要求1所述的網頁標題提取方法,其特征在于,所述利用分類器根據訓練結果將所述第二屬性向量分類時,采用K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法分類。3.一種網頁標題提取裝置,其特征在于,包括:網頁解析模塊...
【專利技術屬性】
技術研發人員:劉桂林,王呈祥,李勛,李振釗,趙威,劉秀磊,
申請(專利權)人:北京鵬宇成軟件技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。