基于位置標記的網頁信息抽取方法和裝置制造方法及圖紙

技術編號：9490018 閱讀：120 留言：0更新日期：2013-12-25 23:49

本發明專利技術公開了一種基于位置標記的網頁信息抽取方法和裝置。該基于位置標記的網頁信息抽取方法，包括以下步驟：獲取訓練頁面，訓練頁面中標注了至少一個屬性，被標注屬性的內容與網頁中需要抽取的文本內容對應；獲取訓練頁面中多個屬性的前綴標簽，前綴標簽包括當前屬性與前一屬性之間的所有標簽，多個屬性包括被標注屬性；在被標注屬性的前綴標簽中選取被標注屬性的起始標記；在被標注屬性之后的標簽中選取結束標記；在需要抽取的網頁中查詢起始標記和結束標記，并抽取起始標記和結束標記之間的屬性內容，以得到屬性內容中包含的信息。使用本發明專利技術的技術方案，可避免出現人工編寫抽取規則的效率低錯誤率高的問題，提高了網頁信息提取的效率。

全部詳細技術資料下載

【技術實現步驟摘要】
基于位置標記的網頁信息抽取方法和裝置
本專利技術涉及互聯網領域，具體而言，涉及一種基于位置標記的網頁信息抽取方法和裝置。
技術介紹
網頁信息抽取是指從網頁文本中抽取出目標信息并將其形成結構化數據的過程。由于網頁在某種程度上具有一定的結構，因此網頁信息抽取不同于對普通文本的抽取。這種結構化的形式帶來了一定的缺點。在網頁中，數據通常會被標簽所分割，一個完整的句子中往往穿插著對句子本身不起任何作用的標簽，從而無法表達句子原始的意義，這就使得傳統的基于自然語言處理的文本信息抽取技術無法直接移植到網頁信息抽取領域。現有的網頁信息抽取技術，主要依靠人工編寫抽取規則進行，即通過對網頁及其源碼的分析，由編程人員找出一些規則，再根據這些規則編寫程序抽取目標數據。人工規則提取方法存在著以下缺點：1、需要抓取大批量的站點時，對每個站點編寫抽取規則工作量大，而且操作人員的編程工作受到主觀因素影響，存在一定錯誤率；2、在出現網頁改版時，網頁的頁面結構有可能出現變化，造成此前編寫的規則失效，需要重復編寫規則的工作，嚴重影響了效率。針對目前人工編寫規則進行網頁信息提取工作量大、效率低的問題，現有技術中尚未提出有效的解決方案。
技術實現思路
鑒于上述問題，提出了本專利技術以便提供一種克服上述問題或者至少部分地解決上述問題的網頁信息抽取裝置和相應的網頁信息抽取方法。依據本專利技術的一個方面，提供了基于位置標記的網頁信息抽取方法。該基于位置標記的網頁信息抽取方法，包括以下步驟：獲取訓練頁面，訓練頁面中標注了至少一個屬性，被標注屬性的內容與網頁中需要抽取的文本內容對應；獲取訓練頁面中多個屬性的前綴...
基于位置標記的網頁信息抽取方法和裝置

【技術保護點】
一種基于位置標記的網頁信息抽取方法，包括以下步驟：獲取訓練頁面，所述訓練頁面中標注了至少一個屬性，被標注屬性的內容與網頁中需要抽取的文本內容對應；獲取所述訓練頁面中多個屬性的前綴標簽，所述前綴標簽包括當前屬性與前一屬性之間的所有標簽，所述多個屬性包括所述被標注屬性；在所述被標注屬性的前綴標簽中選取所述被標注屬性的起始標記；在所述被標注屬性之后的標簽中選取結束標記；在需要抽取的網頁中查詢所述起始標記和所述結束標記，并抽取所述起始標記和所述結束標記之間的屬性內容，以得到所述屬性內容中包含的信息。

【技術特征摘要】
1.一種基于位置標記的網頁信息抽取方法，包括以下步驟：獲取訓練頁面，所述訓練頁面中標注了至少一個屬性，被標注屬性的內容與網頁中需要抽取的文本內容對應；獲取所述訓練頁面中多個屬性的前綴標簽，所述前綴標簽包括當前屬性與前一屬性之間的所有標簽，所述多個屬性包括所述被標注屬性；在所述被標注屬性的前綴標簽中選取所述被標注屬性的起始標記，所述起始標記為所述被標注屬性的前綴標簽中的標簽或者標簽組合，所述標簽或者標簽組合滿足以下條件：在所述多個屬性的前綴標簽中，所述標簽或者標簽組合僅出現在所述被標注屬性的前綴標簽中；在所述被標注屬性之后的標簽中選取結束標記；在需要抽取的網頁中查詢所述起始標記和所述結束標記，并抽取所述起始標記和所述結束標記之間的屬性內容，以得到所述屬性內容中包含的信息。2.根據權利要求1所述的方法，其中，在所述被標注屬性的前綴標簽中選取所述被標注屬性的起始標記包括：將所述被標注屬性之前相鄰的標簽記為備選標記；判斷所述備選標記是否在所述多個屬性的前綴標簽中唯一，如果是，將所述備選標記作為所述起始標記，如果否，將與所述備選標記之前相鄰的標簽與所述備選標記進行組合，組合結果記為新的備選標記，直至挑選出所述起始標記或者所述被標注屬性的前綴標簽中的標簽組合均不唯一。3.根據權利要求1所述的方法，其中，將所述被標注屬性之前相鄰的標簽記為備選標記之前還包括:將所述被標注屬性的前綴標簽按照與所述被標注屬性的鄰近關系距離進行排序，其中所述被標注屬性之前相鄰的標簽記為排序第一的標簽。4.根據權利要求1所述的方法，其中，在所述被標注屬性之后的標簽中選取結束標記包括：選取所述被標注屬性之后相鄰的標簽作為其結束標記。5.根據權利要求1至4中任一項所述的方法，其中，獲取訓練頁面包括:獲取所述需要抽取的文本內容，并將所述需要抽取的文本內容作為目標屬性值；從目標網站中選取網頁作為所述訓練頁面；在所述訓練頁面中查詢與所述目標屬性值相同或相近的屬性，并將所述相同或相近的屬性作為所述被標注屬性。6.根據權利要求5所述的方法，其中，在所述訓練頁面中查詢與所述目標屬性值相同或相近的屬性，包括：在所述訓練頁面中判斷是否存在屬性值與所述目標屬性值相同的屬性，如果是，將該與所述目標屬性值相同的屬性作為所述被標注屬性；如果否，將所述目標屬性值進行切分，根據所述訓練頁面中文本行與切分后的屬性值的相似度得出與所述目標屬性值相近的屬性。7.根據權利要求6所述的方法，其中，將所述目標屬性進行切分包...

【專利技術屬性】
技術研發人員：徐銳波，付赟，
申請(專利權)人：北京奇虎科技有限公司，奇智軟件北京有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術