• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于位置標記的網頁信息抽取方法和裝置制造方法及圖紙

    技術編號:9490018 閱讀:120 留言:0更新日期:2013-12-25 23:49
    本發明專利技術公開了一種基于位置標記的網頁信息抽取方法和裝置。該基于位置標記的網頁信息抽取方法,包括以下步驟:獲取訓練頁面,訓練頁面中標注了至少一個屬性,被標注屬性的內容與網頁中需要抽取的文本內容對應;獲取訓練頁面中多個屬性的前綴標簽,前綴標簽包括當前屬性與前一屬性之間的所有標簽,多個屬性包括被標注屬性;在被標注屬性的前綴標簽中選取被標注屬性的起始標記;在被標注屬性之后的標簽中選取結束標記;在需要抽取的網頁中查詢起始標記和結束標記,并抽取起始標記和結束標記之間的屬性內容,以得到屬性內容中包含的信息。使用本發明專利技術的技術方案,可避免出現人工編寫抽取規則的效率低錯誤率高的問題,提高了網頁信息提取的效率。

    【技術實現步驟摘要】
    基于位置標記的網頁信息抽取方法和裝置
    本專利技術涉及互聯網領域,具體而言,涉及一種基于位置標記的網頁信息抽取方法和裝置。
    技術介紹
    網頁信息抽取是指從網頁文本中抽取出目標信息并將其形成結構化數據的過程。由于網頁在某種程度上具有一定的結構,因此網頁信息抽取不同于對普通文本的抽取。這種結構化的形式帶來了一定的缺點。在網頁中,數據通常會被標簽所分割,一個完整的句子中往往穿插著對句子本身不起任何作用的標簽,從而無法表達句子原始的意義,這就使得傳統的基于自然語言處理的文本信息抽取技術無法直接移植到網頁信息抽取領域。現有的網頁信息抽取技術,主要依靠人工編寫抽取規則進行,即通過對網頁及其源碼的分析,由編程人員找出一些規則,再根據這些規則編寫程序抽取目標數據。人工規則提取方法存在著以下缺點:1、需要抓取大批量的站點時,對每個站點編寫抽取規則工作量大,而且操作人員的編程工作受到主觀因素影響,存在一定錯誤率;2、在出現網頁改版時,網頁的頁面結構有可能出現變化,造成此前編寫的規則失效,需要重復編寫規則的工作,嚴重影響了效率。針對目前人工編寫規則進行網頁信息提取工作量大、效率低的問題,現有技術中尚未提出有效的解決方案。
    技術實現思路
    鑒于上述問題,提出了本專利技術以便提供一種克服上述問題或者至少部分地解決上述問題的網頁信息抽取裝置和相應的網頁信息抽取方法。依據本專利技術的一個方面,提供了基于位置標記的網頁信息抽取方法。該基于位置標記的網頁信息抽取方法,包括以下步驟:獲取訓練頁面,訓練頁面中標注了至少一個屬性,被標注屬性的內容與網頁中需要抽取的文本內容對應;獲取訓練頁面中多個屬性的前綴標簽,前綴標簽包括當前屬性與前一屬性之間的所有標簽,多個屬性包括被標注屬性;在被標注屬性的前綴標簽中選取被標注屬性的起始標記;在被標注屬性之后的標簽中選取結束標記;在需要抽取的網頁中查詢起始標記和結束標記,并抽取起始標記和結束標記之間的屬性內容,以得到屬性內容中包含的信息。進一步地,起始標記為被標注屬性的前綴標簽中的標簽或者標簽組合,標簽或者標簽組合滿足以下條件:在多個屬性的前綴標簽中,標簽或者標簽組合僅出現在被標注屬性的前綴標簽中。可選地,在被標注屬性的前綴標簽中選取被標注屬性的起始標記包括:將被標注屬性之前相鄰的標簽記為備選標記;判斷備選標記是否在多個屬性的前綴標簽中唯一,如果是,將備選標記作為起始標記,如果否,將與備選標記之前相鄰的標簽與備選標記進行組合,組合結果記為新的備選標記,直至挑選出起始標記或者被標注屬性的前綴標簽中的標簽組合均不唯一。進一步地,在將被標注屬性之前相鄰的標簽記為備選標記之前還包括:將被標注屬性的前綴標簽按照與被標注屬性的鄰近關系距離進行排序,其中被標注屬性之前相鄰的標簽記為排序第一的標簽。可選地,獲取訓練頁面的步驟包括:獲取需要抽取的文本內容,并將需要抽取的文本內容作為目標屬性值;從目標網站中選取網頁作為訓練頁面;在訓練頁面中查詢與目標屬性值相同或相近的屬性,并將相同或相近的屬性作為被標注屬性。進一步地,在訓練頁面中查詢與目標屬性值相同或相近的屬性包括:在訓練頁面中判斷是否存在屬性值與目標屬性值相同的屬性,如果是,將該與目標屬性值相同的屬性作為被標注屬性;如果否,將目標屬性值進行切分,根據訓練頁面中文本行與切分后的屬性值的相似度得出與目標屬性值相近的屬性。可選地,將目標屬性進行切分的步驟包括:去除訓練頁面中所有的標簽,得到網頁中文本行組成的數組;計算數組中文本行的平均長度;將目標屬性值按照平均長度進行切分。可選地,根據訓練頁面中文本行與切分后的屬性值的相似度得出與目標屬性值相近的屬性包括:分別計算訓練頁面中各文本行與切分后的屬性值的相似度;選擇出相似度最高的一個或多個文本行;分別判斷一個或多個文本行的相似度是否大于預設閾值,并且將一個或多個文本行與各自相鄰的文本行進行結合,判斷結合后的文本對切分后的屬性值的相似度是否增大;選擇以上判斷結果均為是的文本行作為與目標屬性值相近的屬性。根據本專利技術的另一方面,提供了一種網頁信息抽取裝置。該網頁信息抽取裝置包括:第一獲取模塊,用于獲取訓練頁面,訓練頁面中標注了至少一個屬性,被標注屬性的內容與網頁中需要抽取的文本內容對應;第二獲取模塊,用于獲取訓練頁面中多個屬性的前綴標簽,前綴標簽包括當前屬性與前一屬性之間的所有標簽,多個屬性包括被標注屬性;第一選取模塊,用于在被標注屬性的前綴標簽中選取被標注屬性的起始標記;第二選取模塊,用于在選取被標注屬性之后的標簽中選取結束標記;信息抽取模塊,用于在需要抽取的網頁中查詢起始標記和結束標記,并抽取起始標記和結束標記之間的屬性內容,以得到屬性內容中包含的信息。可選地,第一選取模塊包括:第一定義子模塊,用于將被標注屬性之前相鄰的標簽記為備選標記;判斷子模塊,用于判斷備選標記是否在多個屬性的前綴標簽中唯一;第二定義子模塊,用于在判斷子模塊的輸出為否的情況下,將與備選標記之前相鄰的標簽與備選標記進行組合,組合結果記為新的備選標記;標記子模塊,用于在判斷子模塊的輸出為是的情況下,將備選標記作為起始標記。進一步地,第一獲取模塊包括:目標屬性值獲取子模塊,用于獲取需要抽取的文本內容,并將需要抽取的文本內容作為目標屬性值;訓練頁面獲取子模塊,用于從目標網站中選取網頁作為訓練頁面;查詢子模塊,用于在訓練頁面中查詢與目標屬性值相同或相近的屬性,并將相同或相近的屬性作為被標注屬性。使用本專利技術的技術方案,在被標注屬性之前的標簽和之后的標簽中分別挑選起始標記和結束標記,將得出的起始標記和結束標記自動生成基于位置標記的網頁信息的抽取規則,從而避免出現人工編寫抽取規則的效率低錯誤率高的問題,提高了網頁信息提取的效率。另外通過進一步地改進,在訓練頁面中查詢與原始目標屬性值相同或相近的屬性作為被標注屬性,能夠通過原始屬性值,在新的頁面結構中,標記出新的屬性值所在的位置,可以重新訓練得出符合新網頁結構的抽取規則。從而當網頁結構發生變更的時候,無需人工參與,就能自動修正規則,產生新的抽取規則。達到了進一步降低人工成本和抽取錯誤信息所造成的損失的技術效果。上述說明僅是本專利技術技術方案的概述,為了能夠更清楚了解本專利技術的技術手段,而可依照說明書的內容予以實施,并且為了讓本專利技術的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本專利技術的具體實施方式。附圖說明通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本專利技術的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1是根據本專利技術一個實施例的基于位置標記的網頁信息抽取裝置的示意圖;圖2是根據本專利技術另一個實施例的基于位置標記的網頁信息抽取裝置的示意圖;圖3是根據本專利技術一個實施例的基于位置標記的網頁信息抽取方法的示意圖;圖4是根據本專利技術另一個實施例的基于位置標記的網頁信息抽取方法中查找起始標記的流程圖;以及圖5是根據本專利技術又一個實施例的基于位置標記的網頁信息抽取方法中計算被標注屬性的流程圖。具體實施方式在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。各種通用系統也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統本文檔來自技高網...
    基于位置標記的網頁信息抽取方法和裝置

    【技術保護點】
    一種基于位置標記的網頁信息抽取方法,包括以下步驟:獲取訓練頁面,所述訓練頁面中標注了至少一個屬性,被標注屬性的內容與網頁中需要抽取的文本內容對應;獲取所述訓練頁面中多個屬性的前綴標簽,所述前綴標簽包括當前屬性與前一屬性之間的所有標簽,所述多個屬性包括所述被標注屬性;在所述被標注屬性的前綴標簽中選取所述被標注屬性的起始標記;在所述被標注屬性之后的標簽中選取結束標記;在需要抽取的網頁中查詢所述起始標記和所述結束標記,并抽取所述起始標記和所述結束標記之間的屬性內容,以得到所述屬性內容中包含的信息。

    【技術特征摘要】
    1.一種基于位置標記的網頁信息抽取方法,包括以下步驟:獲取訓練頁面,所述訓練頁面中標注了至少一個屬性,被標注屬性的內容與網頁中需要抽取的文本內容對應;獲取所述訓練頁面中多個屬性的前綴標簽,所述前綴標簽包括當前屬性與前一屬性之間的所有標簽,所述多個屬性包括所述被標注屬性;在所述被標注屬性的前綴標簽中選取所述被標注屬性的起始標記,所述起始標記為所述被標注屬性的前綴標簽中的標簽或者標簽組合,所述標簽或者標簽組合滿足以下條件:在所述多個屬性的前綴標簽中,所述標簽或者標簽組合僅出現在所述被標注屬性的前綴標簽中;在所述被標注屬性之后的標簽中選取結束標記;在需要抽取的網頁中查詢所述起始標記和所述結束標記,并抽取所述起始標記和所述結束標記之間的屬性內容,以得到所述屬性內容中包含的信息。2.根據權利要求1所述的方法,其中,在所述被標注屬性的前綴標簽中選取所述被標注屬性的起始標記包括:將所述被標注屬性之前相鄰的標簽記為備選標記;判斷所述備選標記是否在所述多個屬性的前綴標簽中唯一,如果是,將所述備選標記作為所述起始標記,如果否,將與所述備選標記之前相鄰的標簽與所述備選標記進行組合,組合結果記為新的備選標記,直至挑選出所述起始標記或者所述被標注屬性的前綴標簽中的標簽組合均不唯一。3.根據權利要求1所述的方法,其中,將所述被標注屬性之前相鄰的標簽記為備選標記之前還包括:將所述被標注屬性的前綴標簽按照與所述被標注屬性的鄰近關系距離進行排序,其中所述被標注屬性之前相鄰的標簽記為排序第一的標簽。4.根據權利要求1所述的方法,其中,在所述被標注屬性之后的標簽中選取結束標記包括:選取所述被標注屬性之后相鄰的標簽作為其結束標記。5.根據權利要求1至4中任一項所述的方法,其中,獲取訓練頁面包括:獲取所述需要抽取的文本內容,并將所述需要抽取的文本內容作為目標屬性值;從目標網站中選取網頁作為所述訓練頁面;在所述訓練頁面中查詢與所述目標屬性值相同或相近的屬性,并將所述相同或相近的屬性作為所述被標注屬性。6.根據權利要求5所述的方法,其中,在所述訓練頁面中查詢與所述目標屬性值相同或相近的屬性,包括:在所述訓練頁面中判斷是否存在屬性值與所述目標屬性值相同的屬性,如果是,將該與所述目標屬性值相同的屬性作為所述被標注屬性;如果否,將所述目標屬性值進行切分,根據所述訓練頁面中文本行與切分后的屬性值的相似度得出與所述目標屬性值相近的屬性。7.根據權利要求6所述的方法,其中,將所述目標屬性進行切分包...

    【專利技術屬性】
    技術研發人員:徐銳波付赟
    申請(專利權)人:北京奇虎科技有限公司奇智軟件北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中日韩亚洲人成无码网站| 久久久久琪琪去精品色无码| 亚洲大尺度无码无码专线一区 | 成人无码Av片在线观看| 日韩经典精品无码一区| 人妻丰满av无码中文字幕| 亚洲熟妇无码一区二区三区| 三上悠亚ssⅰn939无码播放| 久久精品中文字幕无码绿巨人| 狠狠爱无码一区二区三区| 欧洲精品久久久av无码电影 | 国产亚洲大尺度无码无码专线| 免费精品无码AV片在线观看| 国产精品无码素人福利免费| 日木av无码专区亚洲av毛片| 狠狠躁狠狠爱免费视频无码 | 国产精品亚洲а∨无码播放不卡| 亚洲AV区无码字幕中文色| 丰满少妇人妻无码| 日韩少妇无码一区二区三区| 亚洲最大无码中文字幕| 亚洲国产精品无码久久久| 亚洲精品无码成人AAA片| 亚洲精品无码成人片在线观看 | 精品无码免费专区毛片| 国产免费无码AV片在线观看不卡| av无码东京热亚洲男人的天堂 | 人妻无码久久中文字幕专区| 亚洲av中文无码字幕色不卡| 亚洲午夜无码毛片av久久京东热| 国产成人精品无码一区二区 | 亚洲国产精品无码久久久秋霞2| 人妻无码久久久久久久久久久| 无码av大香线蕉伊人久久| 久久亚洲中文字幕无码| 成人毛片无码一区二区| HEYZO无码中文字幕人妻| 免费无码又爽又刺激高潮 | 精品乱码一区内射人妻无码| 精品久久久无码中字| 永久免费无码日韩视频|