本發明專利技術實施例公開了一種構建標注網頁語料庫的方法及裝置,所述方法包括:針對預先選取的初始種子網頁生成初始種子標注網頁語料;按照初始種子標注網頁語料的關鍵詞從搜索引擎中獲取預設個數的相關種子網頁;按照初始種子網頁標注語料對相關種子網頁進行標注,得到相關種子標注網頁語料;判斷相關種子標注網頁語料和初始種子標注網頁語料是否滿足預設條件,如果是,則將相關種子標注網頁語料和初始種子標注網頁語料組合為標注網頁語料庫;如果否,則將相關種子標注網頁語料作為初始種子標注網頁語料,并執行從搜索引擎中獲取預設個數的相關種子網頁的步驟。通過本發明專利技術實施例,能夠在給定的少量種子標注語料的情況下,形成大規模的標準標注語料。
【技術實現步驟摘要】
本專利技術一般地涉及互聯網數據處理
,尤其是一種構建標注網頁語料庫的方法及裝置。
技術介紹
互聯網的數據資源極大豐富,為各種數據密集型的應用提供了潛在的數據來源,但互聯網上的網頁結構復雜,網頁的主體內容往往被淹沒在廣告或導航等噪音信息之中,為此要利用互聯網這個龐大的數據源為研究服務,就需要能夠將網頁中的各類信息分離歸類,也就是對網頁的內容進行標注。帶有精細化標注信息的網頁語料對于很多應用都有著至關重要的影響,例如網頁檢索、網頁分類或網頁內容提取等,所說的精細化標注是指對于出現在網頁中的文本細致的將其區分為標題、作者、時間、正文、評論、廣告、相關鏈接和其他等八類的標注方式,這種 標注后的語料既可以當作訓練語料為內容提取或聚類分類等應用服務,也可以作為檢索等應用的預處理階段,從而提高檢索精度。傳統的構建標注網頁語料庫的方法,一般人工直接進行網頁標注,即是由特定的技術人員來對某個網頁的全部內容進行審閱,從而根據審閱結果對網頁的各部分內容進行標注。但是這種采用人工進行網頁標注的方式,因為互聯網上的網頁數量是無限的,就需要技術人員付出巨大的精力來進行網頁標注;進一步的,不同網頁的某些部分內容有時也存在相似的情況,所以這就使得技術人員對相同的網頁內容進行重復性標注,浪費人力資源的同時,也使語料規模很難做大。
技術實現思路
有鑒于此,本專利技術實施例提供了一種構建標注網頁語料庫的方法及裝置,能夠在給定的少量種子標注語料的情況下,不斷地循環擴大標注語料的規模,形成大規模的標準標注語料。根據本專利技術實施例的一個方面,提供一種構建標注網頁語料庫的方法,包括針對預先選取的初始種子網頁生成初始種子標注網頁語料,所述初始種子網頁為不同類型的網頁組成的集合,所述初始種子標注網頁語料為標注出正文和標題的種子網頁;按照所述初始種子標注網頁語料的關鍵詞從搜索引擎中獲取預設個數的相關種子網頁;按照所述初始種子網頁標注語料對所述相關種子網頁進行標注,得到相關種子標注網頁語料;以及判斷所述相關種子標注網頁語料和所述初始種子標注網頁語料是否滿足預設條件,如果是,則將所述相關種子標注網頁語料和所述初始種子標注網頁語料組合為標注網頁語料庫;如果否,則將所述相關種子標注網頁語料作為初始種子標注網頁語料,并執行所述從搜索引擎中獲取預設個數的相關種子網頁的步驟。根據本專利技術實施例的另一個方面,提供一種構建標注網頁語料庫的裝置,包括生成模塊,用于針對預先選取的初始種子網頁生成初始種子標注網頁語料,所述初始種子網頁為不同類型的網頁組成的集合,所述初始種子標注網頁語料為標注出正文和標題的種子網頁;獲取模塊,用于按照所述初始種子標注網頁語料的關鍵詞從搜索引擎中獲取預設個數的相關種子網頁;標注模塊,用于按照所述初始種子網頁標注語料對所述相關種子網頁進行標注,得到相關種子標注網頁語料;判斷模塊,用于判斷所述相關種子標注網頁語料和所述初始種子標注網頁語料是否滿足預設條件;組合模塊,用于當所述判斷模塊的結果為是時,將所述相關種子標注網頁語料和所述初始種子標注網頁語料組合為標注網頁語料庫;以及觸發模塊,用于當所述判斷模塊的結果為否時,將所述相關種子標注網頁語料作為初始種子標注網頁語料,并觸發所述獲取模塊。另外,根據本專利技術的另一方面,還提供了一種存儲介質。所述存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行所述程序代碼時,所述程序代碼使得所述信息處理設備執行根據本專利技術的上述構建標注網頁語料庫的方法。此外,根據本專利技術的再一方面,還提供了一種程序產品。所述程序產品包括機器可 執行的指令,當在信息處理設備上執行所述指令時,所述指令使得所述信息處理設備執行根據本專利技術的上述構建標注網頁語料庫的方法。根據本專利技術實施例的上述一種方法,可以在給定的少量種子標注語料的情況下,不斷地循環擴大標注語料的規模,形成大規模的標準標注語料,這種構建標注網頁語料庫的方法無需人工對相同的網頁內容進行重復性標注,節省了人力資源和物理成本的同時,也使標注網頁語料庫可以實現更大的規模。在下面的說明書部分中給出本專利技術實施例的其他方面,其中,詳細說明用于充分地公開本專利技術實施例的優選實施例,而不對其施加限定。附圖說明下面結合具體的實施例,并參照附圖,對本專利技術實施例的上述和其他目的和優點做進一步的描述。在附圖中,相同的或對應的技術特征或部件將采用相同或對應的附圖標記來表示。圖I是示出作為本專利技術實施例提供的方法實施例I的流程圖;圖2是示出作為本專利技術方法實施例I中S102的流程圖;圖3是示出作為本專利技術方法實施例I中S103的流程圖;圖4是示出作為本專利技術方法實施例I中S301的流程圖;圖5是示出作為本專利技術方法實施例I中S302的流程圖;圖6是示出作為本專利技術實施例提供的方法實施例2的流程圖;圖7是示出作為本專利技術實施例提供的方法實施例3的流程圖;圖8是示出作為本專利技術實施例提供的裝置實施例I的示意圖;圖9是示出作為本專利技術裝置實施例I中獲取模塊802的示意圖;圖10是示出作為本專利技術裝置實施例I中標注模塊803的示意圖;圖11是示出作為裝置實施例I中第一標注子模塊1001的示意圖;圖12是示出作為裝置實施例I中第二標注子模塊1002的示意圖;圖13是示出作為本專利技術實施例提供的裝置實施例2的示意圖14是示出作為本專利技術實施例提供的裝置實施例3的示意圖;圖15是示出作為本專利技術的實施例中所采用的信息處理設備的個人計算機的示例性結構的框圖。具體實施例方式下面參照附圖來說明本專利技術的實施例。本專利技術實施例針對現有技術問題,提供了相應的解決方法。具體的,參見圖1,本專利技術實施例提供的構建標注網頁語料庫的方法實施例I可以包括SlOl :針對預先選取的初始種子網頁生成初始種子標注網頁語料,所述初始種子網頁為不同類型的網頁組成的集合,所述初始種子標注網頁語料為標注出正文和標題的種子網頁。本專利技術實施例在實際應用中,可以預先選取一些不同類型的網頁,例如博客·(BLOG)、新聞和財經等類型的網頁各選取少量的網頁樣本,各個類型的網頁數量不限,例如每種類型各選100個網頁等。這里的類型可以根據不同的實際情況有所變化,例如,新浪網站的分類類型和搜狐網站的分類類型就存在差異。但是類型的分類方式不同不影響本專利技術實施例的實現,因此,本專利技術實施例并不限定預先選取的初始種子網頁的數量和類型。選取出的網頁作為初始種子網頁,需要人工進行精細化的標注,至少需要標出標題和正文,并將其他部分標注為其他;進一步的,其他部分可以精細標注出作者、時間、評論、廣告和相關鏈接部分。這些已經標注好的初始種子網頁可以形成初始種子標注網頁語料。S102:按照所述初始種子標注網頁語料的關鍵詞從搜索引擎中獲取預設個數的相關種子網頁。因為初始種子網頁只是選取的不同類型中具有代表性的少量網頁,所以還需要根據初始種子網頁擴充相關的其他種子網頁。因為在互聯網上,對于初始種子網頁上發布的某一篇文章,其被轉載的可能性是很大的,如果初始種子標注網頁語料中某個初始種子網頁的內容被另一個不在所述初始種子網頁語料中的其他網頁所轉載,那么這兩個頁面的正文內容理論上應該是大致相同的,具有很高的相似度,因此可以便于后續利用初始網頁中的標簽去對轉載的相關頁面進行標注。而本步驟在查找初始種子網頁相關的轉載頁面,具體可以使用搜索本文檔來自技高網...
【技術保護點】
一種構建標注網頁語料庫的方法,包括:針對預先選取的初始種子網頁生成初始種子標注網頁語料,所述初始種子網頁為不同類型的網頁組成的集合,所述初始種子標注網頁語料為標注出正文和標題的種子網頁;按照所述初始種子標注網頁語料的關鍵詞從搜索引擎中獲取預設個數的相關種子網頁;按照所述初始種子網頁標注語料對所述相關種子網頁進行標注,得到相關種子標注網頁語料;以及判斷所述相關種子標注網頁語料和所述初始種子標注網頁語料是否滿足預設條件,如果是,則將所述相關種子標注網頁語料和所述初始種子標注網頁語料組合為標注網頁語料庫;如果否,則將所述相關種子標注網頁語料作為初始種子標注網頁語料,并執行所述按照所述初始種子標注網頁語料的關鍵詞從搜索引擎中獲取預設個數的相關種子網頁的步驟。
【技術特征摘要】
【專利技術屬性】
技術研發人員:付雷,夏迎炬,孟遙,于浩,
申請(專利權)人:富士通株式會社,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。