本發(fā)明專利技術(shù)公開一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,其方法包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的二級導(dǎo)航塊以及小說介紹信息塊從小說介紹頁中提取小說介紹性字段。本發(fā)明專利技術(shù)將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實(shí)現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。
【技術(shù)實(shí)現(xiàn)步驟摘要】
【專利摘要】本專利技術(shù)公開一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,其方法包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的二級導(dǎo)航塊以及小說介紹信息塊從小說介紹頁中提取小說介紹性字段。本專利技術(shù)將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實(shí)現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。【專利說明】網(wǎng)絡(luò)小說介紹頁的提取方法及裝置
本專利技術(shù)涉及移動互聯(lián)網(wǎng)
,尤其涉及一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置。
技術(shù)介紹
目前,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)小說的Wffff頁面呈井噴式增長;而隨著移動互聯(lián)網(wǎng)的快速發(fā)展,使用手機(jī)上網(wǎng)閱讀小說的用戶也越來越多。但是,由于WWW頁面主要用于PC端瀏覽,其頁面復(fù)雜且包含較多無關(guān)信息,無法直接展示于手機(jī)側(cè)。因此如何將WWW網(wǎng)頁結(jié)構(gòu)化,并為移動閱讀用戶提供優(yōu)質(zhì)清爽的閱讀體驗(yàn)是目前急需解決的一大難題。此外,為了方便用戶閱讀,各小說網(wǎng)站設(shè)置有相應(yīng)的小說介紹頁,提供給用戶進(jìn)行選擇閱讀,小說介紹頁是一種描述網(wǎng)絡(luò)小說主要信息的頁面。如:http://www.qidian.com/Book/2342810, aspx。由于小說介紹頁面比較復(fù)雜,且各網(wǎng)頁風(fēng)格不一,因此目前主要采用類似XPATH的模板技術(shù)進(jìn)行網(wǎng)站適配,并提取相應(yīng)字段。但是,這種模板技術(shù)的缺陷在于一次只能適配一個網(wǎng)站,想要覆蓋所有小說網(wǎng)站,則人工成本太高;另外一般較大網(wǎng)站都會經(jīng)常更新,而網(wǎng)站更新會導(dǎo)致模板技術(shù)失效,由此增加了人工維護(hù)成本。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的主要目的在于提供一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,旨在精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,實(shí)現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,降低成本。為了達(dá)到上述目的,本專利技術(shù)提出一種網(wǎng)絡(luò)小說介紹頁的提取方法,包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。本專利技術(shù)還提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,包括:識別模塊,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;提取模塊,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。本專利技術(shù)提出的一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實(shí)現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。【專利附圖】【附圖說明】圖1是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取方法較佳實(shí)施例的流程示意圖;圖2是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取方法較佳實(shí)施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果不意圖。圖3是圖2中的小說介紹頁根據(jù)提取的介紹性字段重新排版后效果示意圖;圖4是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取裝置第一實(shí)施例的結(jié)構(gòu)示意圖;圖5是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取裝置第二實(shí)施例的結(jié)構(gòu)示意圖。本專利技術(shù)目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。【具體實(shí)施方式】以下將結(jié)合附圖及實(shí)施例,對實(shí)現(xiàn)專利技術(shù)目的的技術(shù)方案作詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本專利技術(shù),并不用于限定本專利技術(shù)。本專利技術(shù)實(shí)施例的主要解決技術(shù)方案是:對小說介紹頁進(jìn)行網(wǎng)頁分塊,將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,為小說描述及用戶瀏覽提供便利。如圖1所示,本專利技術(shù)較佳實(shí)施例提出的一種網(wǎng)絡(luò)小說介紹頁的提取方法,包括:步驟S101,對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;為了實(shí)現(xiàn)對網(wǎng)絡(luò)小說介紹頁的智能提取,首先對小說介紹頁進(jìn)行網(wǎng)頁分塊,網(wǎng)頁分塊技術(shù)在現(xiàn)有技術(shù)中已有成熟方案,在此不再贅述。通過網(wǎng)頁分塊技術(shù)識別出小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊,以便根據(jù)識別出的小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊提取小說介紹頁中的核心介紹性字段。如圖2所示,圖2是本實(shí)施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果示意圖。圖2中每一個線條框表示一個獨(dú)立的塊,針對每個獨(dú)立塊,需要識別其中的二級導(dǎo)航塊和小說介紹信息塊。其中:二級導(dǎo)航塊,單獨(dú)成行,且含有諸如”〉”、”> ”、〃 一 〃、”您的位置”等導(dǎo)航性符號。圖2中框A即為二級導(dǎo)航塊。小說介紹信息塊,包含一些小說的介紹性信息,比如類別、字?jǐn)?shù)、更新時間等。識別此小說介紹信息塊主要利用其中的兩種特征:一種是小說介紹信息塊的面積和位置特征,介紹信息塊屬于小說介紹頁的核心內(nèi)容塊,因此一般具有較大面積,且位于頁面的焦點(diǎn)區(qū)域;另一種是小說介紹信息塊中的介紹性關(guān)鍵詞。圖2中框B即為小說介紹信息塊。步驟S102,基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。根據(jù)獲取到的小說介紹頁中二級導(dǎo)航塊以及小說介紹信息塊的面積、位置特征以及介紹性關(guān)鍵詞,從所述小說介紹頁中提取小說介紹性字段。其中,提取的小說介紹性字段主要包括:小說名稱、小說作者、小說類別、更新時間、小說字?jǐn)?shù)、小說書號、小說封面圖片、小說出版社以及小說目錄URL等,這些小說介紹性字段基本覆蓋了所有小說網(wǎng)頁的常用字段。下面分別描述各字段及識別方法:小說名稱:字體最大,一般出現(xiàn)在二級導(dǎo)航塊及頁面標(biāo)題里。小說作者:一般出現(xiàn)在小說名稱后的有限范圍內(nèi),且有“作者:XXX”或“文/XXX”等模式。小說類別:事先收集一個小說類別表,包含諸如武俠、言情、玄幻等20多種類別,然后在二級導(dǎo)航塊及小說介紹信息塊中查找。更新時間:來自于小說介紹信息塊,一般有“更新時間”、“最后更新”等相關(guān)字眼。小說字?jǐn)?shù):來自于小說介紹信息塊,一般有“字?jǐn)?shù)”、“小說長度”等相關(guān)字眼。小說書號:來自于二級導(dǎo)航塊或小說介紹信息塊,一般有“書號”等相關(guān)字眼。小說封面圖片:主要利用利用其位置信息進(jìn)行提取,小說封面圖片通常位于頁面上半部分;小說封面圖片高度大于寬度,且寬高在一定范圍之內(nèi);對于小說封面圖片的屬性,該圖片的描述文字一般含有小說名及“封面”/ “圖片”這樣的字眼。小說出版社,來自于小說介紹信息塊,一般有“出版社”等相關(guān)字眼。小說目錄URL,一般有“點(diǎn)擊閱讀”、“章節(jié)列表”等鏈接文字字眼。從小說介紹頁中提取出小說介紹性字段后,即可簡化小說介紹頁的描述,同時還可以根據(jù)提取的小說介紹性字段重新排版小說介紹頁并顯示。如圖3所示,圖3是利用本實(shí)施例方案對圖2所示的小說介紹頁進(jìn)行介紹性字段提取,以從中獲得的部分字段重新排版出來的效果示意圖。本實(shí)施例通過上述方案,將復(fù)雜的小說介紹頁進(jìn)行了結(jié)構(gòu)化,提取了核心的介紹字段,為小說描述及用戶瀏覽提供了便利,尤其可以實(shí)現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,避免了現(xiàn)有技術(shù)中小說介紹頁無法直接展示于手機(jī)側(cè)的弊端,并且極大降低人工維護(hù)成本。如圖4所示,本專利技術(shù)第一實(shí)施例提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,包括:識別模塊201以及提取模塊202,其中:識別模塊201,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;提取模塊202,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。為了實(shí)現(xiàn)對網(wǎng)絡(luò)小說介紹頁的智本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種網(wǎng)絡(luò)小說介紹頁的提取方法,其特征在于,包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:蔡兵,朱章厚,徐羽,
申請(專利權(quán))人:騰訊科技深圳有限公司,
類型:發(fā)明
國別省市:廣東;44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。