• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網(wǎng)絡(luò)小說介紹頁的提取方法及裝置制造方法及圖紙

    技術(shù)編號:9926975 閱讀:110 留言:0更新日期:2014-04-16 18:12
    本發(fā)明專利技術(shù)公開一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,其方法包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的二級導(dǎo)航塊以及小說介紹信息塊從小說介紹頁中提取小說介紹性字段。本發(fā)明專利技術(shù)將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實(shí)現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    【專利摘要】本專利技術(shù)公開一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,其方法包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的二級導(dǎo)航塊以及小說介紹信息塊從小說介紹頁中提取小說介紹性字段。本專利技術(shù)將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實(shí)現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。【專利說明】網(wǎng)絡(luò)小說介紹頁的提取方法及裝置
    本專利技術(shù)涉及移動互聯(lián)網(wǎng)
    ,尤其涉及一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置。
    技術(shù)介紹
    目前,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)小說的Wffff頁面呈井噴式增長;而隨著移動互聯(lián)網(wǎng)的快速發(fā)展,使用手機(jī)上網(wǎng)閱讀小說的用戶也越來越多。但是,由于WWW頁面主要用于PC端瀏覽,其頁面復(fù)雜且包含較多無關(guān)信息,無法直接展示于手機(jī)側(cè)。因此如何將WWW網(wǎng)頁結(jié)構(gòu)化,并為移動閱讀用戶提供優(yōu)質(zhì)清爽的閱讀體驗(yàn)是目前急需解決的一大難題。此外,為了方便用戶閱讀,各小說網(wǎng)站設(shè)置有相應(yīng)的小說介紹頁,提供給用戶進(jìn)行選擇閱讀,小說介紹頁是一種描述網(wǎng)絡(luò)小說主要信息的頁面。如:http://www.qidian.com/Book/2342810, aspx。由于小說介紹頁面比較復(fù)雜,且各網(wǎng)頁風(fēng)格不一,因此目前主要采用類似XPATH的模板技術(shù)進(jìn)行網(wǎng)站適配,并提取相應(yīng)字段。但是,這種模板技術(shù)的缺陷在于一次只能適配一個網(wǎng)站,想要覆蓋所有小說網(wǎng)站,則人工成本太高;另外一般較大網(wǎng)站都會經(jīng)常更新,而網(wǎng)站更新會導(dǎo)致模板技術(shù)失效,由此增加了人工維護(hù)成本。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的主要目的在于提供一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,旨在精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,實(shí)現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,降低成本。為了達(dá)到上述目的,本專利技術(shù)提出一種網(wǎng)絡(luò)小說介紹頁的提取方法,包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。本專利技術(shù)還提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,包括:識別模塊,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;提取模塊,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。本專利技術(shù)提出的一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實(shí)現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。【專利附圖】【附圖說明】圖1是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取方法較佳實(shí)施例的流程示意圖;圖2是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取方法較佳實(shí)施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果不意圖。圖3是圖2中的小說介紹頁根據(jù)提取的介紹性字段重新排版后效果示意圖;圖4是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取裝置第一實(shí)施例的結(jié)構(gòu)示意圖;圖5是本專利技術(shù)網(wǎng)絡(luò)小說介紹頁的提取裝置第二實(shí)施例的結(jié)構(gòu)示意圖。本專利技術(shù)目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。【具體實(shí)施方式】以下將結(jié)合附圖及實(shí)施例,對實(shí)現(xiàn)專利技術(shù)目的的技術(shù)方案作詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本專利技術(shù),并不用于限定本專利技術(shù)。本專利技術(shù)實(shí)施例的主要解決技術(shù)方案是:對小說介紹頁進(jìn)行網(wǎng)頁分塊,將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,為小說描述及用戶瀏覽提供便利。如圖1所示,本專利技術(shù)較佳實(shí)施例提出的一種網(wǎng)絡(luò)小說介紹頁的提取方法,包括:步驟S101,對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;為了實(shí)現(xiàn)對網(wǎng)絡(luò)小說介紹頁的智能提取,首先對小說介紹頁進(jìn)行網(wǎng)頁分塊,網(wǎng)頁分塊技術(shù)在現(xiàn)有技術(shù)中已有成熟方案,在此不再贅述。通過網(wǎng)頁分塊技術(shù)識別出小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊,以便根據(jù)識別出的小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊提取小說介紹頁中的核心介紹性字段。如圖2所示,圖2是本實(shí)施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果示意圖。圖2中每一個線條框表示一個獨(dú)立的塊,針對每個獨(dú)立塊,需要識別其中的二級導(dǎo)航塊和小說介紹信息塊。其中:二級導(dǎo)航塊,單獨(dú)成行,且含有諸如”〉”、”&gt; ”、〃 一 〃、”您的位置”等導(dǎo)航性符號。圖2中框A即為二級導(dǎo)航塊。小說介紹信息塊,包含一些小說的介紹性信息,比如類別、字?jǐn)?shù)、更新時間等。識別此小說介紹信息塊主要利用其中的兩種特征:一種是小說介紹信息塊的面積和位置特征,介紹信息塊屬于小說介紹頁的核心內(nèi)容塊,因此一般具有較大面積,且位于頁面的焦點(diǎn)區(qū)域;另一種是小說介紹信息塊中的介紹性關(guān)鍵詞。圖2中框B即為小說介紹信息塊。步驟S102,基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。根據(jù)獲取到的小說介紹頁中二級導(dǎo)航塊以及小說介紹信息塊的面積、位置特征以及介紹性關(guān)鍵詞,從所述小說介紹頁中提取小說介紹性字段。其中,提取的小說介紹性字段主要包括:小說名稱、小說作者、小說類別、更新時間、小說字?jǐn)?shù)、小說書號、小說封面圖片、小說出版社以及小說目錄URL等,這些小說介紹性字段基本覆蓋了所有小說網(wǎng)頁的常用字段。下面分別描述各字段及識別方法:小說名稱:字體最大,一般出現(xiàn)在二級導(dǎo)航塊及頁面標(biāo)題里。小說作者:一般出現(xiàn)在小說名稱后的有限范圍內(nèi),且有“作者:XXX”或“文/XXX”等模式。小說類別:事先收集一個小說類別表,包含諸如武俠、言情、玄幻等20多種類別,然后在二級導(dǎo)航塊及小說介紹信息塊中查找。更新時間:來自于小說介紹信息塊,一般有“更新時間”、“最后更新”等相關(guān)字眼。小說字?jǐn)?shù):來自于小說介紹信息塊,一般有“字?jǐn)?shù)”、“小說長度”等相關(guān)字眼。小說書號:來自于二級導(dǎo)航塊或小說介紹信息塊,一般有“書號”等相關(guān)字眼。小說封面圖片:主要利用利用其位置信息進(jìn)行提取,小說封面圖片通常位于頁面上半部分;小說封面圖片高度大于寬度,且寬高在一定范圍之內(nèi);對于小說封面圖片的屬性,該圖片的描述文字一般含有小說名及“封面”/ “圖片”這樣的字眼。小說出版社,來自于小說介紹信息塊,一般有“出版社”等相關(guān)字眼。小說目錄URL,一般有“點(diǎn)擊閱讀”、“章節(jié)列表”等鏈接文字字眼。從小說介紹頁中提取出小說介紹性字段后,即可簡化小說介紹頁的描述,同時還可以根據(jù)提取的小說介紹性字段重新排版小說介紹頁并顯示。如圖3所示,圖3是利用本實(shí)施例方案對圖2所示的小說介紹頁進(jìn)行介紹性字段提取,以從中獲得的部分字段重新排版出來的效果示意圖。本實(shí)施例通過上述方案,將復(fù)雜的小說介紹頁進(jìn)行了結(jié)構(gòu)化,提取了核心的介紹字段,為小說描述及用戶瀏覽提供了便利,尤其可以實(shí)現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,避免了現(xiàn)有技術(shù)中小說介紹頁無法直接展示于手機(jī)側(cè)的弊端,并且極大降低人工維護(hù)成本。如圖4所示,本專利技術(shù)第一實(shí)施例提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,包括:識別模塊201以及提取模塊202,其中:識別模塊201,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;提取模塊202,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。為了實(shí)現(xiàn)對網(wǎng)絡(luò)小說介紹頁的智本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    一種網(wǎng)絡(luò)小說介紹頁的提取方法,其特征在于,包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:蔡兵朱章厚徐羽
    申請(專利權(quán))人:騰訊科技深圳有限公司
    類型:發(fā)明
    國別省市:廣東;44

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲va无码专区国产乱码| 国产AV无码专区亚洲A∨毛片| 亚洲熟妇无码另类久久久| 亚洲AV综合色区无码另类小说| 亚洲精品无码AV人在线播放| 精品无码人妻一区二区免费蜜桃| 中文字幕无码日韩专区| 无码激情做a爰片毛片AV片| 亚洲精品GV天堂无码男同| 精品无码av一区二区三区| 精品无码国产污污污免费网站 | av色欲无码人妻中文字幕| 无码人妻精品中文字幕免费| 国产精品va无码一区二区| 一本之道高清无码视频| 久久亚洲av无码精品浪潮 | 潮喷大喷水系列无码久久精品 | 13小箩利洗澡无码视频网站免费| 亚洲av永久中文无码精品 | 亚洲熟妇无码乱子AV电影| 色综合色国产热无码一| 无码人妻丰满熟妇区BBBBXXXX| 亚洲人片在线观看天堂无码| 亚洲va中文字幕无码久久| 国产精品无码a∨精品| 国产成人麻豆亚洲综合无码精品| 成人免费无码大片a毛片| 亚洲av无码专区在线观看亚| 亚洲av无码一区二区三区天堂古代| 亚洲av福利无码无一区二区| 中文无码一区二区不卡αv| 久久久久亚洲精品无码蜜桃| 色综合久久无码五十路人妻| 久久午夜伦鲁片免费无码| 无码人妻少妇久久中文字幕蜜桃 | 中文国产成人精品久久亚洲精品AⅤ无码精品 | 国产亚洲精久久久久久无码AV| 亚洲av无码不卡私人影院| 久久国产精品无码网站| 国产网红无码精品视频| 18精品久久久无码午夜福利|