• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于過濾網頁內容的系統和方法技術方案

    技術編號:8612888 閱讀:209 留言:0更新日期:2013-04-20 02:23
    公開了用于選擇性地過濾網頁內容的系統和方法。在一個示例性實施例中,生成網頁內容的文檔對象模型(DOM)結構和可視信息。分析文檔對象模型(DOM)結構和可視信息以確定多個網頁內容屬性。從多個網頁內容屬性中選擇一個或多個過濾參數。基于一個或多個過濾參數來對網頁進行過濾。

    【技術實現步驟摘要】
    【國外來華專利技術】
    技術介紹
    網頁提供了使信息可用于其客戶的廉價且方便的方式。然而,隨著變得日益盛行的多媒體內容、嵌入式廣告和在線服務包括于現代網頁中,網頁本身已經變得實質上更為復雜。例如,除過它們的主內容外,許多網頁顯示輔助內容,諸如背景圖像、廣告、導航菜單和/或到額外內容的鏈接。網頁內容可以被分解并且被用于各種輸出。例如,許多中小企業網頁可以被分解成更小的片段并且被改變用途以創建營銷宣傳資料(marketing collateral)。在另一個示例中,網頁可以被分解成小塊,使得它們能夠用于選擇性的web (網絡)打印。然而,可能并非期望網頁的所有內容。一些網頁內容使諸如網頁分割、web布局分析和塊重要性計算之類的web內容分析算法的性能劣化。因此,過濾所期望內容以僅僅收集有用內容可以有益于下游的許多web內容分析算法。附圖說明本文參考附圖描述了各個實施例,在附圖中 圖1圖示出根據一個實施例的用于選擇性地過濾網頁內容的方法的流程圖2圖示出根據一個實施例的用于選擇性地過濾網頁內容的方法的另一個流程 圖3圖示出根據一個實施例的使用溢出迭代過濾器(OIF)來選擇性地過濾網頁內容的方法的流程圖4A圖示出在本公開的上下文中顯示具有多個參數的網頁的說明性web瀏覽器的截圖4B圖示出在本公開的上下文中在過濾之前被解析成多個節點的示例性網頁的截 圖5圖示出根據一個實施例的網頁過濾模塊的框圖;以及 圖6圖示出根據一個實施例的用于選擇性地過濾網頁內容的系統的框圖。本文所描述的附圖僅用于說明目的且不意圖以任何方式限制本公開的范圍。具體實施例方式公開了用于過濾網頁內容以進行網頁分析的系統和方法。在本公開的實施例的以下詳細描述中,對形成本公開的一部分的附圖進行參考,且其中以圖示方式示出可以實踐該公開的特定實施例。以使得本領域技術人員能夠實踐本專利技術的詳細程度來描述這些實施例,并且應當理解,可以利用其他實施例,并且可以在不背離本公開的范圍的情況下進行改變。因此,以下詳細描述不是以限制性的意義作出,并且本公開的范圍由所附權利要求限定。本文所描述的網頁過濾過程可以對于不同的網頁內容布局自動地過濾不期望的網頁內容。經過濾的網頁內容可以用于網頁分析。例如,經過濾的網頁內容可以用于網頁內容的web打印、網頁分割、自動的重新發布。在本文中,術語“網頁”指的是能夠通過網絡連接從服務器獲取且在web瀏覽器應用中被查看的諸如博客、電子郵件、新聞和食譜等的文檔。而且,術語“節點”指的是在文檔對象模型(DOM)樹中屬性同質的網頁中的多個相干(coherent)區域中的一個。術語“同質”指的是具有相同類型或屬性的內容的特性。圖1圖示出根據一個實施例的用于選擇性地過濾網頁內容以進行網頁分析的方法的流程圖。在框102,接收網頁(例如,圖4A所示的網頁)。可以通過物理計算系統來接收該網頁。在一個示例實施例中,通過物理計算系統來接收網頁的URL。例如,物理計算系統可以執行功能從其服務器取出網頁,以及,呈現網頁以確定網頁中內容的布局。在另一個示例實施例中,可以由物理計算系統的用戶來指定URL,替換地,可以自動地確定URL。物理計算系統可以然后使用URL通過諸如互聯網之類的網絡從其服務器請求網頁。在框104,生成網頁內容的文檔對象模型(DOM)結構。DOM結構可以包括具有多個節點的DOM樹。DOM樹的多個節點可以由網頁中的多個元素構成,且每個節點表示網頁內容的元素。DOM樹還可以包括多個父節點和多個子節點。DOM樹可以支持通過任何父節點或子節點的任何方向上的導航。可以使用web呈現引擎來生成DOM結構。在一個示例實施例中,可以從由Webkit、Gecko、Trident和Pesto構成的組中選擇web呈現引擎。諸如Trident和Pesto之類的web呈現引擎分別主要地或者專門地與Internet Explore瀏覽器和Opera瀏覽器相關聯。諸如Webkit和Gecko之類的web呈現引擎可以由諸如Safari,Google Chrome, Firefox和Flock之類的多個瀏覽器共享。Web呈現引擎可以存在于物理計算系統中或者存在于聯網環境中的服務器上。在框106,生成網頁內容的可視信息。可視信息可以包括每個節點的邊界框、每個節點的坐標、節點的邊界框的坐標、節點中的文本的字體顏色、節點的背景顏色和其他標準屬性。可以使用web呈現引擎來生成網頁內容的可視信息。用于生成可視信息的web呈現引擎可以包括層疊樣式表(CSS)和動態JavaScript。在框108,分析網頁的DOM結構和可視信息以確定多個網頁內容屬性。多個網頁內容屬性可以包括DOM結構的每個節點的可視性屬性、位置屬性、溢出屬性和顯示屬性。多個網頁內容屬性可以包括DOM結構的每個節點的z指數屬性。在框110,從多個網頁內容屬性中選擇一個或多個過濾參數。由用戶或者系統管理員來選擇該一個或多個過濾參數。根據一個實施例,一個或多個過濾參數是可配置的且能夠針對每個網頁被預先確定。根據另一個實施例,從過濾參數的預定列表中選擇該一個或多個過濾參數。過濾參數的預定列表可以包括指定的標簽過濾器、可視性過濾器、無效坐標過濾器、色差過濾器、溢出迭代過濾器、文本可視性過濾器、浮動頁首過濾器,浮動頁尾過濾器和廣告過濾器。在框112,基于一個或多個過濾參數來過濾網頁內容。基于一個或多個過濾參數的頁面內容的過濾可以包括移除DOM樹中的一個或多個節點。根據一個實施例,通過將DOM樹的每個節點的可視性屬性和顯示屬性與過濾參數中的這些屬性的預定值進行比較,來移除DOM樹中的一個或多個節點。經過濾的網頁內容可以用于網頁分析。在一個實施例中,通過確定每個節點的邊界框的坐標、確定每個節點的邊界框的面積,和過濾邊界框的面積小于零的一個或多個節點,來基于所選擇的一個或多個過濾參數來過濾網頁內容。在一個示例實施例中,將具有邊界框的無效坐標的一個或多個所選節點過濾。在另一個實施例中,將邊界框的高度或寬度小于零的一個或多個所選節點過濾。在另一個實施例中,通過確定網頁的每個節點的節點邊界、過濾具有無效節點邊界的一個或多個所選節點,來過濾網頁內容。在又一實施例中,通過確定網頁的邊界、確定網頁的每個節點的節點邊界、比較網頁的邊界與節點的節點邊界,和過濾其邊界不與網頁的邊界重疊的一個或多個所選節點,來過濾網頁內容。在又一實施例中,可以以并行或者順序方式來完成DOM樹中的一個或多個節點的過濾。在并行過濾中,對DOM樹中的每個節點并行地使用過濾參數來過濾一個或多個節點。在順序過濾中,使用第一過濾參數來過濾一個或多個節點,然后從DOM樹中移除經過濾的節點以創建第二 DOM樹,使用第二過濾參數來過濾第二 DOM樹的一個或多個節點,等等。在又一實施例中,通過確定DOM結構的多個節點中的每個節點的z指數屬性,和通過將DOM結構的每個節點的z指數屬性與預定值相比較來過濾一個或多個所選節點,來過濾網頁內容。例如,z指數包括底部屬性、位置屬性和高度屬性。在這些實施例中,將底部屬性值等于零、位置屬性值固定、z指數屬性值大于零、且高度屬性值小于預定閾值的一個或多個節點過濾。圖2圖示出用于選擇性地過濾網頁內容的示例性方法的另一個流程圖。根據一個實施例,可以采用該方法以在沒有任何用戶本文檔來自技高網...

    【技術保護點】

    【技術特征摘要】
    【國外來華專利技術】1.一種選擇性地過濾網頁內容以進行網頁分析的方法,包括 生成網頁內容的文檔對象模型(DOM)結構和可視信息; 分析DOM結構和可視信息以確定用于過濾的多個網頁內容屬性; 從多個網頁內容屬性中選擇一個或多個過濾參數;以及 基于所選的一個或多個過濾參數來過濾網頁內容,以進行網頁分析。2.根據權利要求1所述的方法,其中,所述一個或多個過濾參數選自包括以下項的組指定的標簽過濾器、可視性過濾器、無效坐標過濾器、色差過濾器、溢出迭代過濾器、文本可視性過濾器、浮動頁首過濾器、浮動頁尾過濾器和廣告過濾器。3.根據權利要求1所述的方法,其中,DOM結構包括多個節點,并且其中,基于所選的一個或多個過濾參數來過濾網頁內容包括 確定每個節點的邊界框的坐標; 將具有邊界框的無效坐標的一個或多個節點過濾。4.根據權利要求3所述的方法,其中過濾一個或多個節點包括 將邊界框的高度或寬度小于零的一個或多個節點過濾。5.根據權利要求1所述的方法,其中,DOM結構包括多個節點,并且其中,過濾網頁內容包括 確定網頁的每個節點的節點邊界;以及 將具有無效節點邊界的一個或多個節點過濾。6.根據權利要求1所述的方法,其中,DOM結構包括多個節點,并且其中,過濾網頁內容包括 確定葉節點的邊界與葉節點的父節點的節點邊界之間的交集,其中,葉節點是DOM結構中不具有子節點的節點;以及 基于葉節點的邊界與父節點的邊界之間的交集來過濾一個或多個葉節點。7.根據權利要求6所述的方法,其中過濾每個葉節點包括 通過遞歸地比較每個葉節點與其每個父節點直到葉節點的邊界與父節點的邊界之間的交集低于預定值,來過濾每個葉節點。8.根據權利要求1所述的方法,其中,DOM結構包括多個節點,并且其中,過濾網頁內容包括 確定DOM結構的多個節點中的每個節點的z指數屬性,其中,z指數屬性包括底部屬性、位置屬性和高度屬性;以及 通過將DOM結構的每個節點的z指數屬...

    【專利技術屬性】
    技術研發人員:LW鄭JM金SH林J范HM候SJ田
    申請(專利權)人:惠普發展公司有限責任合伙企業
    類型:
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 永久免费av无码网站韩国毛片| 亚洲av激情无码专区在线播放| 人妻精品久久无码区洗澡| 亚洲av无码一区二区三区天堂古代| 精品亚洲AV无码一区二区三区| 亚洲av无码不卡私人影院| 玖玖资源站无码专区| 国产精品va在线观看无码| 18禁无遮挡无码国产免费网站 | 亚洲爆乳少妇无码激情| 无码精品A∨在线观看免费| 亚洲Av无码国产情品久久| 亚洲AV无码一区二区三区性色| 国产成人亚洲综合无码精品| 无码永久免费AV网站| 无码欧精品亚洲日韩一区| 精品久久久久久无码国产| 精品久久久无码人妻中文字幕豆芽| 91精品国产综合久久四虎久久无码一级| 国产精品热久久无码av| 亚洲AV无码一区二区三区鸳鸯影院| 熟妇人妻无码中文字幕| 亚洲av无码不卡一区二区三区| 中文字幕无码AV波多野吉衣| 亚洲AV中文无码乱人伦在线视色| 亚洲人成网亚洲欧洲无码| 亚洲av无码片区一区二区三区 | 久久精品九九热无码免贵| 亚洲高清无码综合性爱视频| 丰满亚洲大尺度无码无码专线| 日韩av无码成人无码免费| 无码熟妇人妻在线视频| av色欲无码人妻中文字幕| 精品国产性色无码AV网站| 无码人妻一区二区三区av| 日韩中文无码有码免费视频| 最新亚洲人成无码网www电影| 无码国产成人午夜电影在线观看| 亚洲AV无码专区在线厂| 久久国产三级无码一区二区| 成人无码视频97免费|