System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
【國外來華專利技術】
本申請總體涉及使用用于應用和/或網絡瀏覽器(web?browser)擴展的工具和數據封裝進行網頁數據識別和提取,更具體地,涉及生成和提供被配置為分析網頁啟發式方法(heuristics)以識別和提取網頁數據的編碼數據封裝。
技術介紹
1、在線服務提供商可向用戶提供可與在線購物和交易處理相關的服務。這些服務可包括與查找和提供折扣及其他成本節省相關的服務,這些折扣和成本節省在商家網站生成交易時應用于該交易。這可以通過網絡瀏覽器擴展來執行,當用戶正瀏覽網站和/或在商家網站上生成交易時,該網絡瀏覽器擴展監控、挖取(scrape)和/或提取商家網站的網站數據。例如,網絡瀏覽器擴展可以監控網站和網站上的數據,例如添加到數字購物車的項目(item),以及可以根據項目、運費、稅費等計算出的總額。然而,確定網頁元素、特征和數據需要人工操作,由于時間和資源的限制,人工操作成本過高,或者需要自動化計算工具來識別和提取數據。這些自動計算工具需要了解(一個或多個)網頁和(一個或多個)網頁布局的具體知識,以使得正確挖取、識別和/或提取數據。如果沒有這些知識,這些工具可能無法在不同網頁的特征和數據之間建立關聯,而這些網頁可能具有不同的布局,以不同的方式排列圖像、文本和其他數據,和/或呈現不同的數據。因此,在線服務提供商需要使用與網頁無關的工具來識別和提取數據。
技術實現思路
【技術保護點】
1.一種服務提供商系統,包括:
2.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝包括網頁形狀,所述網頁形狀使得能夠至少使用分配給所述至少一個網頁特征中的每個網頁特征的術語和權重來在所述多個網頁的布局上識別所述至少一個網頁特征。
3.根據權利要求2所述的服務提供商系統,其中,所述至少一個網頁特征與如下項中的至少一項相關聯:產品標題、產品名稱、產品描述、產品價格、或產品折扣。
4.根據權利要求1所述的服務提供商系統,其中,所述操作還包括:
5.根據權利要求4所述的服務提供商系統,其中,所述操作還包括:
6.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝包括對所述多個網頁上的所述至少一個網頁特征的至少一個描述、至少一個權重、以及過濾邏輯。
7.根據權利要求1所述的服務提供商系統,其中,所述軟件操作與所述服務提供商系統提供的網絡瀏覽器應用擴展或專用移動應用之一相關聯。
8.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝包括一個或多個操作,用于解析所述多個網頁的超文本標
9.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝使用正則表達式(regex),以使用針對所述多個網頁的網頁啟發式方法來識別所述至少一個網頁特征。
10.根據權利要求1所述的服務提供商系統,其中,所述操作還包括:
11.一種方法,包括:
12.根據權利要求11所述的方法,其中,所述一個或多個使用包括針對所述一個或多個項目的至少一個其他網頁的瀏覽會話,所述一個或多個項目還能經由所述至少一個其他網頁購買。
13.根據權利要求12所述的方法,還包括:
14.根據權利要求11所述的方法,還包括:
15.根據權利要求11所述的方法,其中,所述網頁包括針對所述一個或多個項目的在線商家市場,其中,所述一個或多個網頁形狀啟發式方法被配置為使用與針對所述網頁特征布局數據的問題相關聯的一個或多個編碼數據封裝來識別標題、產品、描述、或價格中的至少一者,并且其中,所述網頁特征布局數據包括超文本標記語言(HTML)代碼、可擴展標記語言(XML)代碼、或JavaScript代碼中的一者。
16.根據權利要求11所述的方法,還包括:
17.一種非暫時性機器可讀介質,其上存儲有可執行的機器可讀指令,用于使機器執行操作,所述操作包括:
18.根據權利要求17所述的非暫時性機器可讀介質,其中,所述項目是第一項目,所述數據是第一數據,其中,所述網站還包括所述網站上的第二項目,并且其中,所述操作還包括:
19.根據權利要求17所述的非暫時性機器可讀介質,所述多個網頁啟發式數據封裝各自被編碼以標識多個網頁上多個項目的數據的不同網頁特征。
20.根據權利要求17所述的非暫時性機器可讀介質,其中,所述多個網頁啟發式數據封裝中的所述至少一個使用正則表達式(regex)來識別與所述數據相對應的網頁特征。
...【技術特征摘要】
【國外來華專利技術】
1.一種服務提供商系統,包括:
2.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝包括網頁形狀,所述網頁形狀使得能夠至少使用分配給所述至少一個網頁特征中的每個網頁特征的術語和權重來在所述多個網頁的布局上識別所述至少一個網頁特征。
3.根據權利要求2所述的服務提供商系統,其中,所述至少一個網頁特征與如下項中的至少一項相關聯:產品標題、產品名稱、產品描述、產品價格、或產品折扣。
4.根據權利要求1所述的服務提供商系統,其中,所述操作還包括:
5.根據權利要求4所述的服務提供商系統,其中,所述操作還包括:
6.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝包括對所述多個網頁上的所述至少一個網頁特征的至少一個描述、至少一個權重、以及過濾邏輯。
7.根據權利要求1所述的服務提供商系統,其中,所述軟件操作與所述服務提供商系統提供的網絡瀏覽器應用擴展或專用移動應用之一相關聯。
8.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝包括一個或多個操作,用于解析所述多個網頁的超文本標記語言(html)代碼,以識別所述多個網頁上的所述至少一個網頁特征。
9.根據權利要求1所述的服務提供商系統,其中,所述編碼數據封裝使用正則表達式(regex),以使用針對所述多個網頁的網頁啟發式方法來識別所述至少一個網頁特征。
10.根據權利要求1所述的服務提供商系統,其中,所述操作還包括:
11.一種方法,包括:<...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。