本發明專利技術公開一種對象級個性化垂直搜索引擎的設計技術,該算法其基本思想是:采用自適應垂直爬蟲技術獲取互聯網上相關網頁,通過對數據進行語義分析、抽取、集成等一系列對象化處理,獲得互聯網上的對象化信息,最后以搜索引擎的方式為每個用戶返回個性化排序對象結果。采用本技術設計的搜索引擎,通過數據挖掘技術對原始頁面數據進行了高度提純、組織,確保數據的質量,最大程度控制非法信息的收錄。此外,其個性化搜索推薦技術能準確判斷用戶的消費偏好,確保了對用戶查詢意圖的理解。該對象級個性化垂直語義搜索引擎在充分借鑒和吸收語義搜索、對象級搜索、個性化搜索技術優勢的基礎上,進行集成創新,完全符合下一代搜索引擎的發展方向。
【技術實現步驟摘要】
本專利技術涉及對象級個性化垂直搜索引擎設計領域的技術研究。
技術介紹
隨著WEB2. 0技術的迅猛發展,互聯網數據海量增長。如何為互聯網用戶提供準確有效的信息顯得尤為重要。通用搜索的策略是盡量獲取數據,但是對數據的處理水平比較低,突出問題就是無效信息過多(噪音數據多)、有效信息不足、有效信息非結構化、返回結果無個性化優化機制。通用搜索中無價值數據比例越高,這些對用戶無效的數據浪費了數據中心相當多的存儲和運算能力,意味著不僅單次搜索消耗的能源浪費比例高,還會干擾有效信息的提取,致使用戶很可能需要進行多次搜索,消耗更多的能源。本專利技術的對象級個性化垂直搜索的策略與通用搜索完全不同。在所垂直的領域內,該技術為用戶提供的都是經過整理的、結構化的對象信息,從而大大降低無效信息的比例。其數據處理技術對原始頁面數據進行了高度提純、組織,采用各種方法消除無效數據, 在數據處理上要比通用搜索更加深入,確保了數據的質量。每次搜索需要查詢的數據量遠遠小于通用搜索,這意味著本搜索引擎技術對能源的消耗遠遠小于通用搜索。其突出的語義擴展和個性化推薦技術遠遠優于通用搜索引擎,根據不同用戶特征返回個性化排序結果,確保了對用戶查詢意圖的理解。因此用戶使用本搜索引擎看到的是高質量的數據,無須多次翻頁,也無須多次檢索,就能找到最想要的結果。因此該對象級垂直語義搜索引擎設計技術有極大的經濟和社會價值。
技術實現思路
本專利技術公開的垂直領域的對象級搜索技術(Object-Level Search)其基本原理是采用自適應垂直爬蟲技術獲取互聯網上相關網頁,通過對信息進行對象級信息抽取、對象級信息集成等一系列對象化處理過程,建立與現實世界中真實對象相對應的互聯網對象 (信息),通過個性化排序為用戶提供以對象為單位的搜索結果。與傳統搜索引擎的區別是他們的搜索結果是網頁,我們的搜索結果是對象化的網頁集。對象給出了構成相關領域詞匯的基本術語和關系,以及利用這些術語和關系構成的確定詞匯外延的有關規則的定義;其目標是捕獲相關的領域的知識,提供對該領域知識的共同理解,確定領域內通用的詞匯,并給出這些詞匯(術語)和詞匯之間相互關系的明確定義。對象提供了人機交流的機制,使得機器可以理解語義,從而為搜索引擎提高效率奠定了基石出。本專利技術的自適應垂直爬蟲實現了互聯網中垂直領域內生活信息網頁的自動發現和全面抓取,克服了傳統通用搜索引擎爬蟲數據冗余、數據格式限制等局限性。該爬蟲可以通過任務周期調度工具配置任務執行周期,實現爬蟲任務并行執行,并且根據網頁URL格式和文本信息學習相關規則,自動定向抓取相關網頁資源,通過URL配置方法成功解決了對JavMcript這類非URL網絡資源的抓取難題,在保證網上數據資源抓取的高準確率、抓取率的同時,極大提高了爬蟲系統的工作效率。本專利技術的對象級信息抽取和集成技術主要針對爬蟲抓取得到的垂直領域的網頁, 分析網頁內容,將每個網頁所攜帶的主體信息轉換成對象屬性的描述信息,然后根據不同網頁對同一個對象各屬性的描述信息集成出完整的對象。該對象對應于現實世界中的一個真實對象,如一個餐館、一本圖書和一個旅游目的地等。基于模板的信息抽取和集成方法,即對每一個網站的頁面定制一個抽取模板,這個模板里定義了各屬性的精確位置,然后由信息抽取模塊讀取模板信息進行網頁信息抽取,最后通過對象信息消重集、同一性判斷、屬性集成、高性能對象集成、增量集成等信息集成技術獲得理想的對象數據,實驗證明這個方法可以保證對象信息處理的高精確度。本專利技術中的語義搜索提供的是語義級的匹配,我們通過建立行業對象庫,把不同對象按照類別和屬性間的關聯信息組織起來,通過對象等級關聯和屬性同義詞關聯對對象庫信息進行語義關聯、而進行語義搜索。本專利技術中的對象級個性化推薦排序技術iRank是指在普通相關性排序基礎上,根據用戶的背景,使用記錄和興趣等信息調整排序算法,針對不同的用戶提供不同的服務。對象級個性化排序算法iRank根據用戶瀏覽網頁時的行為和用戶的特征信息建立個性化用戶模型,運用數據挖掘和個性化推薦技術(基于內容和協同過濾)預測用戶對信息的需求, 智能地對信息檢索結果進行個性化的排序,為用戶提供個性化的信息服務,增加搜索引擎對用戶興趣的應變能力。下一代搜索引擎必須比現在的搜索引擎更精準、更智能,智能化、精準化的前提是對象化、語義化、個性化。本項目是垂直領域的對象級搜索,充分借鑒和吸收了對象級搜索、 個性化搜索的最新研究成果,完全符合下一代搜索引擎的發展方向。附圖說明圖1系統整體架構2對象級個性化搜索返回頁面3自適應爬蟲技術架構4基于可視化模板的信息抽取 5Cron_Expressions 配置樣例6個性化推薦排序流程圖具體實施例方式圖1為本專利技術系統的整體架構圖,系統分為對象級信息處理、對象級語義處理和對象級個性化建模三個模塊。對象級個性化搜索引擎的基本設計方法如下(1)在領域專家的幫助下,通過網絡爬蟲等信息獲取工具建立相關領域的對象庫;(2)收集信息源中的數據,并參照已建立的對象庫,把收集來的數據按對象化規定的格式存儲在元數據庫(關系數據庫、知識庫等)中;(3)對用戶檢索界面獲取的查詢請求,查詢轉換器按照對象庫要求把查洵請求轉換成規定的格式,從元數據庫中匹配出符合條件的數據集合;(4)對檢索的結果進行個性化處理,針對不同用戶特征返回給個性化推薦結果。本系統的對象級個性化搜索返回效果圖請參看圖2.1、對象級信息處理模塊對象級信息處理模塊主要包括自適應爬蟲、信息抽取、集成、任務管理器等子模塊,其主要子模塊介紹如下1)自適應垂直爬蟲自適應垂直爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問互聯網上的網頁與相關的鏈接,獲取所需要的垂直信息。與通用爬蟲不同,垂直領域爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網上數據資源,為面向對象的用戶查詢準備數據資源。具體架構請參看圖3。本專利技術的自適應爬蟲采用數據挖掘和機器學習之中文本分類聚類等技術,對單個網頁進行內容分析和URL分析,找到符合條件的網上資源,自動過濾掉無用的冗余信息。 另外增量更新等在不同網站需要采用不同的策略來實現,比如根據發帖時間,根據帖子ID 等,這些可以抽象為一些增量更新方法。另外,目前對javascript這類非URL的網絡資源的抓取還處在研究階段,沒有成熟的技術。本專利技術的自適應垂直爬蟲針對不同領域特點,通過URL配置方法成功解決了對非URL網絡資源的抓取難題,豐富了行業對象庫資源。此外,由于生活消費信息的數量巨大,如果不設計好的任務調度策略,為造成網絡阻塞,一方面會讓被訪問網站產生敵對心理,也會讓爬蟲服務器遇到性能瓶頸。而爬蟲任務管理器是專門解決這個問題。通過提供可視化的任務管理,可以對不同任務進行執行時間配置(日,周,月),更新頻率配置等,也提供可視化的任務進度監控,做到爬蟲狀況的全面掌握。2)基于模板的信息抽取本項目針對生活消費類網頁進行對象化信息處理,需要將對象信息從網頁中抽取出來,對對象信息的屬性進行語義標注。信息抽取是一個研究熱點,研究者也提出了很多方法,比如基于模板的方法,基于機器學習的方法,基于視覺的方法等等,對于本項目來說,信息的正確性十分重要,對信息抽取的精度要求很高,因此采用基于模本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【專利技術屬性】
技術研發人員:倪毅,張惟師,劉杰,
申請(專利權)人:倪毅,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。