一種基于抽樣的分布式搜索結果合并翻頁方法及系統技術方案

技術編號：10246667 閱讀：171 留言：0更新日期：2014-07-23 23:54

本發明專利技術公開了一種基于抽樣的分布式搜索結果合并翻頁方法及系統，旨在顯著降低分布式搜索結果合并翻頁過程中，存在的網絡帶寬和計算消耗較大的問題，同時本發明專利技術亦可改良后應用于其它分布式查詢系統的結果合并翻頁中。其技術方案為：對索引數據切片，形成索引文件切片，然后分到各個切片搜索服務器(shard-search?server)上，完成了索引文件的初始化工作；搜索結果合并節點(gather)接收外部系統的合并翻頁請求，進入基于抽樣的分布式搜索結果合并翻頁具體步驟。

全部詳細技術資料下載

【技術實現步驟摘要】
【專利摘要】本專利技術公開了一種基于抽樣的分布式搜索結果合并翻頁方法及系統，旨在顯著降低分布式搜索結果合并翻頁過程中，存在的網絡帶寬和計算消耗較大的問題，同時本專利技術亦可改良后應用于其它分布式查詢系統的結果合并翻頁中。其技術方案為：對索引數據切片，形成索引文件切片，然后分到各個切片搜索服務器(shard-search?server)上，完成了索引文件的初始化工作；搜索結果合并節點(gather)接收外部系統的合并翻頁請求，進入基于抽樣的分布式搜索結果合并翻頁具體步驟。【專利說明】一種基于抽樣的分布式搜索結果合并翻頁方法及系統
本專利技術屬于海量數據處理
，具體涉及一種針對分布式搜索結果合并翻頁問題的方法及系統。
技術介紹
電子商務平臺(B2B、B2C等)的出現極大地方便了人們的生活，當人們越來越多地依賴這些平臺時，也對平臺本身提出了更高的要求:比如，在淘寶、京東等交易平臺上，人們希望能夠更多、更快、更精準地發現自己需要的商品；而對于電商企業而言，要滿足人們的這些要求，在技術層面上通常需要一款高效、精準的海量搜索系統。由于檢索數據龐大且快速增長，傳統的集中式的搜索系統已經越來越不能勝任大型電商平臺的檢索任務。隨著分布式及數據切片技術的發展，市面上出現了基于數據切片的分布式搜索系統，其中以apache開源的solr及Elasticsearch公司的elasticsearch較具代表性。這些分布式的搜索系統都具備較好的可擴展性，能夠將數據分片索引于龐大的機器集群上，這為解決海量數據的檢索問題提供了方案。然而由于切片技術本身的局限性，這些搜索系...

【技術保護點】
一種基于抽樣的分布式搜索結果排序翻頁方法，其特征在于，包括：對索引數據切片，形成索引文件切片，然后分到各個切片搜索服務器(shard?search?server)上，完成了索引文件的初始化工作；搜索結果合并節點(gather)接收外部系統的合并翻頁請求，進入步驟1；步驟1：搜索結果合并節點(gather)分別向各個切片搜索服務器發送查詢及針對搜索結果的抽樣請求，并等待響應結果；步驟2：切片搜索服務器(shard?search?server)依照查詢條件檢索，并對命中結果排序，最后從排序結果中獲取能夠涵蓋當前翻頁的前若干條記錄，針對這些記錄，切片搜索服務器以固定步長做整數倍抽樣，并將抽樣記錄返回；步驟3：搜索結果合并節點(gather)在獲取到各個切片搜索服務器(shard?search?server)的抽樣結果后，將它們按照排序域值做統一排序；步驟4：基于步驟3的排序結果，搜索結果合并節點(gather)進一步計算出所需目標翻頁的記錄在各個切片上的大致開始位置(startpoint)，同時將肯定不屬于目標翻頁的記錄排除在外；步驟5：基于步驟4的結果，搜索結果合并節點(gather)向各...

【技術特征摘要】

【專利技術屬性】
技術研發人員：梁峰，
申請(專利權)人：焦點科技股份有限公司，
類型：發明
國別省市：江蘇;32

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術