一種哈希連接的方法及裝置制造方法及圖紙

技術(shù)編號：12581094 閱讀：99 留言：0更新日期：2015-12-23 19:25

本發(fā)明專利技術(shù)提供了一種哈希連接的方法及裝置，該方法包括：S1：獲取待操作的第一表中待操作的第一數(shù)據(jù)和待操作的第二表中待操作的第二數(shù)據(jù)；S2：計算每個第一數(shù)據(jù)的哈希值，根據(jù)每個第一數(shù)據(jù)的哈希值，確定每個第一數(shù)據(jù)對應(yīng)的分區(qū)號，并計算每個第二數(shù)據(jù)的哈希值，根據(jù)每個第二數(shù)據(jù)的哈希值，確定每個第二數(shù)據(jù)對應(yīng)的分區(qū)號；S3：將對應(yīng)相同分區(qū)號的數(shù)據(jù)讀入到內(nèi)存的同一個分區(qū)中；S4：分別將同一個分區(qū)中的第一數(shù)據(jù)和第二數(shù)據(jù)進(jìn)行哈希連接hash?join操作。本發(fā)明專利技術(shù)提供了一種哈希連接的方法及裝置，能夠提高join效率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及計算機
，特別涉及一種哈希連接的方法及裝置。
技術(shù)介紹
Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng)，目的是讓數(shù)據(jù)分析更加快速。Spark非常小巧玲瓏，由加州伯克利大學(xué)AMP實驗室的Matei為主的小團隊所開發(fā)。使用的語言是Scala，雖然Spark與Hadoop有相似之處，但它提供了具有有用差異的一個新的集群計算框架。首先，Spark是為集群計算中的特定類型的工作負(fù)載而設(shè)計，即那些在并行操作之間重用工作數(shù)據(jù)集(比如機器學(xué)習(xí)算法)的工作負(fù)載。為了優(yōu)化這些類型的工作負(fù)載，Spark引進(jìn)了內(nèi)存集群計算的概念，可在內(nèi)存集群計算中將數(shù)據(jù)集緩存在內(nèi)存中，以縮短訪問延遲。在hadoop 發(fā)展過程中，為了給熟悉 RDBMS (Relat1nal Database ManagementSystem，關(guān)系數(shù)據(jù)庫管理系統(tǒng))但又不理解MapReduce的技術(shù)人員提供快速上手的工具，hive應(yīng)運而生，是當(dāng)時唯一運行在hadoop上的SQL-on-Hadoop工具。但是，MapReduce計算過程中大量的中間磁盤落地過程消耗了大量的1/0，降低的運行效率，為了提高SQL-on-Hadoop 的效率，大量的 SQL-on-Hadoop 工具開始產(chǎn)生，MapR 的 Drill、Cloudera 的Impala、Shark都是在這一背景下產(chǎn)生的工具，其中Shark是伯克利實驗室spark生態(tài)環(huán)境的組件之一，它修改了下圖所示的右下角的內(nèi)存管理、物理計劃、執(zhí)行三個模塊，并使之能運行在spark引擎上，從而使得SQL查詢的速度得到10-100倍的提升。隨著...

【技術(shù)保護點】
一種哈希連接的方法，其特征在于，包括：S1：獲取待操作的第一表中待操作的第一數(shù)據(jù)和待操作的第二表中待操作的第二數(shù)據(jù)；S2：計算每個第一數(shù)據(jù)的哈希值，根據(jù)每個第一數(shù)據(jù)的哈希值，確定每個第一數(shù)據(jù)對應(yīng)的分區(qū)號，并計算每個第二數(shù)據(jù)的哈希值，根據(jù)每個第二數(shù)據(jù)的哈希值，確定每個第二數(shù)據(jù)對應(yīng)的分區(qū)號；S3：將對應(yīng)相同分區(qū)號的數(shù)據(jù)讀入到內(nèi)存的同一個分區(qū)中；S4：分別將同一個分區(qū)中的第一數(shù)據(jù)和第二數(shù)據(jù)進(jìn)行哈希連接hash?join操作。

【技術(shù)特征摘要】

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：盧軍佐，曹連超，亓開元，房體盈，趙仁明，
申請(專利權(quán))人：浪潮集團有限公司，
類型：發(fā)明
國別省市：山東;37

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)

哈希沖突解決方法技術(shù)

哈希表處理沖突的方法技術(shù)