The invention provides a method of data migration and cluster data migration, data migration clusters are respectively connected with the first second distributed database and distributed database, data migration cluster distributed cluster, including cluster management node and multiple node cluster implementation, each cluster node and the first implementation of the distributed database at least one storage node deployment in a device; cluster management node, data received by a Map task migration tool starts to submit data migration task, and data migration tasks allocated to each cluster node implementation; each cluster node implementation, and its deployment in the storage node read on a single device data, and reads the data to the second distributed database. The data migration, cluster and data migration methods provided by this application make the data migration efficiency between the two distributed databases greatly improved.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種數(shù)據(jù)遷移集群及數(shù)據(jù)遷移方法
本專利技術(shù)涉及數(shù)據(jù)遷移
,尤其涉及一種數(shù)據(jù)遷移集群及數(shù)據(jù)遷移方法。
技術(shù)介紹
Sqoop,是一款開源的工具,主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)(如mysql、postgresql等)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如MySQL、Oracle、Postgres等)中的數(shù)據(jù)遷移到Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。由于Sqoop與Oozie工作流調(diào)度的配合使用非常方便,從而可以與spark、Mr等計(jì)算任務(wù)進(jìn)行工作流的高效銜接處理,并且其定義了多種多樣的遷移原語(yǔ),使用方便,因此,Sqoop成為首選的數(shù)據(jù)遷移工具。近年來(lái),分布式數(shù)據(jù)庫(kù)如MongoDB的使用頻率越來(lái)越高,由于支持水平擴(kuò)展、高可用、靈活查詢等特性,MongoDB在處理非實(shí)時(shí)性事務(wù)處理的大數(shù)據(jù)處理方面有著無(wú)可比擬的優(yōu)勢(shì),也有越來(lái)越多的人將自己的業(yè)務(wù)數(shù)據(jù)放在MongoDB中進(jìn)行保存,因此,隨之而來(lái)的是,實(shí)現(xiàn)MongoDB向HDFS的數(shù)據(jù)遷移場(chǎng)景越來(lái)越多。目前,實(shí)現(xiàn)MongoDB向HDFS進(jìn)行數(shù)據(jù)遷移的方案如圖1所示:Sqoop啟動(dòng)多個(gè)MAP任務(wù),每個(gè)MAP任務(wù)均需要建立一個(gè)與mongoDB主節(jié)點(diǎn)的連接,然后再由MongoDB主節(jié)點(diǎn)將任務(wù)交給MongoDB存儲(chǔ)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)讀取,在這種數(shù)據(jù)遷移方式中,由于多個(gè)MAP任務(wù)均需要建立與mongoDB主節(jié)點(diǎn)的連接,因此,MongoDB主節(jié)點(diǎn)會(huì)成為數(shù)據(jù)讀取的瓶頸,數(shù)據(jù)的讀取效率較低。
技術(shù)實(shí)現(xiàn)思路
有鑒于此,本專利技 ...
【技術(shù)保護(hù)點(diǎn)】
一種數(shù)據(jù)遷移集群,其特征在于,所述數(shù)據(jù)遷移集群分別與第一分布式數(shù)據(jù)庫(kù)和第二分布式數(shù)據(jù)庫(kù)連接;所述數(shù)據(jù)遷移集群為分布式集群,包括集群管理節(jié)點(diǎn)和多個(gè)集群執(zhí)行節(jié)點(diǎn),每個(gè)集群執(zhí)行節(jié)點(diǎn)與所述第一分布式數(shù)據(jù)庫(kù)的至少一個(gè)存儲(chǔ)節(jié)點(diǎn)部署在一臺(tái)設(shè)備上;所述集群管理節(jié)點(diǎn),用于接收由數(shù)據(jù)遷移工具啟動(dòng)的一個(gè)Map任務(wù)提交的數(shù)據(jù)遷移任務(wù),并將所述數(shù)據(jù)遷移任務(wù)分發(fā)給各個(gè)集群執(zhí)行節(jié)點(diǎn);所述各個(gè)集群執(zhí)行節(jié)點(diǎn),用于讀取與自身部署在一臺(tái)設(shè)備上的存儲(chǔ)節(jié)點(diǎn)的數(shù)據(jù),并將讀取的數(shù)據(jù)存儲(chǔ)至所述第二分布式數(shù)據(jù)庫(kù)。
【技術(shù)特征摘要】
1.一種數(shù)據(jù)遷移集群,其特征在于,所述數(shù)據(jù)遷移集群分別與第一分布式數(shù)據(jù)庫(kù)和第二分布式數(shù)據(jù)庫(kù)連接;所述數(shù)據(jù)遷移集群為分布式集群,包括集群管理節(jié)點(diǎn)和多個(gè)集群執(zhí)行節(jié)點(diǎn),每個(gè)集群執(zhí)行節(jié)點(diǎn)與所述第一分布式數(shù)據(jù)庫(kù)的至少一個(gè)存儲(chǔ)節(jié)點(diǎn)部署在一臺(tái)設(shè)備上;所述集群管理節(jié)點(diǎn),用于接收由數(shù)據(jù)遷移工具啟動(dòng)的一個(gè)Map任務(wù)提交的數(shù)據(jù)遷移任務(wù),并將所述數(shù)據(jù)遷移任務(wù)分發(fā)給各個(gè)集群執(zhí)行節(jié)點(diǎn);所述各個(gè)集群執(zhí)行節(jié)點(diǎn),用于讀取與自身部署在一臺(tái)設(shè)備上的存儲(chǔ)節(jié)點(diǎn)的數(shù)據(jù),并將讀取的數(shù)據(jù)存儲(chǔ)至所述第二分布式數(shù)據(jù)庫(kù)。2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)遷移集群,其特征在于,所述集群管理節(jié)點(diǎn),還用于監(jiān)測(cè)所述各個(gè)集群執(zhí)行節(jié)點(diǎn)對(duì)所述數(shù)據(jù)讀取任務(wù)的執(zhí)行情況,并通過所述各個(gè)集群執(zhí)行節(jié)點(diǎn)對(duì)所述數(shù)據(jù)遷移任務(wù)的執(zhí)行情況向所述Map任務(wù)返回所述數(shù)據(jù)遷移任務(wù)的執(zhí)行狀態(tài)信息。3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)遷移集群,其特征在于,所述集群管理節(jié)點(diǎn),還用于在接收所述Map任務(wù)提交的所述數(shù)據(jù)遷移任務(wù)的同時(shí),接收所述Map任務(wù)提交的回調(diào)地址;則所述集群管理節(jié)點(diǎn),具體用于基于所述回調(diào)地址,通過所述各個(gè)集群執(zhí)行節(jié)點(diǎn)對(duì)所述數(shù)據(jù)遷移任務(wù)的執(zhí)行情況,向所述Map任務(wù)返回所述數(shù)據(jù)遷移任務(wù)的執(zhí)行狀態(tài)信息。4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)遷移集群,其特征在于,所述集群管理節(jié)點(diǎn),具體用于在將所述數(shù)據(jù)遷移任務(wù)分發(fā)給所述各個(gè)集群執(zhí)行節(jié)點(diǎn)之后,基于所述回調(diào)地址向所述MAP任務(wù)返回所述數(shù)據(jù)遷移任務(wù)開始執(zhí)行的指示信息,以使所述Map任務(wù)在接收到所述數(shù)據(jù)遷移任務(wù)開始執(zhí)行的指示信息時(shí),將自身維護(hù)的任務(wù)狀態(tài)信息由任務(wù)準(zhǔn)備更新為任務(wù)執(zhí)行;以及,在所述各個(gè)集群執(zhí)行節(jié)點(diǎn)對(duì)所述數(shù)據(jù)遷移任務(wù)均執(zhí)行成功時(shí),基于所述回調(diào)地址向所述MAP任務(wù)返回所述數(shù)據(jù)遷移任務(wù)執(zhí)行成功的指示信息,以使所述Map任務(wù)在接收到所述數(shù)據(jù)遷移任務(wù)執(zhí)行成功的指示信息時(shí),將所述自身維護(hù)的狀態(tài)信息由所述任務(wù)執(zhí)行更新為任務(wù)執(zhí)行成功;以及,在所述多個(gè)集群執(zhí)行節(jié)點(diǎn)中的至少一個(gè)集群執(zhí)行節(jié)點(diǎn)對(duì)所述數(shù)據(jù)遷移任務(wù)執(zhí)行失敗時(shí),基于所述回調(diào)地址向所述Map任務(wù)返回所述數(shù)據(jù)遷移任務(wù)執(zhí)行失敗的指示信息,以使所述Map任務(wù)在接收到所述數(shù)據(jù)遷移任務(wù)執(zhí)行失敗的指示信息時(shí),重新向所述集群管理節(jié)點(diǎn)提交所述數(shù)據(jù)遷移任務(wù)。5.根據(jù)權(quán)利要求2至4中任意一項(xiàng)所述的數(shù)據(jù)遷移集群,其特征在于,所述集群管理節(jié)點(diǎn),還用于在向所述Map任務(wù)返回所述數(shù)據(jù)遷移任務(wù)的執(zhí)行狀態(tài)信息之后,判斷預(yù)設(shè)時(shí)間內(nèi)是否接收到所述Map任務(wù)對(duì)所述執(zhí)行狀態(tài)信息的響應(yīng)信息,如果在所述預(yù)設(shè)時(shí)間內(nèi)未接收到所述Map任務(wù)對(duì)所述執(zhí)行狀態(tài)信息的響應(yīng)信息,則啟動(dòng)輪詢機(jī)制,直至所述Map任務(wù)成功接收到所述數(shù)據(jù)遷移任務(wù)的執(zhí)行狀態(tài)信息。6.一種數(shù)據(jù)遷移方法,其特征在于,應(yīng)用于數(shù)據(jù)遷移集群,所述數(shù)據(jù)遷移集群分別與第一分布式數(shù)據(jù)庫(kù)和第二分布式數(shù)據(jù)庫(kù)連接,所述數(shù)據(jù)遷移集群為分布式集群,包括集群管理節(jié)點(diǎn)和多...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:趙影,
申請(qǐng)(專利權(quán))人:東軟集團(tuán)股份有限公司,
類型:發(fā)明
國(guó)別省市:遼寧,21
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。