本申請?zhí)峁┝艘环N本申請?zhí)峁┝朔植际綌?shù)據(jù)并行處理的技術方案,其方法包括:初始化業(yè)務線程池,并獲取業(yè)務數(shù)據(jù)處理參數(shù)的初值及對應的分布式分片索引;獲取待處理的分片數(shù)據(jù)的全部分片主鍵,并基于所述分布式分片索引,確定對應的分片數(shù)據(jù)的分片主鍵列表;將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池,觸發(fā)所述業(yè)務線程池中的業(yè)務線程并行執(zhí)行,以獲取所述分片主鍵列表對應的分片數(shù)據(jù),并基于所述業(yè)務數(shù)據(jù)處理參數(shù)的初值對所述分片數(shù)據(jù)進行業(yè)務數(shù)據(jù)處理,及更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值。該方法可高效實現(xiàn)對百萬級別規(guī)模業(yè)務數(shù)據(jù)的分布式并行維護處理,既消除了單節(jié)點的性能限制,又降低了開發(fā)、維護成本。維護成本。維護成本。
【技術實現(xiàn)步驟摘要】
一種分布式數(shù)據(jù)并行處理的方法及裝置
[0001]本申請涉及計算機數(shù)據(jù)處理
,尤其涉及一種分布式數(shù)據(jù)并行處理的技術。
技術介紹
[0002]隨著業(yè)務的發(fā)展的不斷增加,與業(yè)務相關的數(shù)據(jù)越來越多,對企業(yè)來說維護這些數(shù)據(jù)也越來越重要。在對業(yè)務數(shù)據(jù)進行維護時,存在大量并行處理數(shù)據(jù)的場景,比如:批量刷新大量過期的數(shù)據(jù)等。為了保證業(yè)務數(shù)據(jù)處理的時效,對于數(shù)據(jù)規(guī)模不大的業(yè)務數(shù)據(jù)的維護,通常采用單節(jié)點多線程并行處理方案,而對于大規(guī)模海量業(yè)務數(shù)據(jù)的維護,通常采用多節(jié)點分布式并行計算方案(比如,基于MapReduce分布式并行計算框架的Hadoop集群方案)等。
[0003]但是,對于百萬級別規(guī)模的業(yè)務數(shù)據(jù)的維護處理中,采用單節(jié)點多線程并行處理方案的話,并發(fā)量會受限于單節(jié)點性能,業(yè)務數(shù)據(jù)處理比較耗時;而由于多節(jié)點分布式并行計算方案主要是用于萬億級規(guī)模海量數(shù)據(jù)的維護處理,初始投入及開發(fā)、維護成本較高,比如,Hadoop集群需要部署用于計算的MapReduce、用于資源調度的YARN(Yet Another Resource Negotiator,另一種資源協(xié)調者)、用于數(shù)據(jù)存儲的HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng))及輔助工具Common等,因此,采用整套Hadoop集群來處理百萬級別規(guī)模的中小型企業(yè)的業(yè)務數(shù)據(jù),會在一定程度上造成資源浪費。
技術實現(xiàn)思路
[0004]本申請的目的是提供一種分布式數(shù)據(jù)并行處理的技術方案,用以至少部分解決現(xiàn)有針對百萬級別規(guī)模的業(yè)務數(shù)據(jù)處理暫無兼顧成本和處理效率的適用方案的技術問題。
[0005]根據(jù)本申請的一個方面,提供了一種分布式數(shù)據(jù)并行處理的方法,其中,所述方法包括:
[0006]初始化業(yè)務線程池,并獲取業(yè)務數(shù)據(jù)處理參數(shù)的初值及對應的分布式分片索引,其中,所述業(yè)務線程池包括若干并行執(zhí)行的業(yè)務線程;
[0007]獲取待處理的分片數(shù)據(jù)的全部分片主鍵,并基于所述分布式分片索引,從所述待處理的分片數(shù)據(jù)的全部分片主鍵中確定對應的分片數(shù)據(jù)的分片主鍵列表;
[0008]將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池,觸發(fā)所述業(yè)務線程池中的業(yè)務線程并行執(zhí)行,以獲取所述分片主鍵列表對應的分片數(shù)據(jù),并基于所述業(yè)務數(shù)據(jù)處理參數(shù)的初值對所述分片數(shù)據(jù)進行業(yè)務數(shù)據(jù)處理,及更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值。
[0009]可選地,其中,所述分布式分片索引的獲取包括:
[0010]向緩存中間件發(fā)送IP信息,以使所述緩存中間件基于接收到的所有IP信息,計算對應的分布式分片索引,并返回。
[0011]可選地,其中,所述獲取待處理的分片數(shù)據(jù)的全部分片主鍵包括:
[0012]基于預設業(yè)務數(shù)據(jù)分片主鍵加載接口的實現(xiàn)方式,獲取待處理的分片數(shù)據(jù)的全部分片主鍵。
[0013]可選地,其中,所述獲取所述分片主鍵列表對應的分片數(shù)據(jù)包括:
[0014]基于預設業(yè)務數(shù)據(jù)處理接口的實現(xiàn)方式,獲取所述分片主鍵列表對應的分片數(shù)據(jù)。
[0015]可選地,其中,在將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池之前,所述方法還包括:
[0016]查詢是否存在所述分片主鍵列表對應的業(yè)務處理參數(shù)快照,若存在,則獲取所述業(yè)務處理參數(shù)快照,并覆蓋所述業(yè)務數(shù)據(jù)處理參數(shù)的初值。
[0017]可選地,其中,所述更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值包括:
[0018]若在業(yè)務數(shù)據(jù)處理過程中發(fā)生中斷,將所述業(yè)務數(shù)據(jù)處理參數(shù)的初值更新為中斷發(fā)生時當前處理的業(yè)務數(shù)據(jù)對應的業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值,并進行快照處理,以獲得所述分片主鍵列表對應的業(yè)務數(shù)據(jù)處理參數(shù)快照;
[0019]若完成對所述分片數(shù)據(jù)的業(yè)務數(shù)據(jù)處理,將所述業(yè)務數(shù)據(jù)處理參數(shù)的初值更新為最后處理的業(yè)務數(shù)據(jù)對應的業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值。
[0020]可選地,其中,所述業(yè)務數(shù)據(jù)處理參數(shù)至少包括:
[0021]數(shù)據(jù)游標號和分片主鍵。
[0022]根據(jù)本申請的又一方面,提供了一種分布式數(shù)據(jù)并行處理的裝置,其中,所述裝置包括:
[0023]第一模塊,用于初始化業(yè)務線程池,并獲取業(yè)務數(shù)據(jù)處理參數(shù)的初值及對應的分布式分片索引,其中,所述業(yè)務線程池包括若干并行執(zhí)行的業(yè)務線程;
[0024]第二模塊,用于獲取待處理的分片數(shù)據(jù)的全部分片主鍵,并基于所述分布式分片索引,從所述待處理的分片數(shù)據(jù)的全部分片主鍵中確定對應的分片數(shù)據(jù)的分片主鍵列表;
[0025]第四模塊,用于將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池,觸發(fā)所述業(yè)務線程池中的業(yè)務線程并行執(zhí)行,以獲取所述分片主鍵列表對應的分片數(shù)據(jù),并基于所述業(yè)務數(shù)據(jù)處理參數(shù)對所述分片數(shù)據(jù)進行業(yè)務數(shù)據(jù)處理,及更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值。
[0026]可選地,所述一種分布式數(shù)據(jù)并行處理的裝置還包括:
[0027]第三模塊,用于在將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池之前,查詢是否存在所述分片主鍵列表對應的業(yè)務處理參數(shù)快照,若存在,則獲取所述業(yè)務處理參數(shù)快照,并覆蓋所述業(yè)務數(shù)據(jù)處理參數(shù)。
[0028]與現(xiàn)有技術相比,本申請?zhí)峁┝朔植际綌?shù)據(jù)并行處理的技術方案,其方法包括:初始化業(yè)務線程池,并獲取業(yè)務數(shù)據(jù)處理參數(shù)的初值及對應的分布式分片索引,其中,所述業(yè)務線程池包括若干并行執(zhí)行的業(yè)務線程;獲取待處理的分片數(shù)據(jù)的全部分片主鍵,并基于所述分布式分片索引,從所述待處理的分片數(shù)據(jù)的全部分片主鍵中確定對應的分片數(shù)據(jù)的分片主鍵列表;將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池,觸發(fā)所述業(yè)務線程池中的業(yè)務線程并行執(zhí)行,以獲取所述分片主鍵列表對應的分片數(shù)據(jù),并基于所述業(yè)務數(shù)據(jù)處理參數(shù)的初值對所述分片數(shù)據(jù)進行業(yè)務數(shù)據(jù)處理,及更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值。可選地,在將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的
初值發(fā)送至所述業(yè)務線程池之前,還查詢是否存在所述分片主鍵列表對應的業(yè)務處理參數(shù)快照,若存在,則獲取所述業(yè)務處理參數(shù)快照,并覆蓋所述業(yè)務數(shù)據(jù)處理參數(shù)的初值。
[0029]本申請?zhí)峁┑囊环N分布式數(shù)據(jù)并行處理的技術方案可帶來的技術效果:
[0030]可針對不同業(yè)務數(shù)據(jù)分配包含相應數(shù)量并行線程的業(yè)務線程池來實現(xiàn)單節(jié)點多線程并行處理業(yè)務數(shù)據(jù),同時根據(jù)參與業(yè)務數(shù)據(jù)處理的分布式節(jié)點情況確定各節(jié)點的分片索引,按照各節(jié)點的分片索引,將待處理的業(yè)務數(shù)據(jù)的主鍵劃分成與節(jié)點對應的分片主鍵列表,協(xié)調各節(jié)點并行處理與分片主鍵列表對應的分片數(shù)據(jù)。無需部署整套Hadoop集群即可高效實現(xiàn)對百萬級別業(yè)務數(shù)據(jù)的分布式并行維護處理,既消除了單節(jié)點的性能限制,又降低了開發(fā)、維護成本。可選地,還可在業(yè)務數(shù)據(jù)處理過程中當發(fā)生異常中斷時獲取業(yè)務數(shù)據(jù)處理參數(shù)快照,以在后續(xù)斷點恢復后能繼續(xù)處理,提升了業(yè)務數(shù)據(jù)處理效率。
附圖說明
[0031]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種分布式數(shù)據(jù)并行處理的方法,其特征在于,所述方法包括:初始化業(yè)務線程池,并獲取業(yè)務數(shù)據(jù)處理參數(shù)的初值及對應的分布式分片索引,其中,所述業(yè)務線程池包括若干并行執(zhí)行的業(yè)務線程;獲取待處理的分片數(shù)據(jù)的全部分片主鍵,并基于所述分布式分片索引,從所述待處理的分片數(shù)據(jù)的全部分片主鍵中確定對應的分片數(shù)據(jù)的分片主鍵列表;將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池,觸發(fā)所述業(yè)務線程池中的業(yè)務線程并行執(zhí)行,以獲取所述分片主鍵列表對應的分片數(shù)據(jù),并基于所述業(yè)務數(shù)據(jù)處理參數(shù)的初值對所述分片數(shù)據(jù)進行業(yè)務數(shù)據(jù)處理,及更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值。2.根據(jù)權利要求1所述的方法,其特征在于,所述分布式分片索引的獲取包括:向緩存中間件發(fā)送IP信息,以使所述緩存中間件基于接收到的所有IP信息,計算對應的分布式分片索引,并返回。3.根據(jù)權利要求1所述的方法,其特征在于,所述獲取待處理的分片數(shù)據(jù)的全部分片主鍵包括:基于預設業(yè)務數(shù)據(jù)分片主鍵加載接口的實現(xiàn)方式,獲取待處理的分片數(shù)據(jù)的全部分片主鍵。4.根據(jù)權利要求1所述的方法,其特征在于,所述獲取所述分片主鍵列表對應的分片數(shù)據(jù)包括:基于預設業(yè)務數(shù)據(jù)處理接口的實現(xiàn)方式,獲取所述分片主鍵列表對應的分片數(shù)據(jù)。5.根據(jù)權利要求1所述的方法,其特征在于,在將所述分片主鍵列表及所述業(yè)務數(shù)據(jù)處理參數(shù)的初值發(fā)送至所述業(yè)務線程池之前,所述方法還包括:查詢是否存在所述分片主鍵列表對應的業(yè)務處理參數(shù)快照,若存在,則獲取所述業(yè)務處理參數(shù)快照,并覆蓋所述業(yè)務數(shù)據(jù)處理參數(shù)的初值。6.根據(jù)權利要求5所述的方法,其特征在于,所述更新所述業(yè)務數(shù)據(jù)處理參數(shù)的參數(shù)值包括:若在業(yè)務數(shù)據(jù)處理過程中發(fā)生中斷,將所述業(yè)務數(shù)據(jù)處理參數(shù)的初值更新為中斷發(fā)生時當前處理的業(yè)務數(shù)據(jù)對應的業(yè)務數(shù)據(jù)處理參...
【專利技術屬性】
技術研發(fā)人員:程偉,吳義良,王輝,
申請(專利權)人:上海萬物新生環(huán)保科技集團有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。