System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及數(shù)據(jù)處理,尤其涉及一種應(yīng)用于存算分離的冷數(shù)據(jù)管理方法及相關(guān)設(shè)備。
技術(shù)介紹
1、目前業(yè)界通常采取通常是通過(guò)數(shù)據(jù)調(diào)度系統(tǒng)中維護(hù)hdfs目錄樹(shù)的全量path的記錄,監(jiān)聽(tīng)hdfs的元數(shù)據(jù)的變化,實(shí)時(shí)同步hdfs的元數(shù)據(jù)信息。在數(shù)據(jù)調(diào)度系統(tǒng)中,周期地遍歷hdfs目錄樹(shù)信息,搜索有符合冷數(shù)據(jù)的路徑path(譬如超過(guò)30天沒(méi)有訪問(wèn)記錄被視為冷數(shù)據(jù))。
2、然而,數(shù)據(jù)調(diào)度系統(tǒng)通常是通過(guò)關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)hfds的元數(shù)據(jù),但是關(guān)系數(shù)據(jù)庫(kù)的單張表的上限往往不高,例如mysql單表的數(shù)據(jù)超過(guò)500萬(wàn)行,即使添加了索引,查詢性能也是個(gè)瓶頸。而在實(shí)際生產(chǎn)中,尤其是較大的集群,hdfs的冷數(shù)據(jù)往往超過(guò)數(shù)以億計(jì)。這對(duì)于使用關(guān)系數(shù)據(jù)庫(kù)的調(diào)度系統(tǒng)來(lái)說(shuō),是一個(gè)極大的性能瓶頸。
3、由此可見(jiàn),傳統(tǒng)的數(shù)據(jù)調(diào)度系統(tǒng)存在性能受限的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的目的在于提出一種應(yīng)用于存算分離的冷數(shù)據(jù)管理方法及相關(guān)設(shè)備,以解決傳統(tǒng)的數(shù)據(jù)調(diào)度系統(tǒng)存在性能受限的問(wèn)題。
2、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,采用了如下所述的技術(shù)方案:
3、獲取攜帶有目標(biāo)系統(tǒng)標(biāo)識(shí)的冷數(shù)據(jù)管理請(qǐng)求;
4、調(diào)用與所述目標(biāo)系統(tǒng)標(biāo)識(shí)相對(duì)應(yīng)的目標(biāo)hdfs文件系統(tǒng),根據(jù)hdfs?oiv命令導(dǎo)出所述目標(biāo)hdfs文件系統(tǒng)的鏡像文件;
5、對(duì)所述鏡像文件進(jìn)行格式轉(zhuǎn)換操作,得到標(biāo)準(zhǔn)鏡像文件;
6、創(chuàng)建第一hive表,并在所述第一h
7、根據(jù)天為單位將所述標(biāo)準(zhǔn)鏡像文件導(dǎo)入到所述第一hive表的相應(yīng)分區(qū)中;
8、對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑;
9、創(chuàng)建第二hive表,并將與所述冷數(shù)據(jù)路徑相對(duì)應(yīng)的標(biāo)準(zhǔn)鏡像文本移動(dòng)至所述第二hive表中。
10、進(jìn)一步的,所述對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑的步驟,具體包括下述步驟:
11、從所述第一hive表中獲取每個(gè)標(biāo)準(zhǔn)鏡像文件的訪問(wèn)時(shí)間;
12、將所述訪問(wèn)時(shí)間超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為0;
13、將所述訪問(wèn)時(shí)間未超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為1;
14、將標(biāo)志位為0的標(biāo)準(zhǔn)鏡像文件的存儲(chǔ)路徑確定為所述冷數(shù)據(jù)路徑。
15、進(jìn)一步的,所述,在所述將所述訪問(wèn)時(shí)間超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為冷數(shù)據(jù)的步驟之后,還包括下述步驟:
16、分別計(jì)算各個(gè)分區(qū)的標(biāo)志位參數(shù)的和;
17、將分區(qū)的標(biāo)志位參數(shù)的和為0的分區(qū)確認(rèn)為冷數(shù)據(jù)分區(qū)。
18、進(jìn)一步的,所述對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑的步驟,具體包括下述步驟:
19、獲取所述第一hive表中所有文件的元數(shù)據(jù)信息;
20、根據(jù)預(yù)設(shè)的冷數(shù)據(jù)判斷規(guī)則以及決策樹(shù)算法對(duì)所述元數(shù)據(jù)信息進(jìn)行冷熱數(shù)據(jù)分類,得到所述冷數(shù)據(jù)路徑。
21、進(jìn)一步的,所述創(chuàng)建第二hive表,并將與所述冷數(shù)據(jù)路徑相對(duì)應(yīng)的標(biāo)準(zhǔn)鏡像文本移動(dòng)至所述第二hive表中的步驟,具體包括下述步驟:
22、根據(jù)關(guān)聯(lián)規(guī)則挖掘算法分析所述冷數(shù)據(jù)路徑之間的關(guān)聯(lián)模式,得到具有相似特征的冷數(shù)據(jù)文件組;
23、統(tǒng)計(jì)每個(gè)冷數(shù)據(jù)文件組的數(shù)據(jù)總量、平均文件大小指標(biāo),確定冷數(shù)據(jù)規(guī)模閾值;
24、若所述冷數(shù)據(jù)文件組的規(guī)模超過(guò)閾值,則將所述冷數(shù)據(jù)文件組內(nèi)所有文件路徑加入冷數(shù)據(jù)遷移任務(wù)隊(duì)列;
25、根據(jù)所述遷移任務(wù)隊(duì)列中的冷數(shù)據(jù)文件路徑,將冷數(shù)據(jù)文件轉(zhuǎn)移至所述第二hive表中。
26、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種應(yīng)用于存算分離的冷數(shù)據(jù)管理裝置,采用了如下所述的技術(shù)方案:
27、請(qǐng)求獲取模塊,用于獲取攜帶有目標(biāo)系統(tǒng)標(biāo)識(shí)的冷數(shù)據(jù)管理請(qǐng)求;
28、文件導(dǎo)出模塊,用于調(diào)用與所述目標(biāo)系統(tǒng)標(biāo)識(shí)相對(duì)應(yīng)的目標(biāo)hdfs文件系統(tǒng),根據(jù)hdfs?oiv命令導(dǎo)出所述目標(biāo)hdfs文件系統(tǒng)的鏡像文件;
29、格式轉(zhuǎn)換模塊,用于對(duì)所述鏡像文件進(jìn)行格式轉(zhuǎn)換操作,得到標(biāo)準(zhǔn)鏡像文件;
30、第一hive表創(chuàng)建模塊,用于創(chuàng)建第一hive表,并在所述第一hive表中以天為單位設(shè)置分區(qū);
31、文件導(dǎo)入模塊,用于根據(jù)天為單位將所述標(biāo)準(zhǔn)鏡像文件導(dǎo)入到所述第一hive表的相應(yīng)分區(qū)中;
32、冷數(shù)據(jù)查詢模塊,用于對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑;
33、第二hive表創(chuàng)建模塊,用于創(chuàng)建第二hive表,并將與所述冷數(shù)據(jù)路徑相對(duì)應(yīng)的標(biāo)準(zhǔn)鏡像文本移動(dòng)至所述第二hive表中。
34、進(jìn)一步的,所述冷數(shù)據(jù)查詢模塊包括:
35、訪問(wèn)時(shí)間獲取子模塊,用于從所述第一hive表中獲取每個(gè)標(biāo)準(zhǔn)鏡像文件的訪問(wèn)時(shí)間;
36、第一標(biāo)志位設(shè)置子模塊,用于將所述訪問(wèn)時(shí)間超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為0;
37、第二標(biāo)志位設(shè)置子模塊,用于將所述訪問(wèn)時(shí)間未超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為1;
38、冷數(shù)據(jù)路徑確定子模塊,用于將標(biāo)志位為0的標(biāo)準(zhǔn)鏡像文件的存儲(chǔ)路徑確定為所述冷數(shù)據(jù)路徑。
39、進(jìn)一步的,所述冷數(shù)據(jù)查詢模塊還包括:
40、參數(shù)和計(jì)算子模塊,用于分別計(jì)算各個(gè)分區(qū)的標(biāo)志位參數(shù)的和;
41、冷數(shù)據(jù)分區(qū)確定子模塊,用于將分區(qū)的標(biāo)志位參數(shù)的和為0的分區(qū)確認(rèn)為冷數(shù)據(jù)分區(qū)。
42、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
43、包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如上所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法的步驟。
44、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:
45、所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法的步驟。
46、本申請(qǐng)?zhí)峁┝艘环N應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,包括:獲取攜帶有目標(biāo)系統(tǒng)標(biāo)識(shí)的冷數(shù)據(jù)管理請(qǐng)求;調(diào)用與所述目標(biāo)系統(tǒng)標(biāo)識(shí)相對(duì)應(yīng)的目標(biāo)hdfs文件系統(tǒng),根據(jù)hdfs?oiv命令導(dǎo)出所述目標(biāo)hdfs文件系統(tǒng)的鏡像文件;對(duì)所述鏡像文件進(jìn)行格式轉(zhuǎn)換操作,得到標(biāo)準(zhǔn)鏡像文件;創(chuàng)建第一hive表,并在所述第一hive表中以天為單位設(shè)置分區(qū);根據(jù)天為單位將所述標(biāo)準(zhǔn)鏡像文件導(dǎo)入到所述第一hive表的相應(yīng)分區(qū)中;對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑;創(chuàng)建第二hive表,并將與所述冷數(shù)據(jù)路徑相對(duì)應(yīng)的標(biāo)準(zhǔn)鏡像文本移動(dòng)至所述第二hive表中。與現(xiàn)有技術(shù)相比,本申請(qǐng)使用大數(shù)據(jù)平臺(tái)的超大規(guī)模的并行數(shù)據(jù)處理能力來(lái)分析數(shù)以億計(jì)的hdfs的元數(shù)據(jù)。無(wú)論數(shù)據(jù)的規(guī)模還本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述對(duì)所述第一Hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑的步驟,具體包括下述步驟:
3.根據(jù)權(quán)利要求2所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述,在所述將所述訪問(wèn)時(shí)間超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為冷數(shù)據(jù)的步驟之后,還包括下述步驟:
4.根據(jù)權(quán)利要求1所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述對(duì)所述第一Hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑的步驟,具體包括下述步驟:
5.根據(jù)權(quán)利要求4所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述創(chuàng)建第二Hive表,并將與所述冷數(shù)據(jù)路徑相對(duì)應(yīng)的標(biāo)準(zhǔn)鏡像文本移動(dòng)至所述第二Hive表中的步驟,具體包括下述步驟:
6.一種應(yīng)用于存算分離的冷數(shù)據(jù)管理裝置,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理裝置,其特征在于,所述冷數(shù)據(jù)查詢模塊包括:
8.根據(jù)權(quán)利要求6所
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法的步驟。
...【技術(shù)特征摘要】
1.一種應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑的步驟,具體包括下述步驟:
3.根據(jù)權(quán)利要求2所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述,在所述將所述訪問(wèn)時(shí)間超過(guò)預(yù)設(shè)天數(shù)閾值的標(biāo)準(zhǔn)鏡像文件的標(biāo)志位設(shè)置為冷數(shù)據(jù)的步驟之后,還包括下述步驟:
4.根據(jù)權(quán)利要求1所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述對(duì)所述第一hive表進(jìn)行冷數(shù)據(jù)查詢操作,得到冷數(shù)據(jù)路徑的步驟,具體包括下述步驟:
5.根據(jù)權(quán)利要求4所述的應(yīng)用于存算分離的冷數(shù)據(jù)管理方法,其特征在于,所述創(chuàng)建第二hive表,并將與所述冷數(shù)據(jù)路徑相對(duì)應(yīng)的標(biāo)準(zhǔn)鏡像文本移動(dòng)至所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:周恒新,張觀成,萬(wàn)書武,
申請(qǐng)(專利權(quán))人:平安科技深圳有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。