System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及數(shù)據(jù)處理,特別涉及一種數(shù)據(jù)處理方法和裝置。
技術(shù)介紹
1、隨著業(yè)務(wù)復(fù)雜度的提升,企業(yè)的數(shù)據(jù)開(kāi)發(fā)通道源種類也隨之增多,通常需要基于一系列復(fù)雜的組件來(lái)實(shí)現(xiàn)各個(gè)數(shù)據(jù)源的數(shù)據(jù)同步,開(kāi)發(fā)流程較為繁瑣,難以高效地對(duì)數(shù)據(jù)進(jìn)行處理和轉(zhuǎn)換,進(jìn)而影響數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)效性和準(zhǔn)確性。因此,多源數(shù)據(jù)的高效同步成為重大挑戰(zhàn)。
2、因此,如何提高數(shù)據(jù)同步的效率和準(zhǔn)確性成為了亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)處理方法和裝置,用于提高數(shù)據(jù)同步的效率和準(zhǔn)確性。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)處理方法,應(yīng)用于任何具備處理能力的電子設(shè)備,該方法包括:
3、接收數(shù)據(jù)同步指令和至少一個(gè)數(shù)據(jù)庫(kù)的信息;數(shù)據(jù)同步指令用于指示按照預(yù)設(shè)要求對(duì)至少一個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)同步處理;
4、響應(yīng)于數(shù)據(jù)同步指令,生成至少一個(gè)flink任務(wù);至少一個(gè)flink任務(wù)中的每個(gè)flink任務(wù)包括與預(yù)設(shè)要求對(duì)應(yīng)的數(shù)據(jù)同步規(guī)則,至少一個(gè)flink任務(wù)中的每個(gè)flink任務(wù)用于按照數(shù)據(jù)同步規(guī)則,對(duì)至少一個(gè)數(shù)據(jù)庫(kù)中的一個(gè)對(duì)應(yīng)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)同步處理;每個(gè)flink任務(wù)中的數(shù)據(jù)同步規(guī)則不同;
5、將至少一個(gè)flink任務(wù)提交到預(yù)設(shè)的session中并行處理,并獲取至少一個(gè)flink任務(wù)的處理結(jié)果;處理結(jié)果包括至少一個(gè)數(shù)據(jù)庫(kù)完成數(shù)據(jù)同步后得到的同步數(shù)據(jù);
6、計(jì)算每個(gè)flink任務(wù)對(duì)應(yīng)的同步數(shù)據(jù)的字段異常值,對(duì)處理結(jié)果的字段異常值大于預(yù)設(shè)閾值的flink
7、在本方案中,在接收到數(shù)據(jù)同步指令和至少一個(gè)數(shù)據(jù)庫(kù)的信息之后,生成至少一個(gè)flink任務(wù),至少一個(gè)flink任務(wù)和至少一個(gè)數(shù)據(jù)庫(kù)一一對(duì)應(yīng),即每個(gè)flink任務(wù)用于對(duì)一個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)同步處理,使得每個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)同步處理相互獨(dú)立,可以提高數(shù)據(jù)同步處理的穩(wěn)定性;將至少一個(gè)flink任務(wù)統(tǒng)一提交到預(yù)設(shè)的session中并行處理,不需要設(shè)置復(fù)雜的組件對(duì)各個(gè)數(shù)據(jù)庫(kù)的不同數(shù)據(jù)源的數(shù)據(jù)單獨(dú)處理,通過(guò)一個(gè)session通道即可實(shí)現(xiàn)對(duì)所有數(shù)據(jù)庫(kù)的數(shù)據(jù)同步的并行處理,提高數(shù)據(jù)同步的效率;并且,對(duì)完成數(shù)據(jù)同步后得到的同步數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),即字段異常檢測(cè),針對(duì)字段異常值大于預(yù)設(shè)閾值的flink任務(wù)執(zhí)行告警處理,以提高數(shù)據(jù)同步的準(zhǔn)確性。
8、可選的,至少一個(gè)數(shù)據(jù)庫(kù)的信息包括至少一個(gè)數(shù)據(jù)庫(kù)的標(biāo)識(shí);響應(yīng)于數(shù)據(jù)同步指令,生成至少一個(gè)flink任務(wù),包括:根據(jù)至少一個(gè)數(shù)據(jù)庫(kù)的標(biāo)識(shí),獲取至少一個(gè)數(shù)據(jù)庫(kù)的配置信息;針對(duì)至少一個(gè)數(shù)據(jù)庫(kù)中的任一數(shù)據(jù)庫(kù),執(zhí)行如下操作:根據(jù)任一數(shù)據(jù)庫(kù)的配置信息確定與任一數(shù)據(jù)庫(kù)對(duì)應(yīng)的flink任務(wù)所需的資源消耗,根據(jù)資源消耗設(shè)置flink任務(wù)的組件內(nèi)存大小、并行度大小;根據(jù)任一數(shù)據(jù)庫(kù)的配置信息和預(yù)設(shè)要求,生成任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則。
9、可選的,預(yù)設(shè)要求包括數(shù)據(jù)的類型要求、格式要求、名稱要求、關(guān)聯(lián)關(guān)系要求中的至少一項(xiàng);根據(jù)任一數(shù)據(jù)庫(kù)的配置信息和預(yù)設(shè)要求,生成任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則,包括:根據(jù)任一數(shù)據(jù)庫(kù)中的數(shù)據(jù)的類型、格式、名稱、關(guān)聯(lián)關(guān)系中的至少一項(xiàng)與預(yù)設(shè)要求中設(shè)置的數(shù)據(jù)的類型要求、格式要求、名稱要求、關(guān)聯(lián)關(guān)系要求中的至少一項(xiàng),確定對(duì)任一數(shù)據(jù)庫(kù)中的數(shù)據(jù)執(zhí)行抽取、計(jì)算、關(guān)聯(lián)、映射、篩選、轉(zhuǎn)換中的至少一項(xiàng)操作以及至少一項(xiàng)操作之間的先后順序;基于至少一項(xiàng)操作和至少一項(xiàng)操作之間的先后順序生成任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則。
10、可選的,在將至少一個(gè)flink任務(wù)提交到預(yù)設(shè)的session中并行處理之后,方法還包括:實(shí)時(shí)獲取預(yù)設(shè)的session對(duì)每個(gè)flink任務(wù)進(jìn)行數(shù)據(jù)同步處理時(shí)的任務(wù)狀態(tài)和運(yùn)行指標(biāo);根據(jù)運(yùn)行指標(biāo)確定是否對(duì)每個(gè)flink任務(wù)中的組件內(nèi)存大小、并行度大小中的至少一項(xiàng)進(jìn)行調(diào)整;根據(jù)任務(wù)狀態(tài),確定是否對(duì)每個(gè)flink任務(wù)執(zhí)行中斷或告警。
11、可選的,計(jì)算每個(gè)flink任務(wù)對(duì)應(yīng)的同步數(shù)據(jù)的字段異常值,包括:針對(duì)每個(gè)flink任務(wù)對(duì)應(yīng)的同步數(shù)據(jù)中的任一同步數(shù)據(jù),執(zhí)行如下操作:計(jì)算任一同步數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)同步前的原始數(shù)據(jù)的局部可達(dá)性密度與任一同步數(shù)據(jù)的局部可達(dá)性密度之間的差值;局部可達(dá)性密度用于指示任一數(shù)據(jù)與該任一數(shù)據(jù)的鄰域數(shù)據(jù)之間的密集程度;若該差值不為0,則基于任一同步數(shù)據(jù)的局部密度可達(dá)性計(jì)算該任一同步數(shù)據(jù)的局部離群因子;局部離群因子用于指示任一同步數(shù)據(jù)相對(duì)于該任一同步數(shù)據(jù)的領(lǐng)域同步數(shù)據(jù)的程度;將任一同步數(shù)據(jù)的離群因子作為該任一同步數(shù)據(jù)的字段異常值。
12、可選的,至少一個(gè)flink任務(wù)的處理結(jié)果還包括每個(gè)flink任務(wù)的任務(wù)開(kāi)始時(shí)間和任務(wù)結(jié)束時(shí)間;在獲取至少一個(gè)flink任務(wù)的處理結(jié)果之后,該方法還包括:計(jì)算每個(gè)flink任務(wù)的任務(wù)開(kāi)始時(shí)間和任務(wù)結(jié)束時(shí)間之間的時(shí)間差值,對(duì)時(shí)間差值大于預(yù)設(shè)時(shí)延的flink任務(wù)執(zhí)行告警。
13、可選的,在獲取至少一個(gè)flink任務(wù)的處理結(jié)果之后,該方法還包括:獲取每個(gè)flink任務(wù)對(duì)應(yīng)的數(shù)據(jù)庫(kù)的第一數(shù)據(jù)量級(jí),以及該數(shù)據(jù)庫(kù)完成數(shù)據(jù)同步后得到的同步數(shù)據(jù)的第二數(shù)據(jù)量級(jí);對(duì)第一數(shù)據(jù)量級(jí)與第二數(shù)據(jù)量級(jí)不同的flink任務(wù)執(zhí)行告警。
14、第二方面,本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)處理裝置,包括:
15、接收模塊,用于:接收數(shù)據(jù)同步指令和至少一個(gè)數(shù)據(jù)庫(kù)的信息;數(shù)據(jù)同步指令用于指示按照預(yù)設(shè)要求對(duì)至少一個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)同步處理;
16、處理模塊,用于:響應(yīng)于數(shù)據(jù)同步指令,生成至少一個(gè)flink任務(wù);至少一個(gè)flink任務(wù)中的每個(gè)flink任務(wù)包括與預(yù)設(shè)要求對(duì)應(yīng)的數(shù)據(jù)同步規(guī)則,至少一個(gè)flink任務(wù)中的每個(gè)flink任務(wù)用于按照數(shù)據(jù)同步規(guī)則,對(duì)至少一個(gè)數(shù)據(jù)庫(kù)中的一個(gè)對(duì)應(yīng)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)同步處理;每個(gè)flink任務(wù)中的數(shù)據(jù)同步規(guī)則不同;將至少一個(gè)flink任務(wù)提交到預(yù)設(shè)的session中并行處理,并獲取至少一個(gè)flink任務(wù)的處理結(jié)果;處理結(jié)果包括至少一個(gè)數(shù)據(jù)庫(kù)完成數(shù)據(jù)同步后得到的同步數(shù)據(jù);
17、檢測(cè)模塊,用于:計(jì)算每個(gè)flink任務(wù)對(duì)應(yīng)的同步數(shù)據(jù)的字段異常值,對(duì)處理結(jié)果的字段異常值大于預(yù)設(shè)閾值的flink任務(wù)執(zhí)行告警。
18、可選的,至少一個(gè)數(shù)據(jù)庫(kù)的信息包括至少一個(gè)數(shù)據(jù)庫(kù)的標(biāo)識(shí);處理模塊在響應(yīng)于數(shù)據(jù)同步指令,生成至少一個(gè)flink任務(wù)時(shí),具體用于:根據(jù)至少一個(gè)數(shù)據(jù)庫(kù)的標(biāo)識(shí),獲取至少一個(gè)數(shù)據(jù)庫(kù)的配置信息;針對(duì)至少一個(gè)數(shù)據(jù)庫(kù)中的任一數(shù)據(jù)庫(kù),執(zhí)行如下操作:根據(jù)任一數(shù)據(jù)庫(kù)的配置信息確定與任一數(shù)據(jù)庫(kù)對(duì)應(yīng)的flink任務(wù)所需的資源消耗,根據(jù)資源消耗設(shè)置flink任務(wù)的組件內(nèi)存大小、并行度大小;根據(jù)任一數(shù)據(jù)庫(kù)的配置信息和預(yù)設(shè)要求,生成任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則。
19、可選的,預(yù)設(shè)要求包括數(shù)據(jù)的類型要求、格式要求、名稱要求、關(guān)聯(lián)關(guān)系要求中的至少一項(xiàng);處理模塊在根據(jù)任一數(shù)據(jù)庫(kù)的配置信息和預(yù)設(shè)要求,生成任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則時(shí),具體用于:根據(jù)任一數(shù)據(jù)庫(kù)中的數(shù)據(jù)的類型、格式、名稱、關(guān)聯(lián)關(guān)系中的至少一項(xiàng)與預(yù)設(shè)要求中設(shè)置的數(shù)據(jù)的類型要求、格式要求、名稱要求、關(guān)聯(lián)關(guān)系要求中的至本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種數(shù)據(jù)處理方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述至少一個(gè)數(shù)據(jù)庫(kù)的信息包括所述至少一個(gè)數(shù)據(jù)庫(kù)的標(biāo)識(shí);所述響應(yīng)于所述數(shù)據(jù)同步指令,生成至少一個(gè)flink任務(wù),包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)要求包括數(shù)據(jù)的類型要求、格式要求、名稱要求、關(guān)聯(lián)關(guān)系要求中的至少一項(xiàng);所述根據(jù)所述任一數(shù)據(jù)庫(kù)的配置信息和所述預(yù)設(shè)要求,生成所述任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則,包括:
4.如權(quán)利要求2所述的方法,其特征在于,在將所述至少一個(gè)flink任務(wù)提交到預(yù)設(shè)的session中并行處理之后,所述方法包括:
5.如權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述每個(gè)flink任務(wù)對(duì)應(yīng)的同步數(shù)據(jù)的字段異常值,包括:
6.如權(quán)利要求1所述的方法,其特征在于,所述至少一個(gè)flink任務(wù)的處理結(jié)果還包括所述每個(gè)flink任務(wù)的任務(wù)開(kāi)始時(shí)間和任務(wù)結(jié)束時(shí)間;在獲取所述至少一個(gè)flink任務(wù)的處理結(jié)果之后,所述方法還包括:
7.如權(quán)利要求1所述的方法,其特征在于,在獲取所述至少一個(gè)flink任務(wù)的處理結(jié)
8.一種數(shù)據(jù)處理裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,當(dāng)所述程序指令被計(jì)算機(jī)執(zhí)行時(shí),使如權(quán)利要求1-7任一項(xiàng)所述的方法被實(shí)現(xiàn)。
...【技術(shù)特征摘要】
1.一種數(shù)據(jù)處理方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述至少一個(gè)數(shù)據(jù)庫(kù)的信息包括所述至少一個(gè)數(shù)據(jù)庫(kù)的標(biāo)識(shí);所述響應(yīng)于所述數(shù)據(jù)同步指令,生成至少一個(gè)flink任務(wù),包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)要求包括數(shù)據(jù)的類型要求、格式要求、名稱要求、關(guān)聯(lián)關(guān)系要求中的至少一項(xiàng);所述根據(jù)所述任一數(shù)據(jù)庫(kù)的配置信息和所述預(yù)設(shè)要求,生成所述任一數(shù)據(jù)庫(kù)的數(shù)據(jù)同步規(guī)則,包括:
4.如權(quán)利要求2所述的方法,其特征在于,在將所述至少一個(gè)flink任務(wù)提交到預(yù)設(shè)的session中并行處理之后,所述方法包括:
5.如權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述每個(gè)flink任務(wù)對(duì)應(yīng)的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:阮秭威,路致平,孫佳賓,王影新,方宇,吳雨明,
申請(qǐng)(專利權(quán))人:天翼安全科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。