本申請?zhí)峁┝艘环N數(shù)據(jù)運(yùn)維故障分析系統(tǒng)
【技術(shù)實(shí)現(xiàn)步驟摘要】
數(shù)據(jù)運(yùn)維故障分析系統(tǒng)、方法
[0001]本申請涉及數(shù)據(jù)分析領(lǐng)域,尤其涉及一種數(shù)據(jù)運(yùn)維故障分析系統(tǒng)
、
方法
。
技術(shù)介紹
[0002]隨著數(shù)字化轉(zhuǎn)型的進(jìn)程不斷推進(jìn),大多數(shù)企業(yè)都已經(jīng)建立了企業(yè)級的數(shù)據(jù)中心,以實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)歸集
、
數(shù)據(jù)治理和數(shù)據(jù)共享,從而為業(yè)務(wù)場景提供強(qiáng)大的數(shù)據(jù)支持
。
然而,在日常的數(shù)據(jù)服務(wù)運(yùn)行過程中,不可避免地會出現(xiàn)數(shù)據(jù)服務(wù)故障
。
即使已經(jīng)確認(rèn)問題所在的節(jié)點(diǎn),工程師仍需投入大量時(shí)間來分析和排查問題,這主要是因?yàn)椋簲?shù)據(jù)加工鏈路往往涉及多個數(shù)據(jù)節(jié)點(diǎn)
、
服務(wù)器節(jié)點(diǎn)和技術(shù)組件,因此,確定導(dǎo)致數(shù)據(jù)服務(wù)故障的根本原因變得復(fù)雜困難;當(dāng)某個節(jié)點(diǎn)出現(xiàn)故障時(shí),有時(shí)并不是由該節(jié)點(diǎn)自身引起的,而是由上游的某個異常節(jié)點(diǎn)引發(fā)的連鎖反應(yīng),這使問題的追蹤和定位變得更具挑戰(zhàn)性;當(dāng)上游數(shù)據(jù)節(jié)點(diǎn)出現(xiàn)異常時(shí),問題可能僅表現(xiàn)為“數(shù)據(jù)量”異常,而任務(wù)本身可能不會報(bào)錯,這使得運(yùn)維人員在排查問題時(shí)面臨更大的難度
。
技術(shù)實(shí)現(xiàn)思路
[0003]本申請的一個目的是提供一種數(shù)據(jù)運(yùn)維故障分析系統(tǒng)
、
方法,至少用以使得該系統(tǒng)可以解決無法準(zhǔn)確定位數(shù)據(jù)故障位置,數(shù)據(jù)運(yùn)維工作難度大的技術(shù)問題
。
[0004]為實(shí)現(xiàn)上述目的,本申請的一些實(shí)施例提供了一種數(shù)據(jù)運(yùn)維故障分析系統(tǒng),所述系統(tǒng)包括系統(tǒng)監(jiān)控模塊,所述系統(tǒng)監(jiān)控模塊用于對系統(tǒng)對象進(jìn)行實(shí)時(shí)監(jiān)控,獲取監(jiān)控?cái)?shù)據(jù);數(shù)據(jù)血緣關(guān)系模塊,所述數(shù)據(jù)血緣關(guān)系模塊用于根據(jù)所述監(jiān)控?cái)?shù)據(jù),構(gòu)建數(shù)據(jù)血緣關(guān)系圖譜;數(shù)據(jù)質(zhì)量分析模塊,所述數(shù)據(jù)質(zhì)量分析模塊用于為所述監(jiān)控?cái)?shù)據(jù)配置質(zhì)量規(guī)則,根據(jù)所述質(zhì)量規(guī)則,計(jì)算所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo);數(shù)據(jù)告警模塊,所述數(shù)據(jù)告警模塊用于根據(jù)所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo),提供告警提示信息;故障分析模塊,所述故障分析模塊用于根據(jù)所述告警提示信息和所述數(shù)據(jù)血緣關(guān)系圖譜,對故障數(shù)據(jù)進(jìn)行分析
。
[0005]進(jìn)一步地,所述構(gòu)建數(shù)據(jù)血緣關(guān)系圖譜包括:根據(jù)所述監(jiān)控?cái)?shù)據(jù),通過解析數(shù)據(jù)采集任務(wù)
、
數(shù)據(jù)加工任務(wù)
、
數(shù)據(jù)下發(fā)任務(wù)和數(shù)據(jù)接口配置,構(gòu)建數(shù)據(jù)鏈路關(guān)系,并標(biāo)記所述數(shù)據(jù)中實(shí)體與實(shí)體之間
、
實(shí)體與加工任務(wù)之間和實(shí)體與接口之間的關(guān)系;根據(jù)所述實(shí)體
、
服務(wù)器
、
數(shù)據(jù)庫組件和日志之間的關(guān)系,構(gòu)建數(shù)據(jù)節(jié)點(diǎn)與技術(shù)組件之間的關(guān)聯(lián)
。
[0006]進(jìn)一步地,所述計(jì)算所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo)包括:根據(jù)數(shù)據(jù)量
、
字段空值比率
、
字段標(biāo)準(zhǔn)化比率
、
字段一致性比率
、
數(shù)據(jù)更新時(shí)間
、
字段重復(fù)值比率和數(shù)據(jù)量變化率對所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo)進(jìn)行計(jì)算
。
[0007]進(jìn)一步地,所述提供告警提示信息包括:根據(jù)系統(tǒng)對象
、
數(shù)據(jù)任務(wù)和所述質(zhì)量指標(biāo),配置閾值規(guī)則,當(dāng)所述監(jiān)控?cái)?shù)據(jù)不滿足所述閾值規(guī)則時(shí),發(fā)出所述告警提示信息;當(dāng)應(yīng)用服務(wù)
、
接口服務(wù)
、
數(shù)據(jù)任務(wù)調(diào)用返回結(jié)果為失敗時(shí),所述數(shù)據(jù)告警模塊發(fā)出告警提示信息;當(dāng)數(shù)據(jù)量稽核失敗時(shí),數(shù)據(jù)抽取過程中,來源數(shù)據(jù)表與目標(biāo)數(shù)據(jù)表數(shù)據(jù)量不一致,所述數(shù)據(jù)告警模塊發(fā)出告警提示信息
。
[0008]進(jìn)一步地,所述提供告警提示信息還包括:根據(jù)數(shù)據(jù)波動范圍,為所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo)設(shè)置閾值,當(dāng)所述監(jiān)控?cái)?shù)據(jù)的所述質(zhì)量指標(biāo)超過閾值時(shí),發(fā)出所述告警提示信息;當(dāng)服務(wù)器
CPU
使用率
、
內(nèi)存使用率和硬盤使用率超過第一閾值,所述數(shù)據(jù)告警模塊發(fā)出告警提示信息;當(dāng)數(shù)據(jù)量日變化率波動超過第二閾值時(shí),所述數(shù)據(jù)告警模塊發(fā)出告警提示信息;當(dāng)數(shù)據(jù)空值率波動超過第三閾值時(shí),所述數(shù)據(jù)告警模塊發(fā)出告警提示信息
。
[0009]進(jìn)一步地,所述對故障數(shù)據(jù)進(jìn)行分析包括:當(dāng)所述數(shù)據(jù)節(jié)點(diǎn)發(fā)生故障時(shí),根據(jù)所述數(shù)據(jù)血緣關(guān)系圖譜,對所述數(shù)據(jù)鏈路關(guān)系上下游進(jìn)行追溯,查詢所有關(guān)聯(lián)節(jié)點(diǎn)的狀態(tài);當(dāng)關(guān)聯(lián)的所述服務(wù)器
、
應(yīng)用服務(wù)或者接口狀態(tài)存在異常時(shí),根據(jù)所述數(shù)據(jù)鏈路關(guān)系,得到系統(tǒng)錯誤提示;當(dāng)所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo)存在異常時(shí),根據(jù)所述告警提示信息,對所述故障數(shù)據(jù)進(jìn)行分析,得到故障分析結(jié)果
。
[0010]進(jìn)一步地,所述系統(tǒng)還包括:運(yùn)維知識庫模塊,所述運(yùn)維知識庫模塊用于根據(jù)所述故障分析結(jié)果,構(gòu)建運(yùn)維記錄知識庫,當(dāng)獲取所述告警提示信息時(shí),自動查找歷史解決方案,提供故障解決方案
。
[0011]本申請的一些實(shí)施例還提供了一種數(shù)據(jù)運(yùn)維故障分析方法,應(yīng)用于如上所述的系統(tǒng),所述方法包括:對系統(tǒng)對象進(jìn)行實(shí)時(shí)監(jiān)控,獲取監(jiān)控?cái)?shù)據(jù);根據(jù)所述監(jiān)控?cái)?shù)據(jù),構(gòu)建數(shù)據(jù)血緣關(guān)系圖譜;為所述監(jiān)控?cái)?shù)據(jù)配置質(zhì)量規(guī)則,根據(jù)所述質(zhì)量規(guī)則,計(jì)算所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo);根據(jù)所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo),提供告警提示信息;根據(jù)所述告警提示信息和所述數(shù)據(jù)血緣關(guān)系圖譜,對故障數(shù)據(jù)進(jìn)行分析
。
[0012]相較于現(xiàn)有技術(shù),本申請實(shí)施例提供的方案中,數(shù)據(jù)運(yùn)維故障分析系統(tǒng)引入了數(shù)據(jù)血緣圖譜,能夠清晰地展示數(shù)據(jù)的來源
、
流向和依賴關(guān)系,使得故障追蹤變得更加可視化和直觀;支持全鏈路追蹤,不僅能夠追溯故障節(jié)點(diǎn)的上游,還能逆向追溯下游,幫助發(fā)現(xiàn)連鎖反應(yīng)的根本原因;數(shù)據(jù)質(zhì)量分析的引入可以幫助發(fā)現(xiàn)隱藏的數(shù)據(jù)問題,即使數(shù)據(jù)量異?;蛸|(zhì)量問題未導(dǎo)致任務(wù)報(bào)錯,也能在早期發(fā)現(xiàn)問題;本方案中的自動告警規(guī)則和運(yùn)維知識庫有助于運(yùn)維人員快速響應(yīng)和解決問題,節(jié)省排查時(shí)間
。
總之,本申請的實(shí)施例通過引入數(shù)據(jù)血緣圖譜
、
全鏈路追蹤
、
數(shù)據(jù)質(zhì)量分析以及自動告警和知識庫等功能,為數(shù)據(jù)運(yùn)維故障分析提供了更高效
、
更精確的解決方案,能夠更好地滿足現(xiàn)代企業(yè)在數(shù)據(jù)運(yùn)維方面的需求
。
附圖說明
[0013]圖1為本申請實(shí)施例提供的一種數(shù)據(jù)運(yùn)維故障分析系統(tǒng)的結(jié)構(gòu)示意圖;
[0014]圖2為本申請實(shí)施例提供的一種數(shù)據(jù)運(yùn)維故障分析方法的流程示意圖
。
具體實(shí)施方式
[0015]為使本申請實(shí)施例的目的
、
技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚
、
完整地描述,顯然,所描述的實(shí)施例是本申請一部分實(shí)施例,而不是全部的實(shí)施例
。
基于本申請中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍
。
[0016]在當(dāng)前的數(shù)據(jù)運(yùn)維領(lǐng)域,盡管已經(jīng)有一些監(jiān)控和故障分析工具可用,但仍然存在一些問題
。
當(dāng)前的數(shù)據(jù)運(yùn)維任務(wù)可能涉及多個數(shù)據(jù)節(jié)點(diǎn)
、
服務(wù)器和技術(shù)組件,導(dǎo)致整個系統(tǒng)的復(fù)雜性增加,故障的根本原因難以追蹤和確定;故障可能會導(dǎo)致連鎖反應(yīng),問題的影響可
能不僅限于故障節(jié)點(diǎn)本本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.
一種數(shù)據(jù)運(yùn)維故障分析系統(tǒng),其特征在于,所述系統(tǒng)包括
:
系統(tǒng)監(jiān)控模塊,所述系統(tǒng)監(jiān)控模塊用于對系統(tǒng)對象進(jìn)行實(shí)時(shí)監(jiān)控,獲取監(jiān)控?cái)?shù)據(jù);數(shù)據(jù)血緣關(guān)系模塊,所述數(shù)據(jù)血緣關(guān)系模塊用于根據(jù)所述監(jiān)控?cái)?shù)據(jù),構(gòu)建數(shù)據(jù)血緣關(guān)系圖譜;數(shù)據(jù)質(zhì)量分析模塊,所述數(shù)據(jù)質(zhì)量分析模塊用于為所述監(jiān)控?cái)?shù)據(jù)配置質(zhì)量規(guī)則,根據(jù)所述質(zhì)量規(guī)則,計(jì)算所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo);數(shù)據(jù)告警模塊,所述數(shù)據(jù)告警模塊用于根據(jù)所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo),提供告警提示信息;故障分析模塊,所述故障分析模塊用于根據(jù)所述告警提示信息和所述數(shù)據(jù)血緣關(guān)系圖譜,對故障數(shù)據(jù)進(jìn)行分析
。2.
根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述構(gòu)建數(shù)據(jù)血緣關(guān)系圖譜包括:根據(jù)所述監(jiān)控?cái)?shù)據(jù),通過解析數(shù)據(jù)采集任務(wù)
、
數(shù)據(jù)加工任務(wù)
、
數(shù)據(jù)下發(fā)任務(wù)和數(shù)據(jù)接口配置,構(gòu)建數(shù)據(jù)鏈路關(guān)系,并標(biāo)記所述數(shù)據(jù)中實(shí)體與實(shí)體之間
、
實(shí)體與加工任務(wù)之間和實(shí)體與接口之間的關(guān)系;根據(jù)所述實(shí)體
、
服務(wù)器
、
數(shù)據(jù)庫組件和日志之間的關(guān)系,構(gòu)建數(shù)據(jù)節(jié)點(diǎn)與技術(shù)組件之間的關(guān)聯(lián)
。3.
根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述計(jì)算所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo)包括:根據(jù)數(shù)據(jù)量
、
字段空值比率
、
字段標(biāo)準(zhǔn)化比率
、
字段一致性比率
、
數(shù)據(jù)更新時(shí)間
、
字段重復(fù)值比率和數(shù)據(jù)量變化率對所述監(jiān)控?cái)?shù)據(jù)的質(zhì)量指標(biāo)進(jìn)行計(jì)算
。4.
根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述提供告警提示信息包括:根據(jù)系統(tǒng)對象
、
數(shù)據(jù)任務(wù)和所述質(zhì)量指標(biāo),配置閾值規(guī)則,當(dāng)所述監(jiān)控?cái)?shù)據(jù)不滿足所述閾值規(guī)則時(shí),發(fā)出所述告警提示信息;當(dāng)應(yīng)用服務(wù)
、
接口服務(wù)
、<...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳海平,鄧凌青,王仕杰,王嘉瑤,
申請(專利權(quán))人:上海南洋萬邦軟件技術(shù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。