System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及大數(shù)據(jù)治理與數(shù)據(jù)分析,具體為一種可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法、系統(tǒng)、設(shè)備及介質(zhì)。
技術(shù)介紹
1、隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)平臺已經(jīng)成為企業(yè)處理、存儲和分析數(shù)據(jù)的重要工具。然而,在數(shù)據(jù)平臺中,數(shù)據(jù)從產(chǎn)生到應(yīng)用往往經(jīng)歷多個環(huán)節(jié),包括數(shù)據(jù)采集、清洗、存儲、處理、分析和應(yīng)用等。在這些環(huán)節(jié)中,數(shù)據(jù)的質(zhì)量和安全性受到多種因素的影響,如操作失誤、系統(tǒng)漏洞等。
2、現(xiàn)有的數(shù)據(jù)平臺缺乏有效的數(shù)據(jù)流轉(zhuǎn)追蹤機(jī)制,無法全面記錄數(shù)據(jù)從生成到應(yīng)用的每個環(huán)節(jié)的流轉(zhuǎn)情況。無法直觀地呈現(xiàn)數(shù)據(jù)在各個環(huán)節(jié)中的流轉(zhuǎn)情況。即使部分系統(tǒng)能夠記錄數(shù)據(jù)的流轉(zhuǎn)日志,這些信息往往是以文本形式存儲的,難以被非技術(shù)人員理解和分析。這導(dǎo)致在出現(xiàn)數(shù)據(jù)問題時,難以回溯數(shù)據(jù)的歷史路徑,無法確定問題發(fā)生的具體位置和原因。一旦發(fā)生數(shù)據(jù)問題,如何快速定位并解決問題成為一大挑戰(zhàn)。因此,需要一種能夠全面追蹤和可視化展示數(shù)據(jù)流轉(zhuǎn)過程的方法,以提高數(shù)據(jù)質(zhì)量和安全性。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述存在的問題,提出了本專利技術(shù)。
2、因此,本專利技術(shù)解決的技術(shù)問題是:如何全面追蹤數(shù)據(jù)在數(shù)據(jù)平臺中的流轉(zhuǎn)過程,并通過可視化手段展示數(shù)據(jù)流轉(zhuǎn)的各個環(huán)節(jié)和狀態(tài)的問題。
3、為解決上述技術(shù)問題,本專利技術(shù)提供如下技術(shù)方案:一種可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,包括:
4、監(jiān)聽作業(yè)調(diào)度流程提交事件,解析各個作業(yè)節(jié)點(diǎn)的輸入輸出配置信息,轉(zhuǎn)換成數(shù)據(jù)流轉(zhuǎn)模型保存到溯源數(shù)據(jù)庫中;
5、對節(jié)點(diǎn)腳本和
6、為每個數(shù)據(jù)記錄生成唯一標(biāo)識符,并在數(shù)據(jù)流轉(zhuǎn)過程中記錄相關(guān)信息,將信息存儲在溯源數(shù)據(jù)庫中;
7、通過kafka異步消息將數(shù)據(jù)流轉(zhuǎn)關(guān)系寫入到圖數(shù)據(jù)庫neo4j中,建立數(shù)據(jù)記錄id與溯源數(shù)據(jù)庫中流轉(zhuǎn)信息的關(guān)聯(lián)關(guān)系,用戶通過可視化界面進(jìn)行數(shù)據(jù)溯源查詢。
8、作為本專利技術(shù)所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的一種優(yōu)選方案,其中:所述監(jiān)聽作業(yè)調(diào)度流程提交事件包括,在作業(yè)調(diào)度系統(tǒng)中,配置事件監(jiān)聽器來捕獲作業(yè)提交事件;使用自定義事件處理器來監(jiān)聽提交事件,在事件被捕獲時,提取作業(yè)id、作業(yè)名稱、調(diào)度時間元數(shù)據(jù);
9、將捕獲到的元數(shù)據(jù)存儲在數(shù)據(jù)庫中,利用sql數(shù)據(jù)庫存儲作業(yè)元數(shù)據(jù)表解析作業(yè)配置文件,提取每個作業(yè)節(jié)點(diǎn)的輸入輸出配置信息。
10、作為本專利技術(shù)所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的一種優(yōu)選方案,其中:所述靜態(tài)分析包括,建立數(shù)據(jù)流轉(zhuǎn)模型,假設(shè)代碼中的每個操作節(jié)點(diǎn)為,其輸入數(shù)據(jù)源為,輸出數(shù)據(jù)源為:
11、
12、每個節(jié)點(diǎn)執(zhí)行的操作類型表示為;構(gòu)建有向圖模型,將數(shù)據(jù)流轉(zhuǎn)表示為一個有向圖,其中:
13、
14、表示節(jié)點(diǎn)集合,是有向邊集合,表示數(shù)據(jù)流轉(zhuǎn)關(guān)系:
15、
16、其中,表示從節(jié)點(diǎn)到節(jié)點(diǎn)的數(shù)據(jù)流轉(zhuǎn)關(guān)系邊;建立數(shù)據(jù)流轉(zhuǎn)關(guān)系,如果節(jié)點(diǎn)的輸出數(shù)據(jù)源是節(jié)點(diǎn)的輸入數(shù)據(jù)源,則存在有向邊?:
17、
18、建立靜態(tài)數(shù)據(jù)流轉(zhuǎn)路徑,數(shù)據(jù)從節(jié)點(diǎn)流轉(zhuǎn)到節(jié)點(diǎn)的路徑表示為:
19、
20、運(yùn)行時的動態(tài)數(shù)據(jù)操作和時間依賴的節(jié)點(diǎn)操作包括,假設(shè)在時間運(yùn)行的操作節(jié)點(diǎn)為,其輸入輸出數(shù)據(jù)源分別為?和;
21、建立動態(tài)數(shù)據(jù)流模型,運(yùn)行時的數(shù)據(jù)流轉(zhuǎn)關(guān)系表示為時間序列模型,其中每個時間點(diǎn)的數(shù)據(jù)流轉(zhuǎn)表示為:
22、
23、動態(tài)路徑更新:在時間生成的數(shù)據(jù)流路徑表示為:
24、
25、結(jié)合靜態(tài)與動態(tài)模型,進(jìn)行靜態(tài)模型更新,將動態(tài)數(shù)據(jù)流轉(zhuǎn)結(jié)果與靜態(tài)數(shù)據(jù)流轉(zhuǎn)模型結(jié)合,形成更新后的數(shù)據(jù)流轉(zhuǎn)圖公式表示為:
26、
27、完整表示數(shù)據(jù)流轉(zhuǎn)圖,結(jié)合靜態(tài)和動態(tài)數(shù)據(jù)流轉(zhuǎn)關(guān)系,數(shù)據(jù)流轉(zhuǎn)路徑最終表示為:
28、
29、表示從起點(diǎn)節(jié)點(diǎn)到終點(diǎn)節(jié)點(diǎn)的完整數(shù)據(jù)流轉(zhuǎn)路徑,包含靜態(tài)和動態(tài)的所有節(jié)點(diǎn)和邊。
30、作為本專利技術(shù)所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的一種優(yōu)選方案,其中:所述為每個數(shù)據(jù)記錄生成唯一標(biāo)識符包括,初始化輸入內(nèi)容包括,圖,起始節(jié)點(diǎn),目標(biāo)節(jié)點(diǎn),邊權(quán)重函數(shù),最大并行度?;
31、輸出內(nèi)容包括,從起始節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的最短路徑和最小代價路徑;初始化隊(duì)列和優(yōu)先隊(duì)列,表示存儲當(dāng)前層次的節(jié)點(diǎn),表示優(yōu)先隊(duì)列,按照邊權(quán)重對節(jié)點(diǎn)進(jìn)行排序;將起始節(jié)點(diǎn)放入隊(duì)列中,初始化其代價;
32、初始化節(jié)點(diǎn)集合,用于存儲已訪問的節(jié)點(diǎn),最初為空,進(jìn)行并行廣度優(yōu)先搜索;
33、當(dāng)隊(duì)列不為空且未找到目標(biāo)節(jié)點(diǎn)時,執(zhí)行以下操作:
34、并行處理同一層次的節(jié)點(diǎn),將隊(duì)列中的節(jié)點(diǎn)按最大并行度劃分成多個子集,每個子集分配給一個處理單元;并行處理各個子集中節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn);處理每個節(jié)點(diǎn)的鄰居節(jié)點(diǎn);
35、對于每個未訪問的鄰居節(jié)點(diǎn),計算從起始節(jié)點(diǎn)到的累計代價,公式表示為:
36、
37、其中,表示從到的邊,表示該邊的權(quán)重;
38、若未被訪問或發(fā)現(xiàn)了一條代價更低的路徑,則更新的代價,并將放入優(yōu)先隊(duì)列?中:
39、
40、從優(yōu)先隊(duì)列中選擇下一個節(jié)點(diǎn),按照優(yōu)先隊(duì)列中的節(jié)點(diǎn)代價從小到大選擇下一個節(jié)點(diǎn)進(jìn)行訪問,將其放入隊(duì)列中,繼續(xù)下一輪的廣度優(yōu)先搜索。
41、作為本專利技術(shù)所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的一種優(yōu)選方案,其中:所述下一輪的廣度優(yōu)先搜索包括,動態(tài)調(diào)整最大并行度和優(yōu)先隊(duì)列的優(yōu)先級,以應(yīng)對系統(tǒng)資源和當(dāng)前負(fù)載的變化;?若找到目標(biāo)節(jié)點(diǎn),則終止搜索,并輸出從到的最短路徑;若遍歷了所有節(jié)點(diǎn),則輸出從??到所有其他節(jié)點(diǎn)的最短路徑;
42、若需要輸出路徑而不僅僅是路徑長度,從目標(biāo)節(jié)點(diǎn)回溯到起始節(jié)點(diǎn),輸出最短路徑;
43、優(yōu)先隊(duì)列的優(yōu)先級更新,優(yōu)先隊(duì)列中按代價排序的節(jié)點(diǎn)集合為:
44、,
45、
46、每次從中取出代價最小的節(jié)點(diǎn)進(jìn)行下一步的遍歷;
47、動態(tài)調(diào)整并行度,并行度的調(diào)整根據(jù)當(dāng)前系統(tǒng)負(fù)載和剩余資源決定:
48、,
49、其中,表示系統(tǒng)允許的最大并行度,表示當(dāng)前可用資源,表示當(dāng)前負(fù)載。
50、作為本專利技術(shù)所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的一種優(yōu)選方案,其中:所述kafka異步消息包括,生成數(shù)據(jù)流轉(zhuǎn)消息,在數(shù)據(jù)處理的各個節(jié)點(diǎn),生成包含數(shù)據(jù)記錄id、操作類型、時間戳關(guān)鍵信息的數(shù)據(jù)流轉(zhuǎn)消?息;每個消息表示為一個三元組:
51、,
52、其中,?表示數(shù)據(jù)記錄的唯一標(biāo)識符;表示操作類型;表示時間戳;kafka消息發(fā)送,將數(shù)據(jù)流轉(zhuǎn)消息發(fā)送到kafka主題中,實(shí)現(xiàn)消息的異步傳輸;假設(shè)每個數(shù)據(jù)流轉(zhuǎn)事件生成一個消息,則kafka消息隊(duì)列的主題表示為消息的序列:
53、,
54、其中,表示隊(duì)列中的第條消息;消息按照時間順本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于,包括:
2.如權(quán)利要求1所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述監(jiān)聽作業(yè)調(diào)度流程提交事件包括,在作業(yè)調(diào)度系統(tǒng)中,配置事件監(jiān)聽器來捕獲作業(yè)提交事件;使用自定義事件處理器來監(jiān)聽提交事件,在事件被捕獲時,提取作業(yè)ID、作業(yè)名稱、調(diào)度時間元數(shù)據(jù);
3.如權(quán)利要求1所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述靜態(tài)分析包括,建立數(shù)據(jù)流轉(zhuǎn)模型,假設(shè)代碼中的每個操作節(jié)點(diǎn)為,其輸入數(shù)據(jù)源為,輸出數(shù)據(jù)源為:
4.如權(quán)利要求1或2所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述為每個數(shù)據(jù)記錄生成唯一標(biāo)識符包括,初始化輸入內(nèi)容包括,圖,起始節(jié)點(diǎn),目標(biāo)節(jié)點(diǎn),邊權(quán)重函數(shù),最大并行度?;
5.如權(quán)利要求4所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述下一輪的廣度優(yōu)先搜索包括,動態(tài)調(diào)整最大并行度和優(yōu)先隊(duì)列的優(yōu)先級,以應(yīng)對系統(tǒng)資源和當(dāng)前負(fù)載的變化;?若找到目標(biāo)節(jié)點(diǎn),則終止搜索,并輸出從到的最短路徑;若遍歷了所有節(jié)點(diǎn),則輸出從??到所有其他節(jié)點(diǎn)的最短
6.如權(quán)利要求1、2或3任一所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述Kafka異步消息包括,生成數(shù)據(jù)流轉(zhuǎn)消息,在數(shù)據(jù)處理的各個節(jié)點(diǎn),生成包含數(shù)據(jù)記錄ID、操作類型、時間戳關(guān)鍵信息的數(shù)據(jù)流轉(zhuǎn)消?息;每個消息表示為一個三元組:
7.如權(quán)利要求1、3、5任一所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述圖數(shù)據(jù)庫Neo4j包括,配置Kafka消費(fèi)者,實(shí)時從Kafka隊(duì)列中消費(fèi)數(shù)據(jù)流轉(zhuǎn)消息;消費(fèi)者從隊(duì)列中提取消息,并解析出其中的ID、操作類型和時間戳,將消息寫入Neo4j圖數(shù)據(jù)庫:
8.如權(quán)利要求7所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述建立數(shù)據(jù)記錄與溯源數(shù)據(jù)庫中流轉(zhuǎn)信息的關(guān)聯(lián)關(guān)系包括,構(gòu)建Neo4j圖模型,進(jìn)行節(jié)點(diǎn)和關(guān)系的可視化建模,在Neo4j中,使用節(jié)點(diǎn)來表示每個數(shù)據(jù)記錄,使用邊來表示數(shù)據(jù)流轉(zhuǎn)的操作及其順序;通過圖的構(gòu)建,建立完整的數(shù)據(jù)流轉(zhuǎn)路徑,使得每個節(jié)點(diǎn)的流轉(zhuǎn)歷史可以通過遍歷圖中的邊?來追蹤;
9.一種可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源系統(tǒng),其特征在于:包括,
10.一種計算機(jī)設(shè)備,包括:存儲器和處理器;所述存儲器存儲有計算機(jī)程序,其特征在于:所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的步驟。
11.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于:所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法的步驟。
...【技術(shù)特征摘要】
1.一種可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于,包括:
2.如權(quán)利要求1所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述監(jiān)聽作業(yè)調(diào)度流程提交事件包括,在作業(yè)調(diào)度系統(tǒng)中,配置事件監(jiān)聽器來捕獲作業(yè)提交事件;使用自定義事件處理器來監(jiān)聽提交事件,在事件被捕獲時,提取作業(yè)id、作業(yè)名稱、調(diào)度時間元數(shù)據(jù);
3.如權(quán)利要求1所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述靜態(tài)分析包括,建立數(shù)據(jù)流轉(zhuǎn)模型,假設(shè)代碼中的每個操作節(jié)點(diǎn)為,其輸入數(shù)據(jù)源為,輸出數(shù)據(jù)源為:
4.如權(quán)利要求1或2所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述為每個數(shù)據(jù)記錄生成唯一標(biāo)識符包括,初始化輸入內(nèi)容包括,圖,起始節(jié)點(diǎn),目標(biāo)節(jié)點(diǎn),邊權(quán)重函數(shù),最大并行度?;
5.如權(quán)利要求4所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述下一輪的廣度優(yōu)先搜索包括,動態(tài)調(diào)整最大并行度和優(yōu)先隊(duì)列的優(yōu)先級,以應(yīng)對系統(tǒng)資源和當(dāng)前負(fù)載的變化;?若找到目標(biāo)節(jié)點(diǎn),則終止搜索,并輸出從到的最短路徑;若遍歷了所有節(jié)點(diǎn),則輸出從??到所有其他節(jié)點(diǎn)的最短路徑;
6.如權(quán)利要求1、2或3任一所述的可視化數(shù)據(jù)平臺全鏈路數(shù)據(jù)流轉(zhuǎn)溯源方法,其特征在于:所述kafka異步消息包括,生成數(shù)據(jù)流轉(zhuǎn)消息,在數(shù)據(jù)處...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:袁存發(fā),湯幸福,毛旭初,陸文迪,李重陽,張強(qiáng),湯世康,
申請(專利權(quán))人:朗坤智慧科技股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。