System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及電力數(shù)據(jù)治理,尤其涉及一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法及系統(tǒng)。
技術(shù)介紹
1、本部分的陳述僅僅是提供了與本專利技術(shù)相關(guān)的
技術(shù)介紹
信息,不必然構(gòu)成在先技術(shù)。
2、隨著信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)中臺(tái)在電力行業(yè)中的應(yīng)用日益廣泛,逐漸成為提升企業(yè)競爭力的關(guān)鍵因素。數(shù)據(jù)中臺(tái)作為集中管理和利用數(shù)據(jù)資源的綜合性平臺(tái),不僅極大地增強(qiáng)了電力公司處理復(fù)雜數(shù)據(jù)的能力,而且顯著提高了其數(shù)據(jù)分析水平和決策效率,為電力企業(yè)的智能化轉(zhuǎn)型提供了堅(jiān)實(shí)的基礎(chǔ)。然而,隨著數(shù)字化轉(zhuǎn)型的深入,電力行業(yè)產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸性增長的趨勢(shì),這對(duì)數(shù)據(jù)管理提出了前所未有的挑戰(zhàn)。傳統(tǒng)的基于單一關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)管理方式,由于其在擴(kuò)展性、處理速度和成本效益方面的局限性,已難以應(yīng)對(duì)現(xiàn)代數(shù)據(jù)中臺(tái)所面臨的海量數(shù)據(jù)存儲(chǔ)與實(shí)時(shí)分析的需求。因此,探索和實(shí)踐更加高效的數(shù)據(jù)管理技術(shù)和架構(gòu),成為了當(dāng)前電力行業(yè)數(shù)據(jù)中臺(tái)建設(shè)中亟待解決的核心問題。
3、由于電力行業(yè)的業(yè)務(wù)數(shù)據(jù)種類繁多,包括用戶信息、用電數(shù)據(jù)、設(shè)備信息等,這些數(shù)據(jù)具有不同的數(shù)據(jù)規(guī)模和訪問需求。因此,采用多類型存儲(chǔ)系統(tǒng)可以根據(jù)數(shù)據(jù)的特點(diǎn)將其存儲(chǔ)在不同的存儲(chǔ)設(shè)備中,以提高數(shù)據(jù)的訪問效率和管理效果。例如,可以將數(shù)據(jù)規(guī)模小,變更頻繁的數(shù)據(jù)(如用戶信息數(shù)據(jù)、設(shè)備信息數(shù)據(jù))存儲(chǔ)在如oracle這類的傳統(tǒng)的關(guān)系數(shù)據(jù)庫中,將數(shù)據(jù)規(guī)模大、變更少、訪問需求低的數(shù)據(jù)(如歷史用電數(shù)據(jù))存儲(chǔ)在如hive這類基于分布式文件存儲(chǔ)的數(shù)據(jù)。
4、具體而言,針對(duì)數(shù)據(jù)規(guī)模較小但更新頻繁的信息,比如用戶的個(gè)人信息及設(shè)備的狀態(tài)
5、然而在實(shí)際應(yīng)用過程中,由于數(shù)據(jù)庫中數(shù)據(jù)表規(guī)模龐大,通過人工分析的方式為每個(gè)表選擇合適的存儲(chǔ)方案不可行的。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述
技術(shù)介紹
中存在的技術(shù)問題,本專利技術(shù)提供一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法及系統(tǒng),本專利技術(shù)能夠自動(dòng)為表分配最合理的存儲(chǔ)方案,幫助數(shù)據(jù)庫管理人員實(shí)現(xiàn)智能化的數(shù)據(jù)分類治理,提升數(shù)據(jù)訪問和分析的效率。
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)采用如下技術(shù)方案:
3、本專利技術(shù)的第一個(gè)方面提供一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法。
4、一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,包括:
5、提取數(shù)據(jù)中臺(tái)中的表信息,包括表的元數(shù)據(jù)信息和歷史sql信息;
6、基于提取到的元數(shù)據(jù)信息和歷史sql信息構(gòu)建多模態(tài)融合的特征向量;
7、針對(duì)初始數(shù)據(jù)中臺(tái)中已有的數(shù)據(jù)庫表,基于其特征向量,計(jì)算每個(gè)表特征向量間的距離,采用層次聚類法,對(duì)數(shù)據(jù)表進(jìn)行聚類分析;
8、針對(duì)聚類結(jié)果中的每一類數(shù)據(jù)表,為其指定存儲(chǔ)方案,形成已有數(shù)據(jù)庫表的存儲(chǔ)方案結(jié)果;
9、基于已有數(shù)據(jù)庫表的存儲(chǔ)方案結(jié)果,構(gòu)建基于注意力的分類模型;采用分類模型對(duì)新加入數(shù)據(jù)中臺(tái)的數(shù)據(jù)庫中的表進(jìn)行分類,確定新加入表的存儲(chǔ)方案結(jié)果。
10、進(jìn)一步地,所述表的元數(shù)據(jù)信息包括:表名稱、表的描述信息、表的字段信息、表的大小以及表的外鍵;表的歷史sql信息包括:表的增刪改查語句的數(shù)量以及關(guān)聯(lián)查詢的表信息。
11、進(jìn)一步地,所述特征向量分別通過數(shù)值和序列表示不同類型的信息,其中:
12、表的唯一標(biāo)識(shí)、表的大小、歷史sql信息中select語句的占比、insert語句的占比以及update語句和delete語句的占比為數(shù)值型;
13、表的外鍵通過長度不固定的序列表示,序列中的值為存在依賴關(guān)系的表id;
14、表注釋及字段名稱通過長度不固定的編碼序列表示,序列中的每個(gè)值都為數(shù)值型;
15、關(guān)聯(lián)查詢的表信息通過長度不固定的序列表示,序列中的每個(gè)值都為鍵值對(duì)型。
16、進(jìn)一步地,所述基于其特征向量,計(jì)算每個(gè)表特征向量間的距離,方法包括:
17、針對(duì)數(shù)值型特征向量,采用減法計(jì)算該向量在維度的距離;
18、針對(duì)非數(shù)值型特征向量,采用特定的處理方法計(jì)算向量在該維度的距離;
19、其中,所述采用特定的處理方法計(jì)算向量在該維度的距離,方法包括:針對(duì)表的依賴關(guān)系特征,若兩個(gè)表存在依賴關(guān)系,其值置為0,否則置為1;針對(duì)表注釋及字段名稱,以最短的序列為基準(zhǔn),在長序列中選擇與其最相近的數(shù)值構(gòu)成同等長度的序列,然后計(jì)算其余弦相似度;針對(duì)關(guān)聯(lián)查詢的表信息,若兩個(gè)表間存在關(guān)聯(lián)查詢,則以其查詢次數(shù)作為其距離值,否則置為0。
20、進(jìn)一步地,所述采用層次聚類法,對(duì)數(shù)據(jù)表進(jìn)行聚類分析,方法包括:
21、將每個(gè)表視作一個(gè)類,通過基于權(quán)重的距離公式計(jì)算每個(gè)類間的距離,并存儲(chǔ);
22、將距離最小的兩個(gè)類合并為一個(gè)類,并基于平均值法計(jì)算合并后的新類與剩余類的距離;
23、重復(fù)上一步過程,直到最后只剩余所需的n個(gè)類。
24、進(jìn)一步地,所述分類模型通過基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建。
25、本專利技術(shù)的第二個(gè)方面提供一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理系統(tǒng)。
26、一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理系統(tǒng),包括:
27、數(shù)據(jù)信息提取模塊,其被配置為:提取數(shù)據(jù)中臺(tái)中的表信息,包括表的元數(shù)據(jù)信息和歷史sql信息;
28、特征向量構(gòu)建模塊,其被配置為:基于提取到的元數(shù)據(jù)信息和歷史sql信息構(gòu)建多模態(tài)融合的特征向量;
29、層次聚類模塊,其被配置為:針對(duì)初始數(shù)據(jù)中臺(tái)中已有的數(shù)據(jù)庫表,基于其特征向量,計(jì)算每個(gè)表特征向量間的距離,采用層次聚類法,對(duì)數(shù)據(jù)表進(jìn)行聚類分析;
30、分類模塊,其被配置為:針對(duì)聚類結(jié)果中的每一類數(shù)據(jù)表,為其指定存儲(chǔ)方案,形成已有數(shù)據(jù)庫表的存儲(chǔ)方案結(jié)果;
31、多類型存儲(chǔ)模塊,其被配置為:基于已有數(shù)據(jù)庫表的存儲(chǔ)方案結(jié)果,構(gòu)建基于注意力的分類模型;采用分類模型對(duì)新加入數(shù)據(jù)中臺(tái)的數(shù)據(jù)庫中的表進(jìn)行分類,確定新加入表的存儲(chǔ)方案結(jié)果。
32、本專利技術(shù)的第三個(gè)方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
33、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述表的元數(shù)據(jù)信息包括:表名稱、表的描述信息、表的字段信息、表的大小以及表的外鍵;表的歷史sql信息包括:表的增刪改查語句的數(shù)量以及關(guān)聯(lián)查詢的表信息。
3.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述特征向量分別通過數(shù)值和序列表示不同類型的信息,其中:
4.根據(jù)權(quán)利要求3所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述基于其特征向量,計(jì)算每個(gè)表特征向量間的距離,方法包括:
5.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述采用層次聚類法,對(duì)數(shù)據(jù)表進(jìn)行聚類分析,方法包括:
6.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述分類模型通過基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建。
7.一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理系統(tǒng),其特征在于,包括:
8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法中的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法中的步驟。
...【技術(shù)特征摘要】
1.一種基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述表的元數(shù)據(jù)信息包括:表名稱、表的描述信息、表的字段信息、表的大小以及表的外鍵;表的歷史sql信息包括:表的增刪改查語句的數(shù)量以及關(guān)聯(lián)查詢的表信息。
3.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述特征向量分別通過數(shù)值和序列表示不同類型的信息,其中:
4.根據(jù)權(quán)利要求3所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述基于其特征向量,計(jì)算每個(gè)表特征向量間的距離,方法包括:
5.根據(jù)權(quán)利要求1所述的基于多模態(tài)融合的數(shù)據(jù)庫表分類治理方法,其特征在于,所述采用層次聚類法,對(duì)數(shù)據(jù)表進(jìn)行聚類分析,方法包括:
6.根據(jù)權(quán)利要求1所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:趙鵬,曲延盛,常英賢,馬超,邵志敏,劉蔭,樊靜雨,胡恒瑞,劉函,湯琳琳,朱韶松,潘法定,張聞彬,呼海林,王高洲,周潔,徐浩,黃振,鄭海杰,趙曉,湯耀庭,孟祥鹿,
申請(qǐng)(專利權(quán))人:國網(wǎng)山東省電力公司信息通信公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。