本發(fā)明專利技術涉及數(shù)據(jù)處理技術領域,具體為變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法及相關系統(tǒng),包括多源異構數(shù)據(jù)采集,對于結構化的數(shù)據(jù)庫數(shù)據(jù),采用數(shù)據(jù)庫連接工具,通過編寫SQL查詢語句獲取所需數(shù)據(jù);對于半結構化數(shù)據(jù)利用相應的解析庫進行解析提取關鍵信息,并轉(zhuǎn)化為結構化數(shù)據(jù)格式;對于非結構化的文本數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),采用自然語言處理技術和網(wǎng)絡爬蟲技術;本發(fā)明專利技術變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,提高了數(shù)據(jù)利用率,在數(shù)據(jù)二級處理中通過引入數(shù)據(jù)增強算法,能夠?qū)?shù)據(jù)進行增強補充。
【技術實現(xiàn)步驟摘要】
本專利技術涉及數(shù)據(jù)處理,具體為變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法及相關系統(tǒng)。
技術介紹
1、知識圖譜是一種用于表示知識的圖形結構,其中實體和關系被表示為圖中的節(jié)點和邊,知識圖譜的構建過程包括從結構化和非結構化數(shù)據(jù)中抽取實體和關系,并將它們組織成一個有意義的圖譜;變電主設備多源異構數(shù)據(jù)的知識圖譜構建是指針對變電主設備相關的來自不同來源、具有不同結構的數(shù)據(jù),構建知識圖譜的過程,通過整合多源異構數(shù)據(jù),實現(xiàn)對變電設備的全面了解和統(tǒng)一管理,提高設備運維的效率和準確性,現(xiàn)有的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法中,只能夠基于多源異構數(shù)據(jù)進行簡單的數(shù)據(jù)清洗、去噪、等規(guī)范化操作,在數(shù)據(jù)完整性較差等情況下,構建的知識圖譜不夠全面。
技術實現(xiàn)思路
1、本專利技術的目的在于提供變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法及相關系統(tǒng),以解決上述
技術介紹
中提出的問題。
2、為實現(xiàn)上述目的,本專利技術提供如下技術方案:變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,該方法包括以下步驟:
3、s1、多源異構數(shù)據(jù)采集,對于結構化的數(shù)據(jù)庫數(shù)據(jù),采用數(shù)據(jù)庫連接工具,通過編寫sql查詢語句獲取所需數(shù)據(jù);對于半結構化數(shù)據(jù)利用相應的解析庫進行解析提取關鍵信息,并轉(zhuǎn)化為結構化數(shù)據(jù)格式;對于非結構化的文本數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),采用自然語言處理技術和網(wǎng)絡爬蟲技術,網(wǎng)絡爬蟲使用scrapy框架,根據(jù)設定的目標網(wǎng)址和數(shù)據(jù)提取規(guī)則進行數(shù)據(jù)采集,對于非結構化文本數(shù)據(jù)采集后存儲在本地文件或數(shù)據(jù)庫中等待后續(xù)處理;
<
p>4、s2、數(shù)據(jù)初級處理,所述數(shù)據(jù)初級處理分為結構化數(shù)據(jù)處理、半結構化數(shù)據(jù)處理和非結構化數(shù)據(jù)處理;5、結構化數(shù)據(jù)處理:進行數(shù)據(jù)清洗,去除重復記錄,通過編寫數(shù)據(jù)庫查詢語句或使用數(shù)據(jù)處理工具,對比關鍵字段,識別并刪除重復的記錄行;糾正錯誤格式,對于日期格式不統(tǒng)一的情況,將其統(tǒng)一轉(zhuǎn)換為標準格式;對于數(shù)值型數(shù)據(jù)中存在的異常值,如明顯超出正常范圍的溫度值,通過設定合理的閾值范圍進行篩選和修正;
6、數(shù)據(jù)集成,將從不同數(shù)據(jù)庫表或系統(tǒng)中獲取的相關結構化數(shù)據(jù)進行整合,將設備管理系統(tǒng)中的設備基本信息與監(jiān)測系統(tǒng)中的運行數(shù)據(jù)通過設備編號等關鍵字段進行關聯(lián)合并,形成一個包含設備多方面信息的數(shù)據(jù)集;
7、半結構化數(shù)據(jù)處理:進行格式轉(zhuǎn)換,對于xml格式的檢修報告,解析xml節(jié)點內(nèi)容,提取關鍵信息,并將其轉(zhuǎn)換為結構化表格形式;對json格式的設備配置文件,解析其中的鍵值對信息,提取設備參數(shù)配置信息,轉(zhuǎn)換為便于處理的結構化格式;
8、數(shù)據(jù)規(guī)范化,對提取出來的半結構化數(shù)據(jù)內(nèi)容進行規(guī)范化處理;
9、非結構化數(shù)據(jù)處理:文本清洗,去除標點符號、特殊字符、無意義字符噪聲,采用中文分詞工具對文本進行分詞處理,將連續(xù)的文本分割成詞語序列,去除常見的無實際意義的停用詞;
10、文本標注,對于巡檢記錄、故障描述文本數(shù)據(jù),進行人工標注或采用有監(jiān)督的機器學習算法進行標注,識別其中的設備實體、狀態(tài)描述關鍵信息;
11、s3、數(shù)據(jù)二級處理,引入數(shù)據(jù)增強算法,設置生成器和判別器,在多源異構數(shù)據(jù)處理中,生成器用于生成與真實數(shù)據(jù)相似的新數(shù)據(jù),判別器用于區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù),通過兩者的對抗博弈,生成器不斷提高生成數(shù)據(jù)的質(zhì)量,從而實現(xiàn)數(shù)據(jù)增強,對數(shù)據(jù)量較少的數(shù)據(jù)源進行補充;
12、s4、對s3中獲取的數(shù)據(jù)進行知識抽取,其包括實體抽取、關系抽取和屬性抽取,實體抽取通過制定規(guī)則模板來識別實體;關系抽取通過構建神經(jīng)網(wǎng)絡模型,采用卷積神經(jīng)網(wǎng)絡cnn或循環(huán)神經(jīng)網(wǎng)絡rnn及其變體構建關系抽取模型,模型輸入為包含兩個實體的句子文本向量表示,經(jīng)過網(wǎng)絡層學習句子語義特征,輸出實體之間的關系類型結果;屬性抽取分為從結構化數(shù)據(jù)提取和從非結構化數(shù)據(jù)提取,從結構化數(shù)據(jù)提取時直接從數(shù)據(jù)庫表字段中獲取設備的固有屬性信息,對于半結構化數(shù)據(jù)中明確標記的屬性信息,按照格式解析提取,從非結構化數(shù)據(jù)提取時定義屬性提取規(guī)則模板,當文本符合模板規(guī)則時,提取相應的屬性信息,同時結合自然語言處理技術進行語義分析,提高屬性提取的準確性;
13、s5、進行知識融合,所述知識融合包括本體構建、實體對齊和沖突檢測消解;
14、s6、知識圖譜形成,通過圖數(shù)據(jù)庫存儲抽取和融合后的知識,將實體作為節(jié)點存儲其屬性信息,將關系作為邊存儲關系的屬性和方向信息,形成知識圖譜,所述圖數(shù)據(jù)庫存包括neo4j和janusgraph;
15、s7、優(yōu)化突出處理,通過優(yōu)化算法根據(jù)知識圖譜節(jié)點的特征和鄰居節(jié)點的信息為節(jié)點分配不同的注意力權重,在變電設備知識圖譜中,一些關鍵設備節(jié)點和具有重要連接關系的節(jié)點對整個系統(tǒng)的運行和故障傳播有重要影響,通過算法識別出這些重要節(jié)點并賦予更高的注意力權重;
16、s8、應用實現(xiàn),基于s7中進一步優(yōu)化突出處理后的知識圖譜實現(xiàn)設備故障診斷、分析、運維策略優(yōu)化。
17、優(yōu)選的,s3中所述數(shù)據(jù)增強算法具體如下:
18、生成器g接收隨機噪聲z和部分變電設備數(shù)據(jù)特征作為輸入,生成新的數(shù)據(jù)樣本,判別器d接收真實數(shù)據(jù)或生成數(shù)據(jù),輸出一個概率值,表示輸入數(shù)據(jù)為真實數(shù)據(jù)的概率,判別器的目標是最大化正確區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù)的概率,而生成器的目標是使判別器無法區(qū)分生成數(shù)據(jù)和真實數(shù)據(jù);
19、判別器的損失函數(shù)和生成器的損失函數(shù)分別定義如下:
20、
21、其中,是真實數(shù)據(jù)的分布,是隨機噪聲的分布,通過交替訓練判別器和生成器,不斷優(yōu)化它們的參數(shù),使得生成的數(shù)據(jù)能夠更好的模擬真實數(shù)據(jù)的分布,增強多源異構數(shù)據(jù)的多樣性和完整性。
22、優(yōu)選的,s5中所述本體構建:首先定義概念層次,確定變電設備的核心概念,包括設備、部件、運行狀態(tài)、操作,并構建概念層級結構,為每個概念定義明確的語義和內(nèi)涵,通過自然語言描述和形式化定義相結合的方式,確保概念的準確性和一致性;定義關系類型,確定實體之間的關系類型,包括設備的組成關系、設備與環(huán)境的關系、設備的運行狀態(tài)關系,為每種關系類型定義名稱、語義和約束條件;創(chuàng)建本體模型,使用本體建模工具構建變電設備本體模型,將定義好的概念、關系以可視化和形式化的方式呈現(xiàn)出來,在模型中可以定義類、屬性、實例元素,并建立它們之間的邏輯關系,通過本體模型為后續(xù)的知識融合提供統(tǒng)一的框架和標準。
23、優(yōu)選的,s5中所述實體對齊,通過以下方式計算實體相似度:
24、對于來自不同數(shù)據(jù)源的可能表示同一實體的實體對,采用編輯距離算法計算名稱相似度,同時結合屬性相似度計算綜合相似度;設兩個實體和的名稱分別為和,編輯距離為,名稱相似度,
25、對于屬性相似度,若屬性值為數(shù)值型,采用歐幾里得距離計算;若為文本型,采用余弦相似度計算,綜合相似度為名稱相似度和屬性相似度的加權和;當實體對的綜合相似度超過設定閾值時,將其合并為一個實體。
26、優(yōu)選的,s5中所述沖突檢測消解,包括屬性值沖突檢測、關系沖突檢測,屬性值沖突檢測:融合不同來源的本文檔來自技高網(wǎng)
...
【技術保護點】
1.變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:S3中所述數(shù)據(jù)增強算法具體如下:
3.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:S5中所述本體構建:首先定義概念層次,確定變電設備的核心概念,包括設備、部件、運行狀態(tài)、操作,并構建概念層級結構,為每個概念定義明確的語義和內(nèi)涵,通過自然語言描述和形式化定義相結合的方式,確保概念的準確性和一致性;定義關系類型,確定實體之間的關系類型,包括設備的組成關系、設備與環(huán)境的關系、設備的運行狀態(tài)關系,為每種關系類型定義名稱、語義和約束條件;創(chuàng)建本體模型,使用本體建模工具構建變電設備本體模型,將定義好的概念、關系以可視化和形式化的方式呈現(xiàn)出來,在模型中可以定義類、屬性、實例元素,并建立它們之間的邏輯關系,通過本體模型為后續(xù)的知識融合提供統(tǒng)一的框架和標準。
4.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:S5中所述實體對齊,通過以下方式計算實體相似度:
5.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:S5中所述沖突檢測消解,包括屬性值沖突檢測、關系沖突檢測,屬性值沖突檢測:融合不同來源的知識時,檢測同一實體屬性值不一致的情況,通過對比屬性值、數(shù)據(jù)來源可靠性、數(shù)據(jù)采集時間進行沖突檢測;關系沖突檢測:檢測實體之間關系不一致的情況,通過分析文本語義、相關設備知識進行關系沖突檢測;對于多個數(shù)據(jù)源中存在沖突的數(shù)據(jù),采用投票的方式?jīng)Q定最終值或關系,當多數(shù)數(shù)據(jù)源認為某設備的某個屬性值為?X?時,則以?X?作為最終的屬性值,同時結合專家知識和領域規(guī)則進行輔助判斷,提高沖突消解的準確性。
6.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:S7中所述優(yōu)化算法具體如下,
7.一種系統(tǒng),其特征在于,包括包括存儲介質(zhì)和處理器,所述存儲介質(zhì)中設有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得處理器執(zhí)行如權利要求1-6任一項所述方法的步驟。
...
【技術特征摘要】
1.變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:s3中所述數(shù)據(jù)增強算法具體如下:
3.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方法,其特征在于:s5中所述本體構建:首先定義概念層次,確定變電設備的核心概念,包括設備、部件、運行狀態(tài)、操作,并構建概念層級結構,為每個概念定義明確的語義和內(nèi)涵,通過自然語言描述和形式化定義相結合的方式,確保概念的準確性和一致性;定義關系類型,確定實體之間的關系類型,包括設備的組成關系、設備與環(huán)境的關系、設備的運行狀態(tài)關系,為每種關系類型定義名稱、語義和約束條件;創(chuàng)建本體模型,使用本體建模工具構建變電設備本體模型,將定義好的概念、關系以可視化和形式化的方式呈現(xiàn)出來,在模型中可以定義類、屬性、實例元素,并建立它們之間的邏輯關系,通過本體模型為后續(xù)的知識融合提供統(tǒng)一的框架和標準。
4.根據(jù)權利要求1所述的變電主設備多源異構數(shù)據(jù)的知識圖譜構建方...
【專利技術屬性】
技術研發(fā)人員:潘曉明,邵斌,鄧立晨,許琛雍,王國鳳,樊佳輝,趙耀,何山,田雨,濮睿,沈美燕,魏雨萱,孫大軍,
申請(專利權)人:國網(wǎng)江蘇省電力有限公司蘇州供電分公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。