System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及配電網運行狀態評估領域,特別是指一種基于語義片段的配電網運行狀態評估實體抽取方法、系統及存儲介質。
技術介紹
1、配電網直接面向用戶,是供電業務中的關鍵環節,實現配電網數字化轉型對于加快新型電力系統的構建至關重要。大量配電網項目例如分布式能源、微網、綜合能源系統等將投資建設,使配電網的運行狀態也更加復雜。傳統的評估過程中通常專業人員依靠經驗進行,且缺少統一的評估體系,無法對配電網運行狀態進行高效、準確的評估。同時,配電網涉及到的設備信息眾多,且數據間具有廣泛的關聯性,各類信息融合不夠充分,評估理論知識體系龐大且通常以文本形式儲存,不便于運行人員快速學習并使用。
2、構建配電網運行狀態知識圖譜能夠充分利用配電網數據信息,刻畫配電網中的概念、實體、事件及其間的關系,從而將海量多源異構數據和評估理論轉化為圖譜進行統一運營管理,減少運行人員學習時間,提升配電網運行狀態評估效率和準確性。然而配電網涉及到的變電站、線路、電力設備等實體之間又存在著復雜的關系,且上述關系包含了大量非結構化文本。通過實體抽取方法對配電網工程中關鍵信息自動識別命名,能夠為設備管理人員提供有效的支持和幫助,關系抽取的效果也直接影響著配電網運行狀態評估圖譜的構建及應用。
3、所以,如何針對配電網設備之間的復雜關聯關系和非結構化文本進行有效的實體識別有待進一步研究。
技術實現思路
1、專利技術目的:本專利技術的目的是提供一種基于語義片段的配電網運行狀態評估實體抽取方法、系統及存儲介質,
2、技術方案:為實現上述目的,本專利技術所述的一種基于語義片段的配電網運行狀態評估實體抽取方法,包括以下步驟:
3、s1:收集與配電網運行狀態相關的數據;
4、s2:對收集的數據進行基于負采樣的實體采樣,獲得一個包含大量語義片段的采樣集合;
5、s3:利用訓練好的bert模型對語義片段重新構造,劃分為頭字詞的嵌入、尾字詞的嵌入和語義片段長度的嵌入;
6、s4:將重新構造過的語義片段輸入改進的多層感知機mlp模型,獲得該語義片段的實體標簽。
7、其中,s2中對所述收集的數據進行基于負采樣的實體采樣的方法為:
8、s2.1:生成b序列,b=generateboundarylabels(s);
9、s2.2:若bi=1,則以si為中心,選擇長度為2ρ+1的子字符串sj;
10、s2.3:若sj中包含的1的數量小于m,則將sj加入采樣集合;
11、s2.4:若s2.2中選出的子字符串數量已經達到m,則停止采樣;
12、s2.5:若選出的子字符串數量無法達到m,則對bi=0的序列s進行均勻采樣,子字符串數量直到達到m;
13、s2.6:檢査s中是否存在特定的關鍵詞,如果存在,則將特定的關鍵詞作為完整的語義片段加入到采樣集合中;
14、s2.7:獲取采樣集合。
15、其中,s表示原始配電網語料序列,其中每個元素代表一個詞或者字;si表示序列s中的第i個元素;b表示與s長度相同的二進制序列,用于標記實體邊界,若si是實體的開始或結束位置,則bi=1,否則bi=0;ρ表示子字符串的最大長度,m表示采樣語義片段的最大數量。
16、其中,s2.6中所述特定的關鍵詞包括代表特定電壓等級的術語。
17、其中,s3中bert模型由內部嵌入層、多頭自注意力機制層、編碼層以及輸出層組成,其中,內部嵌入層將輸入的語義片段拆分為字、塊、位置3個不同空間維度矩陣,多頭自注意力機制層用于計算矩陣中每個元素的注意力權重,捕捉矩陣中各元素之間的長距離依賴關系,編碼層對多頭自注意力機制層的輸出進行編碼,得到代表語義片段的特征向量,該特征向量由三部分組成:頭字詞的嵌入、尾字詞的嵌入、語義片段長度的嵌入。
18、其中,s3中所述訓練好的bert模型是指利用指利用大量的標注文本數據進行預訓練得到的模型,在預訓練階段通過mlm和nsp訓練任務,迫使bert模型學習詞、句子乃至句子對之間的復雜語義關系。
19、其中,s3中所述頭字詞的嵌入代表語義片段中的第一個詞或最重要的詞的嵌入向量,通過bert模型中字嵌入得到的,或是經過多層多頭自注意力機制層、編碼層處理后的嵌入;
20、尾字詞的嵌入代表語義片段中的最后一個詞或另一個重要詞的嵌入向量,通過bert模型中字嵌入得到的,或是經過多層多頭自注意力機制層、編碼層處理后的嵌入;
21、語義片段長度的嵌入代表整個語義片段的長度信息。
22、其中,s4中所述mlp模型是一個神經網絡結構,通過堆疊多個神經元層來構建,包括輸入層、一個或多個隱藏層以及輸出層,改進的多層感知機層引入了自適應學習率優化算法、交叉熵損失函數、高斯誤差線性單元作為激活函數,以及批量歸一化和dropout技術。
23、其中,s4中利用mlp模型獲得語義片段的實體標簽的方法為:利用隱藏層的權重和激活函數處理輸入的語義片段的特征向量,在輸出層,生成每個語義片段的實體標簽概率,通過softmax函數將輸出轉換為概率分布,選擇最大概率的標簽作為最終的實體標簽。
24、本專利技術所述的一種基于語義片段的配電網運行狀態評估實體抽取系統,包括以下模塊:
25、數據收集模塊,用于收集與配電網運行狀態相關的數據;
26、實體采樣模塊,用于對收集的數據進行基于負采樣的實體采樣,獲得一個包含大量語義片段的采樣集合;
27、語義片段構造模塊,用于利用訓練好的bert模型對語義片段重新構造,劃分為頭字詞的嵌入、尾字詞的嵌入和語義片段長度的嵌入;
28、實體標簽命名模塊,用于將重新構造過的語義片段輸入改進的多層感知機mlp模型,獲得該語義片段的實體標簽。
29、本專利技術所述的一種存儲一個或多個程序的計算機可讀存儲介質,所述一個或多個程序包括指令,所述指令當由計算設備執行時,使得所述計算設備執行上述方法中的任一方法。
30、有益效果:本專利技術具有如下優點:本專利技術能夠提高對復雜文本的理解能力,充分捕捉配電網中各電力實體之間的復雜關系,進而提高配電網運行狀態評估的效率和準確性。
本文檔來自技高網...【技術保護點】
1.一種基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S2中對所述收集的數據進行基于負采樣的實體采樣的方法為:
3.根據權利要求2所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S2.6中所述特定的關鍵詞包括代表特定電壓等級的術語。
4.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S3中BERT模型由內部嵌入層、多頭自注意力機制層、編碼層以及輸出層組成,其中,內部嵌入層將輸入的語義片段拆分為字、塊、位置3個不同空間維度矩陣,多頭自注意力機制層用于計算矩陣中每個元素的注意力權重,捕捉矩陣中各元素之間的長距離依賴關系,編碼層對多頭自注意力機制層的輸出進行編碼,得到代表語義片段的特征向量,該特征向量由三部分組成:頭字詞的嵌入、尾字詞的嵌入、語義片段長度的嵌入。
5.根據權利要求4所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S3中所述訓練好的BERT模型是指利用指
6.根據權利要求3所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S3中所述頭字詞的嵌入代表語義片段中的第一個詞或最重要的詞的嵌入向量,通過BERT模型中字嵌入得到的,或是經過多層多頭自注意力機制層、編碼層處理后的嵌入;
7.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S4中所述MLP模型是一個神經網絡結構,通過堆疊多個神經元層來構建,包括輸入層、一個或多個隱藏層以及輸出層,改進的多層感知機層引入了自適應學習率優化算法、交叉熵損失函數、高斯誤差線性單元作為激活函數,以及批量歸一化和dropout技術。
8.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S4中利用MLP模型獲得語義片段的實體標簽的方法為:利用隱藏層的權重和激活函數處理輸入的語義片段的特征向量,在輸出層,生成每個語義片段的實體標簽概率,通過softmax函數將輸出轉換為概率分布,選擇最大概率的標簽作為最終的實體標簽。
9.一種基于語義片段的配電網運行狀態評估實體抽取系統,其特征在于,包括以下模塊:
10.一種存儲一個或多個程序的計算機可讀存儲介質,其特征在于,所述一個或多個程序包括指令,所述指令當由計算設備執行時,使得所述計算設備執行根據權利要求1至8所述的方法中的任一方法。
...【技術特征摘要】
1.一種基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s2中對所述收集的數據進行基于負采樣的實體采樣的方法為:
3.根據權利要求2所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s2.6中所述特定的關鍵詞包括代表特定電壓等級的術語。
4.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s3中bert模型由內部嵌入層、多頭自注意力機制層、編碼層以及輸出層組成,其中,內部嵌入層將輸入的語義片段拆分為字、塊、位置3個不同空間維度矩陣,多頭自注意力機制層用于計算矩陣中每個元素的注意力權重,捕捉矩陣中各元素之間的長距離依賴關系,編碼層對多頭自注意力機制層的輸出進行編碼,得到代表語義片段的特征向量,該特征向量由三部分組成:頭字詞的嵌入、尾字詞的嵌入、語義片段長度的嵌入。
5.根據權利要求4所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s3中所述訓練好的bert模型是指利用指利用大量的標注文本數據進行預訓練得到的模型,在預訓練階段通過mlm和nsp訓練任務,迫使bert模型學習詞、句子乃至句子對之間的復雜語義關系。
6.根據權利要求3...
【專利技術屬性】
技術研發人員:崔國新,王智琦,錢玉麟,周學俊,何安宏,趙云龍,張琨,孫景河,胡起歌,
申請(專利權)人:國電南瑞南京控制系統有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。