System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码粉嫩小泬无套在线观看,久久无码av三级,一区二区三区无码高清视频
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于語義片段的配電網運行狀態評估實體抽取方法、系統及存儲介質技術方案

    技術編號:44457571 閱讀:4 留言:0更新日期:2025-02-28 19:04
    本發明專利技術公開了一種基于語義片段的配電網運行狀態評估實體抽取方法、系統及存儲介質,包括收集與配電網運行狀態相關的數據;對收集的數據進行基于負采樣的實體采樣,獲得一個包含大量語義片段的采樣集合;利用訓練好的BERT模型對語義片段重新構造,劃分為頭字詞的嵌入、尾字詞的嵌入和語義片段長度的嵌入;將重新構造過的語義片段輸入改進的多層感知機MLP模型,獲得該語義片段的實體標簽。本發明專利技術能夠提高對復雜文本的理解能力,充分捕捉配電網中各電力實體之間的復雜關系,進而提高配電網運行狀態評估的效率和準確性。

    【技術實現步驟摘要】

    本專利技術涉及配電網運行狀態評估領域,特別是指一種基于語義片段的配電網運行狀態評估實體抽取方法、系統及存儲介質


    技術介紹

    1、配電網直接面向用戶,是供電業務中的關鍵環節,實現配電網數字化轉型對于加快新型電力系統的構建至關重要。大量配電網項目例如分布式能源、微網、綜合能源系統等將投資建設,使配電網的運行狀態也更加復雜。傳統的評估過程中通常專業人員依靠經驗進行,且缺少統一的評估體系,無法對配電網運行狀態進行高效、準確的評估。同時,配電網涉及到的設備信息眾多,且數據間具有廣泛的關聯性,各類信息融合不夠充分,評估理論知識體系龐大且通常以文本形式儲存,不便于運行人員快速學習并使用。

    2、構建配電網運行狀態知識圖譜能夠充分利用配電網數據信息,刻畫配電網中的概念、實體、事件及其間的關系,從而將海量多源異構數據和評估理論轉化為圖譜進行統一運營管理,減少運行人員學習時間,提升配電網運行狀態評估效率和準確性。然而配電網涉及到的變電站、線路、電力設備等實體之間又存在著復雜的關系,且上述關系包含了大量非結構化文本。通過實體抽取方法對配電網工程中關鍵信息自動識別命名,能夠為設備管理人員提供有效的支持和幫助,關系抽取的效果也直接影響著配電網運行狀態評估圖譜的構建及應用。

    3、所以,如何針對配電網設備之間的復雜關聯關系和非結構化文本進行有效的實體識別有待進一步研究。


    技術實現思路

    1、專利技術目的:本專利技術的目的是提供一種基于語義片段的配電網運行狀態評估實體抽取方法、系統及存儲介質,以提高實體抽取的準確性。

    2、技術方案:為實現上述目的,本專利技術所述的一種基于語義片段的配電網運行狀態評估實體抽取方法,包括以下步驟:

    3、s1:收集與配電網運行狀態相關的數據;

    4、s2:對收集的數據進行基于負采樣的實體采樣,獲得一個包含大量語義片段的采樣集合;

    5、s3:利用訓練好的bert模型對語義片段重新構造,劃分為頭字詞的嵌入、尾字詞的嵌入和語義片段長度的嵌入;

    6、s4:將重新構造過的語義片段輸入改進的多層感知機mlp模型,獲得該語義片段的實體標簽。

    7、其中,s2中對所述收集的數據進行基于負采樣的實體采樣的方法為:

    8、s2.1:生成b序列,b=generateboundarylabels(s);

    9、s2.2:若bi=1,則以si為中心,選擇長度為2ρ+1的子字符串sj;

    10、s2.3:若sj中包含的1的數量小于m,則將sj加入采樣集合;

    11、s2.4:若s2.2中選出的子字符串數量已經達到m,則停止采樣;

    12、s2.5:若選出的子字符串數量無法達到m,則對bi=0的序列s進行均勻采樣,子字符串數量直到達到m;

    13、s2.6:檢査s中是否存在特定的關鍵詞,如果存在,則將特定的關鍵詞作為完整的語義片段加入到采樣集合中;

    14、s2.7:獲取采樣集合。

    15、其中,s表示原始配電網語料序列,其中每個元素代表一個詞或者字;si表示序列s中的第i個元素;b表示與s長度相同的二進制序列,用于標記實體邊界,若si是實體的開始或結束位置,則bi=1,否則bi=0;ρ表示子字符串的最大長度,m表示采樣語義片段的最大數量。

    16、其中,s2.6中所述特定的關鍵詞包括代表特定電壓等級的術語。

    17、其中,s3中bert模型由內部嵌入層、多頭自注意力機制層、編碼層以及輸出層組成,其中,內部嵌入層將輸入的語義片段拆分為字、塊、位置3個不同空間維度矩陣,多頭自注意力機制層用于計算矩陣中每個元素的注意力權重,捕捉矩陣中各元素之間的長距離依賴關系,編碼層對多頭自注意力機制層的輸出進行編碼,得到代表語義片段的特征向量,該特征向量由三部分組成:頭字詞的嵌入、尾字詞的嵌入、語義片段長度的嵌入。

    18、其中,s3中所述訓練好的bert模型是指利用指利用大量的標注文本數據進行預訓練得到的模型,在預訓練階段通過mlm和nsp訓練任務,迫使bert模型學習詞、句子乃至句子對之間的復雜語義關系。

    19、其中,s3中所述頭字詞的嵌入代表語義片段中的第一個詞或最重要的詞的嵌入向量,通過bert模型中字嵌入得到的,或是經過多層多頭自注意力機制層、編碼層處理后的嵌入;

    20、尾字詞的嵌入代表語義片段中的最后一個詞或另一個重要詞的嵌入向量,通過bert模型中字嵌入得到的,或是經過多層多頭自注意力機制層、編碼層處理后的嵌入;

    21、語義片段長度的嵌入代表整個語義片段的長度信息。

    22、其中,s4中所述mlp模型是一個神經網絡結構,通過堆疊多個神經元層來構建,包括輸入層、一個或多個隱藏層以及輸出層,改進的多層感知機層引入了自適應學習率優化算法、交叉熵損失函數、高斯誤差線性單元作為激活函數,以及批量歸一化和dropout技術。

    23、其中,s4中利用mlp模型獲得語義片段的實體標簽的方法為:利用隱藏層的權重和激活函數處理輸入的語義片段的特征向量,在輸出層,生成每個語義片段的實體標簽概率,通過softmax函數將輸出轉換為概率分布,選擇最大概率的標簽作為最終的實體標簽。

    24、本專利技術所述的一種基于語義片段的配電網運行狀態評估實體抽取系統,包括以下模塊:

    25、數據收集模塊,用于收集與配電網運行狀態相關的數據;

    26、實體采樣模塊,用于對收集的數據進行基于負采樣的實體采樣,獲得一個包含大量語義片段的采樣集合;

    27、語義片段構造模塊,用于利用訓練好的bert模型對語義片段重新構造,劃分為頭字詞的嵌入、尾字詞的嵌入和語義片段長度的嵌入;

    28、實體標簽命名模塊,用于將重新構造過的語義片段輸入改進的多層感知機mlp模型,獲得該語義片段的實體標簽。

    29、本專利技術所述的一種存儲一個或多個程序的計算機可讀存儲介質,所述一個或多個程序包括指令,所述指令當由計算設備執行時,使得所述計算設備執行上述方法中的任一方法。

    30、有益效果:本專利技術具有如下優點:本專利技術能夠提高對復雜文本的理解能力,充分捕捉配電網中各電力實體之間的復雜關系,進而提高配電網運行狀態評估的效率和準確性。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S2中對所述收集的數據進行基于負采樣的實體采樣的方法為:

    3.根據權利要求2所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S2.6中所述特定的關鍵詞包括代表特定電壓等級的術語。

    4.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S3中BERT模型由內部嵌入層、多頭自注意力機制層、編碼層以及輸出層組成,其中,內部嵌入層將輸入的語義片段拆分為字、塊、位置3個不同空間維度矩陣,多頭自注意力機制層用于計算矩陣中每個元素的注意力權重,捕捉矩陣中各元素之間的長距離依賴關系,編碼層對多頭自注意力機制層的輸出進行編碼,得到代表語義片段的特征向量,該特征向量由三部分組成:頭字詞的嵌入、尾字詞的嵌入、語義片段長度的嵌入。

    5.根據權利要求4所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S3中所述訓練好的BERT模型是指利用指利用大量的標注文本數據進行預訓練得到的模型,在預訓練階段通過MLM和NSP訓練任務,迫使BERT模型學習詞、句子乃至句子對之間的復雜語義關系。

    6.根據權利要求3所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S3中所述頭字詞的嵌入代表語義片段中的第一個詞或最重要的詞的嵌入向量,通過BERT模型中字嵌入得到的,或是經過多層多頭自注意力機制層、編碼層處理后的嵌入;

    7.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S4中所述MLP模型是一個神經網絡結構,通過堆疊多個神經元層來構建,包括輸入層、一個或多個隱藏層以及輸出層,改進的多層感知機層引入了自適應學習率優化算法、交叉熵損失函數、高斯誤差線性單元作為激活函數,以及批量歸一化和dropout技術。

    8.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,S4中利用MLP模型獲得語義片段的實體標簽的方法為:利用隱藏層的權重和激活函數處理輸入的語義片段的特征向量,在輸出層,生成每個語義片段的實體標簽概率,通過softmax函數將輸出轉換為概率分布,選擇最大概率的標簽作為最終的實體標簽。

    9.一種基于語義片段的配電網運行狀態評估實體抽取系統,其特征在于,包括以下模塊:

    10.一種存儲一個或多個程序的計算機可讀存儲介質,其特征在于,所述一個或多個程序包括指令,所述指令當由計算設備執行時,使得所述計算設備執行根據權利要求1至8所述的方法中的任一方法。

    ...

    【技術特征摘要】

    1.一種基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s2中對所述收集的數據進行基于負采樣的實體采樣的方法為:

    3.根據權利要求2所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s2.6中所述特定的關鍵詞包括代表特定電壓等級的術語。

    4.根據權利要求1所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s3中bert模型由內部嵌入層、多頭自注意力機制層、編碼層以及輸出層組成,其中,內部嵌入層將輸入的語義片段拆分為字、塊、位置3個不同空間維度矩陣,多頭自注意力機制層用于計算矩陣中每個元素的注意力權重,捕捉矩陣中各元素之間的長距離依賴關系,編碼層對多頭自注意力機制層的輸出進行編碼,得到代表語義片段的特征向量,該特征向量由三部分組成:頭字詞的嵌入、尾字詞的嵌入、語義片段長度的嵌入。

    5.根據權利要求4所述的基于語義片段的配電網運行狀態評估實體抽取方法,其特征在于,s3中所述訓練好的bert模型是指利用指利用大量的標注文本數據進行預訓練得到的模型,在預訓練階段通過mlm和nsp訓練任務,迫使bert模型學習詞、句子乃至句子對之間的復雜語義關系。

    6.根據權利要求3...

    【專利技術屬性】
    技術研發人員:崔國新王智琦錢玉麟周學俊何安宏趙云龍張琨孫景河胡起歌
    申請(專利權)人:國電南瑞南京控制系統有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码永久免费网站| 性无码免费一区二区三区在线| 小SAO货水好多真紧H无码视频| 中文字幕无码不卡在线| 妖精色AV无码国产在线看| 人妻无码中文久久久久专区 | 无码亚洲成a人在线观看| 国产又爽又黄无码无遮挡在线观看| 97无码人妻福利免费公开在线视频| 亚洲av永久无码天堂网| 中文字幕av无码不卡| 亚洲午夜成人精品无码色欲| 国产成人无码一二三区视频| 亚洲最大天堂无码精品区| 成人午夜精品无码区久久| 全免费a级毛片免费看无码| 久久久久无码精品国产app| 亚洲aⅴ无码专区在线观看| 国产AV无码专区亚洲AV男同| 亚洲AV永久无码区成人网站 | 日韩精品专区AV无码| 精品三级AV无码一区| 亚洲精品久久无码| 久久无码专区国产精品s| 日韩AV高清无码| 日韩av无码中文无码电影| 韩国免费a级作爱片无码| 色综合热无码热国产| 无码国产精成人午夜视频不卡| 精品三级AV无码一区| 亚洲精品无码久久| 国产成人无码精品久久久小说| 亚洲AV无码一区二区三区鸳鸯影院| 97久久精品无码一区二区天美| 无码日韩人妻av一区免费| 精品无码日韩一区二区三区不卡| 亚洲VA中文字幕无码毛片| 日木av无码专区亚洲av毛片| 日韩免费无码一区二区三区| 色偷偷一区二区无码视频| 久久精品亚洲中文字幕无码麻豆|