System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于配電網操作票調度管理,尤其涉及一種電網調度操作票結構化解析方法。
技術介紹
1、調度操作票是電力系統中進行設備檢修、維護和調度操作時所需的文本記錄,它包含了詳細的操作步驟、安全注意事項、設備信息等內容;通過操作票中記錄的各類信息,預測配電網狀態,獲取相應的操作步驟、設備名稱。時間等,對配電網運行過程中實際操作內容進行溯源分析,確認配電網控制過程。其中基于nlp技術來識別操作票中的信息,提取有效數據是操作票調度管理中過程中的一個有效方案,但一方面操作票文件信息具有非結構化、無統一標準、表達差異等特點,同時數量龐大,處理難度高,限制了相應方案的進一步應用發展。
技術實現思路
1、本專利技術的目的在于,基于實際需求,提供一種能夠減輕操作票調度管理過程中操作票文本信息要素識別提取的難度,提高大量操作票數據信息提取效率的電網調度操作票結構化解析方法。
2、為實現上述目的,本專利技術采用如下技術方案。
3、本專利技術的一種電網調度操作票結構化解析方法,包括如下步驟:
4、步驟一、建立操作票文本元素數據庫
5、是指基于操作票的具體操作內容,確定各類操作所涉及的配電網拓撲元素,并根據相應元素在操作票出票規則或標記方式中的文本表達方式,并根據相應文本創建操作票文本元素數據庫;所述配電網拓撲拓撲元素和拓撲節點包括:配電線路元素、配電端口元素、配電設備元素以及操作內容元素;
6、步驟二、建立操作票字符串匹配詞典;
7、
8、所述字符串匹配詞典為三層拓展存儲結構,每層中字符串向下依次拓展;
9、其中第一層元素為字符串數據池所有的單字符串ai集,表示為w1={a1,a2...ai...ai},字符串集w1中任意單字符串ai向下拓展形成第二層雙字符串集w2,i表示單字符串的總數,ai表示第i個單字符串;
10、第二層雙字符串集w2保存以單字符串ai開頭的雙字符串aibj及含有雙字符串aibj的最長字符串的剩余長度lij,以及以單字符串ai開頭的多字符串的前兩個字符aick及含有雙字符串aick的最長字符串的剩余長度li′j,得w2={aib1li1,aib2li2...aibjlij...aibjlij,aic1l′i1...aickl′ik....aickl′ik.},其中lij=lmaxij-2;l′ik=l′maxik-2;lmaxij是指含有雙字符串aibj的最長字符串的長度,l′maxik是指含有雙字符串aick的最長字符串的長度;由字符串集w2中任意雙字符串aibj或aick向下拓展形成第三層多字符串集w3;
11、第三層多字符串集w3保存以第二層中雙字符串aibj或aick為首位的多字符串;
12、步驟三、操作票圖像優化處理,包括如下步驟:
13、步驟3a、操作票圖像的預處理,對獲取的操作票原始圖像進行灰度化處理,獲得灰度圖像以清除非必要的色度信息,對灰度圖像進行二值化處理,以提取其二值化輪廓,之后對圖像進行過濾,過濾掉低于預設閾值的像素點以降噪除雜;之后根據未被過濾掉的像素點在圖像的位置對原始操作票圖片進行過濾,以截取原始操作票圖片中的有效數據;
14、步驟3b、操作票圖像畫面矯正,對于前述經過二值化處理的圖像,進行直線識別提取,統計直線長度,設定用于區別文本線條和邊界直線的長度閾值,剔除文本線條,保留非文本直線,統計非文本直線的橫縱坐標值,將坐標值相近但沒有鏈接的直線進行延長使其相交,計算圖像中的直線傾斜角度,并基于傾斜角度結果進行反向調整矯正,使操作票內直線處于相對水平方向,并基于各文本要素與直線的相對位置關系對操作票進行整體復原矯正;
15、步驟四、操作票圖像要素識別提取,是指在操作票內文本識別的同時確定表格要素信息;具體而言:
16、4a、操作票表格要素識別提取;
17、基于多層卷積神經網絡建立操作票表格特征提取模型,其中模型的輸入為步驟三中進行優化處理后的操作票圖像,輸出為表格圖結構以及各表格圖結構中文本序列的鄰接關系;將操作票圖形輸入表格結構識別模型提取操作票中的表格結構,根據表格結構中的文本序列的鄰接關系還原實際表格以及表格中文本序列的相對位置關系;
18、4c、操作票文本要素識別提取,包括如下步驟:
19、文本要素特征提取:基于表格要素識別提取能夠確認各文本序列的相對位置關系,但無法直接獲取文本序列內文本要素,同時操作票的文本要素信息往往包括漢子、字母、數字、符號等等不同類型的文本要素,因此為實現有效的文本要素的識別提取,本申請采用dssd網絡模型進行文本要素特征的提取,dssd網絡模型是將ssd網絡的卷積核網絡通過快速訓練殘差網絡進行替換得到,在分類回歸之前引入殘差模塊,在輔助卷積層添加反卷積層形成的改進模型;
20、文本序列角點檢測:文本角點檢測用于定位文本序列的邊框邊界,以便于提取操作票圖像中的文本內容,剔除文本邊框以外的數據,以提高識別效率,同時利用文本框的坐標和相對位置關系復原文本序列中文本順序,保證文本信息的有效獲取;因為操作票中文本相對規范,大小基本一致,因此通過角點檢測獲得的對角框及其中心位置可以方便得定位角點;角點檢測通過卷積神經網絡將文本邊界框的檢測轉化為角點的檢測過程;
21、步驟五、基于步驟四操作票文本要素識別提取結果,對生成的操作票字符串進行結構化解析,包括如下步驟:
22、5a、對于一個操作票字符串,例如d1d2d3...dx...dx,在字符串匹配詞典中剛查詢首位的雙字符串是否存在于第二層雙字符串集w2中,即判斷雙字符串d1d2是否是第二層雙字符串集w2中的元素;
23、5b、若首位的雙字符串不存在于第二層雙字符串集w2中,則分離首尾的單字符串d1,結束一次分詞,并從操作票字符串中分離首位單字符串d1后返回步驟5a繼續分析剩余字符串;
24、5c、若首位的雙字符串存在于第二層雙字符串集w2中,則驗證該雙字符串是否存在對應的第三層;若不存在,則結束分詞,若存在則統計第三層最長字符串的長度n;記x=2,轉步驟5d;
25、5d、令x=x+1,如果x=n+3,則轉步驟a6、否則轉步驟5e;
26、5e、判斷第三層中是否存在以d3d4...dx為首的字符串,若存在則轉步驟5f,否則轉步驟5d;
27、5f、抽取能夠與d3d4...dx匹配的字符串并將其與d1d2組成字符串分離,返回步驟5a繼續分析剩余字符串。
28、對前述電網調度操作票結構化解析方法的進一步完善或者具體實施步驟,配電線路元素是配電網拓撲結構中的區域屬性元素,通常由各類開關節點隔離并用于供應特定區域或者實現特定目的,以構成相對獨立的配電區域;包括母帶旁路、母聯線路、接線線路、饋線線路、分段線路等;
29、配電端口元素是指位于拓撲線路之間或者拓撲本文檔來自技高網...
【技術保護點】
1.一種電網調度操作票結構化解析方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的電網調度操作票結構化解析方法,其特征在于,配電線路元素是配電網拓撲結構中的區域屬性元素,通常由各類開關節點隔離并用于供應特定區域或者實現特定目的,以構成相對獨立的配電區域;包括母帶旁路、母聯線路、接線線路、饋線線路、分段線路等;
3.根據權利要求1所述的電網調度操作票結構化解析方法,其特征在于,所述表格結構基于由頂點元素和邊元素的集合構成的圖結構建立,在表格圖結構中,頂點元素為表格中各單元格的文本序列,邊元素為文本行之間的行列位置關系,所述位置關系包括:同行列,行相鄰,列相鄰,不相鄰;其中同行列是指兩個文本序列處于表格中的同一個單元格,行相鄰是指兩個文本序列分別位于相鄰的兩行,列相鄰是指兩個文本序列分別位于相鄰的兩列;
4.根據權利要求1所述的電網調度操作票結構化解析方法,其特征在于,在構造用于角點檢測的先驗框的過程中,由于操作票中的文本大小以及表格寬度相對固定,文本的像素高度決定了文本框左右邊界的長度,單元格的最大寬度則決定了文本框上下邊界的最大長度,因
5.根據權利要求1所述的電網調度操作票結構化解析方法,其特征在于,在操作票字符串結構化解析的步驟中,還包括用于進行虛詞預處理的步驟,具體是指:根據操作票文本確定可能是虛詞的字符串,建立虛詞庫,對于待分析的字符串Dx,判斷其是否是虛詞庫中的字符串元素或者字符串元素的首字符,若是則分別將其與前一個字符串和后一個字符串構成雙字符串,并搜索該雙字符串是否屬于字符串匹配詞典中的元素,若是,則保留待分析的字符串Dx,否則將其刪除。
...【技術特征摘要】
1.一種電網調度操作票結構化解析方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的電網調度操作票結構化解析方法,其特征在于,配電線路元素是配電網拓撲結構中的區域屬性元素,通常由各類開關節點隔離并用于供應特定區域或者實現特定目的,以構成相對獨立的配電區域;包括母帶旁路、母聯線路、接線線路、饋線線路、分段線路等;
3.根據權利要求1所述的電網調度操作票結構化解析方法,其特征在于,所述表格結構基于由頂點元素和邊元素的集合構成的圖結構建立,在表格圖結構中,頂點元素為表格中各單元格的文本序列,邊元素為文本行之間的行列位置關系,所述位置關系包括:同行列,行相鄰,列相鄰,不相鄰;其中同行列是指兩個文本序列處于表格中的同一個單元格,行相鄰是指兩個文本序列分別位于相鄰的兩行,列相鄰是指兩個文本序列分別位于相鄰的兩列;
...【專利技術屬性】
技術研發人員:鄒杰,王坤祥,張鵬,沈曄青,李珩,吳剛,柳成,杜強,申健,
申請(專利權)人:泰州開泰電力設計有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。