System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码久久精品狠狠爱浪潮,13小箩利洗澡无码视频网站免费,亚洲AV成人噜噜无码网站
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種多表格電力技術標準PDF解析方法及系統技術方案

    技術編號:44300129 閱讀:11 留言:0更新日期:2025-02-18 20:18
    本發明專利技術公開了一種多表格電力技術標準PDF解析方法及系統,本發明專利技術方法將電力技術標準PDF文件轉換為表格圖像;針對表格圖像進行表格以及角點定位檢測得到表格邊框;針對表格圖像進行表格結構解析得到單元格矩形框;針對表格圖像識別文本矩形框以及文字內容;將單元格矩形框和文本矩形框匹配以確定單元格的文字內容;對單元格矩形框進行表頭單元格分類為表頭單元格和普通單元格;結合識別得到的表頭單元格和普通單元格以及文字內容進行表格結構重構;基于重構后的表格內容利用大語言模型生成連貫通順的文本語料。本發明專利技術旨在針對多表格電力技術標準PDF文檔實現表格中信息的有效提取和利用,以提高變壓器缺陷語料庫構建的效率和準確度。

    【技術實現步驟摘要】

    本專利技術涉及電力的數據處理技術,具體涉及一種多表格電力技術標準pdf解析方法及系統。


    技術介紹

    1、主變壓器作為電力系統中的核心設備,其穩定運行對于電網的安全和可靠性至關重要。隨著人工智能技術的高速發展,傳統主變壓器缺陷風險辨識手段逐漸轉向利用大語言模型、知識圖譜等新興技術從技術標準、故障報告、巡檢圖像和運行數據等多模態數據實現主變壓器缺陷風險辨識,這也對主變壓器缺陷語料庫的構建提出了更高的要求。在電力行業專業技術文檔中存在大量與主變壓器缺陷相關文檔,其中pdf文件作為最常見的文檔格式包含了大量的表格,這些表格記錄著豐富的專業信息,包括設備類型、設備部件、缺陷描述、分類依據、缺陷分類、狀態量、判斷依據、負荷率等,這些數據對于主變壓器的運行、維護和管理具有重要意義。然而,傳統的文本提取方法對于表格的處理能力有限,表格中的信息往往難以被有效提取和利用,導致許多有價值的專業信息被埋沒在復雜的表格結構中。因此如何高效地從電力技術標準pdf文件中的表格獲取語料具有重要意義。


    技術實現思路

    1、本專利技術要解決的技術問題:針對現有技術的上述問題,提供一種多表格電力技術標準pdf解析方法及系統,本專利技術旨在針對多表格電力技術標準pdf文檔實現表格中信息的有效提取和利用,以提高變壓器缺陷語料庫構建的效率和準確度。

    2、為了解決上述技術問題,本專利技術采用的技術方案:

    3、一種多表格電力技術標準pdf解析方法,包括下述步驟:

    4、將電力技術標準pdf文件轉換為表格圖像;

    5、針對表格圖像進行表格以及角點定位檢測得到表格邊框;

    6、針對表格圖像進行表格結構解析得到單元格矩形框;

    7、針對表格圖像識別文本矩形框以及文字內容;

    8、將單元格矩形框和文本矩形框匹配以確定單元格的文字內容;

    9、對單元格矩形框進行表頭單元格分類為表頭單元格和普通單元格;

    10、結合識別得到的表頭單元格和普通單元格以及文字內容進行表格結構重構;

    11、基于重構后的表格內容利用大語言模型生成連貫通順的文本語料。

    12、可選地,所述針對表格圖像進行表格以及角點定位檢測包括:

    13、將表格圖像采用指定的神經網絡模型提取各個表格的表格邊框;

    14、將表格圖像采用指定的神經網絡模型提取各個表格的四個角點,按順時針方向分別命名角1、角2、角3和角4,坐標分別為、、和;

    15、將滿足下面約束關系的角點被保留并歸屬于同一張表格以實現角點的分組過濾:

    16、,

    17、上式中,為第i個角點的坐標,為第j個角點的坐標,為位置約束閾值,與表格的圖像大小相關,,其中為表格的圖像面積大??;

    18、基于分組過濾后的角點確定表格的矩形區域:

    19、,

    20、上式中,,,,;

    21、將同一個表格的表格邊框和矩形區域的左上角、右下角頂點取平均值,從而將同一個表格的表格邊框和矩形區域合并得到新的表格邊框。

    22、可選地,所述針對表格圖像進行表格結構解析得到單元格矩形框包括:將表格圖像轉換為二值圖,應用一次迭代的3×3核均值濾波器來生成轉換圖像以將二值圖中為1的部分像素膨脹擴大以增加表格線條在圖像中的銳利程度和細節表現;將轉換圖像采用指定的神經網絡模型提取各個表格單元格的單元格矩形框,包括左上角坐標和右下角坐標。

    23、可選地,所述將單元格矩形框和文本矩形框匹配以確定單元格的文字內容包括:針對每一個文本矩形框,分別計算該文本矩形框與各個單元格矩形框之間的交并比:

    24、,

    25、上式中,為交并比,和分別表示文本矩形框和單元格矩形框,表示和的交集區域,表示和的并集區域,表示求區域面積;為每一個文本矩形框選擇交并比最大且超過預設閾值的單元格矩形框作為該文本矩形框匹配的單元格矩形框,從而確定該文本矩形框的文字內容為匹配的單元格矩形框對應的文本內容。

    26、可選地,所述對單元格矩形框進行表頭單元格分類是指將單元格矩形框利用基于transformer編碼器改進得到的copetransformer模型進行表頭單元格分類為表頭單元格和普通單元格,所述transformer編碼器由位置編碼模塊和多個堆疊的多頭自注意力機制模塊和前饋網絡層組成,所述改進包括改進transformer編碼器的多頭自注意力機制模塊,且改進后的多頭自注意力機制模塊中每一個注意力頭針對輸入的長度為、維數為的輸入序列的處理包括:首先將其處理成三個線性投影,分別得到查詢、鍵、值,結合對角線矩陣進行協同位置信息的編碼合并計算注意力大?。?/p>

    27、,

    28、上式中,為第i層堆疊的多頭自注意力機制模塊中的注意力頭的注意力大小,為激活函數,為第i-1層堆疊的多頭自注意力機制模塊中的注意力頭的注意力大小,再根據下式計算得到該注意力頭的輸出:

    29、,

    30、上式中,為值;最終將各個注意力頭的輸出連接后輸入到本層堆疊的多頭自注意力機制模塊的前饋網絡層中。

    31、可選地,所述結合識別得到的表頭單元格和普通單元格以及文字內容進行表格結構重構包括:針對每一個表格的表頭單元格,其中代表第個單元格的左上角頂點的橫坐標,代表第個單元格的左上角頂點的縱坐標,代表第個單元格的右下角頂點的橫坐標,代表第個單元格的右下角頂點的縱坐標,確定表頭單元格最左側的橫坐標和最右側的橫坐標得到該表頭單元格的行方向上的邊界;引入一個邊界容忍閾值,其中表示所有單元格的寬度的最小值,結合邊界容忍閾值進行合并單元格判斷與表格重構,包括:依次遍歷單元格進行兩兩比對,當,則判斷該單元格為一個行方向上的合并單元格,對于該單元格應該將其對應文本填充進入進列方向上的單元格,若表頭中無行方向上的合并單元格,該組則所有表頭類型的合并單元格按照橫坐標順序進行排列,最終得到重構后的表格結構。

    32、可選地,所述基于重構后的表格內容利用大語言模型生成連貫通順的文本語料包括:構建指令數據集;針對選定的大語言模型使用指令數據集進行指令微調;構造一個通用且規則的提示詞,使用重構后的表格結構的表頭和表頭對應的屬性作為關鍵詞嵌入提示詞中并逐一利用大語言模型生成連貫通順的文本語料。

    33、此外,本專利技術還提供一種多表格電力技術標準pdf解析系統,包括相互連接的微處理器和存儲器,所述微處理器被編程或配置以執行所述多表格電力技術標準pdf解析方法。

    34、此外,本專利技術還提供一種計算機可讀存儲介質,該計算機可讀存儲介質中存儲有計算機程序或指令,該計算機程序或指令被編程或配置以通過處理器執行所述多表格電力技術標準pdf解析方法。

    35、此外,本專利技術還提供一種計算機程序產品,包括計算機程序或指令,該計算機程序或指令被編程或配置以通過處理器執行所述多表格電力技術標準pdf解析方法。

    36、和現有技術相比,本專利技術主要具有下述優點:

    ...

    【技術保護點】

    1.一種多表格電力技術標準PDF解析方法,其特征在于,包括下述步驟:

    2.根據權利要求1所述的多表格電力技術標準PDF解析方法,其特征在于,所述針對表格圖像進行表格以及角點定位檢測包括:

    3.根據權利要求1所述的多表格電力技術標準PDF解析方法,其特征在于,所述針對表格圖像進行表格結構解析得到單元格矩形框包括:將表格圖像轉換為二值圖,應用一次迭代的3×3核均值濾波器來生成轉換圖像以將二值圖中為1的部分像素膨脹擴大以增加表格線條在圖像中的銳利程度和細節表現;將轉換圖像采用指定的神經網絡模型提取各個表格單元格的單元格矩形框,包括左上角坐標和右下角坐標。

    4.根據權利要求1所述的多表格電力技術標準PDF解析方法,其特征在于,所述將單元格矩形框和文本矩形框匹配以確定單元格的文字內容包括:針對每一個文本矩形框,分別計算該文本矩形框與各個單元格矩形框之間的交并比:

    5.根據權利要求1所述的多表格電力技術標準PDF解析方法,其特征在于,所述對單元格矩形框進行表頭單元格分類是指將單元格矩形框利用基于Transformer編碼器改進得到的CoPETransformer模型進行表頭單元格分類為表頭單元格和普通單元格,所述Transformer編碼器由位置編碼模塊和多個堆疊的多頭自注意力機制模塊和前饋網絡層組成,所述改進包括改進Transformer編碼器的多頭自注意力機制模塊,且改進后的多頭自注意力機制模塊中每一個注意力頭針對輸入的長度為、維數為的輸入序列的處理包括:首先將其處理成三個線性投影,分別得到查詢、鍵、值,結合對角線矩陣進行協同位置信息的編碼合并計算注意力大小:

    6.根據權利要求1所述的多表格電力技術標準PDF解析方法,其特征在于,所述結合識別得到的表頭單元格和普通單元格以及文字內容進行表格結構重構包括:針對每一個表格的表頭單元格,其中代表第個單元格的左上角頂點的橫坐標,代表第個單元格的左上角頂點的縱坐標,代表第個單元格的右下角頂點的橫坐標,代表第個單元格的右下角頂點的縱坐標,確定表頭單元格最左側的橫坐標和最右側的橫坐標得到該表頭單元格的行方向上的邊界;引入一個邊界容忍閾值,其中表示所有單元格的寬度的最小值,結合邊界容忍閾值進行合并單元格判斷與表格重構,包括:依次遍歷單元格進行兩兩比對,當,則判斷該單元格為一個行方向上的合并單元格,對于該單元格應該將其對應文本填充進入進列方向上的單元格,若表頭中無行方向上的合并單元格,該組則所有表頭類型的合并單元格按照橫坐標順序進行排列,最終得到重構后的表格結構。

    7.根據權利要求1所述的多表格電力技術標準PDF解析方法,其特征在于,所述基于重構后的表格內容利用大語言模型生成連貫通順的文本語料包括:構建指令數據集;針對選定的大語言模型使用指令數據集進行指令微調;構造一個通用且規則的提示詞,使用重構后的表格結構的表頭和表頭對應的屬性作為關鍵詞嵌入提示詞中并逐一利用大語言模型生成連貫通順的文本語料。

    8.一種多表格電力技術標準PDF解析系統,包括相互連接的微處理器和存儲器,其特征在于,所述微處理器被編程或配置以執行權利要求1~7中任意一項所述多表格電力技術標準PDF解析方法。

    9.一種計算機可讀存儲介質,該計算機可讀存儲介質中存儲有計算機程序或指令,其特征在于,該計算機程序或指令被編程或配置以通過處理器執行權利要求1~7中任意一項所述多表格電力技術標準PDF解析方法。

    10.一種計算機程序產品,包括計算機程序或指令,其特征在于,該計算機程序或指令被編程或配置以通過處理器執行權利要求1~7中任意一項所述多表格電力技術標準PDF解析方法。

    ...

    【技術特征摘要】

    1.一種多表格電力技術標準pdf解析方法,其特征在于,包括下述步驟:

    2.根據權利要求1所述的多表格電力技術標準pdf解析方法,其特征在于,所述針對表格圖像進行表格以及角點定位檢測包括:

    3.根據權利要求1所述的多表格電力技術標準pdf解析方法,其特征在于,所述針對表格圖像進行表格結構解析得到單元格矩形框包括:將表格圖像轉換為二值圖,應用一次迭代的3×3核均值濾波器來生成轉換圖像以將二值圖中為1的部分像素膨脹擴大以增加表格線條在圖像中的銳利程度和細節表現;將轉換圖像采用指定的神經網絡模型提取各個表格單元格的單元格矩形框,包括左上角坐標和右下角坐標。

    4.根據權利要求1所述的多表格電力技術標準pdf解析方法,其特征在于,所述將單元格矩形框和文本矩形框匹配以確定單元格的文字內容包括:針對每一個文本矩形框,分別計算該文本矩形框與各個單元格矩形框之間的交并比:

    5.根據權利要求1所述的多表格電力技術標準pdf解析方法,其特征在于,所述對單元格矩形框進行表頭單元格分類是指將單元格矩形框利用基于transformer編碼器改進得到的copetransformer模型進行表頭單元格分類為表頭單元格和普通單元格,所述transformer編碼器由位置編碼模塊和多個堆疊的多頭自注意力機制模塊和前饋網絡層組成,所述改進包括改進transformer編碼器的多頭自注意力機制模塊,且改進后的多頭自注意力機制模塊中每一個注意力頭針對輸入的長度為、維數為的輸入序列的處理包括:首先將其處理成三個線性投影,分別得到查詢、鍵、值,結合對角線矩陣進行協同位置信息的編碼合并計算注意力大小:

    6.根據權利要求1所述的多表格電力技術標準pdf解析方法,其特征在于,所述結合識別得到的表頭單元格和普通單元格以及文字內容...

    【專利技術屬性】
    技術研發人員:彭雙劍,張可人,徐先勇劉帥肖劍,張文靜,顏超,龍彥伯,陳卓,單楚棟吳晟,黃志鴻,左沅君,陳駿星溆孫云龍,全權,毛柳明,陳鳴,蔡宇翔肖鶯,高成德,甘湘硯,程浩軍
    申請(專利權)人:國網湖南省電力有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码午夜福利中文字幕| 无码av天天av天天爽| 亚洲不卡无码av中文字幕| av无码一区二区三区| 无码乱人伦一区二区亚洲| 国产精品JIZZ在线观看无码| 亚洲日产无码中文字幕| 亚洲爆乳精品无码一区二区| 最新高清无码专区| 成人免费无码大片a毛片| 国产精品无码无需播放器| 日韩少妇无码喷潮系列一二三| 国产精品亚洲а∨无码播放| 国产免费午夜a无码v视频| 久久人妻少妇嫩草AV无码专区| 西西4444www大胆无码| 69堂人成无码免费视频果冻传媒 | 蜜臀AV无码精品人妻色欲| 久久国产三级无码一区二区| 无码人妻精品一区二区三区9厂 | 精品欧洲av无码一区二区14| 亚洲AV无码不卡在线观看下载| 无码区日韩特区永久免费系列| 国产精品va无码一区二区| 国产精品无码国模私拍视频| 韩国精品一区二区三区无码视频| 无码人妻丰满熟妇啪啪网站| 无码人妻丰满熟妇区免费 | 无码视频在线播放一二三区| AV无码免费永久在线观看| 亚洲AV无码国产精品色午友在线| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 东京热一精品无码AV| 亚洲av永久中文无码精品综合 | 色欲AV无码一区二区三区| 精品无码久久久久久国产| 无码一区18禁3D| 精品久久久无码人妻字幂 | 无码八A片人妻少妇久久| 亚洲av永久无码精品秋霞电影影院| 亚洲熟妇无码八AV在线播放|