System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及圖像處理,具體涉及一種pdf文件元器件提取裝置、方法、電子設備及可讀存儲介質。
技術介紹
1、電子元器件作為現代電子設備的基本構成部分,其相關說明文檔pdf的提取與入庫對于提高設計與生產效率至關重要。現有技術中,信息提取方式依賴于工程師手動分析pdf內容,構造格式化的引腳信息表后入庫。這種方式不僅人力消耗大,而且準確率也無法得到完全保證。因此,設計自動化的引腳表內容識別技術成為行業發展的迫切需求。
2、在自動化識別技術中,光學符號識別技術(ocr)是提取pdf中文字信息的關鍵技術。然而,ocr技術在應用于電子元器件引腳表時面臨多重挑戰。一方面,ocr預訓練模型在識別相似字符時容易出現誤判;另一方面,電子元器件pdf中往往包含不常見的特殊字符,這些字符可能不在ocr模型的訓練數據范圍內,導致模型難以準確識別。此外,ocr模型輸出的置信度通常難以直接反映識別結果的準確性,這增加了結果校驗的難度。
3、為了提高識別準確率,一些方案提出基于引腳表的人工截圖,并使用ai對引腳表結構進行解析,從而獲得良好的表格結構識別結果。這種方法在一定程度上緩解了ocr技術的某些問題,但仍然無法完全解決電子元器件pdf中特殊字符和相似字符的識別難題。
4、首先,直接使用ocr預訓練模型進行識別,容易在相似字符之間產生誤判。由于電子元器件引腳表中的字符往往具有特定的含義和格式,相似字符之間的誤判可能導致信息的錯誤解讀,從而影響后續的設計和生產過程。
5、其次,電子元器件pdf中存在大量不常見的特
6、最后,ocr模型輸出的置信度通常難以直接用于判斷識別結果的準確性。由于電子元器件引腳表的復雜性和多樣性,即使模型輸出的置信度較高,也可能存在識別錯誤的情況。這使得工程師在審核結果時需要額外小心,并增加了校對和修正的工作量。
7、綜上所述,現有技術在電子元器件引腳表的ocr識別方面仍存在較大的改進空間。為了提高識別的準確率,需要探索更為精準和可靠的識別方法,并結合pdf解析技術來修正識別結果中的錯誤。
技術實現思路
1、為了克服現有技術的不足,本專利技術提供一種pdf文件元器件提取裝置、方法、電子設備及可讀存儲介質,以解決現有技術中電子元器件引腳表的ocr識別存在誤判率高、特殊字符識別困難以及置信度不可靠等技術問題,導致識別結果不準確,影響后續設計與生產效率。
2、為了解決上述技術問題,本專利技術采用的一個技術方案是:提供一種pdf文件元器件提取裝置,包括:文件讀取單元,讀取引腳表圖片,并從所述引腳表圖片中提取引腳表文件;其中,所述引腳表圖片為引腳配置表格對應的圖片;所述引腳表文件至少包括引腳表文本內容和對應的文本框坐標;頁面解析單元,用于讀取所述引腳表圖片對應的pdf頁面,并對所述pdf頁面進行解析以獲得對應的pdf頁面文本和pdf頁面圖片;其中,所述引腳表圖片對應的pdf頁面包括所述引腳表圖片對應的引腳配置表格;所述pdf頁面文本至少包括文本內容和文本框坐標;坐標變換處理單元,用于:將所述引腳表圖片與所述頁面解析單元獲得的pdf頁面對應的pdf頁面圖片進行仿射變換,計算所述pdf頁面圖片變換到所述引腳表圖片坐標系的仿射變換矩陣;其中,所述仿射變換矩陣包括x軸、y軸上的縮放系數,以及x軸、y軸上的平移距離;根據獲得的仿射變換矩陣對所述pdf頁面文本的文本框坐標進行坐標變換,將所述文本框的坐標轉換到所述引腳表圖片的坐標系下,并判斷變換后的坐標是否在所述引腳表圖片的有效范圍內,以保留或過濾對應的文本信息;文本框匹配單元,用于根據所述坐標變換處理單元得到的變換后的所述pdf頁面文本的文本框坐標和所述文件讀取單元獲得的所述引腳表圖片的引腳表文本內容對應的文本框坐標進行匹配;文本內容替換單元,用于根據變換后的所述pdf頁面文本的文本框和所述引腳表圖片的引腳表文本內容對應的文本框的匹配關系,使用所述pdf頁面文本的文本內容直接替換所述引腳表圖片的引腳表文本內容,并輸出更新后的引腳表文本內容。
3、其中,所述坐標變換處理單元,包括:特征點提取模塊,用于提取所述引腳表圖片中的原始特征點與所述頁面解析單元獲得的pdf頁面圖片中的目標特征點;特征點描述子計算模塊,用于計算所述特征點提取模塊提取得到的特征點的描述子;特征點距離計算模塊,用于計算所述特征點提取模塊提取得到的所述引腳表圖片中所有原始特征點與所述頁面解析單元獲得的pdf頁面圖片中所有目標特征點的歐式距離,并根據歐式距離最小確定所述引腳表圖片中所有原始特征點與所述pdf頁面圖片中所有目標特征點最相似的兩個特征點,以獲得相應的特征點匹配對;過濾模塊,用于通過計算所述引腳表圖片中的原始特征點與所述pdf頁面圖片中的目標特征點的歐式距離,篩選出最相似和次相似的特征點匹配對,并根據設定的閾值對特征點匹配對進行剔除或保留;仿射變換矩陣計算模塊,用于根據確定的特征匹配對計算相應的仿射變換矩陣。
4、其中,所述特征點描述子計算模塊,用于:根據所述特征點提取模塊提取得到的特征點位置信息,確定每個特征點周圍的特定區域;其中,所述特定區域大小由高斯模糊的標準差σ決定;在所述特定區域內計算每個像素的梯度,并確定主方向;其中,所述梯度包含了方向和大小兩個信息;所述主方向是通過比較所述梯度的方向和大小確定所述特定區域內像素梯度最大的方向得到;將所述特定區域劃分為若干子區域,并計算每個子區域內部像素在不同方向上的梯度分布;其中,每個子區域都以主方向為基準方向;將每個子區域在不同方向上的梯度分布轉換為特征值序列,將所有子區域的特征值序列組合成完整的特征描述子;其中,所述特征值是對梯度分布進行量化得到。
5、其中,所述過濾模塊,用于:計算所述引腳表圖片中每個原始特征點與所述pdf頁面圖片中所有目標特征點之間的歐式距離,以確定與所述原始特征點最相似和次相似的目標特征點,并獲得相應的最相似特征點匹配對和次相似特征點匹配對;判斷所述原始特征點與最相似目標特征點之間的歐式距離是否小于設定的第一閾值;若是,則計算所述原始特征點與所述最相似目標特征點與次相似目標特征點之間的歐式距離之比;否則,剔除所述最相似特征點匹配對;判斷所述歐式距離之比的比值是否小于設定的第二閾值;若是,則保留相應的特征點匹配對;否則,剔除相應的特征點匹配對。
6、其中,所述坐標變換處理單元,用于:根據獲得的仿射變換矩陣,左乘所述pdf頁面文本的文本框坐標向量和所述仿射變換矩陣,得到變換后的坐標;其中,所述仿射變換矩陣包含了旋轉、縮放和平移等變換信息;比較坐標變換后的所述pdf頁面文本的文本框左上角和右下角坐標與所述引腳表圖片的寬度和高度,判斷坐標變換后的所述pdf頁面文本的文本框坐標是否在所述引腳表圖片的有效范圍內;若是,則保留所述pdf頁面文本的文本框及對應的文本信息;否則,剔除所述pd本文檔來自技高網...
【技術保護點】
1.一種PDF文件元器件提取裝置,其特征在于,包括:
2.如權利要求1所述的PDF文件元器件提取裝置,其特征在于,所述坐標變換處理單元,包括:
3.如權利要求2所述的PDF文件元器件提取裝置,其特征在于,所述特征點描述子計算模塊,用于:
4.如權利要求3所述的PDF文件元器件提取裝置,其特征在于,所述過濾模塊,用于:
5.如權利要求1所述的PDF文件元器件提取裝置,其特征在于,所述坐標變換處理單元,用于:
6.如權利要求1所述的PDF文件元器件提取裝置,其特征在于,所述文本框匹配單元,用于:
7.一種PDF文件元器件提取方法,其特征在于,所述方法包括:
8.如權利要求7所述的PDF文件元器件提取方法,其特征在于,將所述引腳表圖片與所述PDF頁面對應的PDF頁面圖片進行仿射變換,計算所述PDF頁面圖片變換到所述引腳表圖片坐標系的仿射變換矩陣,具體包括:
9.如權利要求8所述的PDF文件元器件提取方法,其特征在于,計算提取得到的特征點的描述子,具體包括:
10.如權利要求8所述
11.如權利要求7所述的PDF文件元器件提取方法,其特征在于,根據變換后的所述PDF頁面文本的文本框坐標和所述引腳表圖片的引腳表文本內容對應的文本框坐標進行匹配,具體包括:
12.一種電子設備,包括:處理器和存儲器,其特征在于,存儲器用于存儲計算機程序代碼,計算機程序代碼包括計算機指令,當處理器執行所述計算機指令時,電子設備執行如權利要求7~11任意一項所述的PDF文件元器件提取方法的步驟。
13.一種可讀存儲介質,可讀存儲介質中存儲有計算機程序,其特征在于,計算機程序包括程序指令,程序指令當被電子設備的處理器執行時,使處理器執行如權利要求7~11任意一項所述的PDF文件元器件提取方法的步驟。
...【技術特征摘要】
1.一種pdf文件元器件提取裝置,其特征在于,包括:
2.如權利要求1所述的pdf文件元器件提取裝置,其特征在于,所述坐標變換處理單元,包括:
3.如權利要求2所述的pdf文件元器件提取裝置,其特征在于,所述特征點描述子計算模塊,用于:
4.如權利要求3所述的pdf文件元器件提取裝置,其特征在于,所述過濾模塊,用于:
5.如權利要求1所述的pdf文件元器件提取裝置,其特征在于,所述坐標變換處理單元,用于:
6.如權利要求1所述的pdf文件元器件提取裝置,其特征在于,所述文本框匹配單元,用于:
7.一種pdf文件元器件提取方法,其特征在于,所述方法包括:
8.如權利要求7所述的pdf文件元器件提取方法,其特征在于,將所述引腳表圖片與所述pdf頁面對應的pdf頁面圖片進行仿射變換,計算所述pdf頁面圖片變換到所述引腳表圖片坐標系的仿射變換矩陣,具體包括:
9.如權利要求8所述的pdf文件元器件提取方法,其特征在于,計算提...
【專利技術屬性】
技術研發人員:余京澤,吳政翰,謝巧琳,李楠,鄒風院,李梓和,潘昌武,
申請(專利權)人:粵港澳大灣區廣東國創中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。