System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费A级毛片无码专区,无码熟妇人妻AV影音先锋,国产亚洲?V无码?V男人的天堂
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種PDF文件元器件提取裝置、方法、電子設備及可讀存儲介質制造方法及圖紙

    技術編號:42404840 閱讀:11 留言:0更新日期:2024-08-16 16:25
    本發明專利技術提供了一種PDF文件元器件提取裝置、方法、電子設備及可讀存儲介質,該裝置包括:文件讀取單元、頁面解析單元、坐標變換處理單元、文本框匹配單元以及文本內容替換單元;文件讀取單元從引腳表圖片中提取文件,頁面解析單元解析PDF頁面獲取文本和圖片;坐標變換處理單元計算PDF頁面到引腳表圖片的變換矩陣,并轉換文本框坐標,過濾無效信息;文本框匹配單元匹配變換后的文本框與OCR識別結果;文本內容替換單元則根據匹配關系,用解析文本替換OCR文本,并輸出更新信息。本發明專利技術通過特征點提取、描述子計算、距離計算和過濾等步驟,實現引腳表圖片與PDF頁面圖片的高精度匹配,提升了引腳表信息提取和替換的效率,減少了誤判和漏判,為電子元器件設計提供了可靠數據支持。

    【技術實現步驟摘要】

    本專利技術涉及圖像處理,具體涉及一種pdf文件元器件提取裝置、方法、電子設備及可讀存儲介質。


    技術介紹

    1、電子元器件作為現代電子設備的基本構成部分,其相關說明文檔pdf的提取與入庫對于提高設計與生產效率至關重要。現有技術中,信息提取方式依賴于工程師手動分析pdf內容,構造格式化的引腳信息表后入庫。這種方式不僅人力消耗大,而且準確率也無法得到完全保證。因此,設計自動化的引腳表內容識別技術成為行業發展的迫切需求。

    2、在自動化識別技術中,光學符號識別技術(ocr)是提取pdf中文字信息的關鍵技術。然而,ocr技術在應用于電子元器件引腳表時面臨多重挑戰。一方面,ocr預訓練模型在識別相似字符時容易出現誤判;另一方面,電子元器件pdf中往往包含不常見的特殊字符,這些字符可能不在ocr模型的訓練數據范圍內,導致模型難以準確識別。此外,ocr模型輸出的置信度通常難以直接反映識別結果的準確性,這增加了結果校驗的難度。

    3、為了提高識別準確率,一些方案提出基于引腳表的人工截圖,并使用ai對引腳表結構進行解析,從而獲得良好的表格結構識別結果。這種方法在一定程度上緩解了ocr技術的某些問題,但仍然無法完全解決電子元器件pdf中特殊字符和相似字符的識別難題。

    4、首先,直接使用ocr預訓練模型進行識別,容易在相似字符之間產生誤判。由于電子元器件引腳表中的字符往往具有特定的含義和格式,相似字符之間的誤判可能導致信息的錯誤解讀,從而影響后續的設計和生產過程。

    5、其次,電子元器件pdf中存在大量不常見的特殊字符,這些字符可能超出了ocr模型的訓練范圍,導致模型無法準確識別。這些特殊字符對于理解引腳表的信息至關重要,因此無法識別它們將嚴重影響識別結果的準確性。

    6、最后,ocr模型輸出的置信度通常難以直接用于判斷識別結果的準確性。由于電子元器件引腳表的復雜性和多樣性,即使模型輸出的置信度較高,也可能存在識別錯誤的情況。這使得工程師在審核結果時需要額外小心,并增加了校對和修正的工作量。

    7、綜上所述,現有技術在電子元器件引腳表的ocr識別方面仍存在較大的改進空間。為了提高識別的準確率,需要探索更為精準和可靠的識別方法,并結合pdf解析技術來修正識別結果中的錯誤。


    技術實現思路

    1、為了克服現有技術的不足,本專利技術提供一種pdf文件元器件提取裝置、方法、電子設備及可讀存儲介質,以解決現有技術中電子元器件引腳表的ocr識別存在誤判率高、特殊字符識別困難以及置信度不可靠等技術問題,導致識別結果不準確,影響后續設計與生產效率。

    2、為了解決上述技術問題,本專利技術采用的一個技術方案是:提供一種pdf文件元器件提取裝置,包括:文件讀取單元,讀取引腳表圖片,并從所述引腳表圖片中提取引腳表文件;其中,所述引腳表圖片為引腳配置表格對應的圖片;所述引腳表文件至少包括引腳表文本內容和對應的文本框坐標;頁面解析單元,用于讀取所述引腳表圖片對應的pdf頁面,并對所述pdf頁面進行解析以獲得對應的pdf頁面文本和pdf頁面圖片;其中,所述引腳表圖片對應的pdf頁面包括所述引腳表圖片對應的引腳配置表格;所述pdf頁面文本至少包括文本內容和文本框坐標;坐標變換處理單元,用于:將所述引腳表圖片與所述頁面解析單元獲得的pdf頁面對應的pdf頁面圖片進行仿射變換,計算所述pdf頁面圖片變換到所述引腳表圖片坐標系的仿射變換矩陣;其中,所述仿射變換矩陣包括x軸、y軸上的縮放系數,以及x軸、y軸上的平移距離;根據獲得的仿射變換矩陣對所述pdf頁面文本的文本框坐標進行坐標變換,將所述文本框的坐標轉換到所述引腳表圖片的坐標系下,并判斷變換后的坐標是否在所述引腳表圖片的有效范圍內,以保留或過濾對應的文本信息;文本框匹配單元,用于根據所述坐標變換處理單元得到的變換后的所述pdf頁面文本的文本框坐標和所述文件讀取單元獲得的所述引腳表圖片的引腳表文本內容對應的文本框坐標進行匹配;文本內容替換單元,用于根據變換后的所述pdf頁面文本的文本框和所述引腳表圖片的引腳表文本內容對應的文本框的匹配關系,使用所述pdf頁面文本的文本內容直接替換所述引腳表圖片的引腳表文本內容,并輸出更新后的引腳表文本內容。

    3、其中,所述坐標變換處理單元,包括:特征點提取模塊,用于提取所述引腳表圖片中的原始特征點與所述頁面解析單元獲得的pdf頁面圖片中的目標特征點;特征點描述子計算模塊,用于計算所述特征點提取模塊提取得到的特征點的描述子;特征點距離計算模塊,用于計算所述特征點提取模塊提取得到的所述引腳表圖片中所有原始特征點與所述頁面解析單元獲得的pdf頁面圖片中所有目標特征點的歐式距離,并根據歐式距離最小確定所述引腳表圖片中所有原始特征點與所述pdf頁面圖片中所有目標特征點最相似的兩個特征點,以獲得相應的特征點匹配對;過濾模塊,用于通過計算所述引腳表圖片中的原始特征點與所述pdf頁面圖片中的目標特征點的歐式距離,篩選出最相似和次相似的特征點匹配對,并根據設定的閾值對特征點匹配對進行剔除或保留;仿射變換矩陣計算模塊,用于根據確定的特征匹配對計算相應的仿射變換矩陣。

    4、其中,所述特征點描述子計算模塊,用于:根據所述特征點提取模塊提取得到的特征點位置信息,確定每個特征點周圍的特定區域;其中,所述特定區域大小由高斯模糊的標準差σ決定;在所述特定區域內計算每個像素的梯度,并確定主方向;其中,所述梯度包含了方向和大小兩個信息;所述主方向是通過比較所述梯度的方向和大小確定所述特定區域內像素梯度最大的方向得到;將所述特定區域劃分為若干子區域,并計算每個子區域內部像素在不同方向上的梯度分布;其中,每個子區域都以主方向為基準方向;將每個子區域在不同方向上的梯度分布轉換為特征值序列,將所有子區域的特征值序列組合成完整的特征描述子;其中,所述特征值是對梯度分布進行量化得到。

    5、其中,所述過濾模塊,用于:計算所述引腳表圖片中每個原始特征點與所述pdf頁面圖片中所有目標特征點之間的歐式距離,以確定與所述原始特征點最相似和次相似的目標特征點,并獲得相應的最相似特征點匹配對和次相似特征點匹配對;判斷所述原始特征點與最相似目標特征點之間的歐式距離是否小于設定的第一閾值;若是,則計算所述原始特征點與所述最相似目標特征點與次相似目標特征點之間的歐式距離之比;否則,剔除所述最相似特征點匹配對;判斷所述歐式距離之比的比值是否小于設定的第二閾值;若是,則保留相應的特征點匹配對;否則,剔除相應的特征點匹配對。

    6、其中,所述坐標變換處理單元,用于:根據獲得的仿射變換矩陣,左乘所述pdf頁面文本的文本框坐標向量和所述仿射變換矩陣,得到變換后的坐標;其中,所述仿射變換矩陣包含了旋轉、縮放和平移等變換信息;比較坐標變換后的所述pdf頁面文本的文本框左上角和右下角坐標與所述引腳表圖片的寬度和高度,判斷坐標變換后的所述pdf頁面文本的文本框坐標是否在所述引腳表圖片的有效范圍內;若是,則保留所述pdf頁面文本的文本框及對應的文本信息;否則,剔除所述pd本文檔來自技高網...

    【技術保護點】

    1.一種PDF文件元器件提取裝置,其特征在于,包括:

    2.如權利要求1所述的PDF文件元器件提取裝置,其特征在于,所述坐標變換處理單元,包括:

    3.如權利要求2所述的PDF文件元器件提取裝置,其特征在于,所述特征點描述子計算模塊,用于:

    4.如權利要求3所述的PDF文件元器件提取裝置,其特征在于,所述過濾模塊,用于:

    5.如權利要求1所述的PDF文件元器件提取裝置,其特征在于,所述坐標變換處理單元,用于:

    6.如權利要求1所述的PDF文件元器件提取裝置,其特征在于,所述文本框匹配單元,用于:

    7.一種PDF文件元器件提取方法,其特征在于,所述方法包括:

    8.如權利要求7所述的PDF文件元器件提取方法,其特征在于,將所述引腳表圖片與所述PDF頁面對應的PDF頁面圖片進行仿射變換,計算所述PDF頁面圖片變換到所述引腳表圖片坐標系的仿射變換矩陣,具體包括:

    9.如權利要求8所述的PDF文件元器件提取方法,其特征在于,計算提取得到的特征點的描述子,具體包括:

    10.如權利要求8所述的PDF文件元器件提取方法,其特征在于,計算所述引腳表圖片中每個原始特征點與所述PDF頁面圖片中所有目標特征點的歐式距離,篩選出最相似和次相似的特征點匹配對,并根據設定的閾值對特征點匹配對進行剔除或保留,具體包括:

    11.如權利要求7所述的PDF文件元器件提取方法,其特征在于,根據變換后的所述PDF頁面文本的文本框坐標和所述引腳表圖片的引腳表文本內容對應的文本框坐標進行匹配,具體包括:

    12.一種電子設備,包括:處理器和存儲器,其特征在于,存儲器用于存儲計算機程序代碼,計算機程序代碼包括計算機指令,當處理器執行所述計算機指令時,電子設備執行如權利要求7~11任意一項所述的PDF文件元器件提取方法的步驟。

    13.一種可讀存儲介質,可讀存儲介質中存儲有計算機程序,其特征在于,計算機程序包括程序指令,程序指令當被電子設備的處理器執行時,使處理器執行如權利要求7~11任意一項所述的PDF文件元器件提取方法的步驟。

    ...

    【技術特征摘要】

    1.一種pdf文件元器件提取裝置,其特征在于,包括:

    2.如權利要求1所述的pdf文件元器件提取裝置,其特征在于,所述坐標變換處理單元,包括:

    3.如權利要求2所述的pdf文件元器件提取裝置,其特征在于,所述特征點描述子計算模塊,用于:

    4.如權利要求3所述的pdf文件元器件提取裝置,其特征在于,所述過濾模塊,用于:

    5.如權利要求1所述的pdf文件元器件提取裝置,其特征在于,所述坐標變換處理單元,用于:

    6.如權利要求1所述的pdf文件元器件提取裝置,其特征在于,所述文本框匹配單元,用于:

    7.一種pdf文件元器件提取方法,其特征在于,所述方法包括:

    8.如權利要求7所述的pdf文件元器件提取方法,其特征在于,將所述引腳表圖片與所述pdf頁面對應的pdf頁面圖片進行仿射變換,計算所述pdf頁面圖片變換到所述引腳表圖片坐標系的仿射變換矩陣,具體包括:

    9.如權利要求8所述的pdf文件元器件提取方法,其特征在于,計算提...

    【專利技術屬性】
    技術研發人員:余京澤吳政翰謝巧琳李楠鄒風院李梓和潘昌武
    申請(專利權)人:粵港澳大灣區廣東國創中心
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲视频无码高清在线| 中日精品无码一本二本三本| 久久AV高潮AV无码AV| 日韩精品无码一区二区三区四区| 精品久久久久久无码中文野结衣| 无码人妻精品中文字幕免费| 国产精品成人无码久久久久久| 午夜无码伦费影视在线观看| 精品一区二区无码AV| 日日摸夜夜爽无码毛片精选| 东京热HEYZO无码专区| 久久久久久人妻无码| 午夜无码一区二区三区在线观看| 国产白丝无码免费视频| 日韩精品无码免费一区二区三区| 国产亚洲情侣一区二区无码AV| 国产成人无码18禁午夜福利p| 日本爆乳j罩杯无码视频| 韩国精品一区二区三区无码视频| 中文字幕无码第1页| 无码人妻精品一区二区在线视频| 人妻少妇精品无码专区漫画| 亚洲成AV人片在线观看无码| 伊人久久精品无码av一区| 日韩精品无码一区二区中文字幕| 国产成人精品无码片区在线观看| 精品人体无码一区二区三区| 八戒理论片午影院无码爱恋| 亚洲va无码手机在线电影| 精品无码一级毛片免费视频观看| 亚洲精品无码aⅴ中文字幕蜜桃| 91久久精品无码一区二区毛片| 亚洲av无码久久忘忧草| 亚洲免费日韩无码系列| 亚洲av无码片区一区二区三区| 在线观看无码AV网站永久免费| 中文无码喷潮在线播放| 国产av永久无码天堂影院| 免费无码又爽又刺激网站| 亚洲精品无码你懂的网站| 亚洲a∨无码男人的天堂|