System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于智能識別,具體地說是一種基于ai的檔案內容解析與智能標注系統。
技術介紹
1、ocr技術是一種圖像識別技術,能夠將圖像中的文字信息轉換為可編輯的文本數據,這一技術的核心在于利用計算機視覺和人工智能算法,自動識別并提取印刷品、手寫文本或是屏幕截圖中的文字,使其成為電子文本的一部分,便于存儲、檢索和處理。
2、在現有ocr技術中,可以自動識別并提取印刷品、手寫文本或是屏幕截圖中的文字,將紙質檔案中的內容進行解析提取,并在解析提取內容的基礎上,經過電子文本進行標注,但是,在利用ocr技術對紙質檔案進行解析提取后,識別提取的圖像與紙質檔案上的內容有區別,因此,就會對后期紙質檔案的標注造成影響,現通過一種基于ai的檔案內容解析與智能標注系統,驗證出紙質檔案圖像異常不是由于紙質檔案本身損壞所導致。
3、為此,本專利技術提供了一種基于ai的檔案內容解析與智能標注系統。
技術實現思路
1、為了彌補現有技術的不足,解決
技術介紹
中所提出的至少一個技術問題。
2、本專利技術解決其技術問題所采用的技術方案是:一種基于ai的檔案內容解析與智能標注系統,包括:
3、數據解析模塊:對紙質檔案內容進行圖像提取,得到檔案提取圖像,對檔案提取圖像進行比對分析,根據比對分析結果對紙質檔案進行標記,得到解析異常檔案和解析正常檔案;
4、檔案評估模塊:基于解析異常檔案,在解析異常檔案中對非重合內容所處區域進行標記,得到非重合區域,同時在解析異常檔案中
5、異常分析模塊:基于影響信號,對紙質檔案進行優化處理,并對優化處理后的紙質檔案再次進行圖像提取,得到檔案二次提取圖像,對檔案二次提取圖像進行比對分析,根據比對分析結果,判斷解析是否異常。
6、作為本專利技術進一步的方案為:解析異常圖像的獲取方式為:
7、若識別圖像中的內容與相對應的紙質檔案中的頁面內容完全重合,則將識別圖像標記為解析正常圖像;
8、若識別圖像中的內容與相對應的紙質檔案中的頁面內容不完全重合,則將識別圖像標記為解析異常圖像,并將解析異常圖像中與相對應的紙質檔案中的頁面內容不完全重合內容標記為非重合內容。
9、作為本專利技術進一步的方案為:非重合篇幅均值的獲取方式為:
10、統計解析異常圖像的個數,并與識別圖像集中包含的識別圖像的總個數進行比值處理,得到異常數量比。
11、作為本專利技術進一步的方案為:非重合值的獲取方式為:
12、獲取解析異常圖像對應的非重合內容的字符,將所有解析異常圖像對應的非重合內容的字符進行相加求和求平均值,得到非重合篇幅均值;
13、將非重合篇幅均值與紙質檔案內容總篇幅進行比值計算,得到非重合值。
14、作為本專利技術進一步的方案為:解析異常值的獲取方式為:
15、將非重合值與異常數量比進行求和,得到解析異常值。
16、作為本專利技術進一步的方案為:將解析異常值與解析異常閾值進行比較,比較的過程如下:
17、若解析異常值大于解析異常閾值,則將紙質檔案標記為解析異常檔案;
18、若解析異常小于等于解析異常閾值,則將紙質檔案標記為解析正常檔案。
19、作為本專利技術進一步的方案為:重合損壞頁和非重合損壞頁的區分方式為:
20、將非重合內容所處區域在解析異常檔案中進行標記,得到非重合區域,將具有非重合區域的檔案頁標記為異常檔案頁,將所有異常檔案頁的頁編號整合為異常頁編號組;
21、在解析異常檔案中對損壞區域進行標記,得到損壞區域,將具有損壞區域的檔案頁標記為損壞頁;
22、獲取損壞頁的編號,若損壞頁的編號存在于異常頁編號組內,則將損壞頁標記為重合損壞頁;
23、若損壞頁的編號不存在于異常頁編號組內,則將損壞頁標記為非重合損壞頁。
24、作為本專利技術進一步的方案為:重合影響值的獲取方式為:
25、將得到的重合損壞數量比ch、雙重合損壞數量比sh以及雙重合面積比sm進行數據處理,通過公式:計算得到重合影響值cy。
26、作為本專利技術進一步的方案為:重合損壞數量比的獲取方式為:
27、統計重合損壞頁的數量并與異常檔案頁的數量進行比值處理,得到重合損壞數量比,并標記為ch;
28、雙重合損壞數量比的獲取方式為:
29、基于重合損壞頁,若在重合損壞頁內,非重合區域和損壞區域發生重合,則將重合損壞頁標記雙重合損壞頁;
30、若在重合損壞頁內,非重合區域和損壞區域未發生重合,則不進行任何操作;
31、統計雙重合損壞頁的數量,并與重合損壞頁的數量進行比值處理,得到雙重合損壞數量比,并標記為sh;
32、雙重合面積比的獲取方式為:
33、基于雙重合損壞頁,將所有雙重合損壞頁內,非重合區域和損壞區域之間重合區域的面積進行求和取均值,得到重合面積均值,將重合面積均值與非重合區域的總面積進行比值處理,得到雙重合面積比,并標記為sm。
34、作為本專利技術進一步的方案為:對檔案二次提取圖像進行比對分析,根據比對分析結果,判斷解析是否異常,過程如下:
35、通過ocr技術對優化處理后的紙質檔案進行圖像提取,得到檔案二次提取圖像,其中,檔案二次提取圖像包括二次識別圖像集,對二次識別圖像集進行分析處理,重新得到的解析異常值;
36、將重新得到的解析異常值與解析異常閾值進行比較,過程如下:
37、若重新得到的解析異常值大于解析異常閾值,則檔案解析異常;
38、若重新得到的解析異常值小于解析異常閾值,則檔案解析正常。
39、本專利技術的有益效果如下:
40、(1)本專利技術對紙質檔案內容進行圖像提取,得到檔案提取圖像,對檔案提取圖像進行比對分析,根據比對分析結果對紙質檔案進行標記,得到解析異常檔案和解析正常檔案,通過解析異常圖像數量比以及這些解析異常圖像中錯誤內容的相對篇幅,反映出紙質檔案在進行圖像識別后的整體識別準確性和完整性;
41、(2)本專利技術基于解析異常檔案,在解析異常檔案中對非重合內容所處區域進行標記,得到非重合區域,同時在解析異常檔案中對損壞區域進行標記,得到損壞區域,對非重合區域以及損壞區域進行比對分析,得到重合影響值,將重合影響值與重合影響閾值進行比較,若重合影響值大于重合影響閾值,則表示檔案解析異常與檔案損壞有關,從而說明損壞區域與非重合區域重合程度較高,紙質檔案損壞的內容對圖像識別提取的精度影響程度大;
42、(3)本專利技術基于影響信號,對紙質檔案進行優化處理,并對優化處理后的紙質檔案再次進行圖像提取,得到檔案二次提取本文檔來自技高網...
【技術保護點】
1.一種基于AI的檔案內容解析與智能標注系統,其特征在于:包括:
2.根據權利要求1所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:解析異常圖像的獲取方式為:
3.根據權利要求2所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:非重合篇幅均值的獲取方式為:
4.根據權利要求2所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:非重合值的獲取方式為:
5.根據權利要求2所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:解析異常值的獲取方式為:
6.根據權利要求5所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:將解析異常值與解析異常閾值進行比較,比較的過程如下:
7.根據權利要求1所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:重合損壞頁和非重合損壞頁的區分方式為:
8.根據權利要求1所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:重合影響值的獲取方式為:
9.根據權利要求7所述的一種基于AI的檔案內容解析與智能標
10.根據權利要求1所述的一種基于AI的檔案內容解析與智能標注系統,其特征在于:對檔案二次提取圖像進行比對分析,根據比對分析結果,判斷解析是否異常,過程如下:
...【技術特征摘要】
1.一種基于ai的檔案內容解析與智能標注系統,其特征在于:包括:
2.根據權利要求1所述的一種基于ai的檔案內容解析與智能標注系統,其特征在于:解析異常圖像的獲取方式為:
3.根據權利要求2所述的一種基于ai的檔案內容解析與智能標注系統,其特征在于:非重合篇幅均值的獲取方式為:
4.根據權利要求2所述的一種基于ai的檔案內容解析與智能標注系統,其特征在于:非重合值的獲取方式為:
5.根據權利要求2所述的一種基于ai的檔案內容解析與智能標注系統,其特征在于:解析異常值的獲取方式為:
6.根據權利要求5所述的一種基于ai的檔案內容解析與智能標注系...
【專利技術屬性】
技術研發人員:古青,周軼喆,方堃,牛勤勤,沙娟慶,朱益君,陳學連,
申請(專利權)人:國能浙江北侖第三發電有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。