System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于文件審查,具體的說是一種基于ocr識別的文件智能審查系統及審查方法。
技術介紹
1、招標技術規范書作為招標采購技術活動的指導性文件,對于保證技術活動的正確性和一致性具有重要意義,而技術規范書等材料審查是當前電網公司物資部門在統籌開展招標采購管理工作過程中最為重要的環節之一。
2、目前,公司招標技術規范書材料審查主要依靠人工方式開展,審查人員需要花費大量的時間和精力對技術規范書進行逐字逐句的閱讀和審查,而且由于人為因素的存在,不同審查人員由于主觀等原因可能對同一標準有不同理解,繼而按照自己的理解方式進行審查,容易造成審查結果的失準。
3、公司每年都有大批量項目進行招標采購,且各批次招標采購項目多、類型雜,導致技術規范書審查的工作效率和質量因人而異,整體材料審查效果難以得到有效提升與保證。業務需求部門提交的項目技術規范書等招標采購材料往往存在格式不一、材料類型多樣等顯性問題,例如存在以pdf等圖像存儲的非結構化格式提交的情況,這對高效開展招標采購材料審查提出了更大挑戰。
4、為此,本專利技術提供一種基于ocr識別的文件智能審查系統及審查方法。
技術實現思路
1、為了彌補現有技術的不足,解決
技術介紹
中所提出的至少一個技術問題。
2、本專利技術解決其技術問題所采用的技術方案是:本專利技術所述的一種基于ocr識別的文件智能審查系統,包括:
3、文本識別模塊:所述文本識別模塊用于識別文件類型,所述文件類型包括結構化資料文
4、ocr處理模塊:所述ocr處理模塊用于識別非結構化資料文本,并將非結構化資料文本轉化為結構化資料文本;
5、特征判別模塊:所述特征判別模塊用于判別結構化資料文本特征是否符合審查標準特征,所述審查標準特征包括:格式特征、一致性特征、規范性特征、排除性特征;
6、若符合審查標準特征,則對應的文件輸出合格信號;
7、否則,對應的文件輸出不合格信號。
8、優選的,基于文件的特征是否符合審查標準特征具體為:
9、首先對文件進行格式特征判別審查;
10、若文件不符合格式特征,則對應的文件直接輸出不合格信號;若文件符合格式特征,則對應的文件繼續判別一致性特征審查;
11、若文件不符合一致性特征,則對應的文件直接輸出不合格信號;若文件符合一致性特征,則對應的文件繼續判別規范性特征審查;
12、若文件不符合規范性特征,則對應的文件直接輸出不合格信號;若文件符合規范性特征,則對應的文件繼續判別排除性特征審查;
13、若文件不符合排除性特征,則對應的文件直接輸出不合格信號;若文件符合排除性特征,則對應的文件輸出合格信號;
14、通過將文件按照:格式特征-一致性特征-規范性特征-排除性特征進行審查,若從前往后其中一項出現問題,則對應的文件則直接不合格,不需要將四個特征全部進行審查,能快速的對文件進行審查,提高了審查效率,有利于招標文件的篩分以及制定。
15、優選的,所述格式特征的判別標準如下:
16、收集文件特定的格式標準歷史數據,并將特定的格式標準歷史數據輸入審查模型內;所述格式標準歷史數據包括:字體、行間距和段落標記;如pdf或word文檔的固定模板,可以通過檢查文檔的元數據來確定其格式是否符合要求;
17、若審查模型監測輸入的文件格式特征不正確,則認為不符合格式特征審查要求,則對應的文件直接輸出不合格信號;
18、若審查模型監測輸入的文件格式類型正確,則認為符合格式特征審查要求,并繼續監測一致性特征;
19、需要說明的是,其中文件格式特征不正確可以理解為,在該招標文件里,其中字體、行間距和段落標記其中一項出現問題時,則直接標記為此招標文件不合格,并且不需要進行后續的其他特征審查,如此提高了審查效率;
20、所述一致性特征的判別標準如下:
21、創建包含所有關鍵信息字段的清單,所述關鍵信息包括日期、金額、聯系人信息、項目名稱和招標編號等,確保這些字段在招標文件的每個部分都被正確填寫和一致使用;
22、將輸入的文件與創建的清單相對比;
23、若文件中存在不一致的關鍵信息,則認為不符合一致性特征審查要求,則對應的文件輸出不合格信號;
24、若文件中的關鍵信息全部一致,則符合一致性特征審查要求,并繼續進行規范性特征審查;
25、具體的,當招標文件的格式特征符合標準后,則繼續進行一致性特征審查,其中若日期、金額、聯系人信息、項目名稱和招標編號出現問題,則直接判定對應的招標文件不合格,且無需進行后續的特征判定,操作較為方便,且判別速率高;
26、所述規范性特征審查標準如下:
27、制定文件中規范性信息,所述規范性信息包括投標人的資質、業績等投標人資格要求和評標標準;
28、將輸入的文件與規范性信息相對比:
29、若缺少任何必要的條款或條件,則認為不符合規范性特征審查要求,且對應的文件輸出不合格信號;
30、若條款或條件符合規范信息,則繼續進行排除性特征審查;
31、具體的,當招標文件的格式特征以及一致性特征都合格后,則繼續進行規范性特征判別,若規范性特征不合格,則直接輸出對應的招標文件不合格,且后續的特征判別無需進行;
32、所述排除性特征審查標準如下:
33、建立包含所有需要排除的敏感詞匯列表,這些詞匯包括但不限于違反道德標準、法律法規或具有歧視性、傾向性的內容,例如,任何可能指向特定供應商、特定產品或者非法限定供應商的所有制形式、組織形式的詞匯都應視為敏感詞匯;
34、通過審查模型識別并排除不符合特定標準的文件,例如排除包含特定敏感詞匯或不符合道德標準的文件;
35、隨著法律法規的更新和市場環境的變化,敏感詞匯需要不斷更新以適應新的標準和要求;
36、若文件包含任何敏感詞匯,則不符合排除性特征審查要求,且對應的文件輸出不合格信號;
37、若文件不包含任何敏感詞匯,則對應文件輸出合格信號。
38、優選的,基于審查模型監測輸入的文件包括:
39、將格式特征,一致性特征,規范性特征以及排除性特征建立特征審查規則庫,并將特征審查規則庫儲存于審查模型中;
40、通過審查模型全文檢索和特征審查規則庫檢測文件是否符合審查規則;
41、按照特征審查規則庫以及審查模型的全文檢索,若文件符合特征審查規則庫的特征,則對應的文件合格,若文件不符合特征審查規則庫的其中一項特征,則對應的文件不合格,且通過審查模型和特征審查規則庫的特征輸出對應不合格文件的異常問題。
42、優選的,基于審查模型全文檢索具體操作步驟為:
43、s1:將招標材料的文本內容導入審查模型,本文檔來自技高網...
【技術保護點】
1.一種基于OCR識別的文件智能審查系統,其特征在于:包括:
2.根據權利要求1所述的一種基于OCR識別的文件智能審查系統,其特征在于:基于審查模型監測輸入的文件包括:
3.根據權利要求2所述的一種基于OCR識別的文件智能審查系統,其特征在于:
4.根據權利要求1所述的一種基于OCR識別的文件智能審查系統,其特征在于:
5.根據權利要求4所述的一種基于OCR識別的文件智能審查系統,其特征在于:所述傾斜校正的具體操作步驟為:
6.根據權利要求5所述的一種基于OCR識別的文件智能審查系統,其特征在于:
7.根據權利要求6所述的一種基于OCR識別的文件智能審查系統,其特征在于:基于二值化處理包括:選取灰度化后的圖像,設定圖像閾值,將選定的閾值應用到灰度圖像上,將每個像素值與閾值進行比較;
8.一種基于OCR識別的文件智能審查方法,其特征在于:包括以下步驟:
【技術特征摘要】
1.一種基于ocr識別的文件智能審查系統,其特征在于:包括:
2.根據權利要求1所述的一種基于ocr識別的文件智能審查系統,其特征在于:基于審查模型監測輸入的文件包括:
3.根據權利要求2所述的一種基于ocr識別的文件智能審查系統,其特征在于:
4.根據權利要求1所述的一種基于ocr識別的文件智能審查系統,其特征在于:
5.根據權利要求4所述的一種基于ocr識別的文件智能...
【專利技術屬性】
技術研發人員:胡波,安海軍,史雷,孫道盛,沈繼芳,高蓮君,甘榮,王新儒,羅希亮,時娟,蘇雯,樊斌,王毅,張娟,李雪,何方,王治利,王曉強,
申請(專利權)人:國網甘肅省電力公司蘭州供電公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。