System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及文字識(shí)別,尤其涉及一種適用于發(fā)票的買賣方名稱識(shí)別方法及裝置。
技術(shù)介紹
1、在現(xiàn)代商業(yè)活動(dòng)中,發(fā)票是企業(yè)日常經(jīng)營(yíng)的重要憑證之一,無論是企業(yè)內(nèi)部的財(cái)務(wù)管理、稅務(wù)申報(bào),還是與合作伙伴的業(yè)務(wù)往來,發(fā)票的處理和管理都顯得至關(guān)重要。隨著科技的進(jìn)步,電子發(fā)票的普及和發(fā)展極大地提升了發(fā)票處理的效率。與此同時(shí),發(fā)票的自動(dòng)化識(shí)別成為了企業(yè)管理系統(tǒng)中的關(guān)鍵一環(huán)。
2、在發(fā)票自動(dòng)化識(shí)別過程中,通常引入光學(xué)字符識(shí)別(ocr)進(jìn)行文本數(shù)據(jù)的提取,但是在復(fù)雜的應(yīng)用場(chǎng)景中,由于發(fā)票圖像的質(zhì)量問題,發(fā)票可能因?yàn)榇蛴〔磺逦D像分辨率低、紙張損壞等原因,使得ocr技術(shù)難以準(zhǔn)確識(shí)別出發(fā)票中的所有信息。不同的字體類型和字符復(fù)雜度,導(dǎo)致識(shí)別準(zhǔn)確率下降。ocr技術(shù)在處理購買方、銷售方等關(guān)鍵信息時(shí),往往因?yàn)樽中螐?fù)雜、字符模糊、詞庫不全等原因出現(xiàn)錯(cuò)字和漏字的情況。這些問題不僅影響發(fā)票的識(shí)別精度,還可能導(dǎo)致后續(xù)企業(yè)管理和財(cái)務(wù)處理中的數(shù)據(jù)錯(cuò)誤。
3、ocr技術(shù)在發(fā)票識(shí)別中的應(yīng)用已有多年的發(fā)展,盡管技術(shù)水平不斷提升,但針對(duì)發(fā)票中關(guān)鍵信息的高精度識(shí)別依然是一個(gè)亟待解決的問題。特別是在購買方和銷售方的名稱識(shí)別上,由于漢字的多樣性和復(fù)雜性,現(xiàn)有技術(shù)尚未能完全滿足實(shí)際應(yīng)用的需求。
技術(shù)實(shí)現(xiàn)思路
1、鑒于此,本專利技術(shù)實(shí)施例提供了一種適用于發(fā)票的買賣方名稱識(shí)別方法及裝置,以消除或改善現(xiàn)有技術(shù)中存在的一個(gè)或更多個(gè)缺陷,克服現(xiàn)有技術(shù)中對(duì)發(fā)票買賣方名稱識(shí)別過程中存在錯(cuò)字和漏字的問題。
2、本專利技術(shù)
3、獲取待處理的發(fā)票圖像以及發(fā)票類型,采用光學(xué)字符識(shí)別識(shí)別模型對(duì)所述發(fā)票圖像做識(shí)別得到初步識(shí)別結(jié)果;
4、根據(jù)所述發(fā)票類型選擇預(yù)設(shè)關(guān)鍵詞,在所述初步識(shí)別結(jié)果中定位所述預(yù)設(shè)關(guān)鍵詞,獲取與所述預(yù)設(shè)關(guān)鍵詞銜接文本信息確認(rèn)為賣方和賣方的名稱信息,所述名稱信息包括漢字位置、字間間距、以及識(shí)別到的每個(gè)漢字在字庫中的位置下標(biāo)和置信度;
5、根據(jù)各漢字之間的字間間距按照預(yù)設(shè)規(guī)則判斷是否存在漏字;以及判斷所述名稱信息中各漢字是否存在置信度小于第一設(shè)定值的疑似錯(cuò)字;
6、執(zhí)行名稱信息糾錯(cuò)和補(bǔ)齊,包括:
7、若僅存在所述漏字,則根據(jù)所述名稱信息中置信度大于所述第一設(shè)定值的正確字以及各正確字之間的字間間距查找預(yù)設(shè)名稱數(shù)據(jù)庫查找第一類候選名稱,所述第一類候選名稱與所述名稱信息通過所述正確字的位置對(duì)齊,采用所述第一類候選名稱補(bǔ)齊所述名稱信息中的漏字并輸出;
8、若僅存在所述疑似錯(cuò)字,則剔除所述疑似錯(cuò)字,根據(jù)所述名稱信息中置信度大于所述第一設(shè)定值的正確字以及各正確字之間的字間間距查找所述預(yù)設(shè)名稱數(shù)據(jù)庫查找一個(gè)或多個(gè)第二類候選名稱,所述第二類候選名稱與所述名稱信息通過所述正確字的位置對(duì)齊,獲取各所述第二類候選名稱中與所述疑似錯(cuò)字位置對(duì)齊的候選漢字;將每個(gè)所述疑似錯(cuò)字以及與之對(duì)應(yīng)的各候選漢字轉(zhuǎn)化為漢字結(jié)構(gòu)描述序列,并進(jìn)行相似度比對(duì),利用相似度最高的所述候選漢字對(duì)所述疑似錯(cuò)字進(jìn)行替換糾錯(cuò)并輸出;
9、若同時(shí)存在所述漏字和所述疑似錯(cuò)字時(shí),則剔除所述疑似錯(cuò)字,根據(jù)所述名稱信息中置信度大于所述第一設(shè)定值的正確字以及各正確字之間的字間間距查找所述預(yù)設(shè)名稱數(shù)據(jù)庫查找一個(gè)或多個(gè)第三類候選名稱,所述第三類候選名稱與所述名稱信息通過所述正確字的位置對(duì)齊,獲取各所述第三類候選名稱中與所述疑似錯(cuò)字位置對(duì)齊的候選漢字;將每個(gè)所述疑似錯(cuò)字以及與之對(duì)應(yīng)的各候選漢字轉(zhuǎn)化為漢字結(jié)構(gòu)描述序列,并進(jìn)行相似度比對(duì),利用相似度最高的所述候選漢字對(duì)所述疑似錯(cuò)字進(jìn)行替換糾錯(cuò),以及對(duì)所述漏字進(jìn)行補(bǔ)齊;
10、若不存在所述漏字或所述疑似錯(cuò)字,則輸出識(shí)別到的所述名稱信息,并保存至所述預(yù)設(shè)名稱數(shù)據(jù)庫。
11、在一些實(shí)施例中,所述方法還包括:
12、執(zhí)行名稱信息糾錯(cuò)和補(bǔ)齊過程中僅存在所述漏字的情況下,當(dāng)存在多個(gè)第一類候選名稱時(shí),生成第一類提示信息并輸出;
13、執(zhí)行名稱信息糾錯(cuò)和補(bǔ)齊過程中僅存在所述疑似錯(cuò)字的情況下,當(dāng)存在多個(gè)不同的所述第二類候選漢字,并與所述疑似錯(cuò)字相似度相同且最高時(shí),生成第二類提示信息并輸出;
14、執(zhí)行名稱信息糾錯(cuò)和補(bǔ)齊過程中同時(shí)存在所述漏字和所述疑似錯(cuò)字的情況下,當(dāng)存在多個(gè)不同的所述第三類候選漢字,并與所述疑似錯(cuò)字相似度相同且最高時(shí),生成第三類提示信息并輸出;當(dāng)存在多個(gè)所述第三類候選漢字與所述疑似錯(cuò)字相似度相同且最高時(shí),且各所述第三類候選漢字中與所述漏字對(duì)齊的漢字不同時(shí),或生成第四類提示信息并輸出。
15、在一些實(shí)施例中,所述方法還包括:執(zhí)行名稱信息糾錯(cuò)和補(bǔ)齊過程中,不存在所述漏字或所述疑似錯(cuò)字,且各漢字置信度高于第二設(shè)定值的情況下,將識(shí)別到的所述名稱信息加入所述預(yù)設(shè)名稱數(shù)據(jù)庫。
16、在一些實(shí)施例中,所述名稱信息采用數(shù)組表達(dá),其中非零數(shù)字表示所述光學(xué)字符識(shí)別識(shí)別模型識(shí)別到的漢字在所述字庫中的位置下標(biāo),漢字間的距離采用字符0標(biāo)記,所述非零數(shù)字間所述字符0的數(shù)量正比于相應(yīng)漢字間的距離。
17、在一些實(shí)施例中,根據(jù)各漢字之間的字間間距按照預(yù)設(shè)規(guī)則判斷是否存在漏字,包括:
18、采用所述數(shù)組中所述非零數(shù)字間間隔的字符數(shù)作為對(duì)應(yīng)漢字間的距離,并取中值;
19、設(shè)置倍數(shù)閾值,若漢字間的距離大于所述中值與所述倍數(shù)閾值的積,則表示相應(yīng)漢字間存在漏字。
20、在一些實(shí)施例中,所述預(yù)設(shè)名稱數(shù)據(jù)庫按照設(shè)定間隔時(shí)長(zhǎng)連接稅務(wù)部門服務(wù)器進(jìn)行更新。
21、在一些實(shí)施例中,所述第一設(shè)定值大于等于85%,所述第二設(shè)定值大于等于99%。
22、另一方面,本專利技術(shù)還提供一種適用于發(fā)票的買賣方名稱識(shí)別裝置,包括處理器、存儲(chǔ)器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序/指令,所述處理器用于執(zhí)行所述計(jì)算機(jī)程序/指令,當(dāng)所述計(jì)算機(jī)程序/指令被執(zhí)行時(shí)該裝置實(shí)現(xiàn)上述方法的步驟。
23、另一方面,本專利技術(shù)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
24、另一方面,本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)述方法的步驟。
25、本專利技術(shù)的有益效果至少是:
26、本專利技術(shù)所述適用于發(fā)票的買賣方名稱識(shí)別方法及裝置,基于光學(xué)字符識(shí)別待處理的發(fā)票圖像,按照發(fā)票類型對(duì)應(yīng)的關(guān)鍵詞,查找與之銜接的買賣雙方名稱信息。對(duì)于識(shí)別到的名稱信息,根據(jù)字間間距核查是否存在漏字,根據(jù)置信度判斷是否有疑似錯(cuò)字。區(qū)分僅存在漏字,僅存在疑似錯(cuò)字,同時(shí)存在漏字和疑似錯(cuò)字,以及不存在漏字或疑似錯(cuò)字四種情況,借助預(yù)設(shè)名稱數(shù)據(jù)庫根據(jù)識(shí)別到的正確字及其字間距查找對(duì)應(yīng)的候選名稱,再基于候選名稱對(duì)疑似錯(cuò)字或漏字進(jìn)行糾錯(cuò)和補(bǔ)齊。對(duì)于識(shí)別到的沒有漏字或疑似錯(cuò)字的名稱信息,事實(shí)加入預(yù)設(shè)名稱數(shù)據(jù)庫進(jìn)不斷行更新,實(shí)現(xiàn)了識(shí)別的自動(dòng)化和自適應(yīng)優(yōu)化,提升識(shí)別精度。
<本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述名稱信息采用數(shù)組表達(dá),其中非零數(shù)字表示所述光學(xué)字符識(shí)別識(shí)別模型識(shí)別到的漢字在所述字庫中的位置下標(biāo),漢字間的距離采用字符0標(biāo)記,所述非零數(shù)字間所述字符0的數(shù)量正比于相應(yīng)漢字間的距離。
5.根據(jù)權(quán)利要求4所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,根據(jù)各漢字之間的字間間距按照預(yù)設(shè)規(guī)則判斷是否存在漏字,包括:
6.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述預(yù)設(shè)名稱數(shù)據(jù)庫按照設(shè)定間隔時(shí)長(zhǎng)連接稅務(wù)部門服務(wù)器進(jìn)行更新。
7.根據(jù)權(quán)利要求3所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述第一設(shè)定值大于等于85%,所述第二設(shè)定值大于等于99%。
8.一種適用于發(fā)票
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
...【技術(shù)特征摘要】
1.一種適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,所述名稱信息采用數(shù)組表達(dá),其中非零數(shù)字表示所述光學(xué)字符識(shí)別識(shí)別模型識(shí)別到的漢字在所述字庫中的位置下標(biāo),漢字間的距離采用字符0標(biāo)記,所述非零數(shù)字間所述字符0的數(shù)量正比于相應(yīng)漢字間的距離。
5.根據(jù)權(quán)利要求4所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在于,根據(jù)各漢字之間的字間間距按照預(yù)設(shè)規(guī)則判斷是否存在漏字,包括:
6.根據(jù)權(quán)利要求1所述的適用于發(fā)票的買賣方名稱識(shí)別方法,其特征在...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:姜勇,楊雷,李印,邱文勤,
申請(qǐng)(專利權(quán))人:中企云鏈股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。