本發(fā)明專利技術(shù)公開(kāi)了一種個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法,涉及視頻處理領(lǐng)域,包括以下步驟:S1、獲取個(gè)稅APP操作視頻,并對(duì)其進(jìn)行抽幀操作,得到抽幀后的視頻;S2、將抽幀后的視頻角度調(diào)整至設(shè)定角度;S3、對(duì)當(dāng)前視頻中的圖像幀進(jìn)行目標(biāo)檢測(cè)任務(wù),獲取各個(gè)明細(xì)區(qū)域范圍;S4、對(duì)各個(gè)明細(xì)區(qū)域范圍進(jìn)行OCR文字識(shí)別,保存全部識(shí)別數(shù)據(jù);S5、基于識(shí)別數(shù)據(jù)進(jìn)行字段對(duì)比回填,得到字段回填后的數(shù)據(jù),完成個(gè)稅APP操作視頻中有效信息的自動(dòng)化提取和整理。本發(fā)明專利技術(shù)可以自動(dòng)且快速地從個(gè)稅APP操作視頻中自動(dòng)提取和整理有效信息,便于使用者核對(duì)相關(guān)數(shù)據(jù),避免出現(xiàn)財(cái)務(wù)等問(wèn)題。避免出現(xiàn)財(cái)務(wù)等問(wèn)題。避免出現(xiàn)財(cái)務(wù)等問(wèn)題。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法
[0001]本專利技術(shù)涉及視頻處理領(lǐng)域,具體涉及一種個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法。
技術(shù)介紹
[0002]深度學(xué)習(xí)是基于學(xué)習(xí)數(shù)據(jù)表示的更廣泛的機(jī)器學(xué)習(xí)方法的一部分。深度學(xué)習(xí)架構(gòu),如深度神經(jīng)網(wǎng)絡(luò),深度置信網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等,已應(yīng)用于計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別,自然語(yǔ)言處理,音頻識(shí)別,社交網(wǎng)絡(luò)過(guò)濾,機(jī)器翻譯,生物信息學(xué),藥物設(shè)計(jì),醫(yī)學(xué)圖像分析等領(lǐng)域。由深度學(xué)習(xí)框架所產(chǎn)生的模型結(jié)果可與人類專家相媲美,甚至在某些情況下優(yōu)于人類專家。
[0003]與機(jī)器學(xué)習(xí)一樣深度學(xué)習(xí)可以分為兩種:監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)。近年來(lái),深度學(xué)習(xí)技術(shù)隨著計(jì)算機(jī)算力的提高得到飛速的發(fā)展。在信息識(shí)別、推薦引擎等領(lǐng)域都取得了出色的應(yīng)用效果。同時(shí),大量實(shí)驗(yàn)結(jié)果證明深度學(xué)習(xí)模型有著良好的魯棒性和泛化性。
[0004]光學(xué)字符識(shí)別(OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程。傳統(tǒng)OCR基于圖像處理如二值化、投影分析等和統(tǒng)計(jì)機(jī)器學(xué)習(xí)實(shí)現(xiàn)。在背景單一、數(shù)據(jù)場(chǎng)景簡(jiǎn)單的情況下,傳統(tǒng)OCR能達(dá)到較好效果。基于深度學(xué)習(xí)的OCR利用模型算法能力替換傳統(tǒng)OCR的手動(dòng)方法,自動(dòng)檢測(cè)文本的類別和位置信息,并根據(jù)位置文本信息自動(dòng)識(shí)別文本內(nèi)容。在場(chǎng)景復(fù)雜、干擾多的情況下,深度學(xué)習(xí)OCR效果提升明顯。
[0005]根據(jù)識(shí)別場(chǎng)景,OCR可分為識(shí)別特定場(chǎng)景的專用OCR和識(shí)別多種場(chǎng)景的通用OCR。OCR技術(shù)的應(yīng)用領(lǐng)域廣泛,如車牌識(shí)別,證件識(shí)別,手寫(xiě)識(shí)別等。
[0006]基于計(jì)算機(jī)視覺(jué)的個(gè)稅APP視頻OCR模型主要的技術(shù)難點(diǎn)在于以下幾個(gè)方面:1.本領(lǐng)域中沒(méi)有直接對(duì)瀑布式操作的視頻進(jìn)行文本解析的技術(shù)。OCR主要用于圖像解析,所以需要將視頻拆分成每一幀的圖像進(jìn)行OCR解析。在視頻幀數(shù)多,視頻內(nèi)容變化不大的情況下,解析過(guò)程存在效率低,圖像冗余的問(wèn)題。
[0007]2.瀑布式操作的視頻內(nèi)容分頁(yè)點(diǎn)難以定位。有效解析視頻信息需要從構(gòu)成視頻的所有圖像中,找到能夠覆蓋視頻所有內(nèi)容且數(shù)量最少的圖像組。對(duì)于瀑布式操作的視頻,信息以滾動(dòng)方式呈現(xiàn),難以定位能最大程度覆蓋信息的最佳幀,且僅對(duì)最佳幀進(jìn)行OCR解析容易造成信息遺漏。
[0008]3.個(gè)稅APP視頻內(nèi)容主要是人為操作展示APP界面內(nèi)容,在操作時(shí)有手指遮擋部分內(nèi)容的情況,且遮擋方位不固定,對(duì)提取完整信息的過(guò)程增加難點(diǎn),會(huì)影響OCR識(shí)別結(jié)果的完整性。
[0009]4.對(duì)構(gòu)成視頻的圖像進(jìn)行OCR解析后存在大量重復(fù)信息,需要對(duì)信息進(jìn)行有效篩選和加工。由于視頻內(nèi)容具有連貫性,相近幀數(shù)的圖像內(nèi)容重復(fù)度高。如何高效快速篩選信息并確保信息沒(méi)有遺漏,是保證輸出數(shù)據(jù)有效和模型應(yīng)用性的重要步驟。
[0010]5.將個(gè)稅APP視頻信息提取的工作從人工轉(zhuǎn)為自動(dòng)化標(biāo)準(zhǔn)流程,需要確保該流程輸出結(jié)果的準(zhǔn)確性和有效性;確保在實(shí)際生產(chǎn)中的應(yīng)用中的適配性。
技術(shù)實(shí)現(xiàn)思路
[0011]針對(duì)現(xiàn)有技術(shù)中的上述不足,本專利技術(shù)提供的一種個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法可以自動(dòng)化提取和整理個(gè)稅APP操作視頻中的有效信息。
[0012]為了達(dá)到上述專利技術(shù)目的,本專利技術(shù)采用的技術(shù)方案為:提供一種個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法,其包括以下步驟:S1、獲取個(gè)稅APP操作視頻,并對(duì)其進(jìn)行抽幀操作,得到抽幀后的視頻;S2、將抽幀后的視頻角度調(diào)整至設(shè)定角度;S3、對(duì)當(dāng)前視頻中的圖像幀進(jìn)行目標(biāo)檢測(cè)任務(wù),獲取各個(gè)明細(xì)區(qū)域范圍;S4、對(duì)各個(gè)明細(xì)區(qū)域范圍進(jìn)行OCR文字識(shí)別,保存全部識(shí)別數(shù)據(jù);S5、基于識(shí)別數(shù)據(jù)進(jìn)行字段對(duì)比回填,得到字段回填后的數(shù)據(jù),完成個(gè)稅APP操作視頻中有效信息的自動(dòng)化提取和整理。
[0013]進(jìn)一步地,步驟S1中對(duì)個(gè)稅APP操作視頻進(jìn)行抽幀操作的具體方法為:按照每10幀抽取一幀的方式對(duì)個(gè)稅APP操作視頻進(jìn)行抽幀操作。
[0014]進(jìn)一步地,步驟S2的具體方法為:包括以下子步驟:S2
?
1、將抽幀后的視頻輸入cbr卷積模塊,得到第一輸出數(shù)據(jù);S2
?
2、將第一輸出數(shù)據(jù)輸入第一deep卷積模塊,得到第二輸出數(shù)據(jù);S2
?
3、將第二輸出數(shù)據(jù)輸入第一crc卷積模塊,得到第三輸出數(shù)據(jù);S2
?
4、將第三輸出數(shù)據(jù)輸入第二deep卷積模塊,得到第四輸出數(shù)據(jù);S2
?
5、將第四輸出數(shù)據(jù)輸入第二crc卷積模塊,得到第五輸出數(shù)據(jù);S2
?
6、將第五輸出數(shù)據(jù)輸入第三deep卷積模塊,得到第六輸出數(shù)據(jù);S2
?
7、將第六輸出數(shù)據(jù)輸入第三crc卷積模塊,得到第七輸出數(shù)據(jù);S2
?
8、將第七輸出數(shù)據(jù)輸入第四deep卷積模塊,得到第八輸出數(shù)據(jù);S2
?
9、將第八輸出數(shù)據(jù)輸入第四crc卷積模塊,得到第九輸出數(shù)據(jù);S2
?
10、將第九輸出數(shù)據(jù)輸入第五deep卷積模塊,得到第十輸出數(shù)據(jù);S2
?
11、將第十輸出數(shù)據(jù)輸入第五crc卷積模塊,得到第十一輸出數(shù)據(jù);S2
?
12、將第十一輸出數(shù)據(jù)輸入第六deep卷積模塊,得到第十二輸出數(shù)據(jù);S2
?
13、將第十二輸出數(shù)據(jù)輸入第六crc卷積模塊,得到第十三輸出數(shù)據(jù);S2
?
14、將第四輸出數(shù)據(jù)、第八輸出數(shù)據(jù)、第十一輸出數(shù)據(jù)和第十三輸出數(shù)據(jù)分別在其高度方向取平均值,對(duì)應(yīng)得到輸出數(shù)據(jù)、輸出數(shù)據(jù)、輸出數(shù)據(jù)和輸出數(shù)據(jù);S2
?
15、將輸出數(shù)據(jù)、輸出數(shù)據(jù)、輸出數(shù)據(jù)和輸出數(shù)據(jù)分別在其寬度方向取平均值,對(duì)應(yīng)得到輸出數(shù)據(jù)、輸出數(shù)據(jù)、輸出數(shù)據(jù)和輸出數(shù)據(jù);S2
?
16、將輸出數(shù)據(jù)、輸出數(shù)據(jù)、輸出數(shù)據(jù)和輸出數(shù)據(jù)進(jìn)行張量拼接,并將拼接得到的數(shù)據(jù)輸入線性層,得到將視頻角度調(diào)整至設(shè)定角度的視頻圖像數(shù)據(jù)。
[0015]進(jìn)一步地,cbr卷積模塊的公式表達(dá)式為:
其中表示cbr卷積模塊的輸出,表示cbr卷積模塊的輸入,表示卷積操作,表示批量標(biāo)準(zhǔn)化操作,表示Relu激活;crc卷積模塊的公式表達(dá)式為:其中表示crc卷積模塊的輸出,表示crc卷積模塊的輸入;deep卷積模塊的公式表達(dá)式為:其中表示deep卷積模塊的輸出,表示deep卷積模塊的輸入,表示輸入cbr卷積模塊進(jìn)行處理。
[0016]進(jìn)一步地,步驟S3的具體方法為:采用yoloV5模型對(duì)當(dāng)前視頻中的圖像幀進(jìn)行目標(biāo)檢測(cè)任務(wù),獲取各個(gè)明細(xì)區(qū)域范圍。
[0017]進(jìn)一步地,步驟S5的具體方法包括以下子步驟:S5
?
1、讀取每一張視頻幀對(duì)應(yīng)的識(shí)別數(shù)據(jù),判斷當(dāng)前視頻幀中各個(gè)區(qū)域數(shù)據(jù)是否已經(jīng)存在,若是則進(jìn)入步驟S5
?
2;否則直接保存當(dāng)前視頻幀的區(qū)域數(shù)據(jù);S5
?
2、以每個(gè)區(qū)域數(shù)據(jù)為單獨(dú)個(gè)體,判斷當(dāng)前視頻幀的區(qū)域數(shù)據(jù)是否存在OCR報(bào)錯(cuò)信息,若是則丟棄當(dāng)前視頻幀的區(qū)域數(shù)據(jù);否則進(jìn)入步驟S5
?
3;S5
?<本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法,其特征在于,包括以下步驟:S1、獲取個(gè)稅APP操作視頻,并對(duì)其進(jìn)行抽幀操作,得到抽幀后的視頻;S2、將抽幀后的視頻角度調(diào)整至設(shè)定角度;S3、對(duì)當(dāng)前視頻中的圖像幀進(jìn)行目標(biāo)檢測(cè)任務(wù),獲取各個(gè)明細(xì)區(qū)域范圍;S4、對(duì)各個(gè)明細(xì)區(qū)域范圍進(jìn)行OCR文字識(shí)別,保存全部識(shí)別數(shù)據(jù);S5、基于識(shí)別數(shù)據(jù)進(jìn)行字段對(duì)比回填,得到字段回填后的數(shù)據(jù),完成個(gè)稅APP操作視頻中有效信息的自動(dòng)化提取和整理。2.根據(jù)權(quán)利要求1所述的個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法,其特征在于,步驟S1中對(duì)個(gè)稅APP操作視頻進(jìn)行抽幀操作的具體方法為:按照每10幀抽取一幀的方式對(duì)個(gè)稅APP操作視頻進(jìn)行抽幀操作。3.根據(jù)權(quán)利要求1所述的個(gè)稅APP操作視頻中自動(dòng)化提取和整理有效信息的方法,其特征在于,步驟S2的具體方法為:包括以下子步驟:S2
?
1、將抽幀后的視頻輸入cbr卷積模塊,得到第一輸出數(shù)據(jù);S2
?
2、將第一輸出數(shù)據(jù)輸入第一deep卷積模塊,得到第二輸出數(shù)據(jù);S2
?
3、將第二輸出數(shù)據(jù)輸入第一crc卷積模塊,得到第三輸出數(shù)據(jù);S2
?
4、將第三輸出數(shù)據(jù)輸入第二deep卷積模塊,得到第四輸出數(shù)據(jù);S2
?
5、將第四輸出數(shù)據(jù)輸入第二crc卷積模塊,得到第五輸出數(shù)據(jù);S2
?
6、將第五輸出數(shù)據(jù)輸入第三deep卷積模塊,得到第六輸出數(shù)據(jù);S2
?
7、將第六輸出數(shù)據(jù)輸入第三crc卷積模塊,得到第七輸出數(shù)據(jù);S2
?
8、將第七輸出數(shù)據(jù)輸入第四deep卷積模塊,得到第八輸出數(shù)據(jù);S2
?
9、將第八輸出數(shù)據(jù)輸入第四crc卷積模塊,得到第九輸出數(shù)據(jù);S2
?
10、將第九輸出數(shù)據(jù)輸入第五deep卷積模塊,得到第十輸出數(shù)據(jù);S2
?
11、將第十輸出數(shù)據(jù)輸入第五crc卷積模塊,得到第十一輸出數(shù)據(jù);S2
?
12、將第十一輸出數(shù)據(jù)輸入第六deep卷積模塊,得到第十二輸出數(shù)據(jù);S2
?
13、將第十二輸出數(shù)據(jù)輸入第六crc卷積模塊,得到第十三輸出數(shù)據(jù);S2
?
14、將第四輸出數(shù)據(jù)、第八輸出數(shù)據(jù)、第十一輸出數(shù)據(jù)和第十三輸出數(shù)據(jù)分別在其高度方向取平均值,對(duì)應(yīng)得到...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:趙小詣,周智杰,呂文勇,周旭強(qiáng),
申請(qǐng)(專利權(quán))人:成都新希望金融信息有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。