• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于圖片信息聚類的信息批量提取方法技術(shù)

    技術(shù)編號:32752523 閱讀:40 留言:0更新日期:2022-03-20 09:02
    本發(fā)明專利技術(shù)公開了一種基于圖片信息聚類的信息批量提取方法、系統(tǒng)及計(jì)算機(jī)可讀存儲介質(zhì),方法包括:從待識別的圖像中提取出商品對象和文字對象并分類編號,確定每個(gè)對象的坐標(biāo)系;對得到的不同對象邊緣打點(diǎn)并確定所打點(diǎn)的坐標(biāo);將相鄰的不同類對象利用邊緣點(diǎn)進(jìn)行碰撞計(jì)算,若相鄰兩個(gè)不同類對象的邊緣點(diǎn)之間的距離小于預(yù)設(shè)值則將當(dāng)前兩個(gè)對象作為組合對象;將組合的對象繼續(xù)與其他對象進(jìn)行碰撞計(jì)算,若邊緣點(diǎn)之間的距離大于當(dāng)前已組合對象邊緣點(diǎn)之間距離的預(yù)設(shè)倍數(shù),則判定該對象不屬于同一組合內(nèi)對象,繼續(xù)與其他不同類對象碰撞計(jì)算,直到所有對象均組合,輸出組合對象。本發(fā)明專利技術(shù)能夠?qū)崿F(xiàn)復(fù)雜背景中關(guān)聯(lián)對象的組合識別并進(jìn)行信息提取。息提取。息提取。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于圖片信息聚類的信息批量提取方法


    [0001]本專利技術(shù)涉及互聯(lián)網(wǎng)大數(shù)據(jù)智能處理
    ,更具體地,涉及一種基于圖片信息聚類的信息批量提取方法、系統(tǒng)及計(jì)算機(jī)可讀存儲介質(zhì)。

    技術(shù)介紹

    [0002]OCR識別技術(shù)框架是互聯(lián)網(wǎng)公司經(jīng)常用來識別圖文信息的一項(xiàng)重要技術(shù),技術(shù)本身是通過掃描儀或相機(jī)等光學(xué)輸入設(shè)備獲取紙張上的文字、圖片信息,利用各種模式識別算法對文字的形態(tài)結(jié)構(gòu)進(jìn)行分析,形成相應(yīng)的字符特征描述,通過合適的字符匹配方法將圖像中的文字轉(zhuǎn)換成文本格式。
    [0003]對于大數(shù)據(jù)分析大量圖片,是一項(xiàng)很實(shí)用高效的技術(shù),但傳統(tǒng)的識別技術(shù)往往會只是單條信息的掃描方式,把識別出來的文字當(dāng)成單獨(dú)個(gè)體,并沒有識別組合內(nèi)容的功能,以塊狀掃描的方式來處理,這便經(jīng)常出現(xiàn)識別出來的單獨(dú)文字無法準(zhǔn)確得知描述對象的真實(shí)語義情況。
    [0004]現(xiàn)有技術(shù)公開了一種圖像中的對象識別方法及裝置,所述方法包括:對待識別圖像進(jìn)行預(yù)處理,獲得所述待識別圖像的二值圖像;將所述二值圖像切割成多個(gè)子區(qū)域,并從所述多個(gè)子區(qū)域中選出第一子區(qū)域,所述第一子區(qū)域?yàn)榘蓄A(yù)設(shè)像素點(diǎn)的子區(qū)域;基于不同第一子區(qū)域在所述二值圖像中的距離,對所述第一子區(qū)域進(jìn)行合并得到至少一個(gè)第二子區(qū)域;識別所述第二子區(qū)域中的目標(biāo)對象。該方案針對的是復(fù)雜背景中的對象識別,沒有解決關(guān)聯(lián)對象或組合對象的識別問題。

    技術(shù)實(shí)現(xiàn)思路

    [0005]本專利技術(shù)為克服上述現(xiàn)有的圖片信息提取方法沒有解決關(guān)聯(lián)對象或組合對象的識別提取的缺陷,提供一種基于圖片信息聚類的信息批量提取方法、系統(tǒng)及計(jì)算機(jī)可讀存儲介質(zhì)。
    [0006]本專利技術(shù)的首要目的是為解決上述技術(shù)問題,本專利技術(shù)的技術(shù)方案如下:本專利技術(shù)第一方面提供了一種基于圖片信息聚類的信息批量提取方法,包括以下步驟:S1:利用OCR識別方法從待識別的圖像中提取出商品對象和文字對象并分類編號,將每張圖像中的對象均作為獨(dú)立對象并確定每個(gè)對象的坐標(biāo)系;S2:對每個(gè)圖像中所有的商品對象和文字對象邊緣打點(diǎn),所打點(diǎn)記為邊緣點(diǎn),根據(jù)每個(gè)對象的坐標(biāo)系確定邊緣點(diǎn)的坐標(biāo);S3:將相鄰的不同類對象利用邊緣點(diǎn)進(jìn)行碰撞計(jì)算,若相鄰兩個(gè)不同類對象的邊緣點(diǎn)之間的距離小于預(yù)設(shè)值則將當(dāng)前兩個(gè)對象作為組合對象;S4:將組合的兩個(gè)對象繼續(xù)分別與其他不同類對象進(jìn)行碰撞計(jì)算,若邊緣點(diǎn)之間的距離大于當(dāng)前已組合對象之間邊緣點(diǎn)之間距離的預(yù)設(shè)倍數(shù),則判定該對象不屬于同一組合內(nèi)對象,繼續(xù)尋找其他不同類對象進(jìn)行碰撞計(jì)算,直到所有對象均已組合,輸出組合對
    象。
    [0007]進(jìn)一步的,步驟S1中利用OCR識別方法從左至右,從上至下識別掃描從待識別的圖像中提取出商品對象和文字對象。
    [0008]進(jìn)一步的,所述對每個(gè)圖像中所有的商品對象和文字對象邊緣打點(diǎn)具體過程為:確定打點(diǎn)的對象,首先在其左上角、右上角、左下角、右下角的最遠(yuǎn)距離分別取4個(gè)點(diǎn),將四點(diǎn)連線構(gòu)造成一個(gè)不規(guī)則矩形;分別取左上角到右上角、左下角到右下角、左上角到左下角、右上角到右下角的點(diǎn)與點(diǎn)之間的中心,則分別對應(yīng)確定出上、下、左、右4個(gè)點(diǎn)。
    [0009]進(jìn)一步的,所述碰撞計(jì)算過程為:將兩個(gè)對象相鄰的點(diǎn)分別記為P1和P2,點(diǎn)P1的坐標(biāo)記為(x1,y1),點(diǎn)P2的坐標(biāo)記為(x2,y2),則兩個(gè)對象在x軸相距的距離記為|x2
    ?
    x1|。
    [0010]進(jìn)一步的,步驟S4所述預(yù)設(shè)倍數(shù)為大于或等于2。
    [0011]進(jìn)一步的,步驟S4中,在繼續(xù)尋找其他不同類對象進(jìn)行碰撞計(jì)算時(shí),若沒有識別到有效數(shù)據(jù),也結(jié)束當(dāng)前流程同時(shí)輸出已組合的對象。
    [0012]進(jìn)一步的,所述碰撞計(jì)算僅在不同類型對象間進(jìn)行。
    [0013]本專利技術(shù)第二方面提供了一種基于圖片信息聚類的信息批量提取系統(tǒng),該系統(tǒng)包括:存儲器、處理器,所述存儲器中包括基于圖片信息聚類的信息批量提取方法程序,所述基于圖片信息聚類的信息批量提取方法程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如下步驟:S1:利用OCR識別方法從待識別的圖像中提取出商品對象和文字對象并分類編號,將每張圖像中的對象均作為獨(dú)立對象并確定每個(gè)對象的坐標(biāo)系;S2:對每個(gè)圖像中所有的商品對象和文字對象邊緣打點(diǎn),所打點(diǎn)記為邊緣點(diǎn),根據(jù)每個(gè)對象的坐標(biāo)系確定邊緣點(diǎn)的坐標(biāo);S3:將相鄰的不同類對象利用邊緣點(diǎn)進(jìn)行碰撞計(jì)算,若相鄰兩個(gè)不同類對象的邊緣點(diǎn)之間的距離小于預(yù)設(shè)值則將當(dāng)前兩個(gè)對象作為組合對象;S4:將組合的兩個(gè)對象繼續(xù)分別與其他不同類對象進(jìn)行碰撞計(jì)算,若邊緣點(diǎn)之間的距離大于當(dāng)前已組合對象之間邊緣點(diǎn)之間距離的預(yù)設(shè)倍數(shù),則判定該對象不屬于同一組合內(nèi)對象,繼續(xù)尋找其他不同類對象進(jìn)行碰撞計(jì)算,直到所有對象均已組合,輸出組合對象。
    [0014]進(jìn)一步的,步驟S1中利用OCR識別方法從左至右,從上至下識別掃描從待識別的圖像中提取出商品對象和文字對象。
    [0015]本專利技術(shù)第三方面提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中包括一種基于圖片信息聚類的信息批量提取方法程序,所述一種基于圖片信息聚類的信息批量提取方法程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的一種基于圖片信息聚類的信息批量提取方法的步驟。
    [0016]與現(xiàn)有技術(shù)相比,本專利技術(shù)技術(shù)方案的有益效果是:本專利技術(shù)首先對圖片中的不同對象進(jìn)行識別分類,然后對不同獨(dú)立對象進(jìn)行距離計(jì)算進(jìn)而將不同對象進(jìn)行組合,本專利技術(shù)能夠?qū)崿F(xiàn)復(fù)雜背景中關(guān)聯(lián)對象的組合識別并進(jìn)行信息提取。
    附圖說明
    [0017]圖1為本專利技術(shù)一種基于圖片信息聚類的信息批量提取方法流程圖。
    [0018]圖2為本專利技術(shù)實(shí)施例識別效果圖。
    [0019]圖3為本專利技術(shù)實(shí)施例不同對象相鄰點(diǎn)示意圖。
    [0020]圖4為本專利技術(shù)實(shí)施例不同對象相鄰點(diǎn)匹配示意圖。
    [0021]圖5為本專利技術(shù)實(shí)施例已組合對象相鄰點(diǎn)碰撞計(jì)算示意圖。
    具體實(shí)施方式
    [0022]為了能夠更清楚地理解本專利技術(shù)的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對本專利技術(shù)進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。
    [0023]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本專利技術(shù),但是,本專利技術(shù)還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本專利技術(shù)的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
    [0024]實(shí)施例1如圖1所示,本專利技術(shù)第一方面提供了一種基于圖片信息聚類的信息批量提取方法,包括以下步驟:S1:利用OCR識別方法從待識別的圖像中提取出商品對象和文字對象并分類編號,將每張圖像中的對象均作為獨(dú)立對象并確定每個(gè)對象的坐標(biāo)系;在一個(gè)具體的實(shí)施例中,例如在一張商品促銷廣告詳情圖,圖片中有多個(gè)手機(jī)圖像、多個(gè)對應(yīng)的商品價(jià)格,并且圖像+文字為上下布局,從左到右排列,如圖2所示,手機(jī)圖像下方帶有商品名稱、商品價(jià)格,這時(shí)便需要將他們識別成一個(gè)組合,指這段文字名稱、價(jià)格對應(yīng)的是這個(gè)手機(jī)圖像。
    [0025]首先需從待識別的圖像中提取出商品對象和文字對象,可以采用OCR識別方法從左至右,從上至下識別掃描分別提取出商品對象和文字對象,例如商品對象001,文字對象00本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種基于圖片信息聚類的信息批量提取方法,其特征在于,包括以下步驟:S1:利用OCR識別方法從待識別的圖像中提取出商品對象和文字對象并分類編號,將每張圖像中的對象均作為獨(dú)立對象并確定每個(gè)對象的坐標(biāo)系;S2:對每個(gè)圖像中所有的商品對象和文字對象邊緣打點(diǎn),所打點(diǎn)記為邊緣點(diǎn),根據(jù)每個(gè)對象的坐標(biāo)系確定邊緣點(diǎn)的坐標(biāo);S3:將相鄰的不同類對象利用邊緣點(diǎn)進(jìn)行碰撞計(jì)算,若相鄰兩個(gè)不同類對象的邊緣點(diǎn)之間的距離小于預(yù)設(shè)值則將當(dāng)前兩個(gè)對象作為組合對象;S4:將組合的兩個(gè)對象繼續(xù)分別與其他不同類對象進(jìn)行碰撞計(jì)算,若邊緣點(diǎn)之間的距離大于當(dāng)前已組合對象之間邊緣點(diǎn)之間距離的預(yù)設(shè)倍數(shù),則判定該對象不屬于同一組合內(nèi)對象,繼續(xù)尋找其他不同類對象進(jìn)行碰撞計(jì)算,直到所有對象均已組合,輸出組合對象。2.根據(jù)權(quán)利要求1所述的一種基于圖片信息聚類的信息批量提取方法,其特征在于,步驟S1中利用OCR識別方法從左至右,從上至下識別掃描從待識別的圖像中提取出商品對象和文字對象。3.根據(jù)權(quán)利要求1所述的一種基于圖片信息聚類的信息批量提取方法,其特征在于,所述對每個(gè)圖像中所有的商品對象和文字對象邊緣打點(diǎn)具體過程為:確定打點(diǎn)的對象,首先在其左上角、右上角、左下角、右下角的最遠(yuǎn)距離分別取4個(gè)點(diǎn),將四點(diǎn)連線構(gòu)造成一個(gè)不規(guī)則矩形;分別取左上角到右上角、左下角到右下角、左上角到左下角、右上角到右下角的點(diǎn)與點(diǎn)之間的中心,則分別對應(yīng)確定出上、下、左、右4個(gè)點(diǎn)。4.根據(jù)權(quán)利要求1所述的一種基于圖片信息聚類的信息批量提取方法,其特征在于,所述碰撞計(jì)算過程為:將兩個(gè)對象相鄰的邊緣點(diǎn)分別記為P1和P2,點(diǎn)P1的坐標(biāo)記為(x1,y1),點(diǎn)P2的坐標(biāo)記為(x2,y2),則兩個(gè)對象在x軸相距的距離記為|x2
    ?
    x1|。5.根據(jù)權(quán)利要求1所述的一種基于圖片信息聚類的信息批量提取方法,其特征在于,步驟S4所述預(yù)設(shè)倍數(shù)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:紀(jì)俊光黎慧燕陳學(xué)言
    申請(專利權(quán))人:廣東數(shù)源智匯科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码一区二区三区亚洲桃色 | 亚洲国产成AV人天堂无码| 亚洲a∨无码精品色午夜| 国产品无码一区二区三区在线 | 日韩亚洲AV无码一区二区不卡| 中文字幕乱偷无码av先锋蜜桃| 无码专区一va亚洲v专区在线 | 色窝窝无码一区二区三区 | 无码任你躁久久久久久老妇App| 精品久久久无码中字| 无码丰满少妇2在线观看| 日韩久久无码免费毛片软件| 亚洲综合无码一区二区三区| 亚洲熟妇无码乱子AV电影| 人妻在线无码一区二区三区| 亚洲AV无码日韩AV无码导航| 日韩乱码人妻无码中文字幕视频 | 国产乱人伦Av在线无码| 免费A级毛片无码久久版 | 亚洲Av无码乱码在线播放| 999久久久无码国产精品| 日韩人妻无码精品一专区| 国产成人无码精品久久久性色| 国产在线无码精品无码| 2020无码专区人妻系列日韩| 亚洲精品无码永久在线观看男男 | 综合无码一区二区三区| 免费无码又爽又刺激毛片| 无码人妻一区二区三区av| 亚洲av无码专区首页| 亚洲AV无码专区亚洲AV桃| 亚洲人AV在线无码影院观看| 白嫩少妇激情无码| 亚洲精品无码久久久久牙蜜区| 亚洲av日韩av无码av| 97人妻无码一区二区精品免费| 99精品人妻无码专区在线视频区 | 日韩精品真人荷官无码| 无码少妇一区二区三区浪潮AV| 麻豆亚洲AV永久无码精品久久| 人妻丰满熟妇AV无码区乱|