• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種從新聞頁面中自動提取帶命名人臉數據的方法技術

    技術編號:14900569 閱讀:87 留言:0更新日期:2017-03-29 16:02
    本發明專利技術公開了一種從新聞頁面中自動提取帶命名人臉數據的方法,從新聞頁面中自動提取帶命名人臉數據的方法使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:從新聞網頁中提取圖像及圖像的文字描述內容、針對圖像及圖像的文字描述,進行分析、采用從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理和采用在候選數據庫里的數據之間進行精煉處理兩種策略對候選數據庫進行后處理。本發明專利技術解決了從新聞頁面中自動提取帶命名人臉數據效果不理想的問題。

    【技術實現步驟摘要】

    本專利技術屬于圖像數據處理
    ,尤其涉及一種從新聞頁面中自動提取帶命名人臉數據的方法
    技術介紹
    建立人臉庫,通常做法是手動來建立。比如說,找到一個人的頭像,手動填寫他的名字,存入數據庫,這樣建立人臉庫要耗費大量的人力物力。新聞頁面里,會有大量的圖片,而圖片通常下面會附加一行圖片說明文本。但現有技術,從新聞頁面中自動提取帶命名人臉數據效果不理想。不能自動建立人臉庫。
    技術實現思路
    本專利技術的目的在于提供一種從新聞頁面中自動提取帶命名人臉數據的方法,旨在解決但現有技術,從新聞圖文分析建立人臉庫不準確,不能自動建立人臉庫,而且現有技術建立人臉庫要耗費大量的人力物力的問題。本專利技術,通過對新聞報道里照片和照片說明文本進行分析,自動提取出人的頭像和頭像對應的人名,不依賴于人的操作即可建立人臉庫。本專利技術是這樣實現的,一種從新聞頁面中自動提取帶命名人臉數據的方法,使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:第一步,從新聞網頁中提取圖像及圖像的文字描述內容:檢測出圖像,及圖像在網頁布局里的位置;檢測出圖像下面文字段落在網頁里的位置;判斷文字是否居中,檢測出文字居中后,判斷文字是否不超過兩行,如果是,則將圖像及圖像的文字描述存儲下來;其中,新聞網頁是html代碼,html代碼里<img/>標簽標注的為圖像;使用WebKit或其它網頁渲染引擎,能夠找到每個html節點在網頁里的位置。第二步,針對圖像及圖像的文字描述,進行分析:使用人臉檢測技術,檢測出圖片中的人臉集合F;采用自然語言處理技術,對文字描述進行命名實體識別,識別出人名集合N;第三步,采用從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理和采用在候選數據庫里的數據之間進行精煉處理兩種策略對候選數據庫進行后處理。進一步,第一步中,判斷文字是否居中,判斷方法包括:文字左邊緣到圖像左邊緣的距離為d1,文字右邊緣到圖像右邊緣的距離為d2;計算d1和d2的比值,如果表示文字居中。進一步,第二步針對圖像及圖像的文字描述,進行分析中,具體包括:令(f1,f2,…fn)是檢測出來的人臉集合,(n1,n2,…nm)為檢測出來的人名集合;假設m=n=1,則認為頭像f1的名字為n1,將數據對(f1,n1)提取存儲入人臉數據庫;人臉數據庫里存儲的是確定的人臉及人名對;假設m=n>1,則將((f1,f2,…fn),(n1,n2,…,nm))存儲入候選數據庫,候選數據庫里存儲的是不確定的人臉及人名;假設則將(f1,f2,…fn)和(n1,n2,…nm)丟棄。進一步,第三步中,從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理包括:假定人臉數據庫里的人臉數據集為D={(fi,ni)|i=1,2,…k本文檔來自技高網...

    【技術保護點】
    一種從新聞頁面中自動提取帶命名人臉數據的方法,其特征在于,所述從新聞頁面中自動提取帶命名人臉數據的方法使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:第一步,從新聞網頁中提取圖像及圖像的文字描述內容:檢測出圖像,及圖像在網頁布局里的位置;檢測出圖像下面文字段落在網頁里的位置;判斷文字是否居中,檢測出文字居中后,判斷文字是否不超過兩行,如果是,則將圖像及圖像的文字描述存儲下來;第二步,針對圖像及圖像的文字描述,進行分析:使用人臉檢測技術,檢測出圖片中的人臉集合F;采用自然語言處理技術,對文字描述進行命名實體識別,識別出人名集合N;第三步,采用從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理和采用在候選數據庫里的數據之間進行精煉處理兩種策略對候選數據庫進行后處理。

    【技術特征摘要】
    1.一種從新聞頁面中自動提取帶命名人臉數據的方法,其特征在于,所述從新聞頁面中自動提取帶命名人臉數據的方法使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:第一步,從新聞網頁中提取圖像及圖像的文字描述內容:檢測出圖像,及圖像在網頁布局里的位置;檢測出圖像下面文字段落在網頁里的位置;判斷文字是否居中,檢測出文字居中后,判斷文字是否不超過兩行,如果是,則將圖像及圖像的文字描述存儲下來;第二步,針對圖像及圖像的文字描述,進行分析:使用人臉檢測技術,檢測出圖片中的人臉集合F;采用自然語言處理技術,對文字描述進行命名實體識別,識別出人名集合N;第三步,采用從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理和采用在候選數據庫里的數據之間進行精煉處理兩種策略對候選數據庫進行后處理。2.如權利要求1所述的從新聞頁面中自動提取帶命名人臉數據的方法,其特征在于,第一步中,判斷文字是否居中,判斷方法包括:...

    【專利技術屬性】
    技術研發人員:程國艮李欣杰
    申請(專利權)人:中譯語通科技北京有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩乱码人妻无码中文字幕| 久久久国产精品无码一区二区三区| 久久人妻无码中文字幕| 18禁无遮挡无码网站免费| 日韩免费无码视频一区二区三区| 老子午夜精品无码| 97无码人妻福利免费公开在线视频| 少妇人妻偷人精品无码AV| 亚洲日韩乱码中文无码蜜桃臀网站 | 无码国内精品人妻少妇蜜桃视频| 无码人妻一区二区三区一| 无码少妇一区二区| 无码区国产区在线播放| 国产高清无码毛片| 国产成人综合日韩精品无码不卡| 精品久久久久久无码专区不卡| 中文字幕无码免费久久9一区9| 精品一区二区无码AV| 天堂Av无码Av一区二区三区| 无码日韩精品一区二区免费暖暖| 宅男在线国产精品无码| 免费无码午夜福利片| 在线播放无码高潮的视频| 狼人无码精华AV午夜精品| 国产丰满乱子伦无码专| 日韩放荡少妇无码视频| 无码亚洲成a人在线观看| 东京热加勒比无码少妇| 五月天无码在线观看| 久久人午夜亚洲精品无码区 | 无码少妇丰满熟妇一区二区| 精品无码国产自产拍在线观看| 亚洲精品中文字幕无码A片老| 无码人妻H动漫中文字幕| 亚洲精品无码av片| 国产在线精品无码二区二区| 亚洲av永久无码制服河南实里| 色综合久久久无码网中文| 99精品人妻无码专区在线视频区 | 伊人久久综合精品无码AV专区 | 无码人妻一区二区三区精品视频|