【技術實現步驟摘要】
本專利技術屬于圖像數據處理
,尤其涉及一種從新聞頁面中自動提取帶命名人臉數據的方法。
技術介紹
建立人臉庫,通常做法是手動來建立。比如說,找到一個人的頭像,手動填寫他的名字,存入數據庫,這樣建立人臉庫要耗費大量的人力物力。新聞頁面里,會有大量的圖片,而圖片通常下面會附加一行圖片說明文本。但現有技術,從新聞頁面中自動提取帶命名人臉數據效果不理想。不能自動建立人臉庫。
技術實現思路
本專利技術的目的在于提供一種從新聞頁面中自動提取帶命名人臉數據的方法,旨在解決但現有技術,從新聞圖文分析建立人臉庫不準確,不能自動建立人臉庫,而且現有技術建立人臉庫要耗費大量的人力物力的問題。本專利技術,通過對新聞報道里照片和照片說明文本進行分析,自動提取出人的頭像和頭像對應的人名,不依賴于人的操作即可建立人臉庫。本專利技術是這樣實現的,一種從新聞頁面中自動提取帶命名人臉數據的方法,使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:第一步,從新聞網頁中提取圖像及圖像的文字描述內容:檢測出圖像,及圖像在網頁布局里的位置;檢測出圖像下面文字段落在網頁里的位置;判斷文字是否居中,檢測出文字居中后,判斷文字是否不超過兩行,如果是,則將圖像及圖像的文字描述存儲下來;其中,新聞網頁是html代碼,html代碼里<img/>標簽標注的為圖像;使用WebKit或其它網頁渲染引擎,能夠找到每個html節點在網頁里的位置。第二步,針對圖像及圖像的文字描述,進行分析:使用人臉檢測技術,檢測出圖片中的人臉集合F; ...
【技術保護點】
一種從新聞頁面中自動提取帶命名人臉數據的方法,其特征在于,所述從新聞頁面中自動提取帶命名人臉數據的方法使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:第一步,從新聞網頁中提取圖像及圖像的文字描述內容:檢測出圖像,及圖像在網頁布局里的位置;檢測出圖像下面文字段落在網頁里的位置;判斷文字是否居中,檢測出文字居中后,判斷文字是否不超過兩行,如果是,則將圖像及圖像的文字描述存儲下來;第二步,針對圖像及圖像的文字描述,進行分析:使用人臉檢測技術,檢測出圖片中的人臉集合F;采用自然語言處理技術,對文字描述進行命名實體識別,識別出人名集合N;第三步,采用從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理和采用在候選數據庫里的數據之間進行精煉處理兩種策略對候選數據庫進行后處理。
【技術特征摘要】
1.一種從新聞頁面中自動提取帶命名人臉數據的方法,其特征在于,所述從新聞頁面中自動提取帶命名人臉數據的方法使用人臉檢測技術從圖片里檢測出人臉,使用自然語言處理技術從說明文本中檢測出人名,來自動提取標注人名的人臉圖像數據;具體步驟包括:第一步,從新聞網頁中提取圖像及圖像的文字描述內容:檢測出圖像,及圖像在網頁布局里的位置;檢測出圖像下面文字段落在網頁里的位置;判斷文字是否居中,檢測出文字居中后,判斷文字是否不超過兩行,如果是,則將圖像及圖像的文字描述存儲下來;第二步,針對圖像及圖像的文字描述,進行分析:使用人臉檢測技術,檢測出圖片中的人臉集合F;采用自然語言處理技術,對文字描述進行命名實體識別,識別出人名集合N;第三步,采用從人臉數據庫采用相似頭像對候選數據庫里的數據進行精煉處理和采用在候選數據庫里的數據之間進行精煉處理兩種策略對候選數據庫進行后處理。2.如權利要求1所述的從新聞頁面中自動提取帶命名人臉數據的方法,其特征在于,第一步中,判斷文字是否居中,判斷方法包括:...
【專利技術屬性】
技術研發人員:程國艮,李欣杰,
申請(專利權)人:中譯語通科技北京有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。