一種基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測方法,涉及機器學習以及模式識別領域。本發(fā)明專利技術是面向人臉識別中的欺騙問題提出的。傳統(tǒng)的人臉識別技術很容易被攻擊,攻擊者經(jīng)常采用照片、視頻以及3D模型等方法對合法用戶的人臉進行復制。如果人臉識別系統(tǒng)不能有效地區(qū)分真實人臉和假冒人臉,入侵者就很容易以假冒身份通過識別系統(tǒng)?;谶@個問題,本發(fā)明專利技術提出了一種針基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測方法。本發(fā)明專利技術所提出的方法中的卷積神經(jīng)網(wǎng)絡是基于cuda_convnet框架實現(xiàn)的,網(wǎng)絡結構包括四個卷積層,兩個max?pooling層,以及一個全連接層和一個soft?max層,soft?max層包括兩個神經(jīng)元,用來預測真假人臉的概率分布。
【技術實現(xiàn)步驟摘要】
本專利技術涉及機器學習和模式識別領域,具體涉及一種基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測的研究和實現(xiàn)。
技術介紹
人臉識別是生物特征技術的一項熱門的研究領域,與其他生物特征技術相比,人臉識別技術具有非接觸性、友好性等優(yōu)勢。人臉識別系統(tǒng)已經(jīng)在越來越多的場合進行使用,例如移動終端解鎖系統(tǒng)、電腦開機登錄系統(tǒng)、門禁系統(tǒng)。另外,人臉識別還應用在刑事偵查,監(jiān)控系統(tǒng)等領域。但是,在人臉識別技術迅速發(fā)展的背后,存在著巨大的安全隱患。人臉識別系統(tǒng)可以判別人臉的真實身份,但是卻無法判別攝像頭前的人臉圖像是來自合法用戶還是非法用戶。因為,非法用戶可以使用合法用戶的照片,視頻,或者3D模型來欺騙人臉識別系統(tǒng)。國際知名的信息安全會議Black Hat指出,目前大部分的人臉識別系統(tǒng)都可以被一張彩色的打印照片所攻擊。所以人臉識別技術目前還存在嚴重的安全隱患。針對上述人臉識別技術遇到的這一挑戰(zhàn),人臉活體檢測技術應運而生。并且人臉活體檢測技術的研究已經(jīng)成為生物認證領域的一個研究熱點。人臉識別技術的主要攻擊包括:照片,視頻,以及3D模型。人臉假冒欺騙手段的多樣化給人臉欺騙檢測技術的研究帶來了極大的挑戰(zhàn)。真實人臉與假冒人臉兩者的主要區(qū)別主要來自一下三個方面:(1)圖像紋理:假冒的人臉圖像經(jīng)過了二次采集甚至更多次采集。經(jīng)過多次采集之后,圖像的紋理信息會發(fā)生變化。(2)三維結構:真實人臉是三維結構,而照片人臉以及視頻人臉都是二維結構。(3)運動模式:運動模式包括兩方面,一方面是人臉自身的運動,這種運動模式多種多樣,例如眨眼運動,嘴唇運動以及表情的變化等等。照片人臉很難模擬出這樣的運動,而視頻可以通過人機
交互將其區(qū)分開。二是人臉與背景間的相對運動。人臉照片或者屏幕往往比人臉區(qū)域要大,這一區(qū)域與人臉具有相同的運動模式,真實人臉與背景的運動模式是不相同的。因此可以通過人臉以及背景的運動模式進行比較來區(qū)分真實人臉與假冒人臉。本專利技術主要以圖像紋理的區(qū)別來判斷真實人臉以及假冒人臉。
技術實現(xiàn)思路
本專利技術提供了一種基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測方法。該方法可以判斷人臉圖像是活體的還是非活體的,從而防止非法用戶使用合法用戶的照片、視頻進行欺騙。傳統(tǒng)的活體人臉檢測算法都是基于手工特征提取的,一種有效的手工特征需要經(jīng)過很多實驗以及改進算法,也需要經(jīng)過很長時間才能設計出來,而卷積神經(jīng)網(wǎng)絡不需要手工設計特征,只需要設計網(wǎng)絡結構,訓練參數(shù)即可。該方法主要步驟包括:A、對攝像頭采集的視頻進行分幀采樣;B、對樣本圖像進行預處理,包括兩種處理方法:1.對樣本圖像進行人臉檢測,所使用的檢測方法是基于adaboost的人臉檢測算法,檢測到人臉之后將人臉區(qū)域裁剪出來,并將所有人臉圖像歸一化到X*X像素;2.不進行人臉檢測,直接將整幅圖像(包括人臉區(qū)域以及背景區(qū)域)歸一化到X*X像素。C、利用卷積神經(jīng)網(wǎng)絡對歸一化后的圖像進行特征提??;進一步,所述步驟C具體包括:C1、設計卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構。該網(wǎng)絡結構包括一個輸入層,4個卷積層一個全連接層以及一個soft-max層。輸入層的圖像大小是X*X,包括RGB三個通道,所以輸入為X*X*3。輸入層的圖像在進行卷積神經(jīng)網(wǎng)絡處理前需要進行預處理,將X*X像素的圖像的四個角進行裁剪,并將圖像再以中心為基準進行裁剪,裁剪后總共得到5幅大小為S*S像素(S<X)的圖像,然后將5幅圖像進行水平翻轉。這樣一幅圖像經(jīng)過裁剪以及翻轉后可得到10幅圖像。第
一個卷積層與第二個卷積層的是權值共享的,它們分別包括64個卷積核,每個卷積核的大小為5*5。在第一個卷積層與第二個卷積層后面分別連接了一個max-pooling層,max-pooling層的大小為3*3。一幅S*S像素的圖像經(jīng)過第一個卷積層后可得到64個S*S的圖像塊,即特征圖。經(jīng)過第一個max-pooling層后,得到64個S1*S1像素(S1=S/2)的特征圖,特征圖的大小變?yōu)樵瓉淼囊话?,也就是說經(jīng)過max-pooling層后進行了降維,特征向量的維數(shù)變?yōu)樵瓉淼囊话?。這樣,經(jīng)過第二個卷積層與第二個max-pooling層后,特征圖的大小為S2*S2像素(S2=S1/2),又縮減為原來的一半。第三個卷積層與第四個卷積層沒有權值共享,它們分別包括32個卷積核,每個卷積核的大小為3*3。全連接層由n個神經(jīng)元組成,它與第四個卷積層是全連接狀態(tài),所以,經(jīng)過全連接層后,就可得到一個n維的特征向量。最后一層是soft-max層,包括兩個神經(jīng)元,這兩個神經(jīng)元就對應著一幅圖像在真實人臉與及假冒人臉的二分類上的概率分布。C2、網(wǎng)絡結構設計完成之后,需要對網(wǎng)絡進行訓練,但是在訓練網(wǎng)絡之前需要把數(shù)據(jù)庫中的圖像轉換成卷積網(wǎng)絡可讀的文件類型,而且需要把訓練集分成m(m>1)個batch。C3、使用前m-1個batch進行訓練,第m個batch進行驗證,學習率為10-2,迭代次數(shù)為1000-1500;C4、m個batch一起進行訓練,仍然使用第m個batch進行驗證,學習率為10-3,再迭代1000-1500次;C5、學習率降低為10-4,最后再迭代500-100次。D、統(tǒng)計測試集中每幅人臉圖像的概率分布,將一段視頻中所有樣本人臉圖像的概率最大值所對應的類別作為該視頻的分類結果。進一步,所述步驟D具體包括:D1、對測試集的圖像經(jīng)過步驟A,B的處理后生成batch文件,并將batch文件作為卷積網(wǎng)絡的輸入,進行特征提取以及真假概率分布的計算。D2、將測試集中每段視頻的所有樣本人臉圖像的概率最大值所對應的類
別作為該視頻的分類結果。附圖說明:圖1是基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測框架示意圖。圖2是卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構示意圖。圖3是網(wǎng)絡(人臉圖像作為輸入)第一層濾波器可視化示意圖圖4是網(wǎng)絡(整幅圖像作為輸入)第一層濾波器可視化示意圖圖5是在Replay-attack數(shù)據(jù)庫的實驗結果示意圖。圖6是在CASIA-FASD數(shù)據(jù)庫的實驗結果示意圖。具體實施方式:下面將結合附圖及實施案例對本專利技術的技術方案進行更詳細的說明。本專利技術的整體框架如說明書附圖1所示,分為人臉檢測,特征提取以及分類三個部分。A、對攝像頭采集的視頻進行分幀采樣,視頻總共有270幀,每隔10幀采一張樣本圖像;B、對樣本圖像進行預處理,包括兩種處理方法:1.對樣本圖像進行人臉檢測,所使用的檢測方法是基于adaboost的人臉檢測算法,檢測到人臉之后將人臉區(qū)域裁剪出來,并將所有人臉圖像歸一化到32*32像素;2.不進行人臉檢測,直接將整幅圖像(包括人臉區(qū)域以及背景區(qū)域)歸一化到32*32像素。C、利用卷積神經(jīng)網(wǎng)絡對歸一化后的圖像進行特征提取,卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構如說明書附圖2所示;進一步,所述步驟C具體包括:C1、設計卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構。該網(wǎng)絡結構包括一個輸入層,4個卷積層一個全連接層以及一個soft-max層。輸入層的圖像大小是32*32,包括RGB三個通道,所以輸入為32*32*3。輸入層的圖像在進行卷積神經(jīng)網(wǎng)絡處理
前需要進行預處理,將32*32的圖像的四個角進行裁剪,并將圖像再以中心為基準進行裁剪,總共得到5幅大小為24*24像素的圖像,然后將5幅圖像進行水平翻轉。這樣一幅圖像經(jīng)過裁剪以及翻轉后可得到10幅圖本文檔來自技高網(wǎng)...
【技術保護點】
一種基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測方法,其特征在于,包括以下步驟:A、對攝像頭采集的視頻進行分幀采樣;B、對樣本圖像進行歸一化;C、利用卷積神經(jīng)網(wǎng)絡對歸一化后的圖像進行特征提??;步驟C具體包括:C1、設計卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構;該網(wǎng)絡結構包括一個輸入層,4個卷積層一個全連接層以及一個soft?max層;輸入層的圖像大小是X*X,包括RGB三個通道,所以輸入為X*X*3;輸入層的圖像在進行卷積神經(jīng)網(wǎng)絡處理前需要進行預處理,將X*X像素的圖像的四個角進行裁剪,并將圖像再以中心為基準進行裁剪,裁剪后總共得到5幅大小為S*S像素(S<X)的圖像,然后將5幅圖像進行水平翻轉;這樣一幅圖像經(jīng)過裁剪以及翻轉后得到10幅圖像;第一個卷積層與第二個卷積層的是權值共享的,它們分別包括64個卷積核,每個卷積核的大小為5*5;在第一個卷積層與第二個卷積層后面分別連接了一個max?pooling層,max?pooling層的大小為3*3;一幅S*S像素的圖像經(jīng)過第一個卷積層后得到64個S*S的圖像塊,即特征圖;經(jīng)過第一個max?pooling層后,得到64個S1*S1像素的特征圖,S1=S/2,特征圖的大小變?yōu)樵瓉淼囊话?,也就是說經(jīng)過max?pooling層后進行了降維,特征向量的維數(shù)變?yōu)樵瓉淼囊话?;這樣,經(jīng)過第二個卷積層與第二個max?pooling層后,特征圖的大小為S2*S2像素,S2=S1/2又縮減為原來的一半;第三個卷積層與第四個卷積層沒有權值共享,它們分別包括32個卷積核,每個卷積核的大小為3*3;全連接層由n個神經(jīng)元組成,它與第四個卷積層是全連接狀態(tài),所以,經(jīng)過全連接層后,就得到一個n維的特征向量;最后一層是soft?max層,包括兩個神經(jīng)元,這兩個神經(jīng)元就對應著一幅圖像在真實人臉與及假冒人臉的二分類上的概率分布;C2、網(wǎng)絡結構設計完成之后,把數(shù)據(jù)庫中的圖像轉換成卷積網(wǎng)絡可讀的文件類型,而且需要把訓練集分成m個batch,m>1;C3、使用前m?1個batch進行訓練,第m個batch進行驗證,學習率為10?2,迭代次數(shù)為1000?1500;C4、m個batch一起進行訓練,仍然使用第m個batch進行驗證,學習率為10?3,再迭代1000?1500次;C5、學習率降低為10?4,最后再迭代500?100次;D、統(tǒng)計測試集中每幅人臉圖像的概率分布,將一段視頻中所有樣本人臉圖像的概率最大值所對應的類別作為該視頻的分類結果。...
【技術特征摘要】
1.一種基于卷積神經(jīng)網(wǎng)絡的活體人臉檢測方法,其特征在于,包括以下步驟:A、對攝像頭采集的視頻進行分幀采樣;B、對樣本圖像進行歸一化;C、利用卷積神經(jīng)網(wǎng)絡對歸一化后的圖像進行特征提??;步驟C具體包括:C1、設計卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構;該網(wǎng)絡結構包括一個輸入層,4個卷積層一個全連接層以及一個soft-max層;輸入層的圖像大小是X*X,包括RGB三個通道,所以輸入為X*X*3;輸入層的圖像在進行卷積神經(jīng)網(wǎng)絡處理前需要進行預處理,將X*X像素的圖像的四個角進行裁剪,并將圖像再以中心為基準進行裁剪,裁剪后總共得到5幅大小為S*S像素(S<X)的圖像,然后將5幅圖像進行水平翻轉;這樣一幅圖像經(jīng)過裁剪以及翻轉后得到10幅圖像;第一個卷積層與第二個卷積層的是權值共享的,它們分別包括64個卷積核,每個卷積核的大小為5*5;在第一個卷積層與第二個卷積層后面分別連接了一個max-pooling層,max-pooling層的大小為3*3;一幅S*S像素的圖像經(jīng)過第一個卷積層后得到64個S*S的圖像塊,即特征圖;經(jīng)過第一個max-pooling層后,得到64個S1*S1像素的特征圖,S1=S/2,特征圖的大小變?yōu)樵瓉淼囊话耄簿褪钦f經(jīng)過max-pooling層后進行了降維,特征向量的維數(shù)變?yōu)樵瓉淼囊话?;這樣,經(jīng)過第二個卷積層與第二個max-pooling層后,特征圖的大小為S2*S2像素,S2=...
【專利技術屬性】
技術研發(fā)人員:毋立芳,許曉,漆薇,賀嬌瑜,徐姚文,張洪嘉,
申請(專利權)人:北京工業(yè)大學,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。