本發(fā)明專利技術(shù)公開了一種基于多特征融合的圖像檢索方法,通過融合使用兩種不同層次且具有互補(bǔ)性的淺層視覺特征和深度學(xué)習(xí)特征,實(shí)現(xiàn)對(duì)圖像的內(nèi)容特征提取,能準(zhǔn)確地描述圖像特征,提高圖像檢索的可靠性和檢索的魯棒性。本發(fā)明專利技術(shù)設(shè)計(jì)的融合特征結(jié)合圖像淺層視覺特征的幾何不變性和深度學(xué)習(xí)特征的高層語義特性,優(yōu)于傳統(tǒng)特征及單一特征;本發(fā)明專利技術(shù)對(duì)融合特征進(jìn)行PCA降維處理,得到的特征維度較低,在特征比對(duì)速度、特征存儲(chǔ)空間上有較大優(yōu)勢(shì);本發(fā)明專利技術(shù)設(shè)計(jì)的多特征融合方式簡(jiǎn)單,檢索流程高效,檢索準(zhǔn)確率高。檢索準(zhǔn)確率高。檢索準(zhǔn)確率高。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于多特征融合的圖像檢索方法
[0001]本專利技術(shù)屬于圖像檢索
,具體涉及一種基于多特征融合的圖像檢索方法。
技術(shù)介紹
[0002]圖像檢索是信息檢索和機(jī)器視覺領(lǐng)域的研究重點(diǎn)之一,圖像檢索是指檢索系統(tǒng)使用者在一定范圍圖像數(shù)據(jù)庫內(nèi)尋找符合自己所需的圖像的行為。圖像檢索技術(shù)按照對(duì)圖像的描述方法的不同可以分為兩類:一類是基于文本的圖像檢索,另一類是基于內(nèi)容的圖像檢索。基于文本的圖像檢索技術(shù)依靠人工文本標(biāo)注的方法來實(shí)現(xiàn)對(duì)圖像內(nèi)容的描述,從而通過搜索關(guān)鍵詞的方式實(shí)現(xiàn)圖像檢索,因此存在人工注解工作量巨大、主觀性強(qiáng)以及文本注解無法完全涵蓋圖像本身內(nèi)容等缺點(diǎn);而基于內(nèi)容的圖像檢索從圖像自身內(nèi)容出發(fā),有效克服文本注釋過程中存在的歧義問題。
[0003]目前圖像的內(nèi)容特征可以被分為淺層視覺特征和深度學(xué)習(xí)特征;淺層視覺特征主要是指圖像表述的直觀內(nèi)容特征,通常包括顏色、紋理、形狀等全局特征以及SIFT等局部特征,其中SIFT局部特征對(duì)圖像旋轉(zhuǎn)、尺度縮放、亮度等變換具有不變性,因此被廣泛應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域。深度學(xué)習(xí)特征是從深度神經(jīng)網(wǎng)絡(luò)中提取的圖像特征,通過數(shù)據(jù)訓(xùn)練的方式,可以自主地學(xué)習(xí)圖像復(fù)雜的特征表示,可以提取圖像的高層語義信息,與淺層視覺特征相比可以有效地降低“語義鴻溝”帶來的誤差,實(shí)現(xiàn)更好的檢索效果。
[0004]文獻(xiàn)[Babenko A,Slesarev A,Chigorin A,et al.Neural codes for image retrieval[C]//European conference on computer vision.Springer,Cham,2014:584
?
599]中提出從ImageNet上預(yù)訓(xùn)練的CNN模型的全連接層提取圖像特征用于圖像檢索場(chǎng)景,取得了不錯(cuò)的效果,但全連接層特征缺少一定的幾何不變性,在圖像檢索中仍然存在一定的問題。以上這些基于單一特征提取的檢索方法的不足,推動(dòng)了基于多特征融合的圖像檢索方法研究。文獻(xiàn)[Zheng L,Wang S,Liu Z,et al.Packing and padding:Coupled multi
?
index for accurate image retrieval[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2014:1939
?
1946]中提出耦合多維度索引,融合SIFT和顏色特征,通過裝箱和填補(bǔ)策略提高檢索的準(zhǔn)確率和召回率,但越高的索引維度會(huì)導(dǎo)致越稀疏的倒排列表,增加訪問排排列表的時(shí)間。
[0005]由此可見,目前基于多特征融合的圖像檢索方法往往存在融合方法流程復(fù)雜導(dǎo)致特征提取和融合用時(shí)增加、多種特征的使用和融合導(dǎo)致圖像特征維度的升高進(jìn)而導(dǎo)致檢索用時(shí)大幅增加等缺點(diǎn)。
技術(shù)實(shí)現(xiàn)思路
[0006]鑒于上述,本專利技術(shù)提供了一種基于多特征融合的圖像檢索方法,通過融合使用兩種不同層次且具有互補(bǔ)性的淺層視覺特征和深度學(xué)習(xí)特征,實(shí)現(xiàn)對(duì)圖像的內(nèi)容特征提取,能準(zhǔn)確地描述圖像特征,提高圖像檢索的可靠性和檢索的魯棒性。
[0007]一種基于多特征融合的圖像檢索方法,包括如下步驟:
[0008](1)對(duì)目標(biāo)圖像進(jìn)行SIFT特征提取,利用預(yù)訓(xùn)練好的視覺詞典對(duì)SIFT特征進(jìn)行編碼,作為目標(biāo)圖像的淺層視覺特征;
[0009](2)將預(yù)處理后的目標(biāo)圖像輸入到預(yù)訓(xùn)練好的Resnet50神經(jīng)網(wǎng)絡(luò)中提取卷積層特征,作為目標(biāo)圖像的深度學(xué)習(xí)特征;
[0010](3)分別對(duì)目標(biāo)圖像的淺層視覺特征和深度學(xué)習(xí)特征進(jìn)行L2范數(shù)歸一化,然后將歸一化后的特征進(jìn)行加權(quán)串聯(lián)并結(jié)合PCA(Principal Component Analysis)降維處理,從而得到目標(biāo)圖像的融合特征;
[0011](4)將目標(biāo)圖像的融合特征與特征庫中的所有圖像特征向量進(jìn)行比對(duì),并采用查詢擴(kuò)展的方式,最終獲得檢索結(jié)果。
[0012]進(jìn)一步地,所述步驟(1)中視覺詞典的預(yù)訓(xùn)練過程為:利用圖像數(shù)據(jù)集,提取數(shù)據(jù)集中每張圖像的SIFT特征向量,使用K
?
means聚類算法對(duì)這些特征向量的集合進(jìn)行聚類,最終把特征向量集合劃分為多個(gè)簇,每個(gè)簇的聚類中心即可視為視覺詞典中的視覺單詞。
[0013]進(jìn)一步地,所述步驟(1)中使用局部特征編碼算法對(duì)目標(biāo)圖像的SIFT特征進(jìn)行編碼,該編碼算法采用多近鄰軟分配聚合SIFT局部特征,通過距離比值計(jì)算SIFT特征向量與n個(gè)近鄰視覺單詞的隸屬度,隸屬度的計(jì)算公式如下:
[0014][0015]其中:x
i
為目標(biāo)圖像的SIFT特征向量,n表示為SIFT特征向量x
i
分配的近鄰視覺單詞數(shù)量,b
j
為分配的第j個(gè)近鄰視覺單詞,u
ij
為SIFT特征向量x
i
在近鄰視覺單詞b
j
上的隸屬度,β為平滑因子控制函數(shù)的變化率。
[0016]進(jìn)一步地,所述步驟(2)的具體實(shí)現(xiàn)方式為:首先將目標(biāo)圖像的尺寸縮放至224
×
224像素大小,并去均值化處理;然后將處理后的目標(biāo)圖像輸入至預(yù)訓(xùn)練好的Resnet50神經(jīng)網(wǎng)絡(luò)中,提取該神經(jīng)網(wǎng)絡(luò)第5個(gè)卷積層輸出的特征圖譜,并將其聚合成一維特征向量作為目標(biāo)圖像的深度學(xué)習(xí)特征。
[0017]進(jìn)一步地,所述Resnet50神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練過程為:首先使用在ImageNet數(shù)據(jù)集上訓(xùn)練的權(quán)重參數(shù)對(duì)Renset50神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化,然后在圖像數(shù)據(jù)集上進(jìn)行遷移訓(xùn)練,即將Resnet50神經(jīng)網(wǎng)絡(luò)作為一個(gè)softmax分類器進(jìn)行訓(xùn)練,訓(xùn)練過程中采用交叉熵?fù)p失函數(shù)和mini
?
batch優(yōu)化器通過正向傳播和反向傳播的方式按批次對(duì)該神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移訓(xùn)練。
[0018]進(jìn)一步地,采用RMAC(Regional Maximum Activations of Convolutions)編碼的方式將特征圖譜聚合成一維特征向量,具體實(shí)現(xiàn)為:對(duì)于特征圖譜中任一層二維的特征圖,首先利用多尺度滑動(dòng)窗口的策略在該特征圖上進(jìn)行均勻采樣,其中第l個(gè)尺度的滑動(dòng)窗口所對(duì)應(yīng)的正方形邊長(zhǎng)為2
×
min(W,H)/(l+1),W和H為特征圖的寬和高,這些正方形窗口在特征圖上滑動(dòng),相鄰窗口之間具有不少于40%的重疊面積;然后對(duì)各個(gè)尺度滑動(dòng)窗口所提取的所有局部區(qū)域的特征響應(yīng)極大值求和,得到特征圖的RMAC特征值;最后將所有特征圖的RMAC特征值組合成一維向量的形式即作為目標(biāo)圖像的深度學(xué)習(xí)特征。
[0019]進(jìn)一步地,所述步驟(4)的具體實(shí)現(xiàn)方式為:首先將目標(biāo)圖像的融合特征作為初始查詢向量F0與特征庫中的所有圖像特征向量進(jìn)行相似度計(jì)算,查找出相似度最近的k個(gè)圖
像特征向量{F1,F2,
…
,F
k
};然后通過以下公式計(jì)算F0與{F1,F2,
本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種基于多特征融合的圖像檢索方法,包括如下步驟:(1)對(duì)目標(biāo)圖像進(jìn)行SIFT特征提取,利用預(yù)訓(xùn)練好的視覺詞典對(duì)SIFT特征進(jìn)行編碼,作為目標(biāo)圖像的淺層視覺特征;(2)將預(yù)處理后的目標(biāo)圖像輸入到預(yù)訓(xùn)練好的Resnet50神經(jīng)網(wǎng)絡(luò)中提取卷積層特征,作為目標(biāo)圖像的深度學(xué)習(xí)特征;(3)分別對(duì)目標(biāo)圖像的淺層視覺特征和深度學(xué)習(xí)特征進(jìn)行L2范數(shù)歸一化,然后將歸一化后的特征進(jìn)行加權(quán)串聯(lián)并結(jié)合PCA降維處理,從而得到目標(biāo)圖像的融合特征;(4)將目標(biāo)圖像的融合特征與特征庫中的所有圖像特征向量進(jìn)行比對(duì),并采用查詢擴(kuò)展的方式,最終獲得檢索結(jié)果。2.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:所述步驟(1)中視覺詞典的預(yù)訓(xùn)練過程為:利用圖像數(shù)據(jù)集,提取數(shù)據(jù)集中每張圖像的SIFT特征向量,使用K
?
means聚類算法對(duì)這些特征向量的集合進(jìn)行聚類,最終把特征向量集合劃分為多個(gè)簇,每個(gè)簇的聚類中心即可視為視覺詞典中的視覺單詞。3.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:所述步驟(1)中使用局部特征編碼算法對(duì)目標(biāo)圖像的SIFT特征進(jìn)行編碼,該編碼算法采用多近鄰軟分配聚合SIFT局部特征,通過距離比值計(jì)算SIFT特征向量與n個(gè)近鄰視覺單詞的隸屬度,隸屬度的計(jì)算公式如下:其中:x
i
為目標(biāo)圖像的SIFT特征向量,n表示為SIFT特征向量x
i
分配的近鄰視覺單詞數(shù)量,b
j
為分配的第j個(gè)近鄰視覺單詞,u
ij
為SIFT特征向量x
i
在近鄰視覺單詞b
j
上的隸屬度,β為平滑因子控制函數(shù)的變化率。4.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:所述步驟(2)的具體實(shí)現(xiàn)方式為:首先將目標(biāo)圖像的尺寸縮放至224
×
224像素大小,并去均值化處理;然后將處理后的目標(biāo)圖像輸入至預(yù)訓(xùn)練好的Resnet50神經(jīng)網(wǎng)絡(luò)中,提取...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張華熊,江寧遠(yuǎn),
申請(qǐng)(專利權(quán))人:浙江理工大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。