• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>福州大學專利>正文

    一種基于KPCA多表索引圖像哈希檢索方法技術

    技術編號:15617351 閱讀:154 留言:0更新日期:2017-06-14 03:42
    本發明專利技術提供一種基于KPCA多表索引的圖像哈希檢索方法,其包括以下步驟:區分性特征選取,特征聚類以及多表索引構建以及哈希編碼的優化。本發明專利技術在訓練哈希投影函數之前,首先,通過基于核函數的主元分析從圖像特征維度中,選取具有區分能力的特征作為訓練集,并在此基礎上,利用特征聚類的方法獲取不同語義樣本的聚類中心,找出每類的多個最佳近鄰類,最后對聚類空間進行層次劃分,構造多個索引表。在檢索時,通過查詢多張哈希索引表以此提高檢索的性能。本發明專利技術將高維的圖像特征映射成簡單的二值碼,節省了數據的存儲空間;解決采用單表索引結構時,相似圖像之間的離散度相差較大,或者是相似特征屬性分布區間較大,即原本是相似的特征,而被映射到不同哈希編碼等問題。

    【技術實現步驟摘要】
    一種基于KPCA多表索引圖像哈希檢索方法
    本專利技術屬于圖像檢索領域,涉及到基于內容的圖像檢索方法,適用于大規模圖像檢索及高維數據的最近鄰搜索。
    技術介紹
    20世紀70年代的圖像數據庫管理系統是對圖像的語義內容進行人工標注,并采用傳統的數據庫技術或者文本信息檢索技術對相似圖像的語義關鍵字進行存儲和索引。其優點是基于成熟的數據庫檢索技術及文本內容索引技術,檢索速度比較理想。但Web頁面是與圖像關聯的文字信息而不是與圖像內容有關的特征信息,導致索引的結果部分不符合用戶的要求,而且隨著大數據時代的到來,圖像數據規模增長速度達到指數級,這種主觀性和不一致性的人工標注逐漸暴露出效率底下等缺陷。為了解決基于人工標注的文本檢索缺陷,1980年開始出現基于內容的圖像檢索技術,其方法是通過提取圖像特征并建立索引,然后計算比較這些圖像庫中圖像的特征和查詢圖像特征之間的距離,來決定兩個圖像的相似度。然而,這樣必能存在兩個重要的問題:1)圖像特征往往是一種高維化的數據,高維數據的存儲要求高,計算效率和類與類之間的區分性較低;2)對大規模數據進行線性搜索很難滿足效率要求。因此,如何對圖像高維特征進行有效索引成為一個亟需解決的問題。研究人員在這方面最早提出了以樹形結構索引算法,主要以樹形結構索引算法。基于樹的查找方法如:kd-tree,M-tree,cover-tree,metric-tree等方法,然而,樹形索引結構提高了檢索速度,但所需的存儲空間大,難以適應大規模數據檢索的要求。于此同時,基于哈希的相似度查詢方法倍受關注。基于哈希的相似度查找方法是將數據映射到低維度的漢明空間,也就是二值哈希編碼。通過查找哈希表的方式,在計算查詢樣本點和數據庫中的樣本點的相似度時只需要簡單的位操作運算,并且擁有良好的存儲效率。Chum等人將局部敏感的哈希算法(Locality-SensitiveHashing,簡稱LSH)引入到圖像哈希索引技術當中,其利用隨機投影的方式對樣本點特征進行哈希,通過構建一組哈希函數,將n維的原始特征索引成d維(d<<n),其形式定義:對于集合S,集合內元素間相似度計算公式為sim(a,b)。如果存在一個哈希函數h(*)滿足以下條件:存在一個相似度S到概率P的單調遞增映射關系,使得S中的任意兩個元素滿足,如果sim(a,b)≤R,則有P{h(a)=h(b)}≥P1;如果sim(a,b)≥(1+ξ)R則有P{h(a)≠h(b)}≤P2,其中ξ>0,P1>P2。2006年,Andoni等人又提出了Min哈希其對LSH哈希函數族進行了擴展,構造了ls范數距離下的LSH哈希函數,將空間隨機分割為固定寬度的單元,每個單元代表一個桶,通過ls和Jaccard系數作為近似最近鄰檢索的度量標準。對于高維核數據,當核函數未知情況下,LSH類方法的檢索效果并不好。為了解決這個問題,Kulisd等人將LSH擴展為核位置敏感的哈希(KernelizedLocality-SensitiveHashing,簡稱KLSH)。然而這類LSH算法采用與特征無關隨機投影的方式構建哈希函數,因此為了增加哈希碼的碰撞概率,需要較多的超平面對數據進行分割投影才能達到令人滿意的準確率。近年來,研究者為了克服LSH方法的缺點,提出了一系列的基于機器學習的哈希函數算法,利用數據局部性的特性,通過哈希函數將高維特征映射為緊湊的二進制編碼,降低了檢索時間的復雜度。這些算法中最具有代表性的是利用主成分分析(PrincipleComponentAnalysisHashing,簡稱PCAH)進行降維,從而對特征實現索引,相對于隨機的投影方式產生哈希函數的算法而言,該算法構建哈希函數依賴數據本身,提高了檢索的準確率。這類算法還包括Weiss等人提出的譜哈希算法(SpectralHashing,簡稱SpH)。通過譜分析,利用服從p(x)分布的n個離散數據點求拉普拉斯的特征方程求解。為了使算法的性能隨著哈希編碼長度的增加而得到提升,ChengLi等人采用了和局部敏感的哈希算法類似的框架,利用了數據的幾何結構特征產生投影向量,提出了一種密度敏感的哈希算法(DensitySensitiveHashing,簡稱DSH),即使在較短的哈希編碼時,密度敏感的算法在檢索性能上也得到了相應的提升。此外,YunChaoGong等人提出了迭代量化哈希算法(IterativeQuantizationHashing,簡稱ITQ)通過對相互正交的投影進行旋轉,最小化哈希函數的實數值輸出和當前哈希編碼之間的差值的平方和來構建哈希函數,使得二值哈希編碼的均衡性大大增加,性能也隨之得到顯著的改善。然而,現有的方法需要解決一個問題,圖像特征通過哈希映射函數編碼成二值哈希碼,這些映射函數不僅需要很強的判別性,而且能夠區分多類特征,否則難以保證檢索的準確性。而現有的單表索引結構的哈希方法,通常很難學習到這樣的映射函數,因此,如何在編碼位數相同的情況下,使學習到的哈希函數得到更高的檢索性能,本專利技術在構造哈希映射之前,先通過核主成分分析(KernelPrincipleComponentAnalysis,KPCA)提取圖像特征庫中,易于區分性的特征作為哈希函數訓練集,并構造多個哈希索引表的方式來解決此問題。
    技術實現思路
    本專利技術目的在于為大規模圖像哈希檢索提供一種基于KPCA判別性更強的多表索引結構的查詢方法(簡稱PMTH),為了避免采用單表索引結構時,相似圖像之間的離散度相差較大,或者是相似特征屬性分布區間較大,即原本是相似的特征,而被映射到不同哈希編碼。導致相似的樣本點,在哈希檢索時被遺漏。因此,本專利技術通過KPCA方法,獲取圖像特征庫中易于區分的特征,并通過聚類的方式學習得到多組哈希函數,最后將圖像特征映射為多串哈希碼,生成多個索引表的查詢結構。在編碼位數相同的情況下,通過查詢多個索引表的方式,并在每個索引表中計算查詢圖像哈希系列與待檢索圖像哈希系列的漢明距離,設定閾值返回相似樣本,以此提高檢索的性能。為實現上述目的,本專利技術采用如下技術方案:一種基于KPCA多表索引圖像哈希檢索方法,其包括以下步驟:步驟S1:對原始高維的特征進行特征提取,采用KPCA方式獲取區分性強的特征作為訓練集;步驟S2:采用改進的k-means聚類算法,計算特征庫中任意兩個樣本點特征向量xi和xj之間的歐幾里得距離dis(xi,xj),找到兩個距離最遠的樣本特征c0和c1,計算c0和c1中間點c2,并將這三個樣本點作為初始聚類中心;對步驟S1得到的區分性特征進行聚類量化處理,將不同特征的多類樣本n分到k個不同的組里面,并選取特征聚類中心進行二次篩選找到每類的λ個相鄰類,并將這些相鄰類歸為一組相似簇,用于學習強判別性的哈希編碼函數;步驟S3:構建多組哈希函數,根據多組哈希函數將特征庫的所有樣本特征和查詢樣本特征建立哈希索引,并將這些索引號映射到多個哈希索引表里,在查詢相似樣本特征時,通過檢索多個哈希表,提高相似樣本的召回率。進一步的,步驟S1包括以下具體步驟:step1、從特征庫Rn×m中隨機的選取部分樣本集作為初始訓練集X={x1,x2,...,xn}∈Rn×m;Step2、選擇合適的核函數k(x,xi),計算訓本文檔來自技高網
    ...
    一種基于KPCA多表索引圖像哈希檢索方法

    【技術保護點】
    一種基于KPCA多表索引圖像哈希檢索方法,其特征在于,包括以下步驟:步驟S1:對原始高維的特征進行特征提取,采用KPCA方式獲取區分性強的特征作為訓練集;步驟S2:采用改進的k?means聚類算法,計算特征庫中任意兩個樣本點特征向量x

    【技術特征摘要】
    1.一種基于KPCA多表索引圖像哈希檢索方法,其特征在于,包括以下步驟:步驟S1:對原始高維的特征進行特征提取,采用KPCA方式獲取區分性強的特征作為訓練集;步驟S2:采用改進的k-means聚類算法,計算特征庫中任意兩個樣本點特征向量xi和xj之間的歐幾里得距離dis(xi,xj),找到兩個距離最遠的樣本特征c0和c1,計算c0和c1中間點c2,并將這三個樣本點作為初始聚類中心;對步驟S1得到的區分性特征進行聚類量化處理,將不同特征的多類樣本n分到k個不同的組里面,并選取特征聚類中心進行二次篩選找到每類的λ個相鄰類,并將這些相鄰類歸為一組相似簇,用于學習強判別性的哈希編碼函數;步驟S3:構建多組哈希函數,根據多組哈希函數將特征庫的所有樣本特征和查詢樣本特征建立哈希索引,并將這些索引號映射到多個哈希索引表里,在查詢相似樣本特征時,通過檢索多個哈希表,提高相似樣本的召回率。2.根據權利要求1所述的基于KPCA多表索引圖像哈希檢索方法,其特征在于:步驟S1包括以下具體步驟:step1、從特征庫Rn×m中隨機的選取部分樣本集作為初始訓練集X={x1,x2,...,xn}∈Rn×m;Step2、選擇合適的核函數k(x...

    【專利技術屬性】
    技術研發人員:郭太良葉蕓林志賢林金堂鄧清文
    申請(專利權)人:福州大學
    類型:發明
    國別省市:福建,35

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV蜜桃永久无码精品| 无码丰满熟妇浪潮一区二区AV| 日韩精品无码永久免费网站 | 人妻中文无码久热丝袜| 久久中文精品无码中文字幕| 精品无码AV一区二区三区不卡 | 日韩精品无码人成视频手机| 中日韩精品无码一区二区三区| 久久精品无码av| 亚洲中文字幕无码亚洲成A人片| 国产亚洲美日韩AV中文字幕无码成人 | 超清无码一区二区三区| 精品人妻无码区二区三区| 永久免费av无码入口国语片| 亚洲Av永久无码精品一区二区| 亚洲A∨无码无在线观看| 一本久道中文无码字幕av| 亚洲中文字幕无码一去台湾| 午夜福利av无码一区二区| 国产成A人亚洲精V品无码| 久久精品无码一区二区日韩AV| 无码av天天av天天爽| 无码中文av有码中文a| 亚洲av无码专区在线| 亚洲的天堂av无码| 色偷偷一区二区无码视频| 无码中文字幕乱在线观看| 国产成A人亚洲精V品无码| 亚洲AV无码不卡无码| 亚洲av永久无码精品秋霞电影影院| 久久无码人妻精品一区二区三区| 久久天堂av综合色无码专区| 无码人妻一区二区三区免费| 精品久久久无码人妻中文字幕豆芽| 亚洲色无码国产精品网站可下载| 中文无码不卡的岛国片| 亚洲av无码成人影院一区| 色综合久久久无码中文字幕| av无码东京热亚洲男人的天堂| 免费无码又爽又刺激一高潮| 亚洲中文字幕无码不卡电影|