【技術(shù)實(shí)現(xiàn)步驟摘要】
【國(guó)外來(lái)華專利技術(shù)】?jī)?yōu)先權(quán)要求本申請(qǐng)根據(jù)35USC§119(e)要求于2014年6月20日提交的美國(guó)專利申請(qǐng)序列號(hào)62/015,107的優(yōu)先權(quán),其全部?jī)?nèi)容通過(guò)引用并入本文。
技術(shù)介紹
本說(shuō)明書涉及圖像處理。互聯(lián)網(wǎng)提供對(duì)各種資源的訪問(wèn),諸如視頻或音頻文件、針對(duì)特定主題的網(wǎng)頁(yè)、書籍文章或新聞文章。有許多資源可用,并且為了幫助用戶找到他們可能感興趣的資源,許多公司已經(jīng)開發(fā)了響應(yīng)于查詢來(lái)識(shí)別資源的搜索系統(tǒng)。對(duì)于文本搜索,搜索查詢通常是術(shù)語(yǔ)和短語(yǔ)。對(duì)于圖像搜索,例如靜止圖像和視頻的搜索,搜索查詢可以是圖像,或術(shù)語(yǔ)和短語(yǔ),或圖像、術(shù)語(yǔ)和短語(yǔ)的組合。搜索系統(tǒng)響應(yīng)于查詢對(duì)資源進(jìn)行排名,并提供鏈接到所識(shí)別的資源的搜索結(jié)果。搜索結(jié)果通常被排序以根據(jù)排名進(jìn)行查看。當(dāng)搜索圖像時(shí),搜索系統(tǒng)可以使用被訓(xùn)練過(guò)的模型函數(shù)來(lái)識(shí)別與搜索查詢圖像相似的圖像。可以使用各種模型函數(shù)。許多這些被訓(xùn)練的模型被優(yōu)化以識(shí)別屬于相同類別的圖像。
技術(shù)實(shí)現(xiàn)思路
本說(shuō)明書描述了與圖像處理相關(guān)的技術(shù),特別是訓(xùn)練圖像嵌入函數(shù)以區(qū)分屬于相同類別的圖像之間的差異并識(shí)別屬于相同類別的圖像之間的相似性。一般來(lái)說(shuō),本說(shuō)明書中描述的主題的一個(gè)創(chuàng)新方面可以體現(xiàn)在包括圖像三元組上迭代地訓(xùn)練圖像嵌入函數(shù)的動(dòng)作的方法中,所述嵌入函數(shù)包括參數(shù)權(quán)重集合,所述參數(shù)權(quán)重集合作用于輸出圖像以產(chǎn)生圖像特征的表示作為輸出,訓(xùn)練的每個(gè)迭代包括:選擇圖像三元組,每個(gè)圖像三元組是第一圖像、第二圖像和第三圖像的組合,其中度量第一圖像與第二圖像的相似性的第一成對(duì)相關(guān)性得分大于度量第一圖像與第三圖像的相似性的第二成對(duì)相關(guān)性得分;對(duì)于每個(gè)圖像三元組:提供第一、第二和第三圖像中的每一個(gè)作為圖像 ...
【技術(shù)保護(hù)點(diǎn)】
一種由數(shù)據(jù)處理裝置執(zhí)行的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括:在圖像三元組上迭代地訓(xùn)練圖像嵌入函數(shù),所述嵌入函數(shù)包括參數(shù)權(quán)重的集合,所述參數(shù)權(quán)重在輸入圖像上進(jìn)行操作以產(chǎn)生所述圖像的特征的表示作為輸出,所述訓(xùn)練的每個(gè)迭代包括:選擇圖像三元組,每個(gè)圖像三元組是第一圖像、第二圖像和第三圖像的組合,其中度量所述第一圖像與所述第二圖像的相似性的第一成對(duì)相關(guān)性得分大于度量所述第一圖像與所述第三圖像的相似性的第二成對(duì)相關(guān)性得分;對(duì)于每個(gè)圖像三元組:提供所述第一圖像、第二圖像和第三圖像中的每一個(gè)作為所述圖像嵌入函數(shù)的輸入;通過(guò)所述圖像嵌入函數(shù)生成所述第一圖像的特征的第一表示、所述第二圖像的特征的第二表示和所述第三圖像的特征的第三表示;基于特征的所述第一表示和特征的所述第二表示,確定度量所述第一圖像與所述第二圖像的相似性的第一相似性度量;基于特征的所述第一表示和特征的所述第三表示,確定度量所述第一圖像與所述第三圖像的相似性的第二相似性度量;基于所述第一相似性度量和第二相似性度量,確定所述圖像三元組的所述圖像嵌入函數(shù)的性能度量;基于所述圖像三元組的所述性能度量,調(diào)整所述圖像嵌入函數(shù)的所述參數(shù)權(quán)重;及執(zhí)行訓(xùn)練的另 ...
【技術(shù)特征摘要】
【國(guó)外來(lái)華專利技術(shù)】2014.06.20 US 62/015,1071.一種由數(shù)據(jù)處理裝置執(zhí)行的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括:在圖像三元組上迭代地訓(xùn)練圖像嵌入函數(shù),所述嵌入函數(shù)包括參數(shù)權(quán)重的集合,所述參數(shù)權(quán)重在輸入圖像上進(jìn)行操作以產(chǎn)生所述圖像的特征的表示作為輸出,所述訓(xùn)練的每個(gè)迭代包括:選擇圖像三元組,每個(gè)圖像三元組是第一圖像、第二圖像和第三圖像的組合,其中度量所述第一圖像與所述第二圖像的相似性的第一成對(duì)相關(guān)性得分大于度量所述第一圖像與所述第三圖像的相似性的第二成對(duì)相關(guān)性得分;對(duì)于每個(gè)圖像三元組:提供所述第一圖像、第二圖像和第三圖像中的每一個(gè)作為所述圖像嵌入函數(shù)的輸入;通過(guò)所述圖像嵌入函數(shù)生成所述第一圖像的特征的第一表示、所述第二圖像的特征的第二表示和所述第三圖像的特征的第三表示;基于特征的所述第一表示和特征的所述第二表示,確定度量所述第一圖像與所述第二圖像的相似性的第一相似性度量;基于特征的所述第一表示和特征的所述第三表示,確定度量所述第一圖像與所述第三圖像的相似性的第二相似性度量;基于所述第一相似性度量和第二相似性度量,確定所述圖像三元組的所述圖像嵌入函數(shù)的性能度量;基于所述圖像三元組的所述性能度量,調(diào)整所述圖像嵌入函數(shù)的所述參數(shù)權(quán)重;及執(zhí)行訓(xùn)練的另一個(gè)迭代,直到發(fā)生停止事件。2.根據(jù)權(quán)利要求1所述的方法,其中:確定度量所述第一圖像與所述第二圖像的所述相似性的所述第一相似性度量包括:根據(jù)所述第一圖像的所述特征的所述第一表示和所述第二圖像的所述特征的所述第二表示來(lái)確定第一距離度量;及確定度量所述第一圖像與所述第三圖像的所述相似性的所述第二相似性度量包括:根據(jù)所述第一圖像的所述特征的所述第一表示和所述第二圖像的所述特征的所述第二表示來(lái)確定第二距離度量。3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中:所述圖像嵌入函數(shù)生成歐幾里得空間中的所述圖像的映射作為特征的所述輸出表示;確定度量所述第一圖像與所述第二圖像的所述相似性的所述第一相似性度量包括:確定所述第一圖像的所述特征的所述第一表示與所述第二圖像的所述特征的所述第二表示之間的第一歐幾里德距離;及確定度量所述第一圖像與所述第三圖像的所述相似性的所述第二相似性度量包括:確定所述第一圖像的所述特征的所述第一表示與所述第三圖像的所述特征的所述第三表示之間的第二歐幾里德距離。4.根據(jù)權(quán)利要求3所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中確定所述圖像三元組的所述圖像嵌入函數(shù)的性能度量包括:基于所述第一歐幾里得距離和所述第二歐幾里得距離來(lái)確定所述性能度量。5.根據(jù)權(quán)利要求4所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中基于所述第一歐幾里德距離和所述第二歐幾里德距離來(lái)確定所述性能度量包括:基于所述第一歐幾里德距離和所述第二歐幾里德距離的差來(lái)確定鉸鏈損失。6.根據(jù)權(quán)利要求5所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括:對(duì)所述圖像三元組的鉸鏈損失求和;確定所述鉸鏈損失的和是否滿足最小化準(zhǔn)則;及當(dāng)所述鉸鏈損失的所述和滿足所述最小化準(zhǔn)則時(shí),確定所述停止事件發(fā)生。7.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述圖像嵌入函數(shù)包括:第一卷積神經(jīng)網(wǎng)絡(luò),所述第一卷積神經(jīng)網(wǎng)絡(luò)具有第一數(shù)量的卷積層,并且被訓(xùn)練以將多個(gè)圖像分類成多個(gè)不同的類,并且被配置為接收第一分辨率的圖像作為輸入;第二卷積神經(jīng)網(wǎng)絡(luò),所述第二卷積神經(jīng)網(wǎng)絡(luò)具有第二數(shù)量的卷積層,并且被訓(xùn)練以提取小于所述第一分辨率的第二分辨率的低分辨率特征,并且被配置為接收所述第二分辨率的圖像作為輸入,其中,卷積層的所述第二數(shù)量小于卷積層的所述第一數(shù)量;及其中,通過(guò)所述圖像嵌入函數(shù)生成所述圖像的所述特征的表示包括:以所述第一分辨率將所述圖像提供給所述第一卷積神經(jīng)網(wǎng)絡(luò);將所述圖像向下采樣到所述第二分辨率,以生成向下采樣圖像;及將所述向下采樣圖像提供給所述第二卷積神經(jīng)網(wǎng)絡(luò)。8.根據(jù)權(quán)利要求7所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述圖像嵌入函數(shù)還包括:第一歸一化層,所述第一歸一化層將所述第一卷積神經(jīng)網(wǎng)絡(luò)的所述輸出歸一化;第二歸一化層,所述第二歸一化層將所述第二卷積神經(jīng)網(wǎng)絡(luò)的所述輸出歸一化;及線性嵌入層,所述線性嵌入層組合所述第一卷積神經(jīng)網(wǎng)絡(luò)的和所述第二卷積神經(jīng)網(wǎng)絡(luò)的所歸一化的輸出。9.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括:訪問(wèn)多個(gè)圖像,所述圖像被收集到相應(yīng)類的圖像中;對(duì)于至少一類的圖像:針對(duì)每個(gè)圖像確定成對(duì)相關(guān)性總和,所述成對(duì)相關(guān)性總和是基于成對(duì)相關(guān)性得分,所述成對(duì)相關(guān)性得分相應(yīng)地度量所述圖像與所述類的圖像中的相應(yīng)其它圖像的相似性;根據(jù)與其成對(duì)相關(guān)性總和成比例的似然性,選擇所述類的圖像中的圖像作為所述圖像三元組中的第一圖像;根據(jù)基于選擇閾值和度量所述第一圖像與所述第二圖像的相似性的成對(duì)相關(guān)性得分的似然性,選擇所述類的圖像中的另一圖像作為所述圖像三元組中的第二圖像;及根據(jù)基于所述部分閾值和度量所述第一圖像與所述第三圖像的相似性的所述成對(duì)相關(guān)性得分的似然性,選擇所述類的圖像中的另一圖像作為所述圖像三元組中的第三圖像。10.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中:選擇所述類的圖像中的另一圖像作為所述圖像三元組中的所述第二圖像包括:基于所述選擇閾值和所述成對(duì)相關(guān)性得分中的最小值來(lái)選擇所述類的圖像中的另一圖像;及選擇所述類的圖像中的另一圖像作為所述圖像三元組中的所述第三圖像包括:基于所述選擇閾值和所述成對(duì)相關(guān)性得分中的最小值來(lái)選擇所述類的圖像中的另一圖像。11.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括:對(duì)于至少一個(gè)圖像三元組,選擇另一類的圖像中的圖像作為所述圖像三元組中的第三圖像。12.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,對(duì)于每個(gè)圖像三元組,所述第一圖像、第二圖像和第三圖像被選擇為使得從所述第一成對(duì)相關(guān)性得分中減去所述第二成對(duì)相關(guān)性得分所得到的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:宋揚(yáng),王江,查爾斯·J·羅森貝格,
申請(qǐng)(專利權(quán))人:谷歌公司,
類型:發(fā)明
國(guó)別省市:美國(guó);US
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。