本文中公開了一種具有適應性的圖像搜索的計算設備,以及用于在該計算設備上運行圖像識別程序的方法。圖像識別程序可以接收來自用戶的查詢,以及目標圖像,在該目標圖像內將要使用多個本地存儲的圖像識別模型中的一個或多個來執行基于該查詢的搜索,所述圖像識別模型被確定為能夠以充分高的置信度來執行該搜索。該查詢可以包括鍵入的文本或是從話音轉換而來的文本。該圖像識別程序使用至少一個本地存儲的圖像識別模型在該目標圖像內針對該目標圖像的目標區域而執行搜索,并且將搜索結果返回給該用戶。
【技術實現步驟摘要】
【國外來華專利技術】
技術介紹
圖像搜索技術可以使得用戶能夠獲得關于在圖像中的對象的信息或者在圖像內對具體的對象進行定位。可以將相同的過程應用于人、場景、文本等。典型的圖像識別服務是通過如下操作來運行的:從用戶處接收圖像,針對特別的特征來分析該圖像,并且接著使用算法將該圖像中的對象對照數據庫中的圖像進行匹配。由于數字相機的傳感器和存儲器容量已改進,因此由數字相機所捕獲的圖像的大小也已經增加。目前,一些配備有相機的智能電話捕獲超過40兆像素的圖像。將該大小的圖像上傳至基于云的服務通常花費顯著的時間和帶寬(尤其是當通過蜂窩網絡來完成時),這常常給用戶招致額外的費用。一旦上傳了這樣的大圖像,圖像識別服務可能會花費與較小的圖像相比額外的時間和計算能力來處理該圖像,這會減慢響應時間。另外,由于該圖像是通過網絡發送的,會出現涉及隱私的問題。其結果是,對于將要應用至在下一代相機上所捕獲的大圖像的基于云的圖像搜索服務,存在重大挑戰。
技術實現思路
在本文中公開了具有適應性的圖像搜索的計算設備、以及用于在該計算設備上運行圖像識別程序的方法。所公開的一個實施例可以包括被配置為存儲多個圖像識別模型的非易失性存儲器、以及由計算設備的處理器執行的圖像識別程序。該圖像識別程序可以從用戶處接收查詢以及目標圖像,其中,基于所述查詢的搜索將在該目標圖像內執行。所述查詢可以包括被鍵入的文本或是從話音所轉換的文本。圖像識別程序可以接著根據置信度水平來對圖像識別模型進行排名以用于在目標圖像內執行搜索,并且確定圖像識別模型中是否有任何一個模型高于置信度閾值以用于在計算設備的處理器上本地地執行搜索。如果確
定了圖像識別模型中有至少一個模型高于置信度閾值,則圖像識別程序可以選擇高排名的至少一個圖像識別模型。接著,圖像識別程序可以使用所選擇的至少一個圖像識別模型在所述目標圖像內針對該目標圖像的目標區域執行搜索,并且最終,將搜索結果返回給用戶。提供了該
技術實現思路
以用簡化的形式介紹在下文的具體實施方式中所進一步描述的概念的選擇。該
技術實現思路
不旨在標識所要求保護的主題的關鍵特征或本質特征,也不旨在用于限制所要求保護的主題的范圍。此外,所要求保護的主題不限于解決在本公開的任何部分中所指出的任何或全部缺點的實現。附圖說明圖1是執行本地圖像識別搜索的計算設備的示意圖。圖2是執行基于網絡的圖像識別搜索的圖1的計算設備的示意圖。圖3是用于在圖1的計算設備或在其它合適的硬件上運行圖像識別程序的方法的流程圖。圖4是根據圖3的流程圖的一個步驟而擴展的流程圖,并且示出了用于從網絡服務中下載圖像識別模型的方法。圖5是根據圖3的流程圖的一個步驟而擴展的流程圖,并且示出了用于基于來自網絡圖像搜索的示例圖像來創建新的圖像識別模型的方法。圖6示出了包括計算設備的計算系統的簡化示意圖。圖7示出了關于對紅色咖啡杯的圖像識別搜索的一個示例用例場景。圖8示出了關于對特定的書的圖像識別搜索的另一個示例用例場景。圖9示出了關于使用購物中心目錄對購物中心的電子產品商店的圖像識別搜索的另一個示例用例場景。具體實施方式圖1和圖2是配置有適應性的圖像搜索功能的計算裝置10的示意圖,該圖像搜索功能能夠執行使用本地存儲的不同模型來進行圖像搜索的本地圖像識別搜索,并且還可選地能夠進行基于網絡的圖像識別搜索。在一個實施例中,計算設備10被配置為向用戶呈現針對本地圖像識別搜索的選項,
并且如果這樣的本地圖像識別搜索不能以高置信度執行,則可替代地向用戶呈現用于進行基于網絡的圖像識別搜索的選項,或者以編程的方式(programmatically)執行網絡搜索而不需要用戶選擇網絡搜索選項。應當理解的是,通過以該方式向用戶提供選項來首先嘗試本地進行圖像識別搜索,計算設備10潛在地解決了在上文中所討論的涉及通過網絡將大尺寸圖像傳輸至基于網絡的圖像識別服務器的挑戰。在一些實施例中,直到本地搜索已經作為不可用的而被排除在外為之后才顯示針對基于網絡的圖像識別搜索的選項,而在其它實施例中,在圖像搜索交互對話開始時,就將基于網絡的搜索的選項和本地搜索的選項兩者呈現給用戶。圖1示出計算設備10,其向用戶呈現針對在計算設備10上顯示的目標圖像12的在網絡上執行或本地地執行的圖像識別搜索的選項。用戶可以從合適的源(例如,相機輸出、或者計算設備10上的非易失性存儲器20中的數據存儲)中選擇目標圖像12。多個圖像識別模型22也可以存儲在非易失性存儲器20中。每個圖像識別模型22可以包括:圖像識別算法、光學字符識別(OCR)算法、和/或關鍵字匹配算法等。每個圖像識別模型22可以只包含一種算法、或相同或不同類型的多個算法的任意組合。在計算設備10的處理器26上執行的圖像識別程序24可以在顯示器32上顯示圖像搜索GUI,該圖像搜索GUI可以包括被標記為LOCAL的圖形用戶界面(GUI)選擇器。由用戶對LOCAL選擇器的選擇可以觸發本地圖像識別搜索。可替代地,可以使用另一種類型的命令(例如,語音命令或手勢命令)來選擇本地圖像識別搜索。圖像識別程序24可以被配置為從用戶處接收查詢28。計算設備10的輸入設備30可以包括麥克風、鍵盤、觸摸屏等。查詢28可以是例如文本,該文本是在鍵盤或觸屏上鍵入的、從通過麥克風所捕獲的話音轉換而來的、經由光學字符識別(OCR)從圖像(例如,通過相機34所捕獲的或存儲在非易失性存儲器20中的)轉換而來的、或是通過其它技術產生的。音頻、文本等也可以提前被存儲在非易失性存儲器20中,并且接著用來形成查詢28。可替代地,查詢28可以是用戶有興趣尋找的目標對象的圖像或視頻。多個圖像或視頻幀可以描繪同一目標對象的不同視角。用戶可以可選地選擇查詢圖像內的邊界框,以幫助圖像識別程序24來定位目標對象,尤其是
在圖像中存在許多不相關的對象時。圖像識別程序24也可以接收目標圖像12,其中,在目標圖像12內將要執行基于查詢28的搜索。如上所述,目標圖像12通常是由用戶預選擇的,并且可以源自板載相機,或者可以是從存儲的圖像文件夾等中所選擇的,并且該搜索是為了找到可以被定位在目標圖像12中的目標對象等的。目標對象等在目標圖像12內的位置可被稱為目標圖像12的目標區域。接下來,圖像識別程序24可以根據置信度水平對圖像識別模型22進行排名以用于基于查詢28在目標圖像12內執行搜索,接著確定是否圖像識別模型22中有任何一個模型高于置信度閾值以用于在計算設備10的處理器26上本地地執行搜索。在確定了圖像識別模型22中有至少一個模型在置信度閾值以上之后,圖像識別程序可以選擇高排名的至少一個圖像識別模型22’,并且使用所選擇的至少一個圖像識別模型22’在所述目標圖像12內執行針對該目標圖像12的目標區域的搜索。圖像識別模型22的置信度水平可以受多個因素影響。例如,圖像識別程序24可以運行一個或多個輕權重的過程(即,較不計算密集的算法)來對目標圖像12和/或查詢28中的對象進行分類。這樣的輕權重過程的一個示例可以是人臉檢測算法,其用于檢測在目標圖像12中是否存在任何人臉。如果查詢28被解析為人的名字,則可以運行輕權重的過程以確定在圖像中是否存在任何人臉,并且如果存在,則可以選擇包含更復雜的人臉識別算法的圖像識別模型22中的一個或多個模型來針對與查本文檔來自技高網...
【技術保護點】
一種具有適應性的圖像搜索的計算設備,所述計算設備包括:非易失性存儲器,其被配置為存儲多個圖像識別模型;圖像識別程序,其由所述計算設備的處理器執行,并且被配置為:從用戶處接收查詢,所述查詢包括鍵入的文本或是從話音轉換而來的文本;接收目標圖像,其中在所述目標圖像內將要執行基于所述查詢的搜索;根據置信度來對所述圖像識別模型進行排名,以用于在所述目標圖像內基于所述查詢來執行所述搜索;確定所述圖像識別模型中是否有任何一個模型高于置信度閾值,以用于在所述計算設備的處理器上本地地執行所述搜索;以及在確定所述圖像識別模型中至少有一個高于所述置信度閾值之后,選擇高排名的至少一個圖像識別模型;使用所選擇的至少一個圖像識別模型在所述目標圖像內對所述目標圖像的目標區域執行所述搜索;以及將搜索結果返回給所述用戶。
【技術特征摘要】
【國外來華專利技術】2014.01.24 US 14/163,9991.一種具有適應性的圖像搜索的計算設備,所述計算設備包括:非易失性存儲器,其被配置為存儲多個圖像識別模型;圖像識別程序,其由所述計算設備的處理器執行,并且被配置為:從用戶處接收查詢,所述查詢包括鍵入的文本或是從話音轉換而來的文本;接收目標圖像,其中在所述目標圖像內將要執行基于所述查詢的搜索;根據置信度來對所述圖像識別模型進行排名,以用于在所述目標圖像內基于所述查詢來執行所述搜索;確定所述圖像識別模型中是否有任何一個模型高于置信度閾值,以用于在所述計算設備的處理器上本地地執行所述搜索;以及在確定所述圖像識別模型中至少有一個高于所述置信度閾值之后,選擇高排名的至少一個圖像識別模型;使用所選擇的至少一個圖像識別模型在所述目標圖像內對所述目標圖像的目標區域執行所述搜索;以及將搜索結果返回給所述用戶。2.根據權利要求1所述的計算設備,其中,所述目標圖像是單個圖像、或是構成視頻的一部分的一個或多個圖像幀。3.根據權利要求1所述的計算設備,其中,每個圖像識別模型包括下列算法中的至少一種算法:圖像識別算法、光學字符識別(OCR)算法、以及關鍵字匹配算法。4.根據權利要求1所述的計算設備,其中,所述圖像識別程序使用關于所述用戶的位置信息。5.根據權利要求1所述的計算設備,其中,所述目標圖...
【專利技術屬性】
技術研發人員:A·A·安巴德卡爾,C·L·海布雷格斯,L·沃爾,D·胡什安吉,H·帕桑克,
申請(專利權)人:微軟技術許可有限責任公司,
類型:發明
國別省市:美國;US
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。