一種用視覺對象約束進行跟蹤的計算機實現的方法包括接收話語約束和視頻。基于該話語約束來生成詞嵌入。針對該視頻的一個或多個幀提取特征集合。將該詞嵌入與該視頻的該一個或多個幀的該特征集合進行互相關。基于該互相關來生成指示該話語約束是否在該視頻的該一個或多個幀中的預測。或多個幀中的預測。或多個幀中的預測。
【技術實現步驟摘要】
【國外來華專利技術】視覺對象的話語約束跟蹤
[0001]相關申請的交叉引用
[0002]本申請要求于2021年11月15日提交的題為“LINGUALLY CONSTRAINED TRACKING OF VISUAL OBJECTS(視覺對象的話語約束跟蹤)”的美國專利申請No.17/526,969的優先權,其要求于2020年11月16日提交的題為“LINGUALLY CONSTRAINED TRACKING OF VISUAL OBJECTS(視覺對象的話語約束跟蹤)”的美國臨時專利申請No.63/114,356的權益,這些申請的公開內容通過援引整體明確納入于此。
專利
[0003]本公開的各方面一般涉及視頻中對象的跟蹤。
技術介紹
[0004]人工神經網絡可包括諸群互連的人工神經元(例如,神經元模型)。人工神經網絡可以是計算設備,或者可被表示為要由計算設備執行的方法。
[0005]神經網絡由消耗張量和產生張量的操作數組成。神經網絡可以被用來解決復雜問題;然而,由于網絡大小和可被執行以產生解的運算量可能是浩繁的,因此網絡完成任務的時間可能很長。此外,由于這些任務可在移動設備(其可能具有有限的計算能力)上執行,因此深度神經網絡的計算成本可能會有問題。
[0006]卷積神經網絡是一種前饋人工神經網絡。卷積神經網絡可包括神經元集合,其中每個神經元具有感受野并且共同地拼出一輸入空間。卷積神經網絡(CNN)(諸如深度卷積神經網絡(DCN))具有眾多應用。具體而言,這些神經網絡架構被用于各種技術,諸如圖像識別、模式識別、語音識別、自動駕駛和其他分類任務。
[0007]神經網絡在基于圖像的視頻或視頻流處理方面也有眾多應用,諸如對象檢測和跟蹤。視覺對象跟蹤是在整個給定視頻中跟隨目標對象的任務。視覺對象跟蹤有許多實際應用,包括視頻監控和特定于目標的視頻摘要,其中遵循某些預定義約束對目標進行監視。常規跟蹤系統可提供關于對象的運動軌跡信息。然而,由于缺乏語義信息,因此在具有視覺對象約束的情況下進行跟蹤是有挑戰性的。
[0008]概述
[0009]在本公開的一方面,提供了一種用于跟蹤視覺對象的計算機實現的方法。該計算機實現的方法包括接收話語約束和視頻。該計算機實現的方法還包括基于該話語約束來生成詞嵌入。附加地,該計算機實現的方法包括針對該視頻的一個或多個幀提取特征集合。該計算機實現的方法還包括將該詞嵌入與該視頻的該一個或多個幀的該特征集合進行互相關。此外,該計算機實現的方法包括基于該互相關來生成預測。
[0010]在本公開的其他方面,提供了一種用于跟蹤視覺對象的裝置。該裝置包括存儲器以及耦合到該存儲器的一個或多個處理器。該處理器被配置成接收話語約束和視頻。該處理器還被配置成基于該話語約束來生成詞嵌入。另外,該處理器被配置成針對該視頻的一個或多個幀提取特征集合。該處理器還被配置成將該詞嵌入與該視頻的該一個或多個幀的
該特征集合進行互相關。此外,該處理器被配置成基于該互相關來生成預測。
[0011]在本公開的其他方面,提供了一種用于跟蹤視覺對象的設備。該設備包括用于接收話語約束和視頻的裝置。該設備還包括用于基于該話語約束來生成詞嵌入的裝置。附加地,該設備包括用于針對該視頻的一個或多個幀提取特征集合的裝置。該設備還包括用于將該詞嵌入與該視頻的該一個或多個幀的該特征集合進行互相關的裝置。此外,該設備包括用于基于該互相關來生成預測的裝置。
[0012]在本公開的進一步方面,提供了一種非瞬態計算機可讀介質。該計算機可讀介質上編碼有用于跟蹤視覺對象的程序代碼。該程序代碼由處理器執行,并且包括用于接收話語約束和視頻的代碼。該程序代碼還包括用于基于該話語約束來生成詞嵌入的代碼。附加地,該程序代碼包括用于針對該視頻的一個或多個幀提取特征集合的代碼。該程序代碼還包括用于將該詞嵌入與該視頻的該一個或多個幀的該特征集合進行互相關的代碼。此外,該程序代碼包括用于基于該互相關來生成預測的代碼。
[0013]本公開的附加特征和優點將在下文描述。本領域技術人員應當領會,本公開可容易地被用作修改或設計用于實施與本公開相同的目的的其他結構的基礎。本領域技術人員還應認識到,這樣的等效構造并不脫離所附權利要求中所闡述的本公開的教導。被認為是本公開的特性的新穎特征在其組織和操作方法兩方面連同進一步的目的和優點在結合附圖來考慮以下描述時將被更好地理解。然而,要清楚理解的是,提供每一幅附圖均僅用于解說和描述目的,且無意作為對本公開的限定的定義。
[0014]附圖簡述
[0015]在結合附圖理解下面闡述的詳細描述時,本公開的特征、本質和優點將變得更加明顯,在附圖中,相同附圖標記始終作相應標識。
[0016]圖1解說了根據本公開的某些方面的使用片上系統(SoC)(包括通用處理器)的神經網絡的示例實現。
[0017]圖2A、2B和2C是解說根據本公開的各方面的神經網絡的示圖。
[0018]圖2D是解說根據本公開的各方面的示例性深度卷積網絡(DCN)的示圖。
[0019]圖3是解說根據本公開的各方面的示例性深度卷積網絡(DCN)的框圖。
[0020]圖4是解說可使人工智能(AI)功能模塊化的示例性軟件架構的框圖。
[0021]圖5是解說根據本公開的各方面的用于視覺對象的話語約束跟蹤的示例架構的高級框圖。
[0022]圖6是解說根據本公開的各方面的用話語約束進行跟蹤的示例約束預測塊的示圖。
[0023]圖7是解說根據本公開的各方面的用話語約束進行跟蹤的示例約束預測塊的示圖。
[0024]圖8是解說根據本公開的各方面的用話語約束跟蹤視覺對象的計算機實現的方法的流程圖。
[0025]詳細描述
[0026]以下結合附圖闡述的詳細描述旨在作為各種配置的描述,而無意表示可實踐所描述的概念的僅有配置。本詳細描述包括具體細節以便提供對各種概念的透徹理解。然而,對于本領域技術人員將顯而易見的是,沒有這些具體細節也可實踐這些概念。在一些實例中,
以框圖形式示出眾所周知的結構和組件以避免湮沒此類概念。
[0027]基于本教導,本領域技術人員應領會,本公開的范圍旨在覆蓋本公開的任何方面,不論其是與本公開的任何其他方面相獨立地還是組合地實現的。例如,可使用所闡述的任何數目的方面來實現裝置或實踐方法。另外,本公開的范圍旨在覆蓋使用作為所闡述的本公開的各個方面的補充或者與之不同的其他結構、功能性、或者結構及功能性來實踐的此類裝置或方法。應當理解,所披露的本公開的任何方面可由權利要求的一個或多個元素來實施。
[0028]措辭“示例性”用于意指“用作示例、實例、或解說”。描述為“示例性”的任何方面不必被解釋為優于或勝過其他方面。
[0029]盡管描述了特定方面,但這些方面的眾多變體和置換落在本公開的范圍之內。雖然提到了優選方面的一些益處和優點,但本公開的范圍并非旨在被限定于特定益處、用途或目標。相反,本公開的各方面旨在能寬泛地應用于不同的技術、系統配置、本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】1.一種計算機實現的方法,包括:接收話語約束和視頻;基于所述話語約束來生成詞嵌入;針對所述視頻的一個或多個幀提取特征集合;將所述詞嵌入與所述視頻的所述一個或多個幀的所述特征集合進行互相關;以及基于所述互相關來生成預測。2.如權利要求1所述的計算機實現的方法,其中所述話語約束的一個或多個詞被表示為向量,所述詞嵌入是基于所述向量之間的語義相似性來確定的。3.如權利要求1所述的計算機實現的方法,其中所述預測提供關于所述詞嵌入是否與所述視頻的所述一個或多個幀相匹配的指示。4.如權利要求1所述的計算機實現的方法,其中來自所述一個或多個幀的信息被整合到所述詞嵌入中。5.如權利要求1所述的計算機實現的方法,其中所述詞嵌入基于所述話語約束中在所述視頻的所述一個或多個幀中可見的詞而被注意。6.如權利要求1所述的計算機實現的方法,其中所述互相關包括深度互相關。7.如權利要求1所述的計算機實現的方法,其中卷積過濾器集合提取所述特征集合。8.如權利要求1所述的計算機實現的方法,進一步包括生成動態過濾器以產生特定于所述話語約束中被注意的詞的激活。9.如權利要求1所述的計算機實現的方法,其中所述預測提供關于所述話語約束和所述視頻的所述一個或多個幀的所述特征集合是否相匹配的指示。10.一種裝置,包括:存儲器;以及耦合到所述存儲器的至少一個處理器,所述至少一個處理器被配置成:接收話語約束和視頻;基于所述話語約束來生成詞嵌入;針對所述視頻的一個或多個幀提取特征集合;將所述詞嵌入與所述視頻的所述一個或多個幀的所述特征集合進行互相關;以及基于所述互相關來生成預測。11.如權利要求10所述的裝置,其中所述至少一個處理器被進一步配置成將所述話語約束的一個或多個詞表示為向量,所述詞嵌入是基于所述向量之間的語義相似性來確定的。12.如權利要求10所述的裝置,其中所述預測提供關于所述詞嵌入是否與所述視頻的所述一個或多個幀相匹配的指示。13.如權利要求10所述的裝置,其中所述至少一個處理器被進一步配置成將來自所述一個或多個幀的信息整合到所述詞嵌入中。14.如權利要求10所述的裝置,其中所述詞嵌入基于所述話語約束中在所述視頻的所述一個或多個幀中可見的詞而被注意。15.如權利要求10所述的裝置,其中所述至少一個處理器被進一步配置成對所述詞嵌入和所述視頻的所述一個或多個幀的所述特征集合執行深度互相關。
16.如權利要求10所述的裝置,其中所述至少一個處理器被進一步配置成經由卷積過濾器集合來提取所述特征集合。17.如權利要求1...
【專利技術屬性】
技術研發人員:C,
申請(專利權)人:美國高通技術公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。