System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機視覺領域,尤其是從降低模型復雜度角度提出一種基于輕量級網絡的多目標跟蹤方法。
技術介紹
1、在人工智能的發展過程中,計算機視覺已經成為了一個相當重要的分支,尤其是圖像識別與分類技術。計算機視覺圖像識別任務是指利用計算機算法來識別和分類圖像中的物體、場景、人臉等。單目標跟蹤具體的意思是根據一段輸入的視頻序列,對其中某一個需要關注的目標實現關聯。多目標跟蹤作為目標檢測的一種拓展性任務,廣泛應用于智能安防、智慧交通和自動駕駛。本專利技術也聚焦于多目標跟蹤任務上做探索和研究。
2、與單目標跟蹤相比,多目標跟蹤面臨著更多挑戰。一方面,由于目標數量的多樣性,算法需要具備檢測新目標和終止舊目標的能力。另一方面,不同目標之間可能發生遮擋、重疊,目標本身也可能出現形變、光照變化等,這些都給目標關聯帶來了極大困難。此外,復雜動態背景中的干擾噪聲,也是多目標跟蹤需要應對的一大挑戰。
3、傳統的多目標跟蹤算法多采用"檢測-關聯"兩階段策略。首先利用檢測器如yolo、faster?r-cnn等在每一幀提取目標候選框,得到目標外觀和運動特征。然后使用數據關聯技術如匈牙利算法、聯合概率數據關聯濾波等,將當前幀檢測結果與上一幀的跟蹤軌跡進行匹配,實現身份傳遞。這種分步方法簡單直觀,但由于檢測和關聯相對獨立,難以很好地傳遞上下文信息,容易導致錯誤累積,影響整體性能。
4、近年來,基于端到端框架的多目標跟蹤方法取得了長足進步,其中基于transformer的方法成為研究熱點。transformer借助自注意力
5、典型的基于transformer的方法,通常將檢測目標作為解碼器的目標查詢,將已有目標的跟蹤作為軌跡查詢,利用編碼器對視頻幀建模,解碼器對兩類查詢進行解碼并輸出預測結果。但transformer模型本身的巨大計算量和參數量,也成為了這些方法推廣的瓶頸,限制了它們的實用性和推廣能力。
6、除了上述計算復雜度的挑戰,多目標跟蹤領域還面臨著其他一些值得關注的難題和研究方向。比如如何充分利用多模態信息(圖像、語音、文本等)來提高跟蹤的魯棒性;如何結合先驗知識,提升對復雜場景和不確定因素的適應能力;如何設計更加高效的數據關聯策略,降低目標切換和身份漂移的風險;如何將跟蹤系統部署到邊緣設備,滿足實時性和低功耗需求等。這些問題的解決,將極大推動多目標跟蹤技術的發展和實際應用落地。
7、總的來說,多目標跟蹤作為計算機視覺的核心基礎問題,不僅在學術界受到廣泛關注,同時也與現實生活的諸多領域密切相關,在安防監控、智能交通、機器人導航、增強現實等方面都有重要應用價值。隨著算力的快速提升和深度學習技術的發展,相信多目標跟蹤一定能在未來取得越來越多創新性的突破,為人工智能賦予更強的感知理解能力。因此,如何在保持性能的前提下,降低模型復雜度、實現高效輕量化,是當前這一領域急需解決的重要問題。
技術實現思路
1、由于目前的一些基于transformer的多目標跟蹤方法所造成的巨大的參數量和浮點運算次數,導致模型的訓練需要花費大量的時間和計算資源。實際應用中也很難部署到邊緣設備中。因此,本專利技術提出了一種基于輕量級網絡的多目標跟蹤方法在保持原有精度的情況下,大大降低了模型的浮點運算次數和參數量。首先,將視頻逐幀輸入到cnn網絡中提取多尺度特征。其次利用評分網絡對特征進行篩選后輸入到編碼器中,最后在解碼器中同時解碼目標查詢和軌跡查詢,預測對應的邊框和類別,形成該幀的所有檢測和跟蹤結果。
2、本專利技術是通過以下技術方案來實現的:
3、一種基于輕量級網絡的多目標跟蹤方法,包括以下步驟:
4、步驟一:將cnn提取的多尺度特征通過經過可學習的評分網絡篩選前百分之ρ的特征輸入編碼器中。
5、步驟二:在編碼器輸出特征之后,篩選出k個目標對象查詢;同時初始化100個跟蹤對象查詢一同輸入到解碼器中。
6、步驟三:每個查詢通過多層感知機進行處理,輸入到解碼器中以預測對應的邊框和類別,形成該幀的所有檢測和跟蹤結果。同時生成解碼器交叉注意力映射圖。
7、步驟四:新檢測出的目標將初始化新的跟蹤對象查詢,每一幀的跟蹤對象查詢會傳遞到下一幀,攜帶目標的空間和身份信息,從而完成跟蹤過程。
8、步驟一中,我們有一個評分網絡g,用于測量特征圖xfeat中每個特征的顯著性。我們為那些評分屬于前百分之ρ的特征定義一個顯著區域,對于給定的ρ,顯著區域的大小由以下公式算出。編碼器中每層特征更新方式表示如下
9、
10、
11、如果當前j不在顯著區域ω中,直接保留上一層的特征不變;如果在顯著區域中則更新為。其中defattn指的是可變形注意力,ln指的是層歸一化,而ffn指的是前饋網絡。
12、步驟二中,我們在編碼器輸出的尾端添加了一個輔助檢測頭,目的是計算編碼器每個輸出特征的目標性類別得分,以反映每個特征是否包含目標信息。根據這些類別得分,我們對編碼器的所有輸出進行排序,并選擇得分最高的前k個特征。同時我們在這些選中的特征上應用匈牙利損失來加快編碼器的收斂,提高了檢測性能。最終,這些前k個編碼器特征直接作為解碼器模塊的目標查詢輸入。n是預測目標數量,表示第i個預測與真實目標的最優匹配,是代價之和。
13、
14、步驟三中,為了確定編碼器?xfeat?的每個特征的顯著性,我們需要聚合所有對象查詢和編碼器輸出之間的解碼器交叉注意力。該過程產生一個與主干特征圖相同大小的單一映射,被定義為解碼器交叉注意力圖。在密集注意力的情況下,解碼器交叉注意力圖可以通過對每個解碼器層的注意力圖求和來輕松獲得。在可變形注意力的情況下,對于每個編碼器標記,解碼器交叉注意力圖的相應值可以通過累積解碼器對象查詢的注意力權重來獲得,這些權重的注意力偏移指向編碼器輸出標記。由于在可變形注意力中計算的注意力偏移是一個分數位置,可變形注意力使用雙線性插值來獲取值。因此,我們也使用雙線性插值來獲取解碼器交叉注意力圖。假設解碼器對象查詢?q?的注意力偏移、權重和參考點分別為p、a?和?r。那么,可變形注意力的取值為
15、
16、其中v表示的是鍵值,x?枚舉了特征圖中的所有整數空間位置,是雙線性插值核函數,定義為如下。
17、
18、我們將x位置的dam值累加表示如下:
19、
20、同時為了訓練評分網絡,我們將解碼器交叉注意力權重進行二值化,以便僅保留編碼器特征的前百分之ρ的部分。這是因為我們的目標是找到解碼器最常引用的一小部分編碼器特征,而不是精確地預測解碼器將引用每個編碼器特征的程度。這個二值化的解碼器交叉注意力圖暗示了一個獨熱目標,指示每個編碼器特征是否包含在前本文檔來自技高網...
【技術保護點】
1.一種基于輕量級網絡的多目標跟蹤方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的基于輕量級網絡的多目標跟蹤方法,其特征在于步驟一中的可學習的評分網絡。對CNN提取的特征Xfeat中的每個局部特征打分,以判斷其被解碼器引用的可能性。根據這些分數選擇前百分之ρ的特征輸入到編碼器中。如果當前j不在顯著區域Ω中,直接保留上一層的特征不變;如果在顯著區域中則更新為。其中DefAttn指的是可變形注意力,LN指的是層歸一化,而FFN指的是前饋網絡。
3.根據權利要求2所述的基于輕量級網絡的多目標跟蹤方法,其特征在于步驟二中篩選出k個目標查詢。為了提高檢測性能,我們在編碼器輸出上添加了一個輔助檢測頭。該檢測頭的作用是計算編碼器每個輸出特征的目標性類別得分,以反映每個特征是否包含目標信息。根據這些類別得分,我們對編碼器的所有輸出進行排序,并選擇得分最高的前k個特征。隨后,這些前k個編碼器特征直接作為解碼器模塊的查詢輸入。
4.根據權利要求3所述的基于輕量級網絡的多目標跟蹤方法,其特征在步驟三中解碼器交叉注意力圖。為了訓練評分網絡,我們將解碼器交叉注
...【技術特征摘要】
1.一種基于輕量級網絡的多目標跟蹤方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的基于輕量級網絡的多目標跟蹤方法,其特征在于步驟一中的可學習的評分網絡。對cnn提取的特征xfeat中的每個局部特征打分,以判斷其被解碼器引用的可能性。根據這些分數選擇前百分之ρ的特征輸入到編碼器中。如果當前j不在顯著區域ω中,直接保留上一層的特征不變;如果在顯著區域中則更新為。其中defattn指的是可變形注意力,ln指的是層歸一化,而ffn指的是前饋網絡。
3.根據權利要求2所述的基于輕量級網絡的多目標跟蹤方法,其特征在于步驟二中篩選出k個目標查詢。為了提高檢測性能,我們在編碼器輸出上添加了一個輔助檢測頭。該檢測頭的作用是計算編碼器每個...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。