System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本申請涉及視頻識別,尤其涉及一種視頻動作識別方法、裝置、電子設備及存儲介質。
技術介紹
1、目前,基于卷積神經網(wǎng)絡(cnn)的視頻動作識別技術取得了顯著進展,廣泛應用于自動駕駛、監(jiān)控等領域。由于視頻動作識別不僅需要提取單幀圖像的空間信息,還需要提取多幀之間的時間關聯(lián),因此傳統(tǒng)方法主要采用3d卷積來捕捉視頻數(shù)據(jù)的時空特征。3d卷積雖然能夠較好地提取動作的時空信息,但由于其計算復雜度高,參數(shù)量大,導致模型計算成本和內存占用都非常高,難以在資源受限的場景(如嵌入式設備或邊緣設備)中有效應用。
2、為了解決計算量大的問題,現(xiàn)有技術中提出了幾種改進方案。例如,將3d卷積與輕量級模型(如mobilenetv2)結合,以減少計算負擔,適用于資源有限的場景。此外,另一種改進方法是基于殘差結構,使用p3d模型,該模型結合了3d卷積和殘差網(wǎng)絡,使得在參數(shù)量減少的同時,網(wǎng)絡深度得到提升。
3、然而,現(xiàn)有的改進方案仍存在一定的局限性。3d卷積的計算復雜度依然較高,網(wǎng)絡模型的擴展性有限,在實際應用中,如何在保持時空特征提取能力的同時進一步減少計算量和參數(shù)量,仍然是亟待解決的技術問題。針對資源受限場景,迫切需要一種能夠在降低計算成本的前提下,依然保持高動作識別精度的解決方案。
技術實現(xiàn)思路
1、有鑒于此,本申請實施例提供了一種視頻動作識別方法、裝置、電子設備及存儲介質,以解決現(xiàn)有技術存在的計算量大、內存占用高、時空特征提取能力差、動作識別準確性降低的問題。
2、本申請實施例
3、本申請實施例的第二方面,提供了一種視頻動作識別裝置,包括:檢測模塊,被配置為獲取待處理的動作視頻,對動作視頻中的目標對象進行檢測和跟蹤,生成目標對象的運動軌跡;篩選模塊,被配置為根據(jù)預設的篩選標準,從運動軌跡中篩選出一條最佳運動軌跡;生成模塊,被配置為根據(jù)最佳運動軌跡,對原始的動作視頻進行摳圖處理,生成包含目標對象的重建視頻;提取模塊,被配置為將重建視頻輸入到多個卷積層中進行特征提取,卷積層包括卷積結構和注意力機制模塊,其中,卷積結構將三維卷積拆分為兩個卷積操作,分別用于提取空間特征和時間特征,注意力機制模塊用于對卷積結構提取的特征進行加權,以便提取目標對象的運動特征;輸出模塊,被配置為對各個卷積層提取的特征進行融合,并對卷積層提取的特征進行時空下采樣,得到降維后的特征,將降維后的特征輸入到全連接層中,輸出目標對象的動作類別。
4、本申請實施例的第三方面,提供了一種電子設備,包括存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述方法的步驟。
5、本申請實施例的第四方面,提供了一種計算機可讀存儲介質,該計算機可讀存儲介質存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
6、本申請實施例采用的上述至少一個技術方案能夠達到以下有益效果:
7、通過獲取待處理的動作視頻,對動作視頻中的目標對象進行檢測和跟蹤,生成目標對象的運動軌跡;根據(jù)預設的篩選標準,從運動軌跡中篩選出一條最佳運動軌跡;根據(jù)最佳運動軌跡,對原始的動作視頻進行摳圖處理,生成包含目標對象的重建視頻;將重建視頻輸入到多個卷積層中進行特征提取,卷積層包括卷積結構和注意力機制模塊,其中,卷積結構將三維卷積拆分為兩個卷積操作,分別用于提取空間特征和時間特征,注意力機制模塊用于對卷積結構提取的特征進行加權,以便提取目標對象的運動特征;對各個卷積層提取的特征進行融合,并對卷積層提取的特征進行時空下采樣,得到降維后的特征,將降維后的特征輸入到全連接層中,輸出目標對象的動作類別。本申請能夠降低計算量和內存占用,提高模型的時空特征提取能力,并提高動作識別的準確性。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種視頻動作識別方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述獲取待處理的動作視頻,對所述動作視頻中的目標對象進行檢測和跟蹤,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述最佳運動軌跡,對原始的動作視頻進行摳圖處理,生成包含所述目標對象的重建視頻,包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述卷積結構將三維卷積拆分為兩個卷積操作,分別用于提取空間特征和時間特征,包括:
5.根據(jù)權利要求4所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權利要求1所述的方法,其特征在于,所述注意力機制模塊用于對所述卷積結構提取的特征進行加權,以便提取所述目標對象的運動特征,包括:
7.根據(jù)權利要求1所述的方法,其特征在于,所述對各個所述卷積層提取的特征進行融合,并對所述卷積層提取的特征進行時空下采樣,包括:
8.一種視頻動作識別裝置,其特征在于,包括:
9.一種電子設備,包括存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述方法的步驟。
...【技術特征摘要】
1.一種視頻動作識別方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述獲取待處理的動作視頻,對所述動作視頻中的目標對象進行檢測和跟蹤,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述最佳運動軌跡,對原始的動作視頻進行摳圖處理,生成包含所述目標對象的重建視頻,包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述卷積結構將三維卷積拆分為兩個卷積操作,分別用于提取空間特征和時間特征,包括:
5.根據(jù)權利要求4所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權利要求1所述的方法,其特征在于,所述注意力機制模塊用于對所述卷...
【專利技術屬性】
技術研發(fā)人員:師平,
申請(專利權)人:深圳須彌云圖空間科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。