基于三維卷積神經網絡的暴力視頻檢測模型制造技術

技術編號：44206461 閱讀：9 留言：0更新日期：2025-02-06 18:40

本發明專利技術公開了一種基于三維卷積神經網絡的暴力視頻檢測模型，包括數據獲取處理模塊：用于獲取并處理視頻數據，處理后的視頻數據為五維數組，維度包括批次、視頻幀數、高度、寬度和通道數；3D卷積層，用于在堆疊的視頻數據的相鄰幀組成的立方體上應用三維內核從相鄰幀中提取視頻數據的特征，包括時空特征；3D最大池化層，用于降低特征映射的空間和時間維度；批歸一化層，用于加速模型訓練和提高模型穩定性；Flatten層，用于將多維特征映射以方陣的形式轉換為一維向量；Dense層，用于對Flatten模塊輸出的一維向量分類，得到最終的分類類別，分類類別包括暴力和非暴力，經過檢測本模型計算的總體精度可達80.58%。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及暴力視頻檢測，具體為一種基于三維卷積神經網絡的暴力視頻檢測模型。

技術介紹

1、近年來，全球公共暴力事件的增加引發了對公共場所安全監督的廣泛關注。盡管可以通過增加監控攝像頭的數量來提高對公共場合的監控力度，但仍然需要人工監控來及時處理異常情況。然而，人工決策過程通常較慢且存在偏見，無法同時監控多個攝像頭。這種限制抑制了在多攝像機環境下同時進行監控的能力。

2、在實時要求的情況下，例如暴力預防，使用人工監督的局限性就被表現了出來，因此需要更可靠和有效的監控系統替代方案。為此研究人員轉向計算機系統來尋求解決方案，其中最為關注機器學習技術。機器學習通過訓練算法從數據中提取信息，從而使系統能夠對類似問題進行預測和判斷，將機器學習模型應用于不同領域和行業顯著降低了對人工的依賴，提高了效率、性能和效果。

3、多年來，機器學習領域取得巨大的進步，特別是隨著深度學習的出現，在模式識別任務中效果尤為突出。暴力檢測可以描述為一個模式識別問題，在這個問題上，機器可以被教導去識別視頻中的模式，去檢測暴力行為的存在。使得機器能夠快速、公正地識別暴力行為的存在，并立刻發出警報，以便及時采取必要措施阻止暴力事件的繼續進行。從長遠來看，實施自動化暴力檢測系統將顯著降低成本。這些觀點支持了一個共識，即在許多任務中，機器學習模型比人工更加高效，尤其是在公共場所的暴力檢測方面。

4、現有對暴力視頻的檢測方法可以分為兩種，一種是手工特征方法，早期研究使用視覺或音頻特征檢測火焰、血液、皮膚和血液等，如使用高斯混合模型和隱

5、1.計算復雜度高：對于一些早起的手工特征方法，通常需要對每個視頻幀提取大量的特征信息。這些方法計算量大，處理速度慢，難以滿足實時需求。例如：bag-of-words和histograms?of?optical?flow。

6、2.特征選擇與設計依賴經驗：這些方法大多數都依賴于專業的經驗來設計和選擇特征，例如，violent?flows和?orientation?histogram?of?optical?flow依賴于精心設計的特征描述符，這種依賴使得模型的泛化能力受限。

7、3.適應性差：手工特征方法變化的場景和不同的環境條件適應性差。例如，當數據集的背景或光照條件發生顯著變化時，這些方法的性能可能會大幅度下降。

8、4.對噪聲的敏感性：許多手工特征方法對視頻中的噪聲和干擾非常敏感，這可能導致特征提取不準確，從而影響最后分類的結果。

9、另一種方法為現在較為流行的深度學習方法，在該方法中常用卷積神經網絡對特征進行提取，在三維卷積神經網絡出現之前，由于視頻識別中要處理時序特征，所以較為常用的方式為使用cnn模型對進行空間特征的提取，并使用長短時記憶網絡進行分類。而對于三維卷積神經網絡可以直接對視頻數據的空間和時序特征進行提取，對視頻進行分類。深度學習方法在暴力視頻檢測這個方面取得較大的進展，但是其中仍舊存在一些問題，例如：

10、1.模型尺寸和參數數量大：當涉及較為復雜網絡架構的模型時，由于模型參數量大通常需要大量的計算資源。訓練這些模型需要高性能的gpu和大規模的數據集，可能導致訓練成本和推理時間較長。例如：使用預訓練的cnn?模型和convlstm?進行特征提取和時序建模時，需要處理大量的計算。

11、2.模型過擬合問題：盡管深度學習模型通常具有強大的表達能力，但它們也容易出現過擬合的現象，特別是當數據量不足或數據質量不高的時候。即使使用正則化的方法，模型在訓練集上的表現可能過于樂觀，而在測試集上的表現卻不盡如人意。例如：使用3dcnn與svm組合時，可能會出現過擬合現象。

12、3.缺乏可解釋性：深度學習模型的“黑箱”特性使得其決策過程難以解釋，尤其是在復雜的神經網絡中，模型內部運作往往難以解釋和理解。這對于需要高解釋性的任務是一個顯著缺陷。

技術實現思路

1、本專利技術的目的在于提供一種基于三維卷積神經網絡的暴力視頻檢測模型，以解決上述
技術介紹
中提出的問題。

2、為實現上述目的，本專利技術提供如下技術方案：一種基于三維卷積神經網絡的暴力視頻檢測模型，包括：

3、數據獲取處理模塊：用于獲取并處理視頻數據，處理后的視頻數據為五維數組，維度包括批次、視頻幀數、高度、寬度和通道數；

4、至少一個3d卷積層，用于在堆疊的視頻數據的相鄰幀組成的立方體上應用三維內核從相鄰幀中提取視頻數據的特征，包括時空特征；

5、至少一個3d最大池化層，用于降低特征映射的空間和時間維度；

6、至少一個批歸一化層，用于加速模型訓練和提高模型穩定性；

7、至少一個flatten層，用于將多維特征映射以方陣的形式轉換為一維向量；

8、至少一個dense層，用于對flatten模塊輸出的一維向量分類，得到最終的分類類別，分類類別包括暴力和非暴力。

9、優選的，包括兩個3d卷積層、兩個3d最大池化層和兩個批歸一化層，視頻數據經過一個3d卷積層、一個3d最大池化層和一個批歸一化層處理后再循環經過一個3d卷積層、一個3d最大池化層和一個批歸一化層處理后輸出至flatten層。

10、優選的，3d卷積層配置8個過濾器，核大小為(3,7,7)，采用有效填充使得圖像周圍沒有添加零填充的邊界，步幅默認設置為1，激活函數采用整流線性單元relu。

11、優選的，3d最大池化層采用3d?max-pooling層，3d?max-pooling層將3d視頻數據輸入劃分為立方體池化區域，計算每個區域的最大值進行非線性下采樣。

12、優選的，3d?max-pooling層內核大小為(2,2,2)，并且填充有效。

13、優選的，三維卷積計算特征圖（x，y，z）位置的值過程為：

14、，其中，是雙曲正切函數，作用是在于激活神經元，是當前位置特征圖的偏置，是卷積核的權重，分別是卷積核在高度、寬度和時間維度上的大小。

15、優選的，模型訓練使用的數據集為hockey?fights、movies、rwf-2000和real?lifeviolence?situations合并所得到的大數據集，大數據集中包括50%的暴力視頻以及50%的非暴本文檔來自技高網...

【技術保護點】

1.一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：包括：

2.根據權利要求1所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：包括兩個3D卷積層、兩個3D最大池化層和兩個批歸一化層，視頻數據經過一個3D卷積層、一個3D最大池化層和一個批歸一化層處理后再循環經過一個3D卷積層、一個3D最大池化層和一個批歸一化層處理后輸出至Flatten層。

3.根據權利要求1或2所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：3D卷積層配置8個過濾器，核大小為(3,7,7)，采用有效填充使得圖像周圍沒有添加零填充的邊界，步幅默認設置為1，激活函數采用整流線性單元ReLU。

4.根據權利要求1所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：3D最大池化層采用3D?Max-Pooling層，3D?Max-Pooling層將3D視頻數據輸入劃分為立方體池化區域，計算每個區域的最大值進行非線性下采樣。

5.根據權利要求4所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：3D?Max-Pooling

6.根據權利要求5所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：三維卷積計算特征圖（x，y，z）位置的值過程為：

7.根據權利要求1所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：模型訓練使用的數據集為Hockey?Fights、Movies、RWF-2000和Real?Life?violenceSituations合并所得到的大數據集，大數據集中包括50%的暴力視頻以及50%的非暴力視頻，將大數據集分為訓練集、測試集和驗證集，分別對應60%、20%和20%。

8.根據權利要求7所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：模型以準確度、精密度、召回率和f1分數作為評價指標進行驗證。

...

【技術特征摘要】

1.一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：包括：

2.根據權利要求1所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：包括兩個3d卷積層、兩個3d最大池化層和兩個批歸一化層，視頻數據經過一個3d卷積層、一個3d最大池化層和一個批歸一化層處理后再循環經過一個3d卷積層、一個3d最大池化層和一個批歸一化層處理后輸出至flatten層。

3.根據權利要求1或2所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：3d卷積層配置8個過濾器，核大小為(3,7,7)，采用有效填充使得圖像周圍沒有添加零填充的邊界，步幅默認設置為1，激活函數采用整流線性單元relu。

4.根據權利要求1所述的一種基于三維卷積神經網絡的暴力視頻檢測模型，其特征在于：3d最大池化層采用3d?max-pooling層，3d?max-pooling層將3d視頻數據輸入劃分為立方體池化區域，計算每個區域的最大值進...

【專利技術屬性】
技術研發人員：陳細平，吳君麟，黃津，李俊均，夏岳鍵，
申請(專利權)人：杭州半云科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術