一種基于多模態大模型的視頻分析處理系統及方法技術方案

技術編號：44487307 閱讀：4 留言：0更新日期：2025-03-04 17:52

本發明專利技術屬于人工智能技術領域，具體涉及一種基于多模態大模型的視頻分析處理系統及方法，所述方法包括：多模態控制大模型接收用戶輸入的通過自然語言描述所需完成的任務，對用戶的輸入進行語義分析，提取任務信息，將涉及視頻理解的任務分解為子任務發送至視頻理解模塊；視頻理解模塊接收任務所需的視頻或視頻片段，執行子任務對視頻進行分析，生成視頻內容的嵌入和描述輸入多模態控制大模型；多模態控制大模型接收到用戶查詢請求時，將用戶的查詢任務解析為可執行的子任務映射到視頻理解的任務上，基于視頻理解大模型生成的視頻內容的嵌入和描述生成基于查詢請求的響應結果。從而實現了跨模態信息的有效融合和互相增強，提高了視頻理解的精度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于人工智能，具體涉及一種基于多模態大模型的視頻分析處理系統及方法。

技術介紹

1、隨著大模型技術的蓬勃發展，自然語言處理（nlp）和計算機視覺（cv）領域取得了長足的進步，推動了智能系統在語義理解和多模態融合方面的能力顯著提升。然而，在視頻理解領域，由于視頻數據富含復雜的時空信息，其處理難度遠超單一模態數據，成為了一個極具挑戰性的任務。傳統的視頻處理方法往往將視頻分析與語言處理割裂開來，忽視了兩者之間的緊密聯系和潛在的互相增強效應。

2、在智慧園區場景中，傳統的視頻監控系統高度依賴人力資源進行監控和異常行為識別，這不僅導致了高昂的成本支出，還容易引發誤判和漏判的問題，嚴重影響了監控效率和安全性。因此，如何快速準確地識別智慧安防系統中的異常行為，提升園區的智慧安防能力，成為了當前視頻監控系統亟待解決的關鍵問題。

技術實現思路

1、現有視頻分析處理通常將視頻處理和語言處理分離開來，缺乏跨模態的緊密聯系和互相增強的能力的問題，本專利技術提供一種基于多模態大模型的視頻分析處理系統及方法。

2、第一方面，本專利技術技術方案提供一種基于多模態大模型的視頻分析處理系統，包括多模態控制大模型和視頻理解模塊；

3、多模態控制大模型接收用戶輸入的通過自然語言描述所需完成的任務，對用戶的輸入進行語義分析，提取任務信息，將涉及視頻理解的任務分解為子任務發送至視頻理解模塊；

4、視頻理解模塊接收任務所需的視頻或視頻片段，執行子任務對視頻進行分析，生

5、多模態控制大模型接收到用戶查詢請求時，將用戶的查詢任務解析為可執行的子任務映射到視頻理解的任務上，基于視頻理解大模型生成的視頻內容的嵌入和描述生成基于查詢請求的響應結果。

6、作為本專利技術技術方案的進一步限定，視頻理解模塊包括視頻分析器和視頻嵌入器；

7、所述視頻分析器接收視頻輸入并以文本形式輸出對視頻的分析結果到多模態控制大模型；文本包括視頻字幕、對視頻中所有事件的詳細描述及時間戳、標簽、id和邊界框；

8、視頻嵌入器采用已訓練好的clip模型，對輸入的視頻提取視頻特征，通過clip模型中的文本編碼器將對應的文本描述編碼為文本特征生成嵌入向量輸入多模態控制大模型。

9、作為本專利技術技術方案的進一步限定，視頻分析器對輸入的視頻進行解碼，將其從壓縮格式轉換為原始圖像幀序列，從解碼后的視頻中提取出連續的圖像幀，提取每一幀圖像的圖像特征，以及提取視頻的視頻特征，對提取出的特征進行分析，檢測視頻中與任務相關的關鍵事件，檢測到事件，視頻分析器生成對事件的詳細描述；基于事件檢測的結果，視頻分析器生成包含視頻字幕、事件描述、時間戳、標簽、id和邊界框信息的文本。

10、作為本專利技術技術方案的進一步限定，clip模型設置有視覺編碼器，clip模型訓練時包括對輸入的視頻幀進行隨機掩碼，讓模型重構被掩碼部分的掩碼重構訓練；具體包括：將視頻分解成幀并進一步分成?patch，每個?patch?表示一個?token；隨機選擇設定比例的token?進行掩蓋；即掩碼；將未掩蓋的?tokens?輸入到?clip?模型的視覺編碼器中，生成所述tokens?的特征嵌入；

11、將未掩蓋的?tokens?特征嵌入聚合成聚合特征，作為模型推測被掩蓋?tokens?的參考信息；使用重建網絡輸入聚合特征和位置編碼，預測被掩蓋的?tokens?的嵌入；使用均方誤差損失度量被掩蓋?tokens?的重建誤差；計算時空平滑損失；計算重建?tokens?和未掩蓋?tokens?的余弦相似度來計算用于區分正樣本對和負樣本對的對比損失函數；計算用于衡量生成圖像與真實圖像之間差異的損失函數通過加權組合生成聯合損失，訓練過程最小化聯合損失；

12、

13、其中為權重系數。

14、作為本專利技術技術方案的進一步限定，clip模型設置有文本編碼器，模型訓練時，將視頻特征和文本特征對齊在共同的語義空間中，計算視頻特征和文本特征，并使用進行對比學習，更新clip模型中視頻編碼器和文本編碼器的參數；

15、跨模態對比損失函數為：

16、

17、其中表示第個視頻特征與第個文本特征之間的相似度，為超參，用于調節分布的平滑程度。

18、作為本專利技術技術方案的進一步限定，視頻嵌入器獲取長視頻序列，根據時間標注，將原始視頻切分為若干視頻片段；使用已訓練好的clip模型，對每個視頻提取視頻特征，通過文本編碼器將對應的文本描述編碼為文本特征。

19、作為本專利技術技術方案的進一步限定，多模態控制大模型進行用戶查詢響應時，對于每個子任務，根據查詢解析出的任務類型，利用已生成的視頻嵌入和文本描述，將用戶的查詢嵌入與視頻嵌入進行相似度計算，若相似度超過設定閾值，則認為該視頻片段與查詢相關；結合查詢解析結果，根據時間戳定位視頻中的關鍵片段，即滿足用戶需求的事件時間段，找到相關的視頻片段后，從中提取具有所需的關鍵幀或時間節點，用于直觀展示視頻內容。

20、作為本專利技術技術方案的進一步限定，關鍵幀提取公式如下：

21、

22、其中表示關鍵幀與查詢的相關性度量。

23、作為本專利技術技術方案的進一步限定，基于同一查詢請求用戶與多模態控制大模型進行多輪交互過程中多模態控制大模型將根據用戶的追加查詢生成新的子任務傳遞給視頻理解模塊；多模態控制大模型將基于視頻理解模塊的響應數據生成細化的響應。

24、第二方面，本專利技術技術方案提供一種基于多模態大模型的視頻分析處理方法，包括：

25、多模態控制大模型接收用戶輸入的通過自然語言描述所需完成的任務，對用戶的輸入進行語義分析，提取任務信息，將涉及視頻理解的任務分解為子任務發送至視頻理解模塊；

26、視頻理解模塊接收任務所需的視頻或視頻片段，執行子任務對視頻進行分析，生成視頻內容的嵌入和描述輸入多模態控制大模型；

27、多模態控制大模型接收到用戶查詢請求時，將用戶的查詢任務解析為可執行的子任務映射到視頻理解的任務上，基于視頻理解大模型生成的視頻內容的嵌入和描述生成基于查詢請求的響應結果。

28、從以上技術方案可以看出，本專利技術具有以下優點：本專利技術通過多模態控制大模型和視頻理解模塊，實現了視頻數據與語言描述之間的緊密融合和互相增強。多模態控制大模型能夠準確理解用戶通過自然語言描述的任務需求，并將其分解為具體的子任務發送給視頻理解模塊進行處理。視頻理解模塊則能夠基于視頻數據生成準確的嵌入和描述，進一步反饋給多模態控制大模型，從而實現了跨模態信息的有效融合和互相增強。借助多模態大模型的強大能力，本專利技術能夠更準確地理解視頻內容，識別異常行為，并生成精確的描述和響應結果。這不僅顯著提高了視頻理解的精度，還大大提升了處理效率，使得智慧園區的安防監控更加智能化和高效化。

29、傳統的視頻監控系統高度依賴本文檔來自技高網...

【技術保護點】

1.一種基于多模態大模型的視頻分析處理系統，其特征在于，包括多模態控制大模型和視頻理解模塊；

2.根據權利要求1所述的基于多模態大模型的視頻分析處理系統，其特征在于，視頻理解模塊包括視頻分析器和視頻嵌入器；

3.根據權利要求2所述的基于多模態大模型的視頻分析處理系統，其特征在于，視頻分析器對輸入的視頻進行解碼，將其從壓縮格式轉換為原始圖像幀序列，從解碼后的視頻中提取出連續的圖像幀，提取每一幀圖像的圖像特征，以及提取視頻的視頻特征，對提取出的特征進行分析，檢測視頻中與任務相關的關鍵事件，檢測到事件，視頻分析器生成對事件的詳細描述；基于事件檢測的結果，視頻分析器生成包含視頻字幕、事件描述、時間戳、標簽、ID和邊界框信息的文本。

4.根據權利要求3所述的基于多模態大模型的視頻分析處理系統，其特征在于，CLIP模型設置有視覺編碼器，CLIP模型訓練時包括對輸入的視頻幀進行隨機掩碼，讓模型重構被掩碼部分的掩碼重構訓練；具體包括：

5.根據權利要求4所述的基于多模態大模型的視頻分析處理系統，其特征在于，CLIP模型設置有文本編碼器，模型訓練時，

6.根據權利要求5所述的基于多模態大模型的視頻分析處理系統，其特征在于，視頻嵌入器獲取長視頻序列，根據時間標注，將原始視頻切分為若干視頻片段；使用已訓練好的CLIP模型，對每個視頻提取視頻特征，通過文本編碼器將對應的文本描述編碼為文本特征。

7.根據權利要求6所述的基于多模態大模型的視頻分析處理系統，其特征在于，多模態控制大模型進行用戶查詢響應時，對于每個子任務，根據查詢解析出的任務類型，利用已生成的視頻嵌入和文本描述，將用戶的查詢嵌入與視頻嵌入進行相似度計算，若相似度超過設定閾值，則認為該視頻片段與查詢相關；結合查詢解析結果，根據時間戳定位視頻中的關鍵片段，即滿足用戶需求的事件時間段，找到相關的視頻片段后，從中提取具有所需的關鍵幀或時間節點，用于直觀展示視頻內容。

8.根據權利要求7所述的基于多模態大模型的視頻分析處理系統，其特征在于，關鍵幀提取公式如下：

9.根據權利要求8所述的基于多模態大模型的視頻分析處理系統，其特征在于，基于同一查詢請求用戶與多模態控制大模型進行多輪交互過程中多模態控制大模型將根據用戶的追加查詢生成新的子任務傳遞給視頻理解模塊；多模態控制大模型將基于視頻理解模塊的響應數據生成細化的響應。

10.一種基于多模態大模型的視頻分析處理方法，其特征在于，包括：

...

【技術特征摘要】

1.一種基于多模態大模型的視頻分析處理系統，其特征在于，包括多模態控制大模型和視頻理解模塊；

2.根據權利要求1所述的基于多模態大模型的視頻分析處理系統，其特征在于，視頻理解模塊包括視頻分析器和視頻嵌入器；

4.根據權利要求3所述的基于多模態大模型的視頻分析處理系統，其特征在于，clip模型設置有視覺編碼器，clip模型訓練時包括對輸入的視頻幀進行隨機掩碼，讓模型重構被掩碼部分的掩碼重構訓練；具體包括：

5.根據權利要求4所述的基于多模態大模型的視頻分析處理系統，其特征在于，clip模型設置有文本編碼器，模型訓練時，將視頻特征和文本特征對齊在共同的語義空間中，計算視頻特征和文本特征，并使用進行對比學習，更新clip模型中視頻編碼器和文本編碼器的參數；

...

【專利技術屬性】
技術研發人員：霍璇，徐昆，李啟凱，李健澤，楊宇坤，
申請(專利權)人：山東浪潮智慧建筑科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術