一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法技術

技術編號：44515535 閱讀：5 留言：0更新日期：2025-03-07 13:10

本發明專利技術屬于文本?視頻檢索領域，具體涉及一種基于生成字幕的多粒度語義對齊文本?視頻檢索方法，包括：建立SAEC模型，并對其進行訓練，通過訓練后的SAEC模型進行文本?視頻匹配檢索。本發明專利技術提出了一個新的模型SAEC，該模型通過匹配視頻中的局部細節并理解視頻的全局語義，顯著提高了文本到視頻的檢索準確性，同時，本發明專利技術通過聯合生成的字幕和視頻，使模型不僅能理解視頻的直接內容，還能把握更復雜的情境。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于文本-視頻檢索領域，具體涉及一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法。

技術介紹

1、近年來,隨著互聯網上視頻數量的顯著增長,文本視頻檢索，即通過文本描述高效地檢索目標視頻變得日益重要,具有重大的實用價值和研究意義。文本-視頻檢索任務的核心問題是如何解決不同模態數據之間的語義鴻溝。

2、過去幾年中,大規模文本-圖像對比預訓練在多模態文本-視覺理解任務中取得了巨大的成功啟發。如具有代表性的clip方法，clip采用雙塔結構直接從圖片像素點和句子分別提取視覺和文本的特征，然后再映射到公共空間進行端到端訓練。預訓練任務則只采用對比學習(contrastive?learning)的方法，將具有相似語義的圖像-文本對在公共空間拉近，將不同語義的圖像-文本對推遠，以此獲得圖像和文本數據的統一表征。除此之外，對于下游任務，clip也通過prompt的方式將下游任務改編成與預訓練任務一致的方式，解決了任務不對齊的問題。clip模型不僅在多模態檢索任務上效果明顯，在傳統的單模態任務上也有良好的泛化能力。例如在imagenet數據集上的零樣本圖像分類任務(zero-shotimage?classification)超過了純視覺模型。但需要說明的是，clip模型的強大更多來自于4億的圖文訓練數據，這讓clip模型存儲了大量的語義知識。clip基于超過4億圖像-文本對的數據集訓練了一個包含豐富世界知識的圖像編碼器和文本編碼器。一些研究工作開始將預訓練的文本和圖像編碼器適配到視頻領域,實現了顯著改進。盡管它們顯著的提升

3、同時，在自然語言處理領域，基于transformer架構的gpt模型通過在大規模文本語料庫上的訓練，成功地根據給定提示生成文本。最近，zerocap提出了一種結合clip和gpt-2語言模型的方法，用于生成輸入圖像的文本描述，這一方法能夠在完全零鏡頭的情況下利用這兩個模型的能力，而無需對模型參數進行重新訓練或微調。最近的一項研究將zerocap的零鏡頭功能擴展到視頻領域，可以在無需任何額外訓練的情況下生成高度概括視頻語義的字幕。在本研究中，本專利技術跟隨他們，使用了這種方法，利用該視頻擴展功能生成輔助字幕，而無需進行任何額外的訓練。在本專利技術中，本專利技術便借用了這種技術來增加文本和視頻的語義對齊。

4、本描述通常只關注視頻的特定時空片段，提供局部的語義信息。這主要源于以下幾點：1.文本描述的局限性：文本描述往往針對視頻中的某一片段或細節，而非對整個視頻的全面概括。2.現有細粒度匹配方法的局限：現有細粒度匹配方法側重于局部信息的對齊，缺乏對視頻整體語義的全面理解。3.視頻內容的復雜性：視頻內容的復雜性、多樣性以及時序信息，使得全局語義的提取和對齊變得困難。相比之下，視頻通過連續的畫面序列呈現整個事件的完整過程，包含了豐富的全局視覺信息。這種全局與局部信息的差異可能導致文本與視頻在語義理解和匹配過程中出現偏差。

5、目前的大多數方法依賴于用文字中具體的詞匯去匹配視頻中直觀可見的內容來進行局部對齊，但盡管文本描述與視頻的某個局部片段可能高度相關，在整個視頻的全局語境下，它們在語義上卻可能存在不一致。

6、因此，盡管細粒度匹配方法在局部對齊方面取得了顯著進展，但在處理視頻整體語義表達時仍存在不足，可能導致無法準確理解視頻的整體主題或情景。為了解決這些問題，需要同時考慮以下兩點：1.整合全局與局部視角：局部對齊的局限性：細粒度匹配方法通常通過局部對齊來匹配視頻中具體的物體、動作或屬性，這往往依賴于視頻的細節，但忽略了視頻的全局語義環境。全局與局部的結合：通過同時考慮視頻的全局內容和局部細節，可以避免僅依賴局部對齊可能出現的上下文信息缺失問題。整合全局與局部視角確保了視頻內容的全面理解，從而提高了檢索的相關性和準確性。2.更好的全局語義特征：視頻的多模態信息：視頻作為一種豐富的多模態信息載體，其語義不僅僅局限于畫面中直接呈現的對象，還包括由這些視覺元素共同構成的整體情境和故事線。語義引導的重要性：在沒有明確語義引導的情況下，視頻特征聚合可能會受到背景噪聲或不相關內容的干擾。高層語義對齊：高層語義對齊能夠更好地理解和匹配視頻的整體內容和深層次意義。因此，需要通過生成字幕或其他語義引導方式來聚合視頻的全局語義特征。例如，“經濟咨詢公司分析城市增長”的視頻需要在理解經濟活動的基礎上進行匹配，而不僅僅是通過具體的視覺元素來進行匹配。

技術實現思路

1、為解決上述技術問題，本專利技術提供一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，包括：

2、建立saec模型，并對其進行訓練，通過訓練后的saec模型進行文本-視頻匹配檢索，所述匹配檢索過程包括全局語義匹配(gsm)階段和局部語義匹配(lsm)階段；

3、所述通過訓練后的saec模型進行文本-視頻匹配檢索，包括：

4、s1：視頻字幕生成；

5、s2：通過全局語義匹配(gsm)階段完成視頻與文本的全局語義特征對齊，實現匹配檢索；

6、s3：通過局部語義匹配(lsm)階段增強檢索結果的相關性。

7、本專利技術的有益效果：

8、本專利技術提出了一個新的模型saec，該模型通過匹配視頻中的局部細節并理解視頻的全局語義，顯著提高了文本到視頻的檢索準確性。同時，本專利技術通過聯合生成的字幕和視頻，使模型不僅能理解視頻的直接內容，還能把握更復雜的情境。在基準數據集上進行了廣泛的實驗，證明本專利技術有效地結合了全局和局部對齊，全面理解了視頻內容，顯著提高了文本-視頻檢索性能。

本文檔來自技高網...

【技術保護點】

1.一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，包括：

2.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，視頻字幕生成，包括：

3.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，跨模態注意力層的投影表示為：

4.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，計算查詢投影字幕嵌入和視頻幀嵌入的點積注意力，包括：

5.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，基于查詢投影字幕嵌入和視頻幀嵌入的點積注意力融合視頻的重要信息獲得全局語義特征，并通過額外的線性層和殘差結構進一步豐富模型的表達能力，包括：

6.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，將融合后的視頻特征和字幕特征串聯，然后輸入到MLP中，實現知識的再分配，獲得能夠表示視頻和字幕整體語義的全局多模態特征，包括：

7.根據權利要求1所述的一種基

8.根據權利要求7所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，計算查詢投影文本嵌入和視頻幀嵌入的點積注意力，包括：

9.根據權利要求7所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，通過施加權重將注意力模塊中聚合的視頻表示投影回RD，得到以文本t為條件的聚合視頻嵌入，包括：

10.根據權利要求7所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，根據聚合視頻嵌入獲取局部語義特征，包括：

...

【技術特征摘要】

1.一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，包括：

2.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，視頻字幕生成，包括：

3.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻檢索方法，其特征在于，跨模態注意力層的投影表示為：

6.根據權利要求1所述的一種基于生成字幕的多粒度語義對齊文本-視頻...

【專利技術屬性】
技術研發人員：胡峰，楊永亮，王燁，于政文，劉璇，王小強，于洪，
申請(專利權)人：重慶郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術