System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及視頻時刻檢索領域,具體地,涉及一種文本視頻多模態融合的視頻時刻檢索方法。
技術介紹
1、視頻時刻檢索旨在定位未剪輯視頻中與給定語言查詢在語義上對應的特定時刻。視頻時刻檢索技術的出現有助于減少視頻分析的工作量,有著諸多應用,比如在機器人導航、自動駕駛和海量規模的視頻監控分析領域。
2、深度學習的進步顯著提升了視頻時刻檢索的性能,目前視頻時刻檢索的方法大致有兩類:兩階段的檢索方法和一階段的檢索方法。兩階段的檢索方法通過多尺度滑動窗口或候選片段生成網絡對視頻進行預分割,生成多個候選片段,然后通過反復的語句查詢和候選片段匹配來確定最佳匹配結果。
3、一階段的檢索方法通常是基于提供的視頻和句子查詢的多模態特征,直接回歸目標時間段的起始和結束坐標。盡管現有的方法取得了不錯的進展,但是兩階段的檢測方法需要額外的候選片段生成過程和候選片段選擇步驟,計算開銷較大,且可能因為生成的候選集不夠精確而影響效率。對于一階段的檢測方法,如何有效利用來自多種模態的數據變得尤為重要,現階段的方法通常是將文本和視頻兩種模態特征簡單的拼接或者局部的混合,忽略了全局融合與局部融合的重要性。
技術實現思路
1、為了克服現有技術中的至少一個不足,本申請提供一種文本視頻多模態融合的視頻時刻檢索方法。
2、第一方面,提供一種文本視頻多模態融合的視頻時刻檢索方法,包括:
3、對文本查詢信息采用文本編碼器進行特征提取,得到文本特征;
4、對原始視頻采用視頻特征提
5、將文本特征和多尺度視頻特征進行全局融合,得到全局偏移量;將文本特征和多尺度視頻特征進行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到總的偏移量;
6、將文本特征和多尺度視頻特征輸入查詢依賴的卷積分類器,得到原始視頻中每個時刻對應的語義得分;選取大于設定閾值的語義得分對應的時刻作為候選時刻;
7、根據總的偏移量確定每個候選時刻對應的時間片段;
8、對所有的時間片段采用非極大值抑制方法進行處理,得到最終的時間片段,即為確定的文本查詢信息在原始視頻中對應的時間片段。
9、在一個實施例中,將文本特征和多尺度視頻特征進行全局融合,得到全局偏移量,包括:
10、文本特征經過多層感知機處理以及張量變換操作后,得到卷積核權重;
11、將文本特征與多尺度視頻特征進行通道維度上的拼接,得到拼接后的特征;
12、對拼接后的特征進行卷積操作,得到混合特征;
13、對混合特征進行傅里葉卷積,得到傅里葉卷積后的特征;
14、對傅里葉卷積后的特征進行動態掩碼生成,得到掩碼張量;掩碼張量和傅里葉卷積后的特征相乘,得到相乘結果;對相乘結果進行逆傅里葉變換,得到逆操作后的特征;
15、逆操作后的特征與卷積核權重進行卷積,得到全局偏移量。
16、在一個實施例中,將文本特征和多尺度視頻特征進行局部融合,得到局部偏移量,包括:
17、文本特征經過多層感知機處理以及張量變換操作后,得到卷積核權重;
18、多尺度視頻特征與卷積核權重進行卷積操作,得到局部偏移量。
19、在一個實施例中,根據總的偏移量確定每個候選時刻對應的時間片段,包括:
20、計算每個候選時刻的開始時間和結束時間:
21、
22、t
23、其中,為候選時刻t所屬時間片段的開始時間,為候選時刻t所屬時間片段的結束時間,為總的偏移量中開始時間距離候選時刻的偏移量,為總的偏移量中結束時間距離候選時刻的偏移量;
24、每個候選時刻對應的時間片段為[]。
25、第二方面,提供一種文本視頻多模態融合的視頻時刻檢索裝置,包括:
26、文本特征提取模塊,用于對文本查詢信息采用文本編碼器進行特征提取,得到文本特征;
27、視頻特征提取模塊,用于對原始視頻采用視頻特征提取骨干網絡進行特征提取,得到視頻特征;并采用視覺編碼器將視頻特征轉換為多尺度視頻特征;
28、融合模塊,用于將文本特征和多尺度視頻特征進行全局融合,得到全局偏移量;將文本特征和多尺度視頻特征進行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到總的偏移量;
29、候選時刻確定模塊,用于將文本特征和多尺度視頻特征輸入查詢依賴的卷積分類器,得到原始視頻中每個時刻對應的語義得分;選取大于設定閾值的語義得分對應的時刻作為候選時刻;
30、時間片段確定模塊,用于根據總的偏移量確定每個候選時刻對應的時間片段;
31、最終結果確定模塊,用于對所有的時間片段采用非極大值抑制方法進行處理,得到最終的時間片段,即為確定的文本查詢信息在原始視頻中對應的時間片段。
32、第三方面,提供一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序,計算機程序被處理器執行時,以實現上述的文本視頻多模態融合的視頻時刻檢索方法。
33、第四方面,提供一種計算機程序產品,包括計算機程序/指令,計算機程序/指令被處理器執行時,以實現上述的文本視頻多模態融合的視頻時刻檢索方法。
34、相對于現有技術而言,本申請具有以下有益效果:本申請的文本視頻多模態融合的視頻時刻檢索方法,解決了現有技術忽略了全局特征融合與局部特征融合的問題,既能捕捉到文本與視頻之間的全局語義一致性,同時能夠在更細粒度的層次上進行融合,有效的提升了視頻時刻檢索的準確性。
本文檔來自技高網...【技術保護點】
1.一種文本視頻多模態融合的視頻時刻檢索方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,其中,將所述文本特征和所述多尺度視頻特征進行全局融合,得到全局偏移量,包括:
3.如權利要求1所述的方法,其特征在于,其中,將所述文本特征和所述多尺度視頻特征進行局部融合,得到局部偏移量,包括:
4.如權利要求1所述的方法,其特征在于,其中,根據所述總的偏移量確定每個候選時刻對應的時間片段,包括:
5.一種文本視頻多模態融合的視頻時刻檢索裝置,其特征在于,包括:
6.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時,以實現權利要求1-4任意一項所述的文本視頻多模態融合的視頻時刻檢索方法。
7.一種計算機程序產品,其特征在于,包括計算機程序/指令,所述計算機程序/指令被處理器執行時,以實現權利要求1-4任意一項所述的文本視頻多模態融合的視頻時刻檢索方法。
【技術特征摘要】
1.一種文本視頻多模態融合的視頻時刻檢索方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,其中,將所述文本特征和所述多尺度視頻特征進行全局融合,得到全局偏移量,包括:
3.如權利要求1所述的方法,其特征在于,其中,將所述文本特征和所述多尺度視頻特征進行局部融合,得到局部偏移量,包括:
4.如權利要求1所述的方法,其特征在于,其中,根據所述總的偏移量確定每個候選時刻對應的時間片段,包括:
...【專利技術屬性】
技術研發人員:肖云,王寧,舒鍵,呂昊,程夢習,段佳順,房鼎益,陳曉江,
申請(專利權)人:西北大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。