長持續時間結構化視頻動作分割制造技術

技術編號：44501681 閱讀：3 留言：0更新日期：2025-03-07 13:01

本申請涉及長持續時間結構化視頻動作分割。機器學習模型可以處理視頻并且生成輸出，例如將視頻的一些部分指派給特定動作的動作分割，或者為視頻的每一幀指派動作類別的動作分類。一些機器學習模型可以對短視頻準確地作出預測，但可能并不特別適合對長持續時間、結構化的視頻執行動作分割。一種有效的機器學習模型可以包括一種涉及時間卷積網絡和雙向圖神經網絡的混合體系結構。機器學習模型可以通過以下方式來處理長持續時間結構化視頻：使用時間卷積網絡作為第一道動作分割模型來生成豐富的幀級特征。幀級特征可以被轉換為具有前向邊緣和后向邊緣的圖。圖神經網絡可以對圖進行處理，以細化最終的細粒度每幀動作預測。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請總地涉及機器學習領域，更具體地涉及長持續時間結構化視頻動作分割。

技術介紹

1、機器學習模型(例如，深度學習模型、深度神經網絡、卷積神經網絡、基于變換器的模型，等等)被用于諸如計算機視覺、話音識別和自然語言處理之類的各種人工智能和機器學習應用中。機器學習模型可以接收和處理輸入，例如圖像、視頻、音頻、話音、文本，等等。機器學習模型可基于輸入生成輸出，例如特征和預測。

技術實現思路

1、根據本申請的一方面，提供了一種方法，包括：將與視頻幀的序列相關聯的一個或多個幀級(frame-wise)輸入輸入到時間卷積網絡中；利用所述時間卷積網絡，基于所述一個或多個幀級輸入生成一個或多個幀級特征；基于所述一個或多個幀級特征生成包括一個或多個節點和一個或多個邊緣的圖，其中，節點對應于視頻幀，并且連接兩個節點的邊緣表示兩個視頻幀的幀級特征之間的連接；將所述圖輸入到圖神經網絡中；并且利用所述圖神經網絡，為所述圖的所述一個或多個節點生成一個或多個預測。

2、根據本申請的另一方面，提供了一種裝置，包括：一個或多個處理器；以及存儲機器學習模型的一個或多個存儲設備，所述機器學習模型具有由所述一個或多個處理器執行的處理操作，所述機器學習模型包括：時間卷積網絡，用于接收與視頻幀的序列相關聯的一個或多個幀級輸入，并且輸出一個或多個幀級特征；轉換器，用于基于所述一個或多個幀級特征生成包括節點和一個或多個邊緣的圖，其中，節點對應于視頻幀，并且連接兩個節點的邊緣表示兩個視頻幀的幀級特征之間的連接；以及圖神

本文檔來自技高網...

【技術保護點】

1.一種方法，包括：

2.如權利要求1所述的方法，其中，與視頻幀的序列相關聯的所述一個或多個幀級輸入包括：

3.如權利要求1或2所述的方法，其中，與視頻幀的序列相關聯的所述一個或多個幀級輸入包括：

4.如權利要求1或2所述的方法，還包括：

5.如權利要求1或2所述的方法，其中，基于所述一個或多個幀級輸入生成所述一個或多個幀級特征包括：

6.如權利要求1或2所述的方法，其中，基于所述一個或多個幀級輸入生成所述一個或多個幀級特征包括：

7.如權利要求1或2所述的方法，其中，所述一個或多個幀級特征是由所述時間卷積網絡的倒數第二層生成的。

8.如權利要求1或2所述的方法，其中，生成所述圖還包括：

9.如權利要求1或2所述的方法，其中，生成所述圖包括：

10.如權利要求1或2所述的方法，其中，生成所述圖包括：

11.如權利要求1或2所述的方法，其中，生成所述一個或多個預測包括：

12.一種裝置，包括：

13.如權利要求12所述的裝置，其中，所述機器學習模型還包括：

14.如權利要求12或13所述的裝置，其中，所述時間卷積網絡包括：

15.如權利要求12或13所述的裝置，其中，所述時間卷積網絡包括：

16.如權利要求12或13所述的裝置，其中，所述時間卷積網絡包括：

17.如權利要求16所述的裝置，其中，所述多個擴張卷積層中的一個擴張卷積層的多個處理塊中的一個處理塊包括：

18.如權利要求17所述的裝置，其中，所述擴張率取決于所述處理塊所位于的擴張卷積層。

19.如權利要求16所述的裝置，其中，所述多個擴張卷積層中的一個擴張卷積層的多個處理塊中的一個處理塊包括：

20.如權利要求19所述的裝置，其中，所述第一擴張率取決于所述處理塊所位于的擴張卷積層。

21.如權利要求19所述的裝置，其中，所述第二擴張率取決于所述處理塊所位于的擴張卷積層。

22.如權利要求19所述的裝置，其中，所述第一擴張率與所述第二擴張率不同。

23.如權利要求12或13所述的裝置，其中，所述時間卷積網絡包括多個層，并且所述一個或多個幀級特征是由所述時間卷積網絡的倒數第二層生成的。

24.如權利要求12至23中的任一權利要求所述的裝置，其中，所述機器學習模型還包括融合塊，用于接收并且融合所述一個或多個幀級輸入和所述一個或多個幀級特征，并且所述轉換器還用于接收所述融合塊的輸出。

25.一個或多個非暫態計算機可讀介質，存儲有指令，所述指令當被一個或多個處理器執行時，使得所述一個或多個處理器：

...

【技術特征摘要】

1.一種方法，包括：

2.如權利要求1所述的方法，其中，與視頻幀的序列相關聯的所述一個或多個幀級輸入包括：

3.如權利要求1或2所述的方法，其中，與視頻幀的序列相關聯的所述一個或多個幀級輸入包括：

4.如權利要求1或2所述的方法，還包括：

5.如權利要求1或2所述的方法，其中，基于所述一個或多個幀級輸入生成所述一個或多個幀級特征包括：

6.如權利要求1或2所述的方法，其中，基于所述一個或多個幀級輸入生成所述一個或多個幀級特征包括：

7.如權利要求1或2所述的方法，其中，所述一個或多個幀級特征是由所述時間卷積網絡的倒數第二層生成的。

8.如權利要求1或2所述的方法，其中，生成所述圖還包括：

9.如權利要求1或2所述的方法，其中，生成所述圖包括：

10.如權利要求1或2所述的方法，其中，生成所述圖包括：

11.如權利要求1或2所述的方法，其中，生成所述一個或多個預測包括：

12.一種裝置，包括：

13.如權利要求12所述的裝置，其中，所述機器學習模型還包括：

14.如權利要求12或13所述的裝置，其中，所述時間卷積網絡包括：

15.如權利要求12或13所述的裝置，其中，所述時間卷積網絡包括：

...

【專利技術屬性】
技術研發人員：安東尼·丹尼爾·羅德斯，閔丙修，蘇巴爾納·特里帕蒂，朱塞佩·拉法，索萬·比斯瓦斯，
申請(專利權)人：英特爾公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術