一種音視頻同步方法、裝置、設備及存儲介質制造方法及圖紙

技術編號：44342441 閱讀：11 留言：0更新日期：2025-02-18 20:55

本申請公開了一種音視頻同步方法、裝置、設備及存儲介質，涉及音視頻技術領域，上述方法包括：獲取第一音頻和第一視頻；基于第一視頻中的唇部圖像，確定用于表征主講人發言內容的第一文本以及第一文本的時間；基于第一音頻，確定第二文本以及第二文本的時間，第二文本為第一音頻的語義信息；在第一文本和第二文本之間的相似度高于預設相似度的情況下，確定時間差，時間差為第一文本的時間與第二文本的時間之間的差值；若時間差大于或等于預設時長，調整第一音頻的起始時刻或第一視頻的起始時刻，以實現第一音頻和第一視頻的同步。通過上述方法，可以在無需人工介入的情況下實現音視頻同步，提升音視頻同步的效率和準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請實施例涉及音視頻，特別涉及一種音視頻同步方法、裝置、設備及存儲介質。

技術介紹

1、在教學、演講或會議等場景中，記錄人員往往通過部署的多個采集設備，從多個視角采集用戶發言的音頻和視頻，以全方位記錄用戶的發言過程。由于不同采集設備的性能不同，所以處理音頻或視頻的耗時也不同。因此，容易導致所采集的音頻和視頻不同步。

2、為實現音視頻同步，相關技術中，記錄人員在通過不同采集設備記錄用戶的發言過程時，往往根據自身經驗，人工調整不同采集設備的參數(如采集速率、采集時間、位置等)，使不同采集設備所采集的音頻和視頻同步。

3、然而，在實際應用中，應用場景和采集設備的部署情況會經常發生變化。在應用場景和采集設備的部署情況經常發生變化時，相關技術中為實現音視頻同步，記錄人員需要頻繁調整采集設備的參數。在需要頻繁調整采集設備的參數的情況下，人工調整采集設備的參數來實現音視頻同步的方式，依賴于記錄人員的經驗，可能無法對頻繁變化的情況做出及時響應，且難以保證準確性，因此會影響音視頻同步的效率和準確率。

技術實現思路

1、本申請實施例提供一種音視頻同步方法、裝置、設備及存儲介質，本申請實施例可以在無需人工介入的情況下實現音視頻同步，以提升音視頻同步的效率和準確率。

2、第一方面，本申請實施例提供一種音視頻同步方法，包括：

3、獲取第一音頻和第一視頻，第一視頻包括唇部圖像，唇部圖像用于表征主講人的唇部動作；

4、基于第一視頻中的唇部圖像，確定第

5、基于第一音頻，確定第二文本以及第二文本的時間，第二文本為第一音頻的語義信息；

6、在第一文本和第二文本之間的相似度高于預設相似度的情況下，確定時間差，時間差為第一文本的時間與第二文本的時間之間的差值；

7、若時間差大于或等于預設時長，調整第一音頻的起始時刻或第一視頻的起始時刻，以實現第一音頻和第一視頻的同步。

8、可選的，上述基于第一視頻中的唇部圖像，確定第一文本以及第一文本的時間，包括：

9、將第一視頻輸入至預設的唇形檢測模型，對第一視頻中的唇部圖像進行唇形識別，得到第一文本和第一文本的時間。

10、可選的，上述基于第一音頻，確定第二文本以及第二文本的時間，包括：

11、將第一音頻輸入至預設的語音識別模型，對第一音頻進行音頻識別，得到第二文本以及第二文本的時間。

12、可選的，上述獲取第一音頻和第一視頻，包括：

13、實時采集視頻和音頻，以獲取第一音頻和第一視頻。

14、可選的，上述獲取第一音頻和第一視頻，包括：

15、獲取目標音視頻；

16、解析目標音視頻，得到音頻數據和視頻數據；音頻數據包括至少一個音頻片段，視頻數據包括至少一個視頻片段；

17、獲取音頻數據中的第一音頻，以及獲取視頻數據中的第一視頻；第一音頻的時間戳和第一視頻的時間戳之間的差值小于閾值。

18、可選的，音視頻同步方法還包括：

19、通過文本相似度算法計算第一文本和第二文本之間的相似度。

20、第二方面，本申請實施例提供一種音視頻同步裝置，包括：

21、數據獲取模塊，用于獲取第一音頻和第一視頻，第一視頻包括唇部圖像，唇部圖像用于表征主講人的唇部動作；

22、視頻文本獲取模塊，用于基于第一視頻中的唇部圖像，確定第一文本以及第一文本的時間；第一文本用于表征主講人發言的內容；

23、音頻文本獲取模塊，用于基于第一音頻，確定第二文本以及第二文本的時間，第二文本為第一音頻的語義信息；

24、相似度計算模塊，用于通過文本相似度算法計算第一文本和第二文本之間的相似度；

25、時間差獲取模塊，用于在第一文本和第二文本之間的相似度高于預設相似度的情況下，確定時間差，時間差為第一文本的時間與第二文本的時間之間的差值；

26、同步判斷模塊，用于確定時間差與預設時長的大小關系；

27、同步調整模塊，用于若時間差大于或等于預設時長，調整第一音頻的起始時刻或第一視頻的起始時刻，以實現第一音頻和第一視頻的同步。

28、第三方面，本申請實施例提供一種電子設備，包括處理器和存儲有程序指令的存儲器，其中，處理器被配置為在運行程序指令時，執行如第一方面或任意一種可選方式所述的音視頻同步方法。

29、第四方面，本申請實施例提供一種計算機可讀存儲介質，該計算機可讀存儲介質存儲有計算機程序，其中，該計算機程序被處理器執行時，實現如第一方面或任意一種可選方式所述的音視頻同步方法。

30、綜上可以看出，本申請實施例提供的音視頻同步方法在獲取到主講人發言過程中的第一音頻與第一視頻(包含了主講人的唇部圖像)后，基于第一視頻中的唇部圖像確定第一文本(即表征主講人的發言內容的文本)以及第一文本對應的時間；基于第一音頻，確定第二文本(即第一音頻的語義信息)以及第二文本對應的時間；當第一文本與第二文本之間的相似度高于預設相似度時，還確定了第一文本的時間與第二文本的時間之間的時間差；若時間差大于或等于預設時長，則對第一音頻或第一視頻進行時間調整，使得第一視頻中的圖像與第一音頻中的聲音在時間上能夠保持一致，實現了音視頻的同步。第一文本和第二文本之間的相似度高于預設相似度，則可以認為第一文本與第二文本對應主講人的同一段講話內容，這樣，即可保證第一音頻和第一視頻對應相同的講話內容。在內容相同的基礎上，還考慮了時間差，并根據時間差對第一音頻或第一視頻的起始時刻進行調整，這樣，本申請實施例提供的音視頻同步方法既可有效保證同步內容的準確性，又可保證同步的效果，還可以有效提高同步效率。

本文檔來自技高網...

【技術保護點】

1.一種音視頻同步方法，其特征在于，包括：

2.根據權利要求1所述的音視頻同步方法，其特征在于，所述基于所述第一視頻中的唇部圖像，確定第一文本以及所述第一文本的時間，包括：

3.根據權利要求1所述的音視頻同步方法，其特征在于，所述基于所述第一音頻，確定第二文本以及所述第二文本的時間，包括：

4.根據權利要求1-3中任意一項所述的音視頻同步方法，其特征在于，所述獲取第一音頻和第一視頻，包括：

5.根據權利要求1-3中任意一項所述的音視頻同步方法，其特征在于，所述獲取第一音頻和第一視頻，包括：

6.根據權利要求1所述的音視頻同步方法，其特征在于，還包括：

7.一種音視頻同步裝置，其特征在于，包括：

8.一種電子設備，包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時使得所述電子設備實現如權利要求1至6任一項所述的音視頻同步方法。

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如

...

【技術特征摘要】

1.一種音視頻同步方法，其特征在于，包括：

2.根據權利要求1所述的音視頻同步方法，其特征在于，所述基于所述第一視頻中的唇部圖像，確定第一文本以及所述第一文本的時間，包括：

3.根據權利要求1所述的音視頻同步方法，其特征在于，所述基于所述第一音頻，確定第二文本以及所述第二文本的時間，包括：

4.根據權利要求1-3中任意一項所述的音視頻同步方法，其特征在于，所述獲取第一音頻和第一視頻，包括：

5.根據權利要求1-3中任意一項所述的音視頻同步方法，其特征在于，所述獲取第...

【專利技術屬性】
技術研發人員：吳明銳，
申請(專利權)人：廣州開得聯軟件技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術