一種多說話人音頻對象定位方法、裝置、設備及介質制造方法及圖紙

技術編號：43902620 閱讀：6 留言：0更新日期：2025-01-03 13:13

本發明專利技術公開了一種多說話人音頻對象定位方法、裝置、設備及介質。該方法包括：獲取待處理視頻數據及與待處理視頻數據對應的待處理音頻數據，將待處理視頻數據輸入到已訓練的目標檢測模型中，得到各個目標對象的目標位置，通過聲紋分割聚類算法對待處理音頻數據進行分類，得到各個說話對象的語音片段，將待處理視頻數據中各個目標對象的唇動特征和待處理音頻數據中各個說話對象的語音片段輸入到已訓練的主動說話檢測模型中，得到目標對象與說話對象的語音片段之間的對應關系，根據目標對象的目標位置、說話對象的語音片段以及目標對象與說話對象的語音片段之間的對應關系，確定各個說話對象的目標位置。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及音視頻處理，特別涉及一種多說話人音頻對象定位方法、裝置、設備及介質。

技術介紹

1、隨著音頻制作技術的發展，數字音頻經歷了從單聲道、立體聲、環繞聲到三維聲的過程。存量影視作品中的音頻內容大部分都是單聲道、立體聲或環繞聲，通過從存量影視作品中提取說話人的位置信息，生成制作三維聲的人聲對象元數據，結合從對應的存量影視作品中提取的人聲數據編碼生成三維聲，能夠豐富存量影視作品的視聽體驗，提高存量影視作品的復播率。

2、現有技術中，對單個說話人場景的音視頻中判斷說話人的位置信息較為準確，而對多說話人的定位跟蹤則存在一些問題。主要表現在：在多說話人場景中，對說話人的位置定位跟蹤不夠準確；另外，當說話人離鏡頭遠、側向鏡頭或背向鏡頭時，難以定位說話人。在說話人定位跟蹤失敗后，需要通過人工回放音視頻，觀察說話人并人工標注說話人的位置信息，給三維聲制作增添很多工作量。

3、鑒于此，如何提供一種能夠在多說話人場景的音視頻中提高定位跟蹤說話人位置信息的準確性的方案，是所屬
人員需要解決的技術問題。

技術實現思路

1、為解決上述技術問題，本專利技術提供一種多說話人音頻對象定位方法、裝置、設備及介質，能夠在多說話人場景的音視頻中提高定位跟蹤說話人位置信息的準確性，減少人工標注說話人位置信息的工作量。

2、本專利技術一方面提供一種多說話人音頻對象定位方法，包括：

3、獲取待處理視頻數據及與待處理視頻數據對應的待處理音頻數據；

4、將

5、通過聲紋分割聚類算法對待處理音頻數據進行分類，得到各個說話對象的語音片段；

6、將待處理視頻數據中各個目標對象的唇動特征和待處理音頻數據中各個說話對象的語音片段輸入到已訓練的主動說話檢測模型中，得到目標對象與說話對象的語音片段之間的對應關系，其中，主動說話檢測模型是以訓練用視頻數據中各個目標對象的唇動特征集合和訓練用音頻數據中各個說話對象的語音片段集合作為訓練樣本，以訓練用視頻數據中各個目標對象與訓練用音頻數據中各個說話對象的語音片段之間的對應關系為樣本標簽訓練得到；

7、根據目標對象的目標位置、說話對象的語音片段以及目標對象與說話對象的語音片段之間的對應關系，確定各個說話對象的目標位置。

8、優選地，目標檢測模型通過以下方式訓練得到：

9、將樣本視頻數據輸入到初始檢測模型中，得到各個樣本對象在時間上的檢測邊界框；

10、對樣本視頻數據中各個樣本對象的運動軌跡進行預測，得到各個樣本對象在時間上的預測邊界框；

11、利用損失函數計算檢測邊界框與預測邊界框的損失值；

12、根據損失值判斷初始檢測模型是否已經收斂；

13、若是，則將初始檢測模型確定為已訓練的目標檢測模型；

14、若否，則對初始檢測模型進行調整，并返回將樣本視頻數據輸入到初始檢測模型中，得到各個樣本對象的檢測邊界框的步驟。

15、優選地，對樣本視頻數據中各個樣本對象的運動軌跡進行預測，得到各個樣本對象在時間上的預測邊界框，包括：

16、獲取樣本視頻數據中各個樣本對象在第一個視頻幀中的第一邊界框以及各個樣本對象在第二個視頻幀中的第二邊界框；

17、根據第一邊界框和第二邊界框，確定各個樣本對象的運動方向和運動速度；

18、根據第二邊界框、運動方向和運動速度，對各個樣本對象的運動軌跡進行預測，得到各個樣本對象在時間上的預測邊界框。

19、優選地，損失函數的表達式為：

20、

21、其中，代表損失函數，和分別代表預測邊界框和檢測邊界框，代表預測邊界框與檢測邊界框之間的中心點距離，代表預測邊界框的歸一化灰度值的平均值與檢測邊界框的歸一化灰度值的平均值之間的差值的絕對值。

22、優選地，通過聲紋分割聚類算法對待處理音頻數據進行分類，得到各個說話對象的語音片段，包括：

23、將待處理音頻數據切分為多個音頻片段；

24、提取各個音頻片段中的聲紋向量，并將聲紋向量拼接為聲紋向量矩陣；

25、對聲紋向量矩陣進行轉置操作，得到轉置操作后的聲紋向量矩陣；

26、對聲紋向量矩陣和轉置操作后的聲紋向量矩陣進行內積操作，得到相似度矩陣；

27、根據相似度矩陣對音頻片段進行聚類，得到各個說話對象的語音片段。

28、優選地，在將待處理音頻數據切分為多個音頻片段之前，方法還包括：

29、利用語音檢測模型對待處理音頻數據進行分析，得到包含語音信號的待處理音頻數據。

30、優選地，方法還包括：

31、以各個目標對象的人臉為目標，對待處理視頻數據進行目標檢測，得到各個目標對象的人臉圖像；

32、在人臉圖像中提取唇部區域的時間特征描述，作為各個目標對象的唇動特征。

33、本專利技術另一方面提供一種多說話人音頻對象定位裝置，包括：

34、獲取模塊，用于獲取待處理視頻數據及與待處理視頻數據對應的待處理音頻數據；

35、目標位置檢測模塊，用于將待處理視頻數據輸入到已訓練的目標檢測模型中，得到各個目標對象的目標位置；

36、語音片段分類模塊，用于通過聲紋分割聚類算法對待處理音頻數據進行分類，得到各個說話對象的語音片段；

37、對應關系確定模塊，用于將待處理視頻數據中各個目標對象的唇動特征和待處理音頻數據中各個說話對象的語音片段輸入到已訓練的主動說話檢測模型中，得到目標對象與說話對象的語音片段之間的對應關系，其中，主動說話檢測模型是以訓練用視頻數據中各個目標對象的唇動特征集合和訓練用音頻數據中各個說話對象的語音片段集合作為訓練樣本，以訓練用視頻數據中各個目標對象與訓練用音頻數據中各個說話對象的語音片段之間的對應關系為樣本標簽訓練得到；

38、輸出模塊，用于根據目標對象的目標位置、說話對象的語音片段以及目標對象與說話對象的語音片段之間的對應關系，確定各個說話對象的目標位置。

39、本專利技術又一方面提供一種電子設備，包括：

40、存儲器，用于存儲計算機程序；

41、處理器，用于執行該計算機程序時實現如上述的多說話人音頻對象定位方法的步驟。

42、本專利技術又一方面提供一種計算機可讀存儲介質，該計算機可讀存儲介質上存儲有計算機程序，該計算機程序被處理器執行時實現上述的多說話人音頻對象定位方法的步驟。

43、本專利技術至少具有以下有益效果：

44、本專利技術通過獲取待處理視頻數據及與待處理視頻數據對應的待處理音頻數據，將待處理視頻數據輸入到已訓練的目標檢測模型中，得到各個目標對象的目標位置，通過聲紋分割聚類算法對待處理音頻數據進行分類，得到各個說話對象的語音片段，將待處理視頻數據中各個目標對象的唇動特征和待處理音頻數本文檔來自技高網...

【技術保護點】

1.一種多說話人音頻對象定位方法，其特征在于，包括：

2.根據權利要求1所述的多說話人音頻對象定位方法，其特征在于，所述目標檢測模型通過以下方式訓練得到：

3.根據權利要求2所述的多說話人音頻對象定位方法，其特征在于，所述對所述樣本視頻數據中各個所述樣本對象的運動軌跡進行預測，得到各個所述樣本對象在時間上的預測邊界框，包括：

4.根據權利要求2所述的多說話人音頻對象定位方法，其特征在于，所述損失函數的表達式為：

5.根據權利要求1所述的多說話人音頻對象定位方法，其特征在于，所述通過聲紋分割聚類算法對所述待處理音頻數據進行分類，得到各個說話對象的語音片段，包括：

6.根據權利要求5所述的多說話人音頻對象定位方法，其特征在于，在所述將所述待處理音頻數據切分為多個音頻片段之前，所述方法還包括：

7.根據權利要求1所述的多說話人音頻對象定位方法，其特征在于，所述方法還包括：

8.一種多說話人音頻對象定位裝置，其特征在于，包括：

9.一種電子設備，其特征在于，包括：

10.一種計算機

...

【技術特征摘要】

1.一種多說話人音頻對象定位方法，其特征在于，包括：

2.根據權利要求1所述的多說話人音頻對象定位方法，其特征在于，所述目標檢測模型通過以下方式訓練得到：

4.根據權利要求2所述的多說話人音頻對象定位方法，其特征在于，所述損失函數的表達式為：

5.根據權利要求1所述的多說話人音頻對象定位方法，其特征在于，所述通過聲紋分割聚類算法對所述待處理音頻數據進行分類...

【專利技術屬性】
技術研發人員：徐文浩，蘇道明，王雷，
申請(專利權)人：馬欄山音視頻實驗室，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術