一種無監(jiān)督的視聽分割方法、系統(tǒng)及電子設(shè)備技術(shù)方案

技術(shù)編號：44502418 閱讀：4 留言：0更新日期：2025-03-07 13:01

本發(fā)明專利技術(shù)公開了一種無監(jiān)督的視聽分割方法、系統(tǒng)及電子設(shè)備，方法包括：獲取視聽數(shù)據(jù)集，提取得到音頻特征和視覺特征；將音頻和視覺兩個模態(tài)的特征進行特征映射到公共特征空間，通過交叉注意力計算兩個模態(tài)的特征關(guān)聯(lián)，確定視頻幀對聲源目標的粗粒度定位；挖掘視覺特征的鄰域語義關(guān)聯(lián)，構(gòu)建語義相似矩陣，對聲源目標分割進行細粒度修正，得到第一聲源目標分割圖；根據(jù)音視特征交互學習，通過編解碼網(wǎng)絡(luò)生成第二聲源目標分割圖；將第一聲源目標分割圖和第二聲源目標分割圖進行對齊，得到優(yōu)化后的最終視聽分割結(jié)果。本發(fā)明專利技術(shù)實施例能夠使得聲源目標邊界信息更準確，以及使得生成聲源目標分割圖時更加穩(wěn)定和準確，可廣泛應用于音視頻處理技術(shù)領(lǐng)域。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及音視頻處理，尤其涉及一種無監(jiān)督的視聽分割方法、系統(tǒng)及電子設(shè)備。

技術(shù)介紹

1、視聽分割技術(shù)是一種音視跨模態(tài)分析的先進技術(shù)，旨在從視頻中提取發(fā)聲目標，生成發(fā)聲目標物體的精細化分割圖。視聽分割即以音頻為指導信號，確定分割哪個物體，并得到其完整的像素級掩碼圖。與聲源定位任務(wù)相比，該任務(wù)不僅根據(jù)音源定位發(fā)聲物體，而且要準確分割出視頻幀中正在發(fā)聲的物體全貌。這種技術(shù)在語音識別、音頻分離、音頻編輯等方向有廣泛應用。在智能家居、自動駕駛、醫(yī)療圖像處理、機器人導航等領(lǐng)域，視聽分割技術(shù)也有著廣闊的應用前景。

2、聽覺和視覺是人類感知世界最重要的兩個傳感器。生活里，聲音信號和視覺信號往往是互補的。利用視聽的密切關(guān)聯(lián)，視聽分割技術(shù)最近取得了一些進展，但仍然存在一些亟待解決的挑戰(zhàn)。其中一個主要挑戰(zhàn)是對聲源定位結(jié)果要求高，要求學習準確的像素級聲源圖，而不是近似的圖像塊級別的定位圖。已有的聲源定位方法通常通過對比學習來學習視聽對應關(guān)系，隨后直接計算視聽注意力來估計聲源區(qū)域。這些方法往往輸出粗略且不可靠的聲源定位信息，缺乏物體形狀等細致的信息描述。

3、另一個挑戰(zhàn)是在完全無監(jiān)督的范式下進行細粒度的聲源定位。為了精確識別聲源區(qū)域，有監(jiān)督的方法通常需要構(gòu)建像素級標注數(shù)據(jù)集，并利用語義分割模型生成像素級的結(jié)果。然而，有監(jiān)督的方法有大量標注的需求，但是標注過程繁瑣且在實際環(huán)境中難以實現(xiàn)。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)實施例的主要目的在于提出一種無監(jiān)督的視聽分割方法、系統(tǒng)及電子設(shè)備，

2、為實現(xiàn)上述目的，本專利技術(shù)實施例的一方面提出了一種無監(jiān)督的視聽分割方法，包括以下步驟：

3、獲取視聽數(shù)據(jù)集，提取得到音頻特征和視覺特征；

4、將音頻和視覺兩個模態(tài)的特征進行特征映射到公共特征空間，然后通過交叉注意力計算兩個模態(tài)的特征關(guān)聯(lián)，確定視頻幀對聲源目標的粗粒度定位；

5、挖掘視覺特征的鄰域語義關(guān)聯(lián)，構(gòu)建語義相似矩陣，對聲源目標分割進行細粒度修正，得到第一聲源目標分割圖；

6、根據(jù)音視特征交互學習，通過編解碼網(wǎng)絡(luò)生成第二聲源目標分割圖；

7、通過自監(jiān)督學習訓練模型，將所述第一聲源目標分割圖和所述第二聲源目標分割圖進行對齊，得到優(yōu)化后的最終視聽分割結(jié)果。

8、在一些實施例中，所述將音頻和視覺兩個模態(tài)的特征進行特征映射到公共特征空間，然后通過交叉注意力計算兩個模態(tài)的特征關(guān)聯(lián)，確定視頻幀對聲源目標的粗粒度定位，包括以下步驟：

9、采用多層感知機實施特征映射，獲取經(jīng)過特征映射的視覺特征表示和音頻特征表示；

10、通過視聽交叉注意力計算，獲得粗粒度的聲源目標分割圖；

11、對注意力矩陣進行歸一化和二值化操作，得到聲源目標掩碼矩陣；

12、根據(jù)初步注意力計算結(jié)果，將視覺特征劃分為與音頻特征語義匹配的特征集合和不匹配的特征集合；將音視匹配的特征進行配對組成正樣本集合，不匹配的特征組合為負樣本集合，通過對比學習方法來對正負樣本特征集合進行學習，完成音視跨模態(tài)語義對齊；

13、在組合音視匹配的特征作為正樣本對時，在對比學習模型中增加一個隨機掩碼增強操作，在對比學習訓練過程中隨機丟棄正樣本組合中部分位置的視覺特征，確定視頻幀對聲源目標的粗粒度定位。

14、在一些實施例中，交叉注意力計算的公式為：

15、

16、

17、其中，q代表用于注意力矩陣計算的查詢向量(query)；ωc代表將音頻特征轉(zhuǎn)換為查詢向量(query)的權(quán)重矩陣；代表經(jīng)過特征映射的音頻特征表示；k代表用于注意力矩陣計算的關(guān)鍵向量(key)；ωk代表將音頻特征轉(zhuǎn)換為關(guān)鍵向量(key)的權(quán)重矩陣；v代表代表用于注意力矩陣計算的值向量(value)；ωv代表將視覺特征轉(zhuǎn)換為值向量(value)的權(quán)重矩陣；代表經(jīng)過特征映射的視覺特征表示；acs代表注意力矩陣；dk代表調(diào)節(jié)參數(shù)；

18、對比學習的損失函數(shù)的表達式為：

19、

20、其中，lcs代表對比學習的損失函數(shù)；τ是溫度參數(shù)；θ()代表對視覺特征的隨機掩碼增強處理；k代表鄰域集合中第k個非聲源目標鄰域特征；j代表鄰域集合中第j個聲源目標鄰域特征。

21、在一些實施例中，所述挖掘視覺特征的鄰域語義關(guān)聯(lián)，構(gòu)建語義相似矩陣，對聲源目標分割進行細粒度修正，得到第一聲源目標分割圖，包括以下步驟：

22、通過計算鄰域像素間特征相似度構(gòu)建一個語義相似矩陣；具體為：以某一坐標中心為基點，設(shè)置一組在坐標空間中距離該基點為r的鄰域，計算該鄰域集合中鄰域特征i和j之間的語義相似值，得到語義相似矩陣；

23、根據(jù)所述語義相似矩陣來預測視頻幀中相鄰坐標特征之間的語義關(guān)聯(lián)性；

24、構(gòu)建一個自監(jiān)督學習模型，將親和矩陣ma設(shè)定為特征值，而將聲源目標分割圖mc設(shè)定為特征映射的目標矩陣；

25、對粗粒度的聲源目標分割圖mc進行量化操作，生成語義關(guān)聯(lián)標簽矩陣；具體為：采用逐像素自適應均值漂移算法，對聲源目標分割圖mc進行逐像素特征調(diào)整，得到更精細化的聲源目標分割圖mcf；接著設(shè)定兩個閾值α1和α2來量化聲源目標分割圖mcf，將聲源目標分割圖mcf劃分為可靠的聲源區(qū)域、靜默區(qū)域和不確定區(qū)域；

26、根據(jù)劃分區(qū)域生成偽語義關(guān)聯(lián)標簽yca；具體為：根據(jù)區(qū)域劃分矩陣rcf，如果鄰域特征i和j的坐標位置(xi，yi)，(xj，yj)位于相同的語義區(qū)域，包括聲源區(qū)域和靜默區(qū)域，將它們的關(guān)聯(lián)標簽設(shè)置為正標簽yca(i，j)＝y(tǒng)+；如果鄰域特征i和j分別位于聲源區(qū)域和靜默區(qū)域不同的語義區(qū)域，將它們的關(guān)聯(lián)標簽設(shè)置為負標簽yca(i，j)＝y(tǒng)-，如果鄰域特征i和j其中任一特征來自被忽略區(qū)域，則它們的關(guān)聯(lián)標簽將被設(shè)置為忽略；

27、通過自監(jiān)督學習方式將語義相似矩陣和聲源目標分割圖mc關(guān)聯(lián)，以語義關(guān)聯(lián)標簽矩陣yca為目標函數(shù)值，通過最小化損失函數(shù)la，訓練模型生成準確表示語義關(guān)系的親和矩陣ma；

28、采用隨機游走算法將學習到的親和矩陣ma轉(zhuǎn)化為語義過渡矩陣t，根據(jù)所述語義過渡矩陣t修正粗粒度的聲源目標分割圖mc，得到第一聲源目標分割圖。

29、在一些實施例中，所述語義相似矩陣的計算公式為：

30、ma(i，j)＝exp(-||faff(i(xi，yi))-faff(i(xj，yj))||l1)

31、其中，ma(i，j)代表鄰域特征i和j的語義相似矩陣；i(xi，yi)表示圖像中(xi，yi)位置的區(qū)域視覺信息；i(xj，yj)表示圖像中(xi，yi)位置的區(qū)域視覺信息；faff()表示采用多層卷積網(wǎng)絡(luò)和多層感知機對特征進行聚合映射的計算函數(shù)；l1代表1范數(shù)計算；

32、所述語義過渡矩陣t的計算公式為：

33、

34、其中，β代表超參數(shù)本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種無監(jiān)督的視聽分割方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種無監(jiān)督的視聽分割方法，其特征在于，所述將音頻和視覺兩個模態(tài)的特征進行特征映射到公共特征空間，然后通過交叉注意力計算兩個模態(tài)的特征關(guān)聯(lián)，確定視頻幀對聲源目標的粗粒度定位，包括以下步驟：

3.根據(jù)權(quán)利要求2所述的一種無監(jiān)督的視聽分割方法，其特征在于，交叉注意力計算的公式為：

4.根據(jù)權(quán)利要求1所述的一種無監(jiān)督的視聽分割方法，其特征在于，所述挖掘視覺特征的鄰域語義關(guān)聯(lián)，構(gòu)建語義相似矩陣，對聲源目標分割進行細粒度修正，得到第一聲源目標分割圖，包括以下步驟：

5.根據(jù)權(quán)利要求4所述的一種無監(jiān)督的視聽分割方法，其特征在于，所述語義相似矩陣的計算公式為：

6.根據(jù)權(quán)利要求1所述的一種無監(jiān)督的視聽分割方法，其特征在于，所述根據(jù)音視特征交互學習，通過編解碼網(wǎng)絡(luò)生成第二聲源目標分割圖，包括以下步驟：

7.根據(jù)權(quán)利要求1所述的一種無監(jiān)督的視聽分割方法，其特征在于，所述通過自監(jiān)督學習訓練模型，將所述第一聲源目標分割圖和所述第二聲源目標分割圖進行對齊

8.一種無監(jiān)督的視聽分割系統(tǒng)，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括處理器以及存儲器；

10.一種計算機可讀存儲介質(zhì)，其特征在于，所述存儲介質(zhì)存儲有程序，所述程序被處理器執(zhí)行實現(xiàn)如權(quán)利要求1至7中任一項所述的方法。

...

【技術(shù)特征摘要】

1.一種無監(jiān)督的視聽分割方法，其特征在于，包括以下步驟：

3.根據(jù)權(quán)利要求2所述的一種無監(jiān)督的視聽分割方法，其特征在于，交叉注意力計算的公式為：

5.根據(jù)權(quán)利要求4所述的一種無監(jiān)督的視聽分割方法，其特征在于，所述...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：姬艷麗，
申請(專利權(quán))人：中山大學·深圳，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)