當前位置: 首頁 > 專利查詢>杭州高新區(qū)濱江區(qū)塊鏈與數(shù)據(jù)安全研究院專利>正文

基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法和裝置制造方法及圖紙

技術(shù)編號：44356140 閱讀：2 留言：0更新日期：2025-02-25 09:39

本申請涉及一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法和裝置，其中，該方法包括：獲取待檢測音頻作為測試數(shù)據(jù)集；基于預(yù)設(shè)的自監(jiān)督輔助任務(wù)對測試數(shù)據(jù)集進行增廣處理，得到增廣數(shù)據(jù)集；基于增廣數(shù)據(jù)集，將自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型；目標檢測模型的訓(xùn)練任務(wù)包括偽造檢測任務(wù)和自監(jiān)督輔助任務(wù)；將測試數(shù)據(jù)集輸入到目標微調(diào)模型中，得到檢測結(jié)果。通過本申請，解決了相關(guān)技術(shù)中泛化性不足、跨域檢測效果明顯下降的問題，提高模型泛化性的同時，能夠極大程度上降低模型訓(xùn)練的開銷；并且夠適應(yīng)測試數(shù)據(jù)集中深度偽造屬性的分布差異，從而提升跨域檢測性能。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本申請涉及計算機人工智能安全領(lǐng)域，特別是涉及基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法和裝置。

技術(shù)介紹

1、隨著人工智能技術(shù)的發(fā)展，ai合成語音質(zhì)量持續(xù)提高，難以被人耳區(qū)分。由基于深度神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)生成的語音音頻被稱為深度合成音頻（deepfake?audio）。最新的zero-shot?tts技術(shù)只需幾句目標說話人的語音即可生成同樣音色的任意內(nèi)容的音頻。語音合成技術(shù)在帶來便利創(chuàng)的同時也帶來了極大的安全風險。

2、現(xiàn)有的合成音頻跨域檢測方法主要是基于領(lǐng)域泛化（domain?generalization）思想，通過調(diào)整訓(xùn)練過程來提升模型的檢測泛化性，從而提升在跨域測試時的表現(xiàn)。具體的方法為：在訓(xùn)練階段，對訓(xùn)練數(shù)據(jù)進行添加白噪聲、混響、掩碼等操作。領(lǐng)域泛化方法的主要缺陷在于：該類方法只基于訓(xùn)練數(shù)據(jù)包含的信息進行優(yōu)化，在跨域表現(xiàn)上存在上限。同時，現(xiàn)有方法需要在訓(xùn)練時部署，當出現(xiàn)新的合成音頻數(shù)據(jù)集且現(xiàn)有方法提升后的檢測效果依然不佳時，需要重新設(shè)計泛化性提升方法并進行重新訓(xùn)練，這在音頻合成技術(shù)持續(xù)發(fā)展的現(xiàn)狀下會帶來巨大的計算開銷。

3、針對相關(guān)技術(shù)中存在泛化性不足、跨域檢測效果明顯下降的問題，目前還沒有提出有效的解決方案。

技術(shù)實現(xiàn)思路

1、在本實施例中提供了一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法和裝置，以解決相關(guān)技術(shù)中泛化性不足、跨域檢測效果明顯下降的問題。

2、第一個方面，在本實施例中提供了一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，包括：

3、獲取待檢測音頻作為測試數(shù)據(jù)集；

4、基于預(yù)設(shè)的自監(jiān)督輔助任務(wù)對所述測試數(shù)據(jù)集進行增廣處理，得到增廣數(shù)據(jù)集；基于所述增廣數(shù)據(jù)集，將所述自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型；所述目標檢測模型的訓(xùn)練任務(wù)包括偽造檢測任務(wù)和所述自監(jiān)督輔助任務(wù)；

5、將所述測試數(shù)據(jù)集輸入到所述目標微調(diào)模型中，得到檢測結(jié)果。

6、在其中的一些實施例中，所述自監(jiān)督輔助任務(wù)包括判斷音頻調(diào)速狀態(tài)任務(wù)和/或重建音頻解耦特征編碼任務(wù)。

7、在其中的一些實施例中，所述判斷音頻調(diào)速狀態(tài)任務(wù)的架構(gòu)包括共用層和第二分類線性層；

8、所述共用層包括特征提取器和conformer模塊；

9、所述特征提取器，與所述conformer模塊連接，用于處理輸入的音頻樣本，輸出一系列的特征向量；

10、所述conformer模塊，與所述第二分類線性層連接，用于將所述特征向量和預(yù)設(shè)的分類指示向量進行編碼，輸出序列向量；

11、所述第二分類線性層，用于處理任意一個所述序列向量，輸出速度調(diào)整狀態(tài)標簽。

12、在其中的一些實施例中，所述重建音頻解耦特征編碼任務(wù)的架構(gòu)包括共用層、預(yù)訓(xùn)練的解耦編碼器以及重建線性層；

13、所述共用層包括特征提取器和conformer模塊；

14、所述特征提取器，與所述conformer模塊連接，用于處理輸入的音頻樣本，輸出一系列的特征向量；

15、所述conformer模塊，與所述重建線性層，用于將所述特征向量和預(yù)設(shè)的分類指示向量進行編碼，輸出序列向量；

16、預(yù)訓(xùn)練的所述解耦編碼器，與所述重建線性層連接，用于處理輸入的音頻樣本，輸出聲學細節(jié)編碼；

17、所述重建線性層，用于處理所述序列向量和所述聲學細節(jié)編碼，輸出聲學重建標簽。

18、在其中的一些實施例中，所述方法還包括：

19、根據(jù)預(yù)設(shè)的輔助損失函數(shù)和深度偽造分類損失函數(shù)，構(gòu)建目標損失函數(shù)；所述輔助損失函數(shù)包括三分類損失函數(shù)和/或重建損失函數(shù)；

20、根據(jù)獲取的訓(xùn)練數(shù)據(jù)集和所述目標損失函數(shù)，對初檢測模型進行預(yù)訓(xùn)練，得到目標檢測模型。

21、在其中的一些實施例中，基于所述增廣數(shù)據(jù)集，將所述自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型，包括：

22、基于所述增廣數(shù)據(jù)集和對應(yīng)的輔助損失函數(shù)，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型；所述輔助損失函數(shù)包括三分類損失函數(shù)和/或重建損失函數(shù)。

23、在其中的一些實施例中，所述偽造檢測任務(wù)和所述自監(jiān)督輔助任務(wù)，均基于基線檢測神經(jīng)網(wǎng)絡(luò)架構(gòu)構(gòu)建；所述基線檢測神經(jīng)網(wǎng)絡(luò)架構(gòu)為conformer架構(gòu)、transformer架構(gòu)或全連接架構(gòu)。

24、第二個方面，在本實施例中提供了一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測裝置，包括：獲取模塊、微調(diào)模塊以及測試模塊；

25、所述獲取模塊，用于獲取待檢測音頻作為測試數(shù)據(jù)集；

26、所述微調(diào)模塊，用于基于預(yù)設(shè)的自監(jiān)督輔助任務(wù)對所述測試數(shù)據(jù)集進行增廣處理，得到增廣數(shù)據(jù)集；基于所述增廣數(shù)據(jù)集，將所述自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型；所述目標檢測模型的訓(xùn)練任務(wù)包括偽造檢測任務(wù)和所述自監(jiān)督輔助任務(wù)；

27、所述測試模塊，用于將所述測試數(shù)據(jù)集輸入到所述目標微調(diào)模型中，得到檢測結(jié)果。

28、第三個方面，在本實施例中提供了一種計算機設(shè)備，包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一個方面所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法。

29、第四個方面，在本實施例中提供了一種存儲介質(zhì)，其上存儲有計算機程序，該程序被處理器執(zhí)行時實現(xiàn)上述第一個方面所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法。

30、與相關(guān)技術(shù)相比，在本實施例中提供的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法和裝置，通過獲取待檢測音頻作為測試數(shù)據(jù)集；基于預(yù)設(shè)的自監(jiān)督輔助任務(wù)對測試數(shù)據(jù)集進行增廣處理，得到與測試數(shù)據(jù)集匹配的增廣數(shù)據(jù)集，提高微調(diào)效果；基于增廣數(shù)據(jù)集，將自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型；目標檢測模型的訓(xùn)練任務(wù)包括偽造檢測任務(wù)和自監(jiān)督輔助任務(wù)。在測試過程中增加微調(diào)的方式得到目標微調(diào)模型，而不是采用重新訓(xùn)練的方式，在提高泛化性的同時，能夠極大程度上降低模型訓(xùn)練的開銷。再將測試數(shù)據(jù)集輸入到目標微調(diào)模型中，得到檢測結(jié)果；其中，目標微調(diào)模型能夠適應(yīng)測試數(shù)據(jù)集中深度偽造屬性的分布差異，從而提升跨域檢測性能；從而解決了相關(guān)技術(shù)中泛化性不足、跨域檢測效果明顯下降的問題。

31、本申請的一個或多個實施例的細節(jié)在以下附圖和描述中提出，以使本申請的其他特征、目的和優(yōu)點更加簡明易懂。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，所述自監(jiān)督輔助任務(wù)包括判斷音頻調(diào)速狀態(tài)任務(wù)和/或重建音頻解耦特征編碼任務(wù)。

3.根據(jù)權(quán)利要求2所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，所述判斷音頻調(diào)速狀態(tài)任務(wù)的架構(gòu)包括共用層和第二分類線性層；

4.根據(jù)權(quán)利要求2所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，所述重建音頻解耦特征編碼任務(wù)的架構(gòu)包括共用層、預(yù)訓(xùn)練的解耦編碼器以及重建線性層；

5.根據(jù)權(quán)利要求1所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，所述方法還包括：

6.根據(jù)權(quán)利要求1所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，基于所述增廣數(shù)據(jù)集，將所述自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對預(yù)訓(xùn)練的目標檢測模型進行微調(diào)，得到目標微調(diào)模型，包括：

7.根據(jù)權(quán)利要求1所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，所述偽造

8.一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測裝置，其特征在于，包括：獲取模塊、微調(diào)模塊以及測試模塊；

9.一種計算機設(shè)備，包括存儲器和處理器，其特征在于，所述存儲器中存儲有計算機程序，所述處理器被設(shè)置為運行所述計算機程序以執(zhí)行權(quán)利要求1至7中任一項所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法的步驟。

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，包括：

5.根據(jù)權(quán)利要求1所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，所述方法還包括：

6.根據(jù)權(quán)利要求1所述的基于自監(jiān)督輔助任務(wù)的深度合成音頻跨域檢測方法，其特征在于，基于所述增廣數(shù)據(jù)集，將所述自監(jiān)督輔助任務(wù)作為優(yōu)化目標，對...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：龔斌，程鵬，巴鐘杰，王慶龍，任奎，
申請(專利權(quán))人：杭州高新區(qū)濱江區(qū)塊鏈與數(shù)據(jù)安全研究院，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)