一種合成語音檢測方法、裝置、存儲介質及電子設備制造方法及圖紙

技術編號：44435470 閱讀：3 留言：0更新日期：2025-02-28 18:45

本說明書公開了一種合成語音檢測方法、裝置、存儲介質及電子設備。在本說明書提供的合成語音檢測方法中，獲取用戶輸入的待檢測音頻；將所述待檢測音頻輸入預先訓練的檢測模型，所述檢測模型至少包括第一提取子網、第二提取子網、輸出子網；通過所述第一提取子網提取所述待檢測音頻的音頻特征，并通過所述第二提取子網提取所述待檢測音頻的頻率倒譜特征；采用所述輸出子網，根據所述音頻特征與所述頻率倒譜特征，輸出所述待檢測音頻的檢測結果。

全部詳細技術資料下載

【技術實現步驟摘要】

本說明書涉及計算機，尤其涉及一種合成語音檢測方法、裝置、存儲介質及電子設備。

技術介紹

1、如今，隨著計算機與網絡安全技術的不斷發展，語音認證技術已經逐漸成熟并在許多場景下有所應用。作為安全防護的一種認證手段，通過對用戶輸入的語音進行識別來判斷用戶的身份，能夠有效防止其他人惡意冒充用戶。

2、然而，在人工智能（artificial?intelligence，ai）技術不斷進步的環境下，語音認證這一安全防護技術正面臨著一項挑戰。通過生成式技術，ai能夠利用各種數據自主學習并生成新的內容，包括但不限于文本、圖像、音頻等內容。利用生成式技術，攻擊者可能會通過合成與用戶本身語音高度相似的偽造語音來冒充用戶，而目前的語音認證技術對于此類攻擊是難以檢測的。最終可能會產生用戶被其他人冒充，進而導致用戶的利益遭到侵害，隱私遭到泄露的情況。

3、因此，如何準確有效地檢測冒充用戶的偽造合成語音是一個亟待解決的問題。

技術實現思路

1、本說明書提供一種合成語音檢測方法、裝置、存儲介質及電子設備，以至少部分地解決現有技術存在的上述問題。

2、本說明書采用下述技術方案：

3、本說明書提供了一種合成語音檢測方法，包括：

4、獲取用戶輸入的待檢測音頻；

5、將所述待檢測音頻輸入預先訓練的檢測模型，所述檢測模型至少包括第一提取子網、第二提取子網、輸出子網；

6、通過所述第一提取子網提取所述待檢測音頻的音頻特征，并通過所述第二提取子

7、采用所述輸出子網，根據所述音頻特征與所述頻率倒譜特征，輸出所述待檢測音頻的檢測結果。

8、可選地，所述第一提取子網至少包括若干第一提取層、拼接層；

9、通過所述第一提取子網提取所述待檢測音頻的音頻特征，具體包括：

10、將所述待檢測音頻輸入所述第一提取子網，得到所述第一提取子網包含的各第一提取層輸出的各中間特征；

11、通過所述拼接層對所述各第一提取層輸出的各中間特征進行拼接，得到所述第一提取子網輸出的音頻特征。

12、可選地，所述第一提取子網至少包括第二提取層、若干差分層；

13、通過所述第二提取子網提取所述待檢測音頻的頻率倒譜特征，具體包括：

14、將所述待檢測音頻輸入所述第二提取子網的第二提取層，得到所述第二提取層提取的所述待檢測音頻的原始特征序列；

15、將所述原始特征序列輸入所述第二提取子網包含的各差分層，得到所述各差分層輸出的差分特征序列；

16、對所述差分特征序列與所述原始特征序列進行拼接，得到所述第二提取子網輸出的頻率倒譜特征。

17、可選地，將所述原始特征序列輸入所述第二提取子網包含的各差分層，得到所述各差分層輸出的差分特征序列，具體包括：

18、將所述原始特征序列輸入所述差分層；

19、針對所述原始特征序列包含的每個原始特征，根據該原始特征和在所述原始特征序列中與該原始特征相鄰的原始特征，確定與該原始特征對應的差分特征；

20、根據確定出的各差分特征構成差分特征序列。

21、可選地，根據所述音頻特征與所述頻率倒譜特征，輸出所述待檢測音頻的檢測結果，具體包括：

22、對所述音頻特征與所述頻率倒譜特征進行融合，得到融合特征；

23、根據所述融合特征，輸出所述待檢測音頻的檢測結果。

24、可選地，預先訓練分類模型，具體包括：

25、獲取樣本音頻以及表征所述樣本音頻是否為合成音頻的標注結果；

26、將所述樣本音頻輸入待訓練的分類模型；

27、通過所述第一提取子網提取所述樣本音頻的待優化音頻特征，并通過所述第二提取子網提取所述樣本音頻的待優化頻率倒譜特征；

28、采用所述輸出子網，根據所述待優化音頻特征與所述待優化頻率倒譜特征，輸出所述樣本音頻的待優化檢測結果；

29、根據所述待優化檢測結果與所述標注結果之間的差異，對所述分類模型進行訓練。

30、本說明書提供了一種合成語音檢測裝置，包括：

31、獲取模塊，用于獲取用戶輸入的待檢測音頻；

32、輸入模塊，用于將所述待檢測音頻輸入預先訓練的檢測模型，所述檢測模型至少包括第一提取子網、第二提取子網、輸出子網；

33、提取模塊，用于通過所述第一提取子網提取所述待檢測音頻的音頻特征，并通過所述第二提取子網提取所述待檢測音頻的頻率倒譜特征；

34、輸出模塊，用于采用所述輸出子網，根據所述音頻特征與所述頻率倒譜特征，輸出所述待檢測音頻的檢測結果。

35、可選地，所述第一提取子網至少包括若干第一提取層、拼接層；

36、所述提取模塊，具體用于將所述待檢測音頻輸入所述第一提取子網，得到所述第一提取子網包含的各第一提取層輸出的各中間特征；通過所述拼接層對所述各第一提取層輸出的各中間特征進行拼接，得到所述第一提取子網輸出的音頻特征。

37、可選地，所述第一提取子網至少包括第二提取層、若干差分層；

38、所述提取模塊，具體用于將所述待檢測音頻輸入所述第二提取子網的第二提取層，得到所述第二提取層提取的所述待檢測音頻的原始特征序列；將所述原始特征序列輸入所述第二提取子網包含的各差分層，得到所述各差分層輸出的差分特征序列；對所述差分特征序列與所述原始特征序列進行拼接，得到所述第二提取子網輸出的頻率倒譜特征。

39、可選地，所述提取模塊，具體用于將所述原始特征序列輸入所述差分層；針對所述原始特征序列包含的每個原始特征，根據該原始特征和在所述原始特征序列中與該原始特征相鄰的原始特征，確定與該原始特征對應的差分特征；根據確定出的各差分特征構成差分特征序列。

40、可選地，所述輸出模塊，具體用于對所述音頻特征與所述頻率倒譜特征進行融合，得到融合特征；根據所述融合特征，輸出所述待檢測音頻的檢測結果。

41、可選地，所述裝置還包括訓練模塊，具體用于獲取樣本音頻以及表征所述樣本音頻是否為合成音頻的標注結果；將所述樣本音頻輸入待訓練的分類模型；通過所述第一提取子網提取所述樣本音頻的待優化音頻特征，并通過所述第二提取子網提取所述樣本音頻的待優化頻率倒譜特征；采用所述輸出子網，根據所述待優化音頻特征與所述待優化頻率倒譜特征，輸出所述樣本音頻的待優化檢測結果；根據所述待優化檢測結果與所述標注結果之間的差異，對所述分類模型進行訓練。

42、本說明書提供了一種計算機可讀存儲介質，所述存儲介質存儲有計算機程序，所述計算機程序被處理器執行時實現上述合成語音檢測方法。

43、本說明書提供了一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述程序時實現上述合成語音檢測方法。

44、本說明書采用的上述至少本文檔來自技高網...

【技術保護點】

1.一種合成語音檢測方法，其特征在于，包括：

2.如權利要求1所述的方法，其特征在于，所述第一提取子網至少包括若干第一提取層、拼接層；

3.如權利要求1所述的方法，其特征在于，所述第一提取子網至少包括第二提取層、若干差分層；

4.如權利要求3所述的方法，其特征在于，將所述原始特征序列輸入所述第二提取子網包含的各差分層，得到所述各差分層輸出的差分特征序列，具體包括：

5.如權利要求1所述的方法，其特征在于，根據所述音頻特征與所述頻率倒譜特征，輸出所述待檢測音頻的檢測結果，具體包括：

6.如權利要求1所述的方法，其特征在于，預先訓練分類模型，具體包括：

7.一種合成語音檢測裝置，其特征在于，包括：

8.如權利要求7所述的裝置，其特征在于，所述第一提取子網至少包括若干第一提取層、拼接層；

9.如權利要求7所述的裝置，其特征在于，所述第一提取子網至少包括第二提取層、若干差分層；

10.如權利要求9所述的裝置，其特征在于，所述提取模塊，具體用于將所述原始特征序列輸入所述差分層；針對所

11.如權利要求7所述的裝置，其特征在于，所述輸出模塊，具體用于對所述音頻特征與所述頻率倒譜特征進行融合，得到融合特征；根據所述融合特征，輸出所述待檢測音頻的檢測結果。

12.如權利要求7所述的裝置，其特征在于，所述裝置還包括訓練模塊，具體用于獲取樣本音頻以及表征所述樣本音頻是否為合成音頻的標注結果；將所述樣本音頻輸入待訓練的分類模型；通過所述第一提取子網提取所述樣本音頻的待優化音頻特征，并通過所述第二提取子網提取所述樣本音頻的待優化頻率倒譜特征；采用所述輸出子網，根據所述待優化音頻特征與所述待優化頻率倒譜特征，輸出所述樣本音頻的待優化檢測結果；根據所述待優化檢測結果與所述標注結果之間的差異，對所述分類模型進行訓練。

13.一種計算機可讀存儲介質，其特征在于，所述存儲介質存儲有計算機程序，所述計算機程序被處理器執行時實現上述權利要求1~6任一項所述的方法。

14.一種電子設備，其特征在于，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述程序時實現上述權利要求1~6任一項所述的方法。

...

【技術特征摘要】

1.一種合成語音檢測方法，其特征在于，包括：

2.如權利要求1所述的方法，其特征在于，所述第一提取子網至少包括若干第一提取層、拼接層；

3.如權利要求1所述的方法，其特征在于，所述第一提取子網至少包括第二提取層、若干差分層；

5.如權利要求1所述的方法，其特征在于，根據所述音頻特征與所述頻率倒譜特征，輸出所述待檢測音頻的檢測結果，具體包括：

6.如權利要求1所述的方法，其特征在于，預先訓練分類模型，具體包括：

7.一種合成語音檢測裝置，其特征在于，包括：

8.如權利要求7所述的裝置，其特征在于，所述第一提取子網至少包括若干第一提取層、拼接層；

9.如權利要求7所述的裝置，其特征在于，所述第一提取子網至少包括第二提取層、若干差分層；

10.如權利要求9所述的裝置，其特征在于，所述提取模塊，具體用于將所述原始特征序列輸入所述差分層；針對所述原始特征序列包含的每個原始特征，根據該原始特征和在所述原始特征序列中與該原始...

【專利技術屬性】
技術研發人員：李俊奎，王維強，顧艷梅，王志銘，祝慧佳，
申請(專利權)人：螞蟻智信杭州信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術