聲紋識別方法、聲紋模型訓練方法、裝置、設備及介質制造方法及圖紙

技術編號：40161889 閱讀：15 留言：0更新日期：2024-01-26 23:35

本發明專利技術提供一種聲紋識別方法、聲紋模型訓練方法、裝置、設備及介質，所述方法包括：獲取目標說話對象語音，及其對應的對抗樣本語音；對目標說話對象語音和對抗樣本語音進行特征提取，得到第一FBank聲學特征和第二FBank聲學特征；將第一FBank聲學特征和第二FBank聲學特征輸入到訓練好的聲紋模型中進行識別，輸出第一聲紋特征向量和第二聲紋特征向量，訓練好的聲紋模型是基于多尺度特征聚合和多損失融合的對抗學習訓練的聲紋模型；基于第一聲紋特征向量和第二聲紋特征向量的相似度，確定對抗樣本語音的聲紋識別結果。通過本發明專利技術提供的方法，可以準確的確定語音和對抗樣本是否屬于同一個說話對象，從而提高了聲紋識別的準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及聲紋識別，尤其涉及一種聲紋識別方法、聲紋模型訓練方法、裝置、電子設備及計算機可讀存儲介質。

技術介紹

1、隨著科學技術的發展，以及深度學習的廣泛應用，傳統的聲紋識別算法也被神經網絡所替代，其目的就是為了提取更有效的聲紋特征，更多的關注到與說話人有關的信息，減少與說話人無關的信息，提升聲紋識別的性能。聲紋識別技術以其獨特的方便性、經濟性和準確性等優勢受到世人矚目，并日益成為人們日常生活和工作中重要且普及的安全驗證方式。比如應用于安全非常敏感的場景，安防領域等，對抗樣本攻擊可能會造成很大的安全隱患。因此，聲紋識別對抗樣本防御是非常有必要的。

2、現實場景下聲紋模型性能一般較差，尤其是面對對抗樣本時，聲紋模型容易誤判，導致系統安全性遭到破壞。目前采用的對抗樣本比較單一，聲紋模型能針對單一樣本做到較好的防御。但是相關技術中，對抗樣本具有多種多樣的形式，系統很難應付所有樣本的攻擊。因此，如何提升聲紋模型的準確性和安全性，使聲紋模型能夠對對抗樣本具有很好的魯棒性，從而對系統的安全性得到加固是一個值得探索的問題。

技術實現思路

1、本專利技術提供一種聲紋識別方法、聲紋模型訓練方法、裝置、設備及介質，以至少解決相關技術中由于聲紋模型很難對抗多種多樣的對抗樣本的攻擊，導致系統準確性和安全性降低的技術問題。本專利技術的技術方案如下：

2、根據本專利技術實施例的第一方面，提供一種聲紋識別方法，包括：

3、獲取目標說話對象語音，以及所述目標說話對象語音的對抗樣本語音；

4、對所述目標說話對象語音和所述對抗樣本語音分別進行特征提取，得到對應的第一fbank聲學特征和第二fbank聲學特征；

5、將所述第一fbank聲學特征和所述第二fbank聲學特征輸入到訓練好的聲紋模型中進行識別，輸出對應的第一聲紋特征向量和第二聲紋特征向量，其中，所述訓練好的聲紋模型是基于多尺度特征聚合和多損失融合的對抗學習訓練的聲紋模型；

6、基于所述第一聲紋特征向量和所述第二聲紋特征向量的相似度，確定所述對抗樣本語音的聲紋識別結果。

7、可選的，所述基于所述第一聲紋特征向量和第二聲紋特征向量的相似度，確定所述對抗樣本語音的聲紋識別結果，包括：

8、確定所述第一聲紋特征向量和第二聲紋特征向量的余弦距離；

9、根據所述余弦距離確定所述第一聲紋特征向量與所述第二聲紋特征向量的相似度；

10、在所述相似度大于設定閾值時，確定所述對抗樣本語音來源于所述目標說話對象語音的目標說話對象。

11、可選的，在對所述目標說話對象語音和所述對抗樣本語音進行特征提取之前，所述方法還包括：

12、對所述目標說話對象語音和所述對抗樣本語音分別進行語音活動檢測，得到對應的有效目標說話對象語音和有效對抗樣本語音；

13、對所述有效目標說話對象語音和所述有效對抗樣本語音進行預處理；

14、所述對所述目標說話對象語音和所述對抗樣本語音進行特征提取包括：對所述預處理后的有效目標說話對象語音和有效對抗樣本語音進行特征提取，得到對應的第一fbank聲學特征和第二fbank聲學特征。

15、可選的，所述方法還包括：預先基于多尺度特征聚合和多損失融合對聲紋模型進行訓練，得到訓練好的聲紋模型，包括：

16、獲取模型訓練數據集，所述模型訓練數據集包括：由語音數據集，所述語音數據集的增強數據集，所述語音數據集的第一對抗樣本數據集和所述語音數據集的第二對抗樣本數據集中的至少兩種所組成的訓練數據；

17、對所述模型訓練數據集中的每種訓練數據的fbank聲學特征進行區域特征增強處理；

18、對區域特征增強處理后的所述fbank聲學特征進行多尺度特征聚合，得到1536維的說話對象特征向量；

19、對所述1536維的說話對象特征向量分別進行多損失融合，并將多損失融合結果的均值作為訓練損失值；

20、基于所述訓練損失值進行迭代訓練，直達迭代訓練得到訓練損失值小于訓練預設值時停止訓練，得到訓練好的聲紋模型。

21、根據本專利技術實施例的第二方面，提供一種聲紋模型訓練方法，包括：

22、獲取聲紋模型訓練數據集，所述聲紋模型訓練數據集包括：由語音數據集，所述語音數據集的增強數據集，所述語音數據集的第一對抗樣本數據集和所述語音數據集的第二對抗樣本數據集中的至少兩種所組成的訓練數據；

23、對所述模型訓練數據集中的每種訓練數據的fbank聲學特征進行區域特征增強處理；

24、對區域特征增強處理后的所述fbank聲學特征進行多尺度特征聚合，得到1536維的說話對象特征向量；

25、對所述1536維的說話對象特征向量分別進行多損失融合，并將多損失融合結果的均值作為訓練損失值；

26、基于所述訓練損失值進行迭代訓練，直達迭代訓練得到訓練損失值小于訓練預設值時停止訓練，得到訓練好的聲紋模型。

27、可選的，所述對所述聲紋模型訓練數據集中的每種訓練數據的fbank聲學特征進行區域特征增強處理，包括：

28、對所述聲紋模型訓練數據集中的每種訓練數據的fbank聲學特征通過下采樣進行降維處理；

29、利用選擇性核注意力特征增強方式對降維處理后的所述每種訓練數據的fbank聲學特征進行區域特征增強處理。

30、可選的，所述利用選擇性核注意力特征增強方式對降維處理后的所述每種訓練數據的fbank聲學特征進行區域特征增強處理，包括：

31、利用選擇性核注意力特征增強機制中的分離、融合和聚合對降維處理后的所述每種訓練數據的fbank聲學特征進行區域特征增強處理。

32、可選的，所述對區域特征增強處理后的所述fbank聲學特征進行多尺度特征聚合，得到1536維的說話對象特征向量，包括：

33、將區域特征增強處理后的所述fbank聲學特征依次通過多個conformer塊進行卷積處理，得到卷積處理后的特征；

34、將所述多個conformer塊中每個conformer塊輸出的特征，所述卷積處理后的特征，以及區域特征增強處理后的所述fbank聲學特征進行聚合，得到不同隱藏層的特征；

35、利用注意力統計池化層對聚合后得到不同隱藏層的特征分配不同的權重值；

36、通過批量標準化bn層，對不同隱藏層的特征及對應權重值的乘積結果進行多尺度特征聚合，得到1536維的說話對象特征向量。

37、可選的，所述對所述1536維的說話對象特征向量分別進行多損失融合，并將多損失融合結果的均值作為訓練損失值，包括：

38、將所述1536維的說話對象特征向量依次通過第一全連接層和第二全連接層處理；

39、將所述第二全連接層的處理結果進行分類損失計算，得到分類損失結果；

40、將所述第一全連接層的處理結果進行度量損失計算，本文檔來自技高網...

【技術保護點】

1.一種聲紋識別方法，其特征在于，包括：

2.根據權利要求1所述的聲紋識別方法，其特征在于，所述基于所述第一聲紋特征向量和第二聲紋特征向量的相似度，確定所述對抗樣本語音的聲紋識別結果，包括：

3.根據權利要求1所述的聲紋識別方法，其特征在于，在對所述目標說話對象語音和所述對抗樣本語音進行特征提取之前，所述方法還包括：

4.根據權利要求1至3任一項所述的聲紋識別方法，其特征在于，所述方法還包括：預先基于多尺度特征聚合和多損失融合對聲紋模型進行訓練，得到訓練好的聲紋模型，包括：

5.一種聲紋模型訓練方法，其特征在于，包括：

6.根據權利要求5所述的聲紋模型訓練方法，其特征在于，所述對所述聲紋模型訓練數據集中的每種訓練數據的FBank聲學特征進行區域特征增強處理，包括：

7.根據權利要求6所述的聲紋模型訓練方法，其特征在于，所述利用選擇性核注意力特征增強方式對降維處理后的所述每種訓練數據的FBank聲學特征進行區域特征增強處理，包括：

8.根據權利要求5所述的聲紋模型訓練方法，其特征在于，所述對區域特征

9.根據權利要求5所述的聲紋模型訓練方法，其特征在于，所述對所述1536維的說話對象特征向量分別進行多損失融合，并將多損失融合結果的均值作為訓練損失值，包括：

10.根據權利要求5至9任一項所述的聲紋模型訓練方法，其特征在于，在獲取聲紋模型訓練數據集之前，所述方法還包括：

11.一種聲紋識別裝置，其特征在于，包括：

12.一種聲紋模型訓練裝置，其特征在于，包括：

13.一種電子設備，其特征在于，包括：

14.一種計算機可讀存儲介質，其特征在于，當所述計算機可讀存儲介質中的指令由電子設備的處理器執行時，使得電子設備能夠執行如權利要求1至4中任一項所述的聲紋識別方法或如權利要求5至10任一項所述的聲紋模型訓練方法。

...

【技術特征摘要】

1.一種聲紋識別方法，其特征在于，包括：

3.根據權利要求1所述的聲紋識別方法，其特征在于，在對所述目標說話對象語音和所述對抗樣本語音進行特征提取之前，所述方法還包括：

5.一種聲紋模型訓練方法，其特征在于，包括：

6.根據權利要求5所述的聲紋模型訓練方法，其特征在于，所述對所述聲紋模型訓練數據集中的每種訓練數據的fbank聲學特征進行區域特征增強處理，包括：

7.根據權利要求6所述的聲紋模型訓練方法，其特征在于，所述利用選擇性核注意力特征增強方式對降維處理后的所述每種訓練數據的fbank聲學特征進行區...

【專利技術屬性】
技術研發人員：馮靜，楊娟，蘭亮，寧一鑒，陳琳莉，
申請(專利權)人：中國電信股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術