一種基于自注意力機制的卷積循環神經網絡語音降噪方法技術

技術編號：44524911 閱讀：1 留言：0更新日期：2025-03-07 13:16

本發明專利技術屬于人工智能、神經網絡技術領域，本發明專利技術涉及一種基于自注意力機制的卷積循環神經網絡語音降噪方法，包括訓練階段和增強階段；所述訓練階段：首先將噪聲與純凈語音疊加合成含噪語音，接著對含噪語音進行特征提取，然后將純凈語音與特征提取后的含噪語音一并送入卷積循環神經網絡模型中學習含噪語音和純凈語音之間的映射關系，訓練階段結束后，將訓練好的模型保存下來；所述增強階段：首先對含噪語音進行特征提取，然后送入訓練好的模型中進行語音降噪，最后輸出降噪后的語音。實現了對語音和噪聲的有效分離。將分離后的信號還原成清晰的語音維度，從而完成整個語音降噪過程。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于人工智能、神經網絡，涉及音頻處理技術，提供一種基于自注意力機制的卷積循環神經網絡語音降噪方法。

技術介紹

1、隨著數字通信和音頻處理技術的迅速發展，語音降噪在各種應用中變得日益重要。刑事案件中的數字音頻證據常常伴隨復雜的環境噪聲，而傳統的語音降噪方法，諸如譜減法、維納濾波法等，在對此類含噪語音進行降噪的時候效果不佳。這些傳統方法往往依賴于對噪聲特性的假設，難以適應動態變化的環境和復雜的噪聲類型。

2、隨著人工智能技術，尤其是深度學習方法的發展，基于神經網絡的語音降噪方法開始受到關注。該方法通過學習大量數據，能夠更準確地識別和處理各種噪聲。然而，現有的基于神經網絡的語音降噪技術常常存在泛化性差、語音失真、低信噪比以及降噪效果差等問題。深入分析研究發現，不同噪聲其在時頻域中的表現特征是不同的，但大多數基于深度學習的算法對不同維度的噪聲特征的關注度是無差別的，因而導致算法降噪不徹底或造成語音譜失真。

3、因此，迫切需要一種能夠有效適應各種噪聲環境，同時能夠集中處理語音信號中重要特征的語音降噪方法，以滿足日益增長的通信和音頻處理需求引入公安司法領域，對現代化智能警務建設具有推動性作用。

技術實現思路

1、針對現有技術中的不足，特別是為提高含非平穩噪聲語音的降噪效果，本專利技術提出一種基于自注意力機制的卷積循環神經網絡語音降噪方法，不但可以增加不同語音幀的時序關系以減少非平穩噪聲時變特性的影響，而且可以擴充單個語音幀的維度信息，使模型能夠準確識別語音與噪

2、本專利技術采用的具體技術方案如下：

3、一種基于自注意力機制的卷積循環神經網絡語音降噪方法，包括訓練階段和增強階段；

4、所述訓練階段：首先將噪聲與純凈語音疊加合成含噪語音，接著對含噪語音進行特征提取，然后將純凈語音與特征提取后的含噪語音一并送入卷積循環神經網絡模型中學習含噪語音和純凈語音之間的映射關系，訓練階段結束后，將訓練好的模型保存下來；

5、所述增強階段：首先對含噪語音進行特征提取，然后送入訓練好的模型中進行語音降噪，最后輸出降噪后的語音。

6、還包括優選階段：所述卷積循環神經網絡模型使用編碼器-解碼器結構作為深度學習的架構，編碼器通過去除含噪語音中的噪聲部分來獲得壓縮的數據，然后將數據輸入解碼器，對數據重構從而恢復出純凈語音的估計形式。

7、卷積循環神經網絡模型由五個部分組成，分別為位置嵌入層、特征提取層、多頭自注意力機制層和維度還原層；

8、位置嵌入層為嵌入局部長短時記憶網絡模塊后的語音幀再經過編碼器位置編碼；特征提取層通過解碼器增加單幀語音所包含的信息，使用多頭注意力機制對含噪語音進行不同的權重分配，提高模型對噪聲和語音之間的關注度；將解碼器中的轉置卷積模塊作為維度還原層，對自注意力機制加權后的不用維度的語音塊進行采樣還原，保證語音原有的維度關系，進而提高降噪后語音的聽覺質量，從而完成語音降噪，得到預測語音幀。

9、所述位置嵌入層將原有transformer的位置嵌入，改為更適合語音降噪的局部lstm模塊進行位置嵌入，不僅達到高效的處理數據的效果，而且兼顧非平穩噪聲的噪聲信息只與前后幾幀的語音信息有關的特性，可以更好地捕捉語音幀之間的局部信息；

10、所述特征提取層包括卷積層、歸一化層和線性整流函數relu激活函數層；

11、所述多頭自注意力機制層引入注意力機制使得模型能夠根據不同的噪聲情況，在含噪語音的每一幀上進行非線性權重分配；模型從而可以更有針對性地關注含噪語音中每個頻點，賦予噪聲和語音不同的注意度；通過這種方式，模型能夠更有效地區分含噪語音中的噪聲和語音成分，為進一步全面而精準地清除噪聲部分奠定基礎；

12、所述維度還原層，包括轉置卷積層、歸一化層和relu激活函數層；為了避免由編解碼器模塊引起的潛在梯度消失問題，本模型在每個相應的卷積模塊和轉置模塊中添加了殘差鏈接；不僅能夠有效防止梯度消失的發生，同時也有助于防止語音信息在深層網絡傳遞中的丟失。

13、基于自注意力機制的卷積循環神經網絡語音降噪方法，包括如下計算步驟：

14、步驟1：使用更適合語音降噪的局部lstm模塊對含噪語音幀進行位置嵌入；在幀數的選擇上，對于每個音素的發音平均時長約為30毫秒，一個音節發音在120～150毫秒之間；從而選取每7幀為一個語音幀段，且設置幀移為1幀，而后通過共享權重的局部lstm對每個語音幀段完成位置嵌入；

15、步驟2：將位置編碼后的語音幀通過crn網絡解碼器增加單幀語音所包含的信息；在卷積模塊，每個卷積模包含卷積層、批歸一化層和relu激活函數；含噪語音特征經過疊加，使拼接后的語音幀融合豐富的多維信息；

16、步驟3：自注意力機制結構，輸入向量通過h個k、q和v矩陣做縮放點乘積求得兩兩向量之間的相似度；其中，h為k、q和v的個數，通過多個權重矩陣將輸入向量映射到不同空間上；隨后使用concat函數將h個輸出結果進行拼接，并通過線性映射，進而轉換回輸入形狀；

17、步驟4：將轉置卷積模塊作為維度還原層，由轉置卷積層、批歸一化層和激活函數組成，對自注意力機制加權后的不同維度語音塊進行上采樣還原，保證語音原有的維度關系；

18、步驟5：在每個對應的卷積模塊和轉置模塊添加殘差鏈接，不僅可以避免梯度消失，同時也可以防止語音信息在深層網絡流動中造成的信息丟失；至此神經網絡模型的處理過程結束，輸出降噪處理后的語音。

19、所述步驟3具體包括如下步驟：

20、步驟3.1：首先，q、k和v矩陣由公式1得：

21、

22、其中，x為編碼器輸出結果，wq、wk、wv分別為權重矩陣；

23、步驟3.2：用reshape函數進行維度變換后，由公式2可得，將q與kt做縮放點乘積，求得每個頻點之間得相似度，并使用softmax函數進行歸一化處理，形成不同含噪語音幀之間的相似概率wi；

24、

25、其中，dk為輸入向量的大小，在計算點積后除以可以防止計算時梯度消失；

26、步驟3.3：將求得的相似概率w與v相乘，進而求得注意力機制加權后的向量矩陣，如公式3；

27、attention(q,k,v)＝wi·v??公式3

28、步驟3.4：求得h個注意力加權矩陣后，使用concat函數將其拼接并轉換維度，通過線性映射，變換為與輸入相同的大小，如公式4；

29、multihead(q,k,v)＝linear(concat(wi,...,wh))??公式4

30、基于自注意力機制的卷積循環神經網絡語音降噪方法，還包括計算步驟6：

31、

32、其中，n為卷積模塊和轉置卷積模塊的個數；xnoise為輸入的含噪語音幀，x為降噪后的干凈語音幀，輸出本文檔來自技高網...

【技術保護點】

1.一種基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，包括訓練階段和增強階段；

2.根據權利要求1所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，

3.根據權利要求1所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，

4.根據權利要求3所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，

5.根據權利要求1所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，包括如下計算步驟：

6.根據權利要求5所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，

7.根據權利要求1所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，還包括計算步驟6：

【技術特征摘要】

1.一種基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，包括訓練階段和增強階段；

2.根據權利要求1所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，

3.根據權利要求1所述的基于自注意力機制的卷積循環神經網絡語音降噪方法，其特征在于，

4.根據權利要求3所述的基于自注意力機制的卷積循環神經網...

【專利技術屬性】
技術研發人員：王一鳴，姜囡，王扶堯，鞏家昌，馬海嬌，徐浩森，王丹，邵冬梅，龐永恒，秦佳，李溯源，單婧文，焦嬌，王寶玉，王華朋，楊洪臣，
申請(專利權)人：中國刑事警察學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術