語音分離方法、裝置及存儲介質制造方法及圖紙

技術編號：44494275 閱讀：4 留言：0更新日期：2025-03-04 18:00

本公開涉及計算機技術領域，包括一種語音分離方法、裝置及存儲介質。通過獲取待分離的混合信號；通過編碼器將混合信號轉換為時頻特征表示；通過分離模型對時頻特征表示進行特征分離，得到不同輸出通道分別對應的特征序列；分離模型包括緩存單元和至少一個依次相連的分離單元；每個分離單元包括依次相連的頻域建模子單元、時域建模子單元和因果注意細化子單元，各個分離單元中的時域建模子單元均與緩存單元相連；通過解碼器對不同輸出通道分別對應的特征序列進行解碼，得到每個輸出通道對應的時域語音信號；額外設置的緩存單元在全局建模期間可以存儲歷史信息，從而使得分離模型能夠基于歷史信息進行特征處理，可以提高模型整體的語音分離性能。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及計算機，尤其涉及一種語音分離方法、裝置及存儲介質。

技術介紹

1、語音識別技術通過將前端獲取到的語音信號輸入處理后端以完成語音識別任務。目前，比較先進的語音助手，即主流的語音識別方法對輸入語音場景的環境要求比較高。而在實際語音識別場景中，輸入語音信號的環境往往比較嘈雜或包含多個說話者，這會影響語音識別的準確度?；诖耍梢酝ㄟ^語音分離技術從包括多個說話者的混合語音中，分離出不同說話者的語音信號，再將分離后的單一說話者信號輸入處理后端進行識別，以提高識別準確率。語音分離技術對于自動會議轉錄，音頻/視頻的自動字幕以及多方人機交互等領域的發展至關重要。

2、近年來，隨著深度學習技術的快速發展，出現了不同的深度學習模型，提高了語音分離的性能。傳統的語音分離任務一般分為兩類，分別為：離線語音分離任務和實時語音分離任務。其中，離線語音分離任務由于具有更全面的信息和更好的結果而被廣泛研究，一般地，用于處理離線語音分離任務的語音分離模型也被稱為非因果模型。相對應地，實時語音分離任務，如會議轉錄過程中需要實時進行語音分離，未來的語音信息并不能用于當前時刻的語音分離，一般地，用于處理實時語音分離任務的模型也被稱為因果模型。因果模型要求系統僅從當前和之前的時間幀獲取和處理信息。通常因果模型在性能方面落后于非因果模型。

3、為了縮小因果模型與非因果語音分離模型在性能上的差距，因果模型通常需要考慮延長前瞻窗口或實施聯合訓練策略。如：基于跳躍記憶長短期記憶網絡(skippingmemory?lstm，skim)、或并行跳過

4、然而，當前的因果模型在處理時間序列時并不能有效地保留歷史信息，導致因果模型的語音分離性能不佳的問題。

技術實現思路

1、有鑒于此，本公開提出了一種語音分離方法、裝置及存儲介質，可以通過在分離模型中額外設置緩存單元在全局建模期間存儲歷史信息，從而使得分離模型能夠基于歷史信息進行特征處理，提高模型整體的語音分離性能。

2、根據本公開的一方面，提供了一種語音分離方法，所述方法包括：

3、獲取待分離的混合信號；

4、通過編碼器將所述混合信號轉換為時頻特征表示；

5、通過分離模型對所述時頻特征表示進行特征分離，得到不同輸出通道分別對應的特征序列；其中，所述分離模型包括緩存單元和至少一個依次相連的分離單元；每個分離單元包括依次相連的頻域建模子單元、時域建模子單元和因果注意細化子單元，各個分離單元中的時域建模子單元均與所述緩存單元相連；對于第i個分離單元，所述第i個分離單元中的頻域建模子單元用于對輸入的特征數據沿頻率維度進行特征分割，并基于第一lstm網絡對分割后的第一特征進行頻域建模，得到頻域建模特征；所述第i個分離單元中的時域建模子單元用于對所述頻域建模特征沿時域維度進行特征分割，并獲取所述緩存單元存儲的第i-1個分離單元對應的網絡特征，基于第二lstm網絡對分割后的第二特征和所述網絡特征進行處理，得到時域建模特征和更新后的網絡特征；所述更新后的網絡特征通過所述緩存單元進行處理后存儲，得到第i個分離單元對應的網絡特征，以供第i+1個分離單元中的時域建模子單元進行時域建模時使用；所述第i個分離單元中的因果注意細化子單元用于基于注意力權重對所述時域建模特征進行特征提取并輸出至第i+1個分離單元進行處理，以增強時頻特征；其中，所述i為正整數，所述網絡特征包括所述第二lstm網絡的隱藏狀態特征和細胞狀態特征；

6、通過解碼器對不同輸出通道分別對應的特征序列進行解碼，得到每個輸出通道對應的時域語音信號；其中，每個輸出通道對應一個語音源。

7、在一種可能的實現方式中，所述更新后的網絡特征通過所述緩存單元進行處理，包括：

8、通過時序編碼網絡對所述更新后的網絡特征進行時序編碼，得到編碼后的網絡特征；

9、對所述編碼后的網絡特征進行重對齊處理，得到所述第i個分離單元對應的網絡特征。

10、在一種可能的實現方式中，所述時序編碼網絡包括對隱藏狀態進行時序編碼的第三lstm網絡和對細胞狀態進行時序編碼的第四lstm網絡。

11、在一種可能的實現方式中，所述對所述編碼后的網絡特征進行重對齊處理，得到所述第i個分離單元對應的網絡特征，通過下式表示：

12、

13、其中，表示第i個分離單元對應的網絡特征中的第l個隱藏狀態特征，表示第i個分離單元對應的網絡特征中的第l個細胞狀態特征，hi′,l-1表示第i個分離單元對應的第l-1個編碼后的隱藏狀態特征，ci′,l-1表示第i個分離單元對應的第l-1個編碼后的細胞狀態特征，l為小于或等于l的正整數，所述l為所述第二lstm網絡的數量，l的值基于沿時域維度進行特征分割時的分割參數確定。

14、在一種可能的實現方式中，所述因果注意細化子單元包括以下網絡結構：

15、多頭注意力網絡，用于提取時域建模特征的多頭高維特征；

16、與所述多頭注意力網絡相連、且并行的第一特征提取路徑和第二特征提取路徑，所述第一特征提取路徑用于對所述多頭高維特征進行特征提取，所述第二特征提取路徑用于對所述第一特征提取路徑提取到的特征進行門控選擇，得到因果注意細化后的特征。

17、在一種可能的實現方式中，所述多頭注意力網絡具有對角掩碼結構，以掩蓋未來的幀信息。

18、在一種可能的實現方式中，所述第一lstm網絡和所述第二lstm網絡為單向lstm網絡，以掩蓋未來的幀信息。

19、在一種可能的實現方式中，所述分離模型還包括：

20、與所述編碼器相連的第一特征映射單元，用于將時頻特征表示映射為高維表示，并將所述高維表示輸入第1個分離單元；以及，

21、與最后一個分離單元相連的第二特征映射單元，用于將最后一個分離單元輸出的因果注意細化后的特征轉換為不同輸出通道分別對應的實數表示和虛數表示，得到不同輸出通道分別對應的特征序列，以供所述解碼器進行解碼；

22、其中，所述第一特征映射單元和所述第二特征映射單元具有屏蔽層，以掩蓋未來的幀信息。

23、根據本公開的另一方面，提供了一種語音分離裝置，包括：處理器；用于存儲處理器可執行指令的存儲器；其中，所述處理器被配置為在執行所述存儲器存儲的指令時，實現上述方法。

24、根據本公開的另一方面，提供了一種非易失性計算機可讀存儲介質，其上存儲有計算機程序指令，其中，所述計算機程序指令被處理器執行時實現上述方法。

25、根據本公開的另一方面，提供了一種計算機程序產品，包括計算機可讀代碼，或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質，當所述計算機可讀代碼在電子設備的處理器中運行時，所述電子設備中的處理器執行上本文檔來自技高網...

【技術保護點】

1.一種語音分離方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述更新后的網絡特征通過所述緩存單元進行處理，包括：

3.根據權利要求2所述的方法，其特征在于，所述時序編碼網絡包括對隱藏狀態進行時序編碼的第三LSTM網絡和對細胞狀態進行時序編碼的第四LSTM網絡。

4.根據權利要求2所述的方法，其特征在于，所述對所述編碼后的網絡特征進行重對齊處理，得到所述第i個分離單元對應的網絡特征，通過下式表示：

5.根據權利要求1所述的方法，其特征在于，所述因果注意細化子單元包括以下網絡結構：

6.根據權利要求5所述的方法，其特征在于，所述多頭注意力網絡具有對角掩碼結構，以掩蓋未來的幀信息。

7.根據權利要求1至6任一所述的方法，其特征在于，所述第一LSTM網絡和所述第二LSTM網絡為單向LSTM網絡，以掩蓋未來的幀信息。

8.根據權利要求1至6任一所述的方法，其特征在于，所述分離模型還包括：

9.一種語音分離裝置，其特征在于，包括：

10.一種非易失性計算

...

【技術特征摘要】

1.一種語音分離方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述更新后的網絡特征通過所述緩存單元進行處理，包括：

3.根據權利要求2所述的方法，其特征在于，所述時序編碼網絡包括對隱藏狀態進行時序編碼的第三lstm網絡和對細胞狀態進行時序編碼的第四lstm網絡。

4.根據權利要求2所述的方法，其特征在于，所述對所述編碼后的網絡特征進行重對齊處理，得到所述第i個分離單元對應的網絡特征，通過下式表示：

5.根據權利要求1所述的方法，其特征在于，所述因果注意細化子單元包括以下網絡結構...

【專利技術屬性】
技術研發人員：胡曉林，陳果，李凱，
申請(專利權)人：清華大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

語音分離方法、裝置及存儲介質制造方法及圖紙

語音分離方法、裝置及存儲介質制造方法及圖紙