System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产色无码精品视频国产,欧洲精品久久久av无码电影,yy111111少妇无码影院
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>清華大學專利>正文

    語音分離方法、裝置及存儲介質制造方法及圖紙

    技術編號:44494275 閱讀:4 留言:0更新日期:2025-03-04 18:00
    本公開涉及計算機技術領域,包括一種語音分離方法、裝置及存儲介質。通過獲取待分離的混合信號;通過編碼器將混合信號轉換為時頻特征表示;通過分離模型對時頻特征表示進行特征分離,得到不同輸出通道分別對應的特征序列;分離模型包括緩存單元和至少一個依次相連的分離單元;每個分離單元包括依次相連的頻域建模子單元、時域建模子單元和因果注意細化子單元,各個分離單元中的時域建模子單元均與緩存單元相連;通過解碼器對不同輸出通道分別對應的特征序列進行解碼,得到每個輸出通道對應的時域語音信號;額外設置的緩存單元在全局建模期間可以存儲歷史信息,從而使得分離模型能夠基于歷史信息進行特征處理,可以提高模型整體的語音分離性能。

    【技術實現步驟摘要】

    本公開涉及計算機,尤其涉及一種語音分離方法、裝置及存儲介質。


    技術介紹

    1、語音識別技術通過將前端獲取到的語音信號輸入處理后端以完成語音識別任務。目前,比較先進的語音助手,即主流的語音識別方法對輸入語音場景的環境要求比較高。而在實際語音識別場景中,輸入語音信號的環境往往比較嘈雜或包含多個說話者,這會影響語音識別的準確度?;诖耍梢酝ㄟ^語音分離技術從包括多個說話者的混合語音中,分離出不同說話者的語音信號,再將分離后的單一說話者信號輸入處理后端進行識別,以提高識別準確率。語音分離技術對于自動會議轉錄,音頻/視頻的自動字幕以及多方人機交互等領域的發展至關重要。

    2、近年來,隨著深度學習技術的快速發展,出現了不同的深度學習模型,提高了語音分離的性能。傳統的語音分離任務一般分為兩類,分別為:離線語音分離任務和實時語音分離任務。其中,離線語音分離任務由于具有更全面的信息和更好的結果而被廣泛研究,一般地,用于處理離線語音分離任務的語音分離模型也被稱為非因果模型。相對應地,實時語音分離任務,如會議轉錄過程中需要實時進行語音分離,未來的語音信息并不能用于當前時刻的語音分離,一般地,用于處理實時語音分離任務的模型也被稱為因果模型。因果模型要求系統僅從當前和之前的時間幀獲取和處理信息。通常因果模型在性能方面落后于非因果模型。

    3、為了縮小因果模型與非因果語音分離模型在性能上的差距,因果模型通常需要考慮延長前瞻窗口或實施聯合訓練策略。如:基于跳躍記憶長短期記憶網絡(skippingmemory?lstm,skim)、或并行跳過記憶長短期記憶網絡(parallel?skipping?memory?lstm,pskim)提取過去的音頻特征表示來整合歷史隱藏層狀態以增強因果模型,從而減少延遲并提高效率。

    4、然而,當前的因果模型在處理時間序列時并不能有效地保留歷史信息,導致因果模型的語音分離性能不佳的問題。


    技術實現思路

    1、有鑒于此,本公開提出了一種語音分離方法、裝置及存儲介質,可以通過在分離模型中額外設置緩存單元在全局建模期間存儲歷史信息,從而使得分離模型能夠基于歷史信息進行特征處理,提高模型整體的語音分離性能。

    2、根據本公開的一方面,提供了一種語音分離方法,所述方法包括:

    3、獲取待分離的混合信號;

    4、通過編碼器將所述混合信號轉換為時頻特征表示;

    5、通過分離模型對所述時頻特征表示進行特征分離,得到不同輸出通道分別對應的特征序列;其中,所述分離模型包括緩存單元和至少一個依次相連的分離單元;每個分離單元包括依次相連的頻域建模子單元、時域建模子單元和因果注意細化子單元,各個分離單元中的時域建模子單元均與所述緩存單元相連;對于第i個分離單元,所述第i個分離單元中的頻域建模子單元用于對輸入的特征數據沿頻率維度進行特征分割,并基于第一lstm網絡對分割后的第一特征進行頻域建模,得到頻域建模特征;所述第i個分離單元中的時域建模子單元用于對所述頻域建模特征沿時域維度進行特征分割,并獲取所述緩存單元存儲的第i-1個分離單元對應的網絡特征,基于第二lstm網絡對分割后的第二特征和所述網絡特征進行處理,得到時域建模特征和更新后的網絡特征;所述更新后的網絡特征通過所述緩存單元進行處理后存儲,得到第i個分離單元對應的網絡特征,以供第i+1個分離單元中的時域建模子單元進行時域建模時使用;所述第i個分離單元中的因果注意細化子單元用于基于注意力權重對所述時域建模特征進行特征提取并輸出至第i+1個分離單元進行處理,以增強時頻特征;其中,所述i為正整數,所述網絡特征包括所述第二lstm網絡的隱藏狀態特征和細胞狀態特征;

    6、通過解碼器對不同輸出通道分別對應的特征序列進行解碼,得到每個輸出通道對應的時域語音信號;其中,每個輸出通道對應一個語音源。

    7、在一種可能的實現方式中,所述更新后的網絡特征通過所述緩存單元進行處理,包括:

    8、通過時序編碼網絡對所述更新后的網絡特征進行時序編碼,得到編碼后的網絡特征;

    9、對所述編碼后的網絡特征進行重對齊處理,得到所述第i個分離單元對應的網絡特征。

    10、在一種可能的實現方式中,所述時序編碼網絡包括對隱藏狀態進行時序編碼的第三lstm網絡和對細胞狀態進行時序編碼的第四lstm網絡。

    11、在一種可能的實現方式中,所述對所述編碼后的網絡特征進行重對齊處理,得到所述第i個分離單元對應的網絡特征,通過下式表示:

    12、

    13、其中,表示第i個分離單元對應的網絡特征中的第l個隱藏狀態特征,表示第i個分離單元對應的網絡特征中的第l個細胞狀態特征,hi′,l-1表示第i個分離單元對應的第l-1個編碼后的隱藏狀態特征,ci′,l-1表示第i個分離單元對應的第l-1個編碼后的細胞狀態特征,l為小于或等于l的正整數,所述l為所述第二lstm網絡的數量,l的值基于沿時域維度進行特征分割時的分割參數確定。

    14、在一種可能的實現方式中,所述因果注意細化子單元包括以下網絡結構:

    15、多頭注意力網絡,用于提取時域建模特征的多頭高維特征;

    16、與所述多頭注意力網絡相連、且并行的第一特征提取路徑和第二特征提取路徑,所述第一特征提取路徑用于對所述多頭高維特征進行特征提取,所述第二特征提取路徑用于對所述第一特征提取路徑提取到的特征進行門控選擇,得到因果注意細化后的特征。

    17、在一種可能的實現方式中,所述多頭注意力網絡具有對角掩碼結構,以掩蓋未來的幀信息。

    18、在一種可能的實現方式中,所述第一lstm網絡和所述第二lstm網絡為單向lstm網絡,以掩蓋未來的幀信息。

    19、在一種可能的實現方式中,所述分離模型還包括:

    20、與所述編碼器相連的第一特征映射單元,用于將時頻特征表示映射為高維表示,并將所述高維表示輸入第1個分離單元;以及,

    21、與最后一個分離單元相連的第二特征映射單元,用于將最后一個分離單元輸出的因果注意細化后的特征轉換為不同輸出通道分別對應的實數表示和虛數表示,得到不同輸出通道分別對應的特征序列,以供所述解碼器進行解碼;

    22、其中,所述第一特征映射單元和所述第二特征映射單元具有屏蔽層,以掩蓋未來的幀信息。

    23、根據本公開的另一方面,提供了一種語音分離裝置,包括:處理器;用于存儲處理器可執行指令的存儲器;其中,所述處理器被配置為在執行所述存儲器存儲的指令時,實現上述方法。

    24、根據本公開的另一方面,提供了一種非易失性計算機可讀存儲介質,其上存儲有計算機程序指令,其中,所述計算機程序指令被處理器執行時實現上述方法。

    25、根據本公開的另一方面,提供了一種計算機程序產品,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質,當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執行上本文檔來自技高網...

    【技術保護點】

    1.一種語音分離方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述更新后的網絡特征通過所述緩存單元進行處理,包括:

    3.根據權利要求2所述的方法,其特征在于,所述時序編碼網絡包括對隱藏狀態進行時序編碼的第三LSTM網絡和對細胞狀態進行時序編碼的第四LSTM網絡。

    4.根據權利要求2所述的方法,其特征在于,所述對所述編碼后的網絡特征進行重對齊處理,得到所述第i個分離單元對應的網絡特征,通過下式表示:

    5.根據權利要求1所述的方法,其特征在于,所述因果注意細化子單元包括以下網絡結構:

    6.根據權利要求5所述的方法,其特征在于,所述多頭注意力網絡具有對角掩碼結構,以掩蓋未來的幀信息。

    7.根據權利要求1至6任一所述的方法,其特征在于,所述第一LSTM網絡和所述第二LSTM網絡為單向LSTM網絡,以掩蓋未來的幀信息。

    8.根據權利要求1至6任一所述的方法,其特征在于,所述分離模型還包括:

    9.一種語音分離裝置,其特征在于,包括:

    10.一種非易失性計算機可讀存儲介質,其上存儲有計算機程序指令,其特征在于,所述計算機程序指令被處理器執行時實現權利要求1至8中任意一項所述的方法。

    ...

    【技術特征摘要】

    1.一種語音分離方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述更新后的網絡特征通過所述緩存單元進行處理,包括:

    3.根據權利要求2所述的方法,其特征在于,所述時序編碼網絡包括對隱藏狀態進行時序編碼的第三lstm網絡和對細胞狀態進行時序編碼的第四lstm網絡。

    4.根據權利要求2所述的方法,其特征在于,所述對所述編碼后的網絡特征進行重對齊處理,得到所述第i個分離單元對應的網絡特征,通過下式表示:

    5.根據權利要求1所述的方法,其特征在于,所述因果注意細化子單元包括以下網絡結構...

    【專利技術屬性】
    技術研發人員:胡曉林陳果李凱,
    申請(專利權)人:清華大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费无码午夜福利片| 亚洲av中文无码乱人伦在线观看 | 国产成年无码久久久久下载| 亚洲αⅴ无码乱码在线观看性色| 无码专区一va亚洲v专区在线| 亚洲毛片无码专区亚洲乱| 丰满少妇人妻无码专区| 久久久久久无码Av成人影院| 一级电影在线播放无码| 亚洲日韩看片无码电影| 亚洲av无码不卡一区二区三区| 爆乳无码AV一区二区三区| 无码国产精品一区二区免费式影视 | 亚洲成av人片天堂网无码】| 日韩人妻无码精品系列| 无码aⅴ精品一区二区三区| 亚洲中文久久精品无码1 | 一本久道综合在线无码人妻| 国模GOGO无码人体啪啪| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 无码精品久久久天天影视| 国产自无码视频在线观看| 国产精品无码一区二区在线| 中文有码无码人妻在线| 久久精品国产亚洲AV无码偷窥 | 激情无码人妻又粗又大中国人| 亚洲中文字幕无码久久2017| 国产成人无码精品久久久免费 | 人妻丰满熟妇AV无码区免| 91久久九九无码成人网站| 精品无码一区在线观看| 午夜无码伦费影视在线观看| 亚洲精品无码专区久久久| 亚洲大尺度无码专区尤物| 亚洲乱亚洲乱妇无码麻豆| 国产精品VA在线观看无码不卡| 高潮潮喷奶水飞溅视频无码| 国产激情无码一区二区| 久久久久亚洲AV无码麻豆| AV无码精品一区二区三区| 国产莉萝无码AV在线播放|