基于多尺度殘差卷積和Longformer的語音識別方法技術

技術編號：44490262 閱讀：4 留言：0更新日期：2025-03-04 17:55

本發明專利技術涉及語音識別技術領域，尤其涉及一種基于多尺度殘差卷積和Longformer的語音識別方法，包括：S1、對預先獲取的語音信號進行預處理得到相應的聲學信號；S2、將所述聲學信號輸入至訓練的語音識別模型，得到與所述語音信號對應的語音文本；其中，訓練的語音識別模型是采用訓練數據集對預先創建的語音識別模型進行訓練得到的；所述訓練數據集包括：多段第一聲學信號以及分別與每一段第一聲學信號一一對應的預先標注的語音文本；多段第一聲學信號是由預先獲取的用于訓練的多段語音信號分別進行預處理得到的；所述語音識別模型是由多尺度殘差卷積神經網絡和longformer模型構建的。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音識別，尤其涉及一種基于多尺度殘差卷積和longformer的語音識別方法。

技術介紹

1、隨著人工智能和深度學習技術的發展，語音識別技術在各類應用場景中得到了廣泛應用，如智能助手、智能家居、自動駕駛、會議記錄等。語音識別技術的核心是將語音信號轉換為文本，它不僅需要準確地識別語音內容，還需要在復雜背景噪聲、不同說話人特性以及不同語境下具有較強的魯棒性。然而，傳統的語音識別方法在識別復雜場景和長語音序列時存在一定的局限性，特別是在語音信號存在背景噪聲和長時依賴問題時，準確率往往會大幅下降。

2、傳統的語音識別模型通常基于隱馬爾可夫模型(hmm)與高斯混合模型(gmm)的組合，或結合深度神經網絡(dnn)進行聲學建模。然而，這些方法在建模長時間序列和捕獲全局上下文信息方面存在一定的不足。近年來，卷積神經網絡(cnn)與循環神經網絡(rnn)被廣泛應用于語音識別領域，其中，cnn擅長提取局部特征，rnn則適合處理序列數據。然而，這些方法在處理長語音信號時，存在以下幾個問題：

3、rnn類模型(如lstm和gru)雖然能夠捕獲長時依賴信息，但在長序列輸入時，容易出現梯度消失或梯度爆炸問題，導致建模效果不佳。傳統卷積神經網絡依賴于固定大小的卷積核進行特征提取，難以同時捕獲不同尺度下的特征信息，導致模型在處理包含多種語音特征的信號時效果不理想。在面對長序列語音信號時，rnn類模型的計算效率較低，難以滿足實時處理需求。

技術實現思路

1、鑒于現有技術的上述

2、為了達到上述目的，本專利技術采用的主要技術方案包括：

3、本專利技術實施例提供一種基于多尺度殘差卷積和longformer的語音識別方法，包括：

4、s1、對預先獲取的語音信號進行預處理得到相應的聲學信號；

5、s2、將所述聲學信號輸入至訓練的語音識別模型，得到與所述語音信號對應的語音文本；

6、其中，訓練的語音識別模型是采用訓練數據集對預先創建的語音識別模型進行訓練得到的；

7、所述訓練數據集包括：多段第一聲學信號以及分別與每一段第一聲學信號一一對應的預先標注的語音文本；多段第一聲學信號是由預先獲取的用于訓練的多段語音信號分別進行預處理得到的；

8、所述語音識別模型是由多尺度殘差卷積神經網絡和longformer模型構建的。

9、優選地，在s1之前還包括：

10、s0、采用訓練數據集對預先創建的語音識別模型進行訓練，得到訓練的語音識別模型。

11、優選地，

12、其中，所述聲學信號為80維的fbank特征信號。

13、優選地，其特征在于，

14、所述多尺度殘差卷積神經網絡依次包括：第一卷積層、第一分支結構、第一殘差層、第二卷積層、第二分支結構層、第二殘差層、第三卷積層；

15、其中，所述第一卷積層，用于對輸入所述多尺度殘差卷積神經網絡中的聲學信號提取相應的基礎特征；

16、第一分支結構層，用于采用預先設定的多個卷積核對所述基礎特征分別進行卷積處理，并將該第一分支結構層中的所有卷積核所得到的卷積處理結果進行拼接，得到第一綜合特征；

17、第一殘差層，用于將所述第一綜合特征與所述基礎特征進行殘差處理，得到第一殘差結果；

18、第二卷積層，用于對所述第一殘差結果進行卷積處理，得到中間特征；

19、第二分支結構層，用于采用預先設定的多個卷積核對所述中間分別進行卷積處理，并將該第二分支結構層中的所有卷積核所得到的卷積處理結果進行拼接，得到第二綜合特征；

20、第二殘差層，用于將所述第二綜合特征與所述中間特征進行殘差處理，得到第二殘差結果；

21、第三卷積層，用于對所述第二殘差結果進行卷積處理，得到多尺度殘差卷積神經網絡的輸出特征。

22、優選地，所述第一分支結構層，包括：1×1卷積核、3×3卷積核、3×3膨脹卷積核、5×5膨脹卷積核；

23、所述第二分支結構層，包括：1×1卷積核、3×3卷積核、3×3膨脹卷積核、5×5膨脹卷積核。

24、優選地，所述longformer模型，用于對多尺度殘差卷積神經網絡的輸出特征進行處理，得到相應的語音文本。

25、優選地，所述longformer模型包括：n個longformer編碼器和m個longformer解碼器；

26、其中，n個longformer編碼器用于提取多尺度殘差卷積神經網絡的輸出特征的全局上下文信息；

27、m個longformer解碼器用于根據對所述全局上下文信息進行解碼，生成對應的語音文本。

28、優選地，所述s0具體包括：

29、采用所述訓練數據集中的每一段第一聲學信號以及對應的預先標注的語音文本，對所述語音識別模型進行訓練，直至與該語音識別模型所對應的預先設定的回歸損失函數收斂，得到訓練的語音識別模型。

30、優選地，

31、在所述語音識別模型訓練的過程中采用adamw優化算法，最小化預先設定的回歸損失函數，并更新所述語音識別模型中的所有權重參數。

32、優選地，

33、其中，n等于9；m等于6。

34、本專利技術的有益效果是：

35、本專利技術的一種基于多尺度殘差卷積和longformer的語音識別方法，由于結合了多尺度殘差卷積神經網絡和longformer模型。多尺度殘差卷積網絡能夠通過不同尺度的卷積核提取語音信號的多層次特征，可以捕獲語音中的短時局部特征和長時全局特征。而longformer模型則能夠利用其局部窗口注意力機制和全局注意力機制，捕捉到長時間依賴的上下文信息。兩者結合有效地解決了傳統方法在處理長序列語音信號時對長時依賴建模不足的問題，從而提升了語音識別的準確性。

36、本專利技術的一種基于多尺度殘差卷積和longformer的語音識別方法中使用到的語音識別模型引入了longformer模型，替代傳統的循環神經網絡(rnn)或標準transformer模型。longformer采用了局部窗口注意力機制，在處理長序列語音信號時效率更高，能夠在保證識別精度的同時，顯著降低模型的計算開銷，提高了模型的實時處理能力。

37、本專利技術的一種基于多尺度殘差卷積和longformer的語音識別方法中使用到的語音識別模型中通過將多尺度殘差卷積神經網絡與longformer相結合，充分利用了兩者的優勢，使得語音識別模型既能提取到精細的局部聲學特征，又能捕獲到長時間序列中的上下文信息。這種互補性極大地提升了語音識別系統的整體性能。

本文檔來自技高網...

【技術保護點】

1.一種基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，包括：

2.根據權利要求1所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，在S1之前還包括：

3.根據權利要求2所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，

4.根據權利要求2所述的基于多尺度殘差卷積神經網絡和Longformer的語音識別方法，其特征在于，

5.根據權利要求4所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，

6.根據權利要求5所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，

7.根據權利要求6所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，

8.根據權利要求7所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，所述S0具體包括：

9.根據權利要求8所述的基于多尺度殘差卷積和Longformer的語音識別方法，其特征在于，

10.

...

【技術特征摘要】

1.一種基于多尺度殘差卷積和longformer的語音識別方法，其特征在于，包括：

2.根據權利要求1所述的基于多尺度殘差卷積和longformer的語音識別方法，其特征在于，在s1之前還包括：

3.根據權利要求2所述的基于多尺度殘差卷積和longformer的語音識別方法，其特征在于，

4.根據權利要求2所述的基于多尺度殘差卷積神經網絡和longformer的語音識別方法，其特征在于，

5.根據權利要求4所述的基于多尺度殘差卷積和longformer的語音識別方法，其特征在于，

<...

【專利技術屬性】
技術研發人員：謝志華，吳慧娟，陳翔，范義，王婷婷，趙鑫，魏文奇，張海波，邢紅穎，
申請(專利權)人：國網甘肅省電力公司張掖供電公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術