基于多配置分塊上下文轉換器模型的語音識別方法及裝置制造方法及圖紙

技術編號：44315358 閱讀：5 留言：0更新日期：2025-02-18 20:28

本發明專利技術提供一種基于多配置分塊上下文轉換器模型的語音識別方法及裝置，屬于人工智能技術領域，該方法包括：獲取待識別語音的特征序列；將特征序列輸入至經過訓練的語音識別模型，利用語音識別模型對待識別語音進行語音識別，得到語音識別模型輸出的識別結果；語音識別模型為多配置分塊上下文轉換器MCC?Transformer模型，MCC?Transformer模型是在轉換器模型的基礎上，在編碼器中引入一個語音MCC?Transformer塊構建而成，語音MCC?Transformer塊由多個MCC?Transformer塊堆疊而成。本發明專利技術在編碼器中引入一個由多個MCC?Transformer塊堆疊而成的語音MCC?Transformer塊，提高了語音識別的準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能，尤其涉及一種基于多配置分塊上下文轉換器模型的語音識別方法及裝置。

技術介紹

1、以轉換器（transformer）模型為骨干網絡的語音識別模型，借助獨特的自注意力機制和網絡架構，得到廣泛應用。

2、由于經典自注意力機制的平方級的復雜度，使得transformer難以對長序列數據進行訓練建模，需要消耗大量的顯卡內存并且訓練時間延長。分塊（chunk）機制是一種可行的降低自注意力機制復雜度的方法，將序列數據進行均勻分塊，依次計算塊內的詞元（token）之間的注意力，使得自注意力機制計算復雜度降低至線性。

3、但是，現有技術中基于分塊機制的語音識別模型的準確率不高，模型性能需要進一步提高。

技術實現思路

1、本專利技術提供一種基于多配置分塊上下文轉換器模型的語音識別方法及裝置，用以解決現有技術中語音識別結果準確率低的技術問題。

2、第一方面，本專利技術提供一種基于多配置分塊上下文轉換器模型的語音識別方法，包括：

3、獲取待識別語音的特征序列；

4、將所述特征序列輸入至經過訓練的語音識別模型，利用所述語音識別模型對所述待識別語音進行語音識別，得到所述語音識別模型輸出的識別結果；

5、所述語音識別模型為多配置分塊上下文轉換器mcc-transformer模型，所述mcc-transformer模型是在轉換器模型的基礎上，在編碼器中引入一個語音mcc-transformer塊構建而成，所述語音mcc

6、在一些實施例中，所述c-mhsa模塊包括c-mhsa層，所述c-mhsa層用于在采用均勻劃分的塊內進行注意力計算；

7、所述sc-mhsa模塊包括sc-mhsa層，所述sc-mhsa層用于在采用移位塊劃分的塊內進行注意力計算；

8、所述ssc-mhsa模塊包括ssc-mhsa層，所述ssc-mhsa層用于在采用順序采樣重劃分的塊內進行注意力計算。

9、在一些實施例中，所述mcc-transformer模型的解碼器包括一個ctc解碼器和一個自注意力解碼器；

10、所述自注意力解碼器包括輸入層、embedding層、文本mcc-transformer塊和語音文本交叉mcc-transformer塊；

11、所述輸入層用于獲取解碼器的上一個輸出結果；

12、所述embedding層用于對解碼器的上一個輸出結果進行上下文關聯；

13、所述文本mcc-transformer塊用于對所述embedding層的輸出信息進行掩碼操作；

14、所述語音文本交叉mcc-transformer塊用于根據所述編碼器的輸出信息和所述文本mcc-transformer塊的輸出信息進行計算得到特征矩陣。

15、在一些實施例中，所述文本mcc-transformer塊由多個mcc-transformer塊堆疊而成，每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

16、在一些實施例中，所述語音文本交叉mcc-transformer塊由多個mcc-transformer塊堆疊而成，每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

17、在一些實施例中，所述mcc-transformer模型的編碼器還包括輸入層、填充層、卷積層、線性映射層和退出層；

18、所述輸入層用于獲取所述特征序列；

19、所述填充層用于對特征序列進行補零；

20、所述卷積層用于對特征序列進行維度變換；

21、所述線性映射層用于對特征序列進行重新映射；

22、所述退出層用于將部分神經元的輸出置零。

23、第二方面，本專利技術還提供一種基于多配置分塊上下文轉換器模型的語音識別裝置，包括：

24、獲取模塊，用于獲取待識別語音的特征序列；

25、識別模塊，用于將所述特征序列輸入至經過訓練的語音識別模型，利用所述語音識別模型對所述待識別語音進行語音識別，得到所述語音識別模型輸出的識別結果；

26、所述語音識別模型為多配置分塊上下文轉換器mcc-transformer模型，所述mcc-transformer模型是在轉換器模型的基礎上，在編碼器中引入一個語音mcc-transformer塊構建而成，所述語音mcc-transformer塊由多個mcc-transformer塊堆疊而成，每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

27、第三方面，本專利技術還提供一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現如上述任一種所述的基于多配置分塊上下文轉換器模型的語音識別方法。

28、第四方面，本專利技術還提供一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執行時實現如上述任一種所述的基于多配置分塊上下文轉換器模型的語音識別方法。

29、第五方面，本專利技術還提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時實現如上述任一種所述的基于多配置分塊上下文轉換器模型的語音識別方法。

30、本專利技術提供的語音識別方法及裝置，在編碼器中引入一個由多個mcc-transformer塊堆疊而成的語音mcc-transformer塊，每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成，提高了語音識別的準確率。

本文檔來自技高網...

【技術保護點】

1.一種基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，包括：

2.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述C-MHSA模塊包括C-MHSA層，所述C-MHSA層用于在采用均勻劃分的塊內進行注意力計算；

3.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述MCC-Transformer模型的解碼器包括一個CTC解碼器和一個自注意力解碼器；

4.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述文本MCC-Transformer塊由多個MCC-Transformer塊堆疊而成，每一個MCC-Transformer塊依次由基于均勻分塊機制的多頭自注意力C-MHSA模塊、基于移位分塊機制的多頭自注意力SC-MHSA模塊、基于順序采樣分塊機制的多頭自注意力SSC-MHSA模塊級聯而成。

5.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述語音文本交叉MCC-Transformer塊由多個MCC-Tr

6.根據權利要求1至5任一項所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述MCC-Transformer模型的編碼器還包括輸入層、填充層、卷積層、線性映射層和退出層；

7.一種基于多配置分塊上下文轉換器模型的語音識別裝置，其特征在于，包括：

8.一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述的基于多配置分塊上下文轉換器模型的語音識別方法。

9.一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的基于多配置分塊上下文轉換器模型的語音識別方法。

10.一種計算機程序產品，包括計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的基于多配置分塊上下文轉換器模型的語音識別方法。

...

【技術特征摘要】

1.一種基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，包括：

2.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述c-mhsa模塊包括c-mhsa層，所述c-mhsa層用于在采用均勻劃分的塊內進行注意力計算；

3.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述mcc-transformer模型的解碼器包括一個ctc解碼器和一個自注意力解碼器；

4.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述文本mcc-transformer塊由多個mcc-transformer塊堆疊而成，每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

5.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法，其特征在于，所述語音文本交叉mcc-transformer塊由多個mcc-transformer塊堆疊而成，每一個mcc-transfo...

【專利技術屬性】
技術研發人員：王方圓，徐博，徐波，
申請(專利權)人：中國科學院自動化研究所，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術