System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 人妻无码中文字幕免费视频蜜桃,无码一区二区三区在线,亚洲成AV人片在线观看无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于多配置分塊上下文轉換器模型的語音識別方法及裝置制造方法及圖紙

    技術編號:44315358 閱讀:5 留言:0更新日期:2025-02-18 20:28
    本發明專利技術提供一種基于多配置分塊上下文轉換器模型的語音識別方法及裝置,屬于人工智能技術領域,該方法包括:獲取待識別語音的特征序列;將特征序列輸入至經過訓練的語音識別模型,利用語音識別模型對待識別語音進行語音識別,得到語音識別模型輸出的識別結果;語音識別模型為多配置分塊上下文轉換器MCC?Transformer模型,MCC?Transformer模型是在轉換器模型的基礎上,在編碼器中引入一個語音MCC?Transformer塊構建而成,語音MCC?Transformer塊由多個MCC?Transformer塊堆疊而成。本發明專利技術在編碼器中引入一個由多個MCC?Transformer塊堆疊而成的語音MCC?Transformer塊,提高了語音識別的準確率。

    【技術實現步驟摘要】

    本專利技術涉及人工智能,尤其涉及一種基于多配置分塊上下文轉換器模型的語音識別方法及裝置


    技術介紹

    1、以轉換器(transformer)模型為骨干網絡的語音識別模型,借助獨特的自注意力機制和網絡架構,得到廣泛應用。

    2、由于經典自注意力機制的平方級的復雜度,使得transformer難以對長序列數據進行訓練建模,需要消耗大量的顯卡內存并且訓練時間延長。分塊(chunk)機制是一種可行的降低自注意力機制復雜度的方法,將序列數據進行均勻分塊,依次計算塊內的詞元(token)之間的注意力,使得自注意力機制計算復雜度降低至線性。

    3、但是,現有技術中基于分塊機制的語音識別模型的準確率不高,模型性能需要進一步提高。


    技術實現思路

    1、本專利技術提供一種基于多配置分塊上下文轉換器模型的語音識別方法及裝置,用以解決現有技術中語音識別結果準確率低的技術問題。

    2、第一方面,本專利技術提供一種基于多配置分塊上下文轉換器模型的語音識別方法,包括:

    3、獲取待識別語音的特征序列;

    4、將所述特征序列輸入至經過訓練的語音識別模型,利用所述語音識別模型對所述待識別語音進行語音識別,得到所述語音識別模型輸出的識別結果;

    5、所述語音識別模型為多配置分塊上下文轉換器mcc-transformer模型,所述mcc-transformer模型是在轉換器模型的基礎上,在編碼器中引入一個語音mcc-transformer塊構建而成,所述語音mcc-transformer塊由多個mcc-transformer塊堆疊而成,每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

    6、在一些實施例中,所述c-mhsa模塊包括c-mhsa層,所述c-mhsa層用于在采用均勻劃分的塊內進行注意力計算;

    7、所述sc-mhsa模塊包括sc-mhsa層,所述sc-mhsa層用于在采用移位塊劃分的塊內進行注意力計算;

    8、所述ssc-mhsa模塊包括ssc-mhsa層,所述ssc-mhsa層用于在采用順序采樣重劃分的塊內進行注意力計算。

    9、在一些實施例中,所述mcc-transformer模型的解碼器包括一個ctc解碼器和一個自注意力解碼器;

    10、所述自注意力解碼器包括輸入層、embedding層、文本mcc-transformer塊和語音文本交叉mcc-transformer塊;

    11、所述輸入層用于獲取解碼器的上一個輸出結果;

    12、所述embedding層用于對解碼器的上一個輸出結果進行上下文關聯;

    13、所述文本mcc-transformer塊用于對所述embedding層的輸出信息進行掩碼操作;

    14、所述語音文本交叉mcc-transformer塊用于根據所述編碼器的輸出信息和所述文本mcc-transformer塊的輸出信息進行計算得到特征矩陣。

    15、在一些實施例中,所述文本mcc-transformer塊由多個mcc-transformer塊堆疊而成,每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

    16、在一些實施例中,所述語音文本交叉mcc-transformer塊由多個mcc-transformer塊堆疊而成,每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

    17、在一些實施例中,所述mcc-transformer模型的編碼器還包括輸入層、填充層、卷積層、線性映射層和退出層;

    18、所述輸入層用于獲取所述特征序列;

    19、所述填充層用于對特征序列進行補零;

    20、所述卷積層用于對特征序列進行維度變換;

    21、所述線性映射層用于對特征序列進行重新映射;

    22、所述退出層用于將部分神經元的輸出置零。

    23、第二方面,本專利技術還提供一種基于多配置分塊上下文轉換器模型的語音識別裝置,包括:

    24、獲取模塊,用于獲取待識別語音的特征序列;

    25、識別模塊,用于將所述特征序列輸入至經過訓練的語音識別模型,利用所述語音識別模型對所述待識別語音進行語音識別,得到所述語音識別模型輸出的識別結果;

    26、所述語音識別模型為多配置分塊上下文轉換器mcc-transformer模型,所述mcc-transformer模型是在轉換器模型的基礎上,在編碼器中引入一個語音mcc-transformer塊構建而成,所述語音mcc-transformer塊由多個mcc-transformer塊堆疊而成,每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

    27、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述的基于多配置分塊上下文轉換器模型的語音識別方法。

    28、第四方面,本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述的基于多配置分塊上下文轉換器模型的語音識別方法。

    29、第五方面,本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述的基于多配置分塊上下文轉換器模型的語音識別方法。

    30、本專利技術提供的語音識別方法及裝置,在編碼器中引入一個由多個mcc-transformer塊堆疊而成的語音mcc-transformer塊,每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成,提高了語音識別的準確率。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,包括:

    2.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述C-MHSA模塊包括C-MHSA層,所述C-MHSA層用于在采用均勻劃分的塊內進行注意力計算;

    3.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述MCC-Transformer模型的解碼器包括一個CTC解碼器和一個自注意力解碼器;

    4.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述文本MCC-Transformer塊由多個MCC-Transformer塊堆疊而成,每一個MCC-Transformer塊依次由基于均勻分塊機制的多頭自注意力C-MHSA模塊、基于移位分塊機制的多頭自注意力SC-MHSA模塊、基于順序采樣分塊機制的多頭自注意力SSC-MHSA模塊級聯而成。

    5.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述語音文本交叉MCC-Transformer塊由多個MCC-Transformer塊堆疊而成,每一個MCC-Transformer塊依次由基于均勻分塊機制的多頭自注意力C-MHSA模塊、基于移位分塊機制的多頭自注意力SC-MHSA模塊、基于順序采樣分塊機制的多頭自注意力SSC-MHSA模塊級聯而成。

    6.根據權利要求1至5任一項所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述MCC-Transformer模型的編碼器還包括輸入層、填充層、卷積層、線性映射層和退出層;

    7.一種基于多配置分塊上下文轉換器模型的語音識別裝置,其特征在于,包括:

    8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述的基于多配置分塊上下文轉換器模型的語音識別方法。

    9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的基于多配置分塊上下文轉換器模型的語音識別方法。

    10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的基于多配置分塊上下文轉換器模型的語音識別方法。

    ...

    【技術特征摘要】

    1.一種基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,包括:

    2.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述c-mhsa模塊包括c-mhsa層,所述c-mhsa層用于在采用均勻劃分的塊內進行注意力計算;

    3.根據權利要求1所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述mcc-transformer模型的解碼器包括一個ctc解碼器和一個自注意力解碼器;

    4.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述文本mcc-transformer塊由多個mcc-transformer塊堆疊而成,每一個mcc-transformer塊依次由基于均勻分塊機制的多頭自注意力c-mhsa模塊、基于移位分塊機制的多頭自注意力sc-mhsa模塊、基于順序采樣分塊機制的多頭自注意力ssc-mhsa模塊級聯而成。

    5.根據權利要求3所述基于多配置分塊上下文轉換器模型的語音識別方法,其特征在于,所述語音文本交叉mcc-transformer塊由多個mcc-transformer塊堆疊而成,每一個mcc-transfo...

    【專利技術屬性】
    技術研發人員:王方圓徐博徐波
    申請(專利權)人:中國科學院自動化研究所
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 2021无码最新国产在线观看| 亚洲美免无码中文字幕在线| 精品无码成人片一区二区98 | gogo少妇无码肉肉视频| 亚洲成av人片天堂网无码】| 久久综合一区二区无码| 亚洲国产精品无码第一区二区三区 | 在线播放无码高潮的视频| 67194成l人在线观看线路无码| 国产精品无码素人福利免费 | 人妻无码中文久久久久专区| 亚洲最大av无码网址| 亚洲性无码av在线| 国产真人无码作爱视频免费| 中文字幕丰满乱子伦无码专区| 亚洲成a人无码亚洲成www牛牛 | 狼人无码精华AV午夜精品| 精品无码国产污污污免费网站| 亚洲AV无码成H人在线观看 | 国产亚洲情侣一区二区无码AV| 中文字幕乱偷无码av先锋蜜桃 | 蜜臀AV无码精品人妻色欲| 亚洲日韩精品无码AV海量| 亚洲av永久无码精品网站 | 精品无码久久久久国产动漫3d| 亚洲日韩精品无码一区二区三区| 无码人妻久久一区二区三区蜜桃| 亚洲AV无码一区二区乱子仑| 亚洲日韩国产二区无码| 亚洲精品无码日韩国产不卡av| 亚洲av无码专区在线| 亚洲av无码一区二区三区观看| 国产白丝无码免费视频| 亚洲精品无码mv在线观看网站| H无码精品3D动漫在线观看| 日韩精品无码免费专区午夜 | 无码人妻精品一区二区三区99性 | 亚洲国产精品无码专区在线观看 | 男人的天堂无码动漫AV| 久久亚洲精品成人av无码网站 | 99久久亚洲精品无码毛片|