一種用于語音識別的線性復雜度模型架構制造技術

技術編號：43964743 閱讀：29 留言：0更新日期：2025-01-07 21:50

本發明專利技術公開介紹了語音識別技術領域中一種用于語音識別的線性復雜度模型架構，所述AMLP分支使用MLP替代注意力機制，并在MLP基礎上添加注意力平均池化層，在保持線性復雜度的同時，確保注意力權重均勻分布，并獲取全面的全局特征，所述卷積分支利用卷積空間門控單元捕獲增強的局部特征關系，并通過與AMLP分支交互信息的通道，將局部特征與全局特征進行混合，為全局特征補充局部特征，本發明專利技術在提取局部特征和全局特征的同時，適當的在局部特征和全局特征提取處理時進行了提前融合，來解決全局特征和局部特征實時相互影響的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音識別，具體為一種用于語音識別的線性復雜度模型架構。

技術介紹

1、近年來，大量研究集中在對conformer的結構改進，旨在進一步降低計算開銷并提升識別性能。例如，branchformer（peng?et?al.，2022）通過引入并行分支對不同范圍的上下文特征進行建模，其中一個分支采用卷積門控多層感知機（cgmlp）捕獲局部上下文特征，另一個分支利用自注意機制捕捉長程特征依賴關系，branchformer結構如圖1所示，

2、但是該結構存在兩個問題：第一，局部特征和全局特征完全分離的方式是主流模式，但這種進行局部特征和全局特征獨立提取再拼接融合的方式，并沒有解決全局特征和局部特征實時都在相互影響的問題，因此本文在提取局部特征和全局特征的同時，適當的在局部特征和全局特征提取處理時進行了提前融合，來解決全局特征和局部特征實時相互影響的問題。

3、第二，注意力計算復雜度高，對硬件設備依賴嚴重。mlp?mixer（tolstikhin?etal.,?2021）通過固定大小的mlp在時間維度上進行令牌混合，在多個任務上展示了與多頭自注意機制（mhsa）相媲美的性能（choe?et?al.,?2022）。但是，鑒于語音任務通常涉及可變長度的序列，mlp?mixer在語音任務中的應用受限，導致其性能表現不佳。

技術實現思路

1、本部分的目的在于概述本專利技術的實施方式的一些方面以及簡要介紹一些較佳實施方式。在本部分以及本申請的說明書摘要和專利技術名稱中

2、因此，本專利技術的目的是提供一種用于語音識別的線性復雜度模型架構，在提取局部特征和全局特征的同時，適當的在局部特征和全局特征提取處理時進行了提前融合，來解決全局特征和局部特征實時相互影響的問題。

3、為解決上述技術問題，根據本專利技術的一個方面，本專利技術提供了如下技術方案：

4、一種用于語音識別的線性復雜度模型架構，其包括：amlp分支和卷積分支；

5、所述amlp分支使用mlp替代注意力機制，并在mlp基礎上添加注意力平均池化層，在保持線性復雜度的同時，確保注意力權重均勻分布，并獲取全面的全局特征；

6、所述卷積分支利用卷積空間門控單元捕獲增強的局部特征關系，并通過與amlp分支交互信息的通道，將局部特征與全局特征進行混合，為全局特征補充局部特征。

7、作為本專利技術所述的一種用于語音識別的線性復雜度模型架構的一種優選方案，其中，還包括前饋神經網絡模塊，所述前饋神經網絡模塊位于模型架構的兩端。

8、作為本專利技術所述的一種用于語音識別的線性復雜度模型架構的一種優選方案，其中，所述amlp分支對輸入信息進行全局上下文建模，具體步驟如下：

9、利用兩個mlp，針對第一個時間的特征維度從輸入本身動態生成w1、w2，以此類推，直到第t個時長的特征維度，所有維度的特征權重描述方式如公式：

10、；

11、其中，k∈1，2；

12、對輸入序列x中的每個時間步長xt應用多層感知機mlpk(xt)生成各自時間段的權重，得到所有時間步長下的特征權重，然后將這些權重堆疊成一個可變高度的權重矩陣wk，從而適用于可變長序列；

13、在獲取權重的同時，計算復雜度與輸入序列的時間長度t呈線性關系，通過如下公式輸出：

14、；

15、其中，是非線性的；

16、上述公式中，權重矩陣mlp2對每個時間步長應用局部變換，生成局部貢獻，然后與對應時間步的輸入序列做內積，將這些局部貢獻的結果通過全局求和得到整體表示，再通過非線性變換得到全局投影矩陣，每個局部變換的結果mlp1（xt）通過全局投影矩陣進行投影，整合為最終的輸出矩陣。

17、作為本專利技術所述的一種用于語音識別的線性復雜度模型架構的一種優選方案，其中，所述amlp分支具有amlp模塊，amlp模塊包括超混合網絡和加性注意力，超混合網絡用于動態獲取全局信息；加性注意力對超混合網絡獲取的全局信息進一步凝練，最后將結果輸入到下一層的hyper?mixer模塊；

18、amlp模塊利用多層感知機構成的hypermixer提取全局信息，再通過加性注意力對輸出矩陣進行加權平均，得到具有全局上下文信息的向量，進一步對線性計算處理的注意力結果利用softmax進行歸一化，得到注意力權重，公式如下：

19、；

20、其中，是可訓練的權重向量，是縮放因子，全局上下文信息向量計算公式如下：

21、。

22、作為本專利技術所述的一種用于語音識別的線性復雜度模型架構的一種優選方案，其中，所述卷積分支執行如下步驟：

23、對特征序列進行非線性變換；

24、然后，將其送入關鍵模塊線性門控csgu中，接著，將特征序列沿隱藏層維度切割為相等的兩個特征序列，對進行層歸一化，并使用深度卷積獲取強局部特征；

25、最后，將進行逐元素乘積，得到最終的局部特征矩陣：

26、。

27、作為本專利技術所述的一種用于語音識別的線性復雜度模型架構的一種優選方案，其中，所述卷積分支在卷積空間門控單元的基礎上，添加全局和局部特征混合的卷積空間門控特征混合單元，用來混合來自卷積的局部上下文信息與amlp分支的全局上下文信息；

28、所述卷積分支線性計算如下：首先將強局部特征矩陣與全局特征矩陣amlp(x)進行拼接，得到保留了兩種完整信息的新特征矩陣，然后，將其送入門控線性單元，并與逐元素乘積，得到的特征矩陣和未與全局特征混合的矩陣進行殘差連接，具體公式表示如下：

29、；

30、；

31、；

32、其中，與是相同的。

33、與現有技術相比，本專利技術具有的獨創效果是：本專利技術提出的hmbformer架構，是一種具有線性時間復雜度的新型架構，旨在消除語音識別中對自注意機制的依賴，降低計算復雜度。hmbformer架構使用多個線性組件對全局上下文信息進行補充，可以高效且充分的利用全局和局部特征信息，從而實現較好的語音識別性能。

本文檔來自技高網...

【技術保護點】

1.一種用于語音識別的線性復雜度模型架構，其特征在于，包括：AMLP分支和卷積分支；

2.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，還包括前饋神經網絡模塊，所述前饋神經網絡模塊位于模型架構的兩端。

3.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，所述AMLP分支對輸入信息進行全局上下文建模，具體步驟如下：

4.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，所述AMLP分支具有AMLP模塊，AMLP模塊包括超混合網絡和加性注意力，超混合網絡用于動態獲取全局信息；加性注意力對超混合網絡獲取的全局信息進一步凝練，最后將結果輸入到下一層的Hyper?Mixer模塊；

5.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，所述卷積分支執行如下步驟：

6.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，所述卷積分支在卷積空間門控單元的基礎上，添加全局和局部特征混合的卷積空間門控特征混合單元，用來混合來自卷積的局部上

...

【技術特征摘要】

1.一種用于語音識別的線性復雜度模型架構，其特征在于，包括：amlp分支和卷積分支；

3.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，所述amlp分支對輸入信息進行全局上下文建模，具體步驟如下：

4.根據權利要求1所述的一種用于語音識別的線性復雜度模型架構，其特征在于，所述amlp分支具有amlp模塊，amlp模塊...

【專利技術屬性】
技術研發人員：劉葳，田志野，許春生，孫一鳴，陳純毅，
申請(專利權)人：長春理工大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術