基于注意力與邊界檢測的非流式模型流式語音識別方法技術

技術編號：43948133 閱讀：3 留言：0更新日期：2025-01-07 21:36

本發明專利技術屬于語音識別領域，涉及一種基于注意力與邊界檢測的非流式模型流式語音識別方法，包括：分割音頻片段，并對音頻片段進行特征提取，生成對數梅爾頻譜圖；使用非流式語音模型Whisper對音頻片段進行轉錄，提取每幀音頻在模型中的交叉注意力，獲得對應的注意力權重；設定長度為的滑動窗口，計算窗口內各幀的平均注意力權重。當某窗口的最大平均注意力權重距離音頻結束幀的距離小于設定閾值時，控制模型停止解碼；使用詞邊界檢測模塊，對解碼內容進行檢測，判斷停止解碼時是否存在截斷的轉錄詞，從而確保正確輸出轉錄結果。同時根據邊界檢測情況動態調整閾值，以實現精準高效的實時語音識別。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于自動語音識別領域，涉及一種基于注意力與邊界檢測的非流式模型流式語音識別方法。

技術介紹

1、自動語音識別技術通過將音頻信號轉錄為文字內容，在科研和日常生活中扮演著重要角色。流式語音識別能夠在音頻流輸入的過程中實時輸出轉錄文本。而基于transformer的語音識別模型，是將音頻信號一次性轉換為向量表示，然后通過解碼器（decoder）模塊進行自回歸解碼。這類模型在非流式語音識別任務中表現出色，但用于流式語音識別時效果不佳，并且會消耗更多的計算資源。

2、一些傳統方法為解決非流式模型在流式識別中的挑戰，采用局部轉錄策略。通常是將音頻分成小片段，模型對這些片段分別進行轉錄，并尋找多個片段轉錄內容中的最長公共前綴。雖然這類方法無需修改模型的參數和結構，且能實現較為有效的流式語音識別，但其在控制轉錄延遲性和不確定性上表現較弱，同時也帶來了較大的計算開銷。

3、在語音翻譯領域，非流式模型的流式翻譯同樣是一個關鍵挑戰。一些研究方法聚焦于transformer模型中的注意力機制，以此來控制解碼時機，判斷音頻幀的最大注意力權重是否接近音頻片段末尾，或在末尾幀的注意力權重達到某個閾值。這種方式也可以應用于語音識別領域。相比于局部轉錄策略，基于交叉注意力的解碼策略能夠降低轉錄的延遲性。

4、然而，基于注意力機制控制解碼的方式往往關注最大注意力權重的位置，但這種做法存在一定的準確性問題。僅關注最大注意力權重可能會忽略背景噪聲，并導致模型陷入局部不穩定的區域。因此，應該擴展到更廣域的權重值進行考量。此外

技術實現思路

1、本專利技術的目的是解決現有技術存在的問題，提供一種基于注意力與邊界檢測的非流式模型流式語音識別方法，包括：分割音頻片段，并對音頻片段進行特征提取，生成對數梅爾頻譜圖；使用非流式語音模型whisper對音頻片段進行轉錄，提取每幀音頻在模型中的交叉注意力，獲得對應的注意力權重；設定長度為的滑動窗口，計算窗口內各幀的平均注意力權重。當某窗口的最大平均注意力權重距離音頻結束幀的距離小于設定閾值時，控制模型停止解碼；使用詞邊界檢測模塊，對解碼內容進行檢測，判斷停止解碼時是否存在截斷的轉錄詞，從而確保正確輸出轉錄結果。同時根據邊界檢測情況動態調整閾值，以實現精準高效的實時語音識別。

2、本專利技術采用的技術方案如下：一種基于注意力與邊界檢測的非流式模型流式語音識別方法，包括以下步驟：

3、步驟1，對接收的實時音頻流切割出多個音頻片段；

4、步驟2，將步驟1中分割的音頻片段片段轉換為對數梅爾頻譜圖；

5、步驟3，將對數梅爾頻譜圖輸入至whisper模型，獲得轉錄文本，并計算whisper模型中注意力權重之和；

6、所述whisper模型包括卷積層、位置編碼、encoder模塊和decoder模塊，encoder模塊包括多個由自注意力機制和多層感知器構成的編碼器塊，decoder模塊包括多個由自注意力機制、多層感知器和交叉注意力機制組成的解碼器塊；

7、步驟4，從音頻片段的起始幀開始，設定長度為的滑動窗口，計算滑動窗口內各幀音頻的平均注意力權重，在長度為的音頻片段中，當滑動窗口中最大的平均注意力權重對應的窗口末端靠近音頻片段末尾，并且其與末尾的距離小于閾值時，控制模型停止解碼；

8、步驟5，解碼停止時，通過邊界檢測模型檢測停止位置是否在單詞的邊界位置；

9、步驟6，根據步驟5中單詞邊界的檢測情況，計算步驟3中轉錄文本的停止解碼位置與步驟5中單詞邊界之間的差值，通過調整函數動態調整步驟4中閾值的值；當whisper模型停止解碼時的音頻幀位置剛好達到或超出單詞邊界位置，則表明發生截斷，若發生截斷，則該音頻片段將不會直接轉錄文本，而通過緩存并等待下一音頻片段，共同轉錄文本；若未發生截斷則進入步驟7；

10、步驟7，由whisper模型的decoder模塊輸出音頻片段的轉錄內容。

11、進一步的，步驟1中對接收的實時音頻流以特定的采樣率進行采樣，隨后以大小為的窗口，按照步長切割出多個音頻片段，截取第個片段的計算公式如下：

12、

13、其中，為原始音頻信號序列，截取的第個片段中第個音頻樣本值，其中。

14、進一步的，步驟2的具體實現方式如下；

15、對于步驟（1）中分割的片段內的時間和音頻片段頻率，將音頻信號轉換為頻譜圖，再將音頻頻率轉換為梅爾頻率，頻譜圖轉換為梅爾頻譜圖，最后將梅爾頻譜圖轉換為對數梅爾頻譜圖。

16、進一步的，whisper模型的處理過程如下：

17、步驟3.1，步驟2中得到的音頻片段對數梅爾頻譜圖經過兩層卷積層實現降采樣，提取局部時率信息，同時使用gelu作為激活函數，引入非線性；

18、步驟3.2，經過步驟3.1中卷積層提取特征后，添加正弦位置編碼，使模型能夠識別不同時間步長的輸入；

19、步驟3.3，由上述步驟處理后，輸入至encoder模塊得到音頻特征的隱藏狀態表示；

20、步驟3.4，decoder模塊接收encoder模塊中對音頻特征的提取的隱藏狀態表示，得到轉錄文本；

21、步驟3.5，在音頻片段內的某一時刻t，對于解碼器塊中的交叉注意力權重si，計算所有解碼器塊的交叉注意力權重之和，即計算decoder模塊多頭交叉注意力集合的注意力權重之和。

22、進一步的，在長度為r的滑動窗口內，對時刻至時刻的音頻幀的注意力權重，計算整個窗口的平均注意力權重；

23、平均注意力權重的計算公式如下：

24、。

25、進一步的，步驟4中whisper模型停止條件如下：

26、。

27、進一步的，步驟5的具體實現方式如下：

28、步驟5.1，在邊界檢測模型的輸入層input中輸入步驟2中的對數梅爾頻譜的張量形式；

29、步驟5.2，對音頻片段對數梅爾頻譜的張量通過卷積層conv1提取特征，隨后通過最大池化層mp進行降采樣；

30、步驟5.3，經過最大池化層后的特征進入卷積層conv2和conv3，進行更深層次的特征提取；隨后通過殘差連接add1將最初通過conv1提取的特征與conv3的輸出進行相加，保持特征信息的完整性；

31、步驟5.4，將步驟5.3得到的深層次特征傳遞給卷積層conv4和conv5繼續提取特征，并再次進行殘差連接add2，接下來依次進入卷積層conv6和conv7，并進行第三本文檔來自技高網...

【技術保護點】

1.一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于，包括如下步驟：

2.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：步驟1中對接收的實時音頻流以特定的采樣率進行采樣，隨后以大小為的窗口，按照步長切割出多個音頻片段，截取第個片段的計算公式如下：

3.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：步驟2的具體實現方式如下；

4.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：Whisper模型的處理過程如下：

5.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：在長度為r的滑動窗口內，對時刻至時刻的音頻幀的注意力權重，計算整個窗口的平均注意力權重；

6.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：步驟4中Whisper模型停止條件如下：

7.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方

8.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：

...

【技術特征摘要】

1.一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于，包括如下步驟：

3.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：步驟2的具體實現方式如下；

4.如權利要求1所述的一種基于注意力與邊界檢測的非流式模型流式語音識別方法，其特征在于：whisper模型的處理過程...

【專利技術屬性】
技術研發人員：劉軍平，王潤鵬，謝浩，謝屈波，
申請(專利權)人：武漢紡織大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術