System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及語音識別,特別是涉及一種語音識別方法及相關裝置、設備和存儲介質。
技術介紹
1、自動語音識別(automatic?speech?recognition,asr)技術可以將語音中的文字信息提取出來,轉換為對應文本。流式語音識別(streaming?speech?recognition)作為語音識別技術的一種形式,能夠實時處理連續的語音輸入,提供即時的反饋,這種特性使其在實時通信、智能助手以及同聲傳譯等多個領域有著重要的應用價值。
2、隨著語音識別模型計算能力的提高和算法的進步,語音識別技術逐漸成熟并得到了廣泛應用。然而,由于背景噪聲、口音、聲音重疊、語速變化、說話方式的差異以及模型的局限性,語音識別準確性并不高,特別是流式語音識別系統需要在實時或接近實時的情況下提供識別結果,并需要在接收到一小部分語音信號后就開始生成文本,語音識別的準確性進一步降低,為了提高準確性,系統往往需要收集更多的音頻數據來進行決策,而又導致語音識別的效率下降。
3、因此,如何提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性,成為亟待解決的問題。
技術實現思路
1、本申請主要解決的技術問題是提供一種語音識別方法及相關裝置、設備和存儲介質,能夠提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性。
2、為了解決上述技術問題,本申請第一方面提供了一種語音識別方法,語音識別方法包括:獲取當前輪次的第一解碼特征;其中,當前輪次的第一解碼特征包含上一輪次所
3、為了解決上述技術問題,本申請第二方面提供了一種語音識別裝置,語音識別裝置包括第一獲取模塊、第二獲取模塊和解碼模塊;第一獲取模塊用于獲取當前輪次的第一解碼特征;其中,當前輪次的第一解碼特征包含上一輪次所輸出解碼字符的特征信息;第二獲取模塊用于獲取待識別語音中各個語音幀的編碼特征分別與第一解碼特征之間的對齊概率,并基于對齊概率選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,得到第二解碼特征;解碼模塊用于基于第二解碼特征進行解碼,得到當前輪次所輸出的解碼字符,并返回獲取當前輪次的第一解碼特征的步驟進行迭代,直至最新輸出的解碼字符表征語音識別結束為止,基于各個輪次的解碼字符,得到待識別語音的識別文本。
4、為了解決上述技術問題,本申請第三方面提供了一種電子設備,包括相互耦接的存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現上述第一方面中的語音識別方法。
5、為了解決上述技術問題,本申請第四方面提供了一種計算機可讀存儲介質,其上存儲有程序指令,程序指令被處理器執行時實現上述第一方面中的語音識別方法。
6、上述方案,通過獲取當前輪次的第一解碼特征,其中,當前輪次的第一解碼特征包含上一輪次所輸出解碼字符的特征信息,并獲取待識別語音中各個語音幀的編碼特征分別與第一解碼特征之間的對齊概率,以基于對齊概率選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,得到第二解碼特征,再基于第二解碼特征進行解碼,得到當前輪次所輸出的解碼字符,并返回獲取當前輪次的第一解碼特征的步驟進行迭代,直至最新輸出的解碼字符表征語音識別結束為止,最后基于各個輪次的解碼字符,得到待識別語音的識別文本。因此,一方面,相較于參考所有語音幀而言,選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,能夠提升數據處理效率,另一方面,根據對齊概率選擇編碼特征以與第一解碼特征進行融合,有助于提升語音識別的解碼過程的數據有效性,進而提升語音識別的準確性,且在流式語音識別的場景中,能夠根據對齊概率,有針對地選擇與當前輪次第一解碼特征對齊時刻及其之前的編碼特征,而降低語音識別過程中對對齊時刻之后的編碼特征的依賴,從而提升流式語音識別的準確性。故此,能夠提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性。
本文檔來自技高網...【技術保護點】
1.一種語音識別方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述對齊概率選擇至少部分所述語音幀的編碼特征與所述第一解碼特征進行融合,得到第二解碼特征,包括:
3.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述第一參考語音幀的編碼特征和所述第一解碼特征進行融合,得到中間解碼特征,包括:
4.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述對齊概率,選擇對齊于所述第一解碼特征的編碼特征所屬的語音幀,作為目標語音幀,包括:
5.根據權利要求1所述的方法,其特征在于,所述待識別語音的識別文本由目標語音識別模型預測得到,所述目標語音識別模型至少包括第一編碼網絡與第一解碼網絡,所述第一解碼網絡包括第一解碼層和第二解碼層,所述第一編碼網絡的輸出端分別連接于所述第一解碼層的輸入端和所述第二解碼層的輸
6.根據權利要求5所述的方法,其特征在于,在訓練所述目標語音識別模型之前,所述方法還包括:
7.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第一語音識別模型替換解碼網絡而得到,所述第一語音識別模型具有與所述目標語音識別模型相同結構的編碼網絡,以及與所述目標語音識別模型不同結構的解碼網絡,所述第一語音識別模型的解碼網絡僅包括所述第二解碼層,所述第一語音識別模型基于第二樣本語音訓練得到,且所述第二樣本語音標注有第二目標文本。
8.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第二語音識別模型得到,所述目標語音識別模型與所述第二語音識別模型具有相同網絡結構,所述第二語音識別模型基于第三樣本語音訓練得到,且所述第三樣本語音標注有第三目標文本,所述第二語音識別模型的訓練步驟包括:
9.根據權利要求8所述的方法,其特征在于,在執行所述基于所述第二語音識別模型識別所述第三樣本語音,得到第二預測文本的過程中,所述方法還包括:
10.根據權利要求9所述的方法,其特征在于,所述基于所述當前樣本輪次是否達到目標樣本輪次,以所述樣本目標語音幀為基準向前和/或向后選擇所述樣本語音幀,得到樣本參考語音幀,包括以下至少一者:
11.根據權利要求8所述的方法,其特征在于,在執行所述基于所述第二語音識別模型識別所述第三樣本語音,得到第二預測文本的過程中,所述方法還包括:
12.根據權利要求8所述的方法,其特征在于,在執行所述基于所述第二語音識別模型識別所述第三樣本語音,得到第二預測文本的過程中,所述方法還包括:
13.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第二語音識別模型得到,所述第二語音識別模型基于訓練后的第一語音識別模型替換解碼網絡而得到,所述目標語音識別模型與所述第二語音識別模型具有相同網絡結構,所述第一語音識別模型具有與所述第二語音識別模型相同結構的編碼網絡,以及與所述第二語音識別模型不同結構的解碼網絡,所述第一語音識別模型的解碼網絡僅包括所述第二解碼層,所述第一語音識別模型基于第二樣本語音訓練得到,所述第二樣本語音標注有第二目標文本,所述第二語音識別模型基于第三樣本語音訓練得到,所述第三樣本語音標注有第三目標文本。
14.一種語音識別裝置,其特征在于,包括:
15.一種電子設備,其特征在于,包括相互耦接的存儲器和處理器,所述處理器用于執行所述存儲器中存儲的程序指令,以實現權利要求1至13任一項所述的語音識別方法。
16.一種計算機可讀存儲介質,其上存儲有程序指令,其特征在于,所述程序指令被處理器執行時實現權利要求1至13任一項所述的語音識別方法。
...【技術特征摘要】
1.一種語音識別方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述對齊概率選擇至少部分所述語音幀的編碼特征與所述第一解碼特征進行融合,得到第二解碼特征,包括:
3.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述第一參考語音幀的編碼特征和所述第一解碼特征進行融合,得到中間解碼特征,包括:
4.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述對齊概率,選擇對齊于所述第一解碼特征的編碼特征所屬的語音幀,作為目標語音幀,包括:
5.根據權利要求1所述的方法,其特征在于,所述待識別語音的識別文本由目標語音識別模型預測得到,所述目標語音識別模型至少包括第一編碼網絡與第一解碼網絡,所述第一解碼網絡包括第一解碼層和第二解碼層,所述第一編碼網絡的輸出端分別連接于所述第一解碼層的輸入端和所述第二解碼層的輸入端,所述第一解碼層的輸出端連接于所述第二解碼層的輸入端,所述目標語音識別模型基于第一樣本語音進行訓練得到,且所述第一樣本語音標注有第一目標文本;
6.根據權利要求5所述的方法,其特征在于,在訓練所述目標語音識別模型之前,所述方法還包括:
7.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第一語音識別模型替換解碼網絡而得到,所述第一語音識別模型具有與所述目標語音識別模型相同結構的編碼網絡,以及與所述目標語音識別模型不同結構的解碼網絡,所述第一語音識別模型的解碼網絡僅包括所述第二解碼層,所述第一語音識別模型基于第二樣本語音訓練得到,且所述第二樣本語音標注有第二目標文本。
8.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第二語音識別模型得到,所述目標語音識別模型與所述第二語...
【專利技術屬性】
技術研發人員:丁楓林,萬根順,高建清,劉聰,劉慶峰,吳江照,胡國平,熊世富,潘嘉,
申請(專利權)人:合肥智能語音創新發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。