System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及語音識別,尤其涉及一種語音識別方法、裝置、設備、介質及產品。
技術介紹
1、隨著科技的不斷發展,語音識別技術在各個行業中得到了廣泛的應用。語音識別技術是指將人類語音轉換為機器可理解的文本或指令,使得用戶可以通過語音與機器進行交互。現實生活中,語音信號容易受到各種噪聲干擾,從而影響語音識別效果。
2、為了提高噪聲環境下的語音識別效果,通常使用專門針對噪聲環境訓練的聲學模型提取聲學特征,然后基于該聲學特征進行語音識別。或者通過結合其他模態數據共同進行語音識別,以期望改善噪聲環境下的語音識別效果。
3、但是,目前的處理方式對于噪聲環境下的語音識別效果仍然較差,無法滿足用戶需求。
技術實現思路
1、基于上述技術現狀,本申請提出一種語音識別方法、裝置、設備、介質及產品,能夠提高噪聲環境下的語音識別準確度。
2、為了達到上述技術目的,本申請具體提出如下技術方案:
3、本申請第一方面提出一種語音識別方法,包括:獲取待識別語音的第一預測結果和第二預測結果,所述第一預測結果包括基于所述待識別語音的候選文本識別結果得到的預測結果,所述第二預測結果包括基于所述待識別語音得到的預測結果;確定所述第一預測結果對應的第一權重,以及確定所述第二預測結果對應的第二權重;基于所述第一權重和所述第二權重,對所述第一預測結果和所述第二預測結果進行特征融合,并基于得到的融合特征確定對所述待識別語音的識別結果。
4、在一些實現方式中,所述確定所述第一預測
5、在一些實現方式中,所述待識別語音中各個語音幀各自對應的幀預測結果的預測后驗熵,采用如下步驟確定:基于大語言模型對所述待識別語音中各個語音幀各自對應的幀預測結果的預測概率,確定所述待識別語音中各個語音幀各自對應的幀預測結果的預測后驗熵。
6、在一些實現方式中,所述基于所述各個語音幀各自對應的幀預測結果的預測后驗熵,確定所述第一預測結果對應的第一權重,包括:通過激活函數對所述各個語音幀各自對應的幀預測結果的預測后驗熵進行處理,確定所述第一預測結果對應的第一權重;或者,基于所述各個語音幀各自對應的幀預測結果的預測后驗熵與預設熵的比較結果,確定所述第一預測結果對應的第一權重。
7、在一些實現方式中,所述基于所述第一權重和所述第二權重,對所述第一預測結果和所述第二預測結果進行特征融合,并基于得到的融合特征確定對所述待識別語音的識別結果,包括:基于所述第一預測結果對應的第一權重和所述第二預測結果對應的第二權重,對所述第一預測結果對應的第一特征值,以及所述第二預測結果對應的第二特征值進行加權求和,得到融合特征值;通過softmax函數對所述融合特征值進行處理,確定所述待識別語音的識別結果。
8、在一些實現方式中,所述第一預測結果包括多個,多個所述第一預測結果各自對應有第一權重;基于所述第一預測結果對應的第一權重和所述第二預測結果對應的第二權重,對所述第一預測結果對應的第一特征值,以及所述第二預測結果對應的第二特征值進行加權求和,得到融合特征值,包括:針對多個第一預測結果中每個第一預測結果,基于該第一預測結果對應的第一權重和所述第二預測結果對應的第二權重,對該第一預測結果對應的第一特征值,以及所述第二預測結果對應的第二特征值進行加權求和,得到與該第一預測結果對應的融合特征值;通過softmax函數對所述融合特征值進行處理,確定所述待識別語音的識別結果,包括:針對每個第一預測結果對應的融合特征值,通過softmax函數對該融合特征值進行處理,確定所述待識別語音的初始識別結果;基于所述多個第一預測結果各自對應的初始識別結果,確定最終的語音識別結果。
9、在一些實現方式中,所述基于所述多個第一預測結果各自對應的識別結果,確定最終的語音識別結果,包括:確定所述多個第一預測結果各自對應的初始識別結果的評分;選取最高評分對應的初始識別結果,確定為最終的語音識別結果。
10、在一些實現方式中,所述候選文本識別結果為所述端到端語音識別模型對所述待識別語音進行識別輸出的候選識別結果,所述第一預測結果為通過大語言模型對所述候選文本識別結果進行重打分獲得的預測結果;所述第二預測結果為端到端語音識別模型對所述待識別語音進行處理時的解碼器最后一層的輸出結果。
11、本申請第二方面提出一種語音識別裝置,包括:獲取單元,用于獲取待識別語音的第一預測結果和第二預測結果,所述第一預測結果包括基于所述待識別語音的候選文本識別結果得到的預測結果,所述第二預測結果包括基于所述待識別語音得到的預測結果;權重確定單元,用于確定所述第一預測結果對應的第一權重,以及確定所述第二預測結果對應的第二權重;融合單元,用于基于所述第一權重和所述第二權重,對所述第一預測結果和所述第二預測結果進行特征融合,并基于得到的融合特征確定對所述待識別語音的識別結果。
12、本申請第三方面提出一種電子設備,包括存儲器和處理器;
13、所述存儲器與所述處理器連接,用于存儲程序;
14、所述處理器用于通過運行所述存儲器中的程序,實現第一方面以及第一方面的實現方式中的任意一項所述的語音識別方法。
15、本申請第四方面提出一種存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時,實現第一方面以及第一方面的實現方式中的任意一項所述的語音識別方法。
16、本申請第五方面提出一種計算機程序產品,包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器實現第一方面以及第一方面的實現方式中的任意一項所述的語音識別方法。
17、本申請實施例的語音識別方法、裝置、設備、介質及產品,該方法通過獲取基于待識別語音的候選文本識別結果得到的第一預測結果,和基于待識別語音得到的第二預測結果,并確定第一預測結果對應的第一權重和第二預測結果對應的第二權重,以及基于第一權重和第二權重,對第一預測結果和第二預測結果進行特征融合,并基于得到的融合特征確定對待識別語音的識別結果。一方面,由于在語音識別過程中引入了基于待識別語音得到的第二預測結果作為聲學模態下的信息,并將文本模態下的第一預測結果和聲學模態下的第二預測結果進行聯合解碼,從而使用聲學模態下的信息對文本模態下的信息進行補償,以提升語音識別性能。另一方面,對第一預測結果和第二預測結果分別確定權重,以調節第一預測結果和第二預測結果對于聯合解碼過程的重要程度,基于第一預測結果和第二預測結果對聯合解碼過程的不同重要度進行聯合解碼,可以進一步提升語音識別性能。
本文檔來自技高網...【技術保護點】
1.一種語音識別方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述確定所述第一預測結果對應的第一權重,以及確定所述第二預測結果對應的第二權重,包括:
3.根據權利要求2所述的方法,其特征在于,所述待識別語音中各個語音幀各自對應的幀預測結果的預測后驗熵,采用如下步驟確定:
4.根據權利要求2或3所述的方法,其特征在于,所述基于所述各個語音幀各自對應的幀預測結果的預測后驗熵,確定所述第一預測結果對應的第一權重,包括:
5.根據權利要求1-3任一項所述的方法,其特征在于,所述基于所述第一權重和所述第二權重,對所述第一預測結果和所述第二預測結果進行特征融合,并基于得到的融合特征確定對所述待識別語音的識別結果,包括:
6.根據權利要求5所述的方法,其特征在于,所述第一預測結果包括多個,多個所述第一預測結果各自對應有第一權重;
7.根據權利要求6所述的方法,其特征在于,所述基于所述多個第一預測結果各自對應的識別結果,確定最終的語音識別結果,包括:
8.根據權利要求1-3任一項所述的方法,
9.一種語音識別裝置,其特征在于,包括:
10.一種電子設備,其特征在于,包括存儲器和處理器;
11.一種存儲介質,其特征在于,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時,實現如權利要求1至8中任意一項所述的方法。
12.一種計算機程序產品,其特征在于,包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器實現如權利要求1至8中任意一項所述的方法。
...【技術特征摘要】
1.一種語音識別方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述確定所述第一預測結果對應的第一權重,以及確定所述第二預測結果對應的第二權重,包括:
3.根據權利要求2所述的方法,其特征在于,所述待識別語音中各個語音幀各自對應的幀預測結果的預測后驗熵,采用如下步驟確定:
4.根據權利要求2或3所述的方法,其特征在于,所述基于所述各個語音幀各自對應的幀預測結果的預測后驗熵,確定所述第一預測結果對應的第一權重,包括:
5.根據權利要求1-3任一項所述的方法,其特征在于,所述基于所述第一權重和所述第二權重,對所述第一預測結果和所述第二預測結果進行特征融合,并基于得到的融合特征確定對所述待識別語音的識別結果,包括:
6.根據權利要求5所述的方法,其特征在于,所述第一預測結果包括多個,多個所述第一預測結果各自對應有第一權...
【專利技術屬性】
技術研發人員:周振昆,方磊,宣璇,方四安,柳林,
申請(專利權)人:合肥訊飛數碼科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。