System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品人妻无码专区中文字幕,无码中文字幕av免费放,亚洲AV无码专区在线厂
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音識別方法及相關裝置、設備和存儲介質制造方法及圖紙

    技術編號:44495815 閱讀:5 留言:0更新日期:2025-03-04 18:02
    本申請公開了一種語音識別方法及相關裝置、設備和存儲介質,語音識別方法包括:獲取當前輪次的第一解碼特征;其中,當前輪次的第一解碼特征包含上一輪次所輸出解碼字符的特征信息;獲取待識別語音中各個語音幀的編碼特征分別與第一解碼特征之間的對齊概率,并基于對齊概率選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,得到第二解碼特征;基于第二解碼特征進行解碼,得到當前輪次所輸出的解碼字符,并返回獲取當前輪次的第一解碼特征的步驟進行迭代,直至最新輸出的解碼字符表征語音識別結束為止,基于各個輪次的解碼字符,得到待識別語音的識別文本。上述方案,能夠提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性。

    【技術實現步驟摘要】

    本申請涉及語音識別,特別是涉及一種語音識別方法及相關裝置、設備和存儲介質


    技術介紹

    1、自動語音識別(automatic?speech?recognition,asr)技術可以將語音中的文字信息提取出來,轉換為對應文本。流式語音識別(streaming?speech?recognition)作為語音識別技術的一種形式,能夠實時處理連續的語音輸入,提供即時的反饋,這種特性使其在實時通信、智能助手以及同聲傳譯等多個領域有著重要的應用價值。

    2、隨著語音識別模型計算能力的提高和算法的進步,語音識別技術逐漸成熟并得到了廣泛應用。然而,由于背景噪聲、口音、聲音重疊、語速變化、說話方式的差異以及模型的局限性,語音識別準確性并不高,特別是流式語音識別系統需要在實時或接近實時的情況下提供識別結果,并需要在接收到一小部分語音信號后就開始生成文本,語音識別的準確性進一步降低,為了提高準確性,系統往往需要收集更多的音頻數據來進行決策,而又導致語音識別的效率下降。

    3、因此,如何提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性,成為亟待解決的問題。


    技術實現思路

    1、本申請主要解決的技術問題是提供一種語音識別方法及相關裝置、設備和存儲介質,能夠提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性。

    2、為了解決上述技術問題,本申請第一方面提供了一種語音識別方法,語音識別方法包括:獲取當前輪次的第一解碼特征;其中,當前輪次的第一解碼特征包含上一輪次所輸出解碼字符的特征信息;獲取待識別語音中各個語音幀的編碼特征分別與第一解碼特征之間的對齊概率,并基于對齊概率選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,得到第二解碼特征;基于第二解碼特征進行解碼,得到當前輪次所輸出的解碼字符,并返回獲取當前輪次的第一解碼特征的步驟進行迭代,直至最新輸出的解碼字符表征語音識別結束為止,基于各個輪次的解碼字符,得到待識別語音的識別文本。

    3、為了解決上述技術問題,本申請第二方面提供了一種語音識別裝置,語音識別裝置包括第一獲取模塊、第二獲取模塊和解碼模塊;第一獲取模塊用于獲取當前輪次的第一解碼特征;其中,當前輪次的第一解碼特征包含上一輪次所輸出解碼字符的特征信息;第二獲取模塊用于獲取待識別語音中各個語音幀的編碼特征分別與第一解碼特征之間的對齊概率,并基于對齊概率選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,得到第二解碼特征;解碼模塊用于基于第二解碼特征進行解碼,得到當前輪次所輸出的解碼字符,并返回獲取當前輪次的第一解碼特征的步驟進行迭代,直至最新輸出的解碼字符表征語音識別結束為止,基于各個輪次的解碼字符,得到待識別語音的識別文本。

    4、為了解決上述技術問題,本申請第三方面提供了一種電子設備,包括相互耦接的存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現上述第一方面中的語音識別方法。

    5、為了解決上述技術問題,本申請第四方面提供了一種計算機可讀存儲介質,其上存儲有程序指令,程序指令被處理器執行時實現上述第一方面中的語音識別方法。

    6、上述方案,通過獲取當前輪次的第一解碼特征,其中,當前輪次的第一解碼特征包含上一輪次所輸出解碼字符的特征信息,并獲取待識別語音中各個語音幀的編碼特征分別與第一解碼特征之間的對齊概率,以基于對齊概率選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,得到第二解碼特征,再基于第二解碼特征進行解碼,得到當前輪次所輸出的解碼字符,并返回獲取當前輪次的第一解碼特征的步驟進行迭代,直至最新輸出的解碼字符表征語音識別結束為止,最后基于各個輪次的解碼字符,得到待識別語音的識別文本。因此,一方面,相較于參考所有語音幀而言,選擇至少部分語音幀的編碼特征與第一解碼特征進行融合,能夠提升數據處理效率,另一方面,根據對齊概率選擇編碼特征以與第一解碼特征進行融合,有助于提升語音識別的解碼過程的數據有效性,進而提升語音識別的準確性,且在流式語音識別的場景中,能夠根據對齊概率,有針對地選擇與當前輪次第一解碼特征對齊時刻及其之前的編碼特征,而降低語音識別過程中對對齊時刻之后的編碼特征的依賴,從而提升流式語音識別的準確性。故此,能夠提升語音識別的效率和準確性,特別是流式語音識別的效率和準確性。

    本文檔來自技高網...

    【技術保護點】

    1.一種語音識別方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述對齊概率選擇至少部分所述語音幀的編碼特征與所述第一解碼特征進行融合,得到第二解碼特征,包括:

    3.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述第一參考語音幀的編碼特征和所述第一解碼特征進行融合,得到中間解碼特征,包括:

    4.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述對齊概率,選擇對齊于所述第一解碼特征的編碼特征所屬的語音幀,作為目標語音幀,包括:

    5.根據權利要求1所述的方法,其特征在于,所述待識別語音的識別文本由目標語音識別模型預測得到,所述目標語音識別模型至少包括第一編碼網絡與第一解碼網絡,所述第一解碼網絡包括第一解碼層和第二解碼層,所述第一編碼網絡的輸出端分別連接于所述第一解碼層的輸入端和所述第二解碼層的輸入端,所述第一解碼層的輸出端連接于所述第二解碼層的輸入端,所述目標語音識別模型基于第一樣本語音進行訓練得到,且所述第一樣本語音標注有第一目標文本;

    6.根據權利要求5所述的方法,其特征在于,在訓練所述目標語音識別模型之前,所述方法還包括:

    7.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第一語音識別模型替換解碼網絡而得到,所述第一語音識別模型具有與所述目標語音識別模型相同結構的編碼網絡,以及與所述目標語音識別模型不同結構的解碼網絡,所述第一語音識別模型的解碼網絡僅包括所述第二解碼層,所述第一語音識別模型基于第二樣本語音訓練得到,且所述第二樣本語音標注有第二目標文本。

    8.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第二語音識別模型得到,所述目標語音識別模型與所述第二語音識別模型具有相同網絡結構,所述第二語音識別模型基于第三樣本語音訓練得到,且所述第三樣本語音標注有第三目標文本,所述第二語音識別模型的訓練步驟包括:

    9.根據權利要求8所述的方法,其特征在于,在執行所述基于所述第二語音識別模型識別所述第三樣本語音,得到第二預測文本的過程中,所述方法還包括:

    10.根據權利要求9所述的方法,其特征在于,所述基于所述當前樣本輪次是否達到目標樣本輪次,以所述樣本目標語音幀為基準向前和/或向后選擇所述樣本語音幀,得到樣本參考語音幀,包括以下至少一者:

    11.根據權利要求8所述的方法,其特征在于,在執行所述基于所述第二語音識別模型識別所述第三樣本語音,得到第二預測文本的過程中,所述方法還包括:

    12.根據權利要求8所述的方法,其特征在于,在執行所述基于所述第二語音識別模型識別所述第三樣本語音,得到第二預測文本的過程中,所述方法還包括:

    13.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第二語音識別模型得到,所述第二語音識別模型基于訓練后的第一語音識別模型替換解碼網絡而得到,所述目標語音識別模型與所述第二語音識別模型具有相同網絡結構,所述第一語音識別模型具有與所述第二語音識別模型相同結構的編碼網絡,以及與所述第二語音識別模型不同結構的解碼網絡,所述第一語音識別模型的解碼網絡僅包括所述第二解碼層,所述第一語音識別模型基于第二樣本語音訓練得到,所述第二樣本語音標注有第二目標文本,所述第二語音識別模型基于第三樣本語音訓練得到,所述第三樣本語音標注有第三目標文本。

    14.一種語音識別裝置,其特征在于,包括:

    15.一種電子設備,其特征在于,包括相互耦接的存儲器和處理器,所述處理器用于執行所述存儲器中存儲的程序指令,以實現權利要求1至13任一項所述的語音識別方法。

    16.一種計算機可讀存儲介質,其上存儲有程序指令,其特征在于,所述程序指令被處理器執行時實現權利要求1至13任一項所述的語音識別方法。

    ...

    【技術特征摘要】

    1.一種語音識別方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述對齊概率選擇至少部分所述語音幀的編碼特征與所述第一解碼特征進行融合,得到第二解碼特征,包括:

    3.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述第一參考語音幀的編碼特征和所述第一解碼特征進行融合,得到中間解碼特征,包括:

    4.根據權利要求2所述的方法,其特征在于,所述對齊概率由多頭注意力機制得到,且各個注意力頭均輸出各個所述編碼特征分別與所述第一解碼特征之間的對齊概率,所述基于所述對齊概率,選擇對齊于所述第一解碼特征的編碼特征所屬的語音幀,作為目標語音幀,包括:

    5.根據權利要求1所述的方法,其特征在于,所述待識別語音的識別文本由目標語音識別模型預測得到,所述目標語音識別模型至少包括第一編碼網絡與第一解碼網絡,所述第一解碼網絡包括第一解碼層和第二解碼層,所述第一編碼網絡的輸出端分別連接于所述第一解碼層的輸入端和所述第二解碼層的輸入端,所述第一解碼層的輸出端連接于所述第二解碼層的輸入端,所述目標語音識別模型基于第一樣本語音進行訓練得到,且所述第一樣本語音標注有第一目標文本;

    6.根據權利要求5所述的方法,其特征在于,在訓練所述目標語音識別模型之前,所述方法還包括:

    7.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第一語音識別模型替換解碼網絡而得到,所述第一語音識別模型具有與所述目標語音識別模型相同結構的編碼網絡,以及與所述目標語音識別模型不同結構的解碼網絡,所述第一語音識別模型的解碼網絡僅包括所述第二解碼層,所述第一語音識別模型基于第二樣本語音訓練得到,且所述第二樣本語音標注有第二目標文本。

    8.根據權利要求5所述的方法,其特征在于,所述目標語音識別模型基于訓練后的第二語音識別模型得到,所述目標語音識別模型與所述第二語...

    【專利技術屬性】
    技術研發人員:丁楓林萬根順高建清劉聰劉慶峰吳江照胡國平熊世富潘嘉
    申請(專利權)人:合肥智能語音創新發展有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码久久久| 国语成本人片免费av无码| 国产成人精品无码一区二区三区| 无码精品国产dvd在线观看9久| 亚洲大尺度无码专区尤物| 少妇人妻无码精品视频app| 2021无码最新国产在线观看 | 无码熟妇人妻AV在线影院| 国产精品热久久无码av| 99久久人妻无码精品系列| 日韩av无码中文无码电影| 97无码免费人妻超级碰碰夜夜| 亚洲AV无码成人专区片在线观看| 少妇无码?V无码专区在线观看| 久久ZYZ资源站无码中文动漫| 波多野结衣AV无码| 无码一区二区三区爆白浆| 日韩欧精品无码视频无删节| 亚洲人成影院在线无码观看| 加勒比无码一区二区三区| JAVA性无码HD中文| 人妻少妇乱子伦无码视频专区 | 久久亚洲AV成人出白浆无码国产| 无码8090精品久久一区| 无码高潮爽到爆的喷水视频app| 无码人妻丰满熟妇区免费| 中文字幕精品无码久久久久久3D日动漫 | 国产精品va在线观看无码| 在线看片福利无码网址| 亚洲国产精品无码久久久| 免费A级毛片无码A∨免费| 精品视频无码一区二区三区| 国产乱人伦中文无无码视频试看| 久久午夜夜伦鲁鲁片免费无码影视| 中文字幕无码日韩专区免费| 台湾无码AV一区二区三区| 亚洲av中文无码乱人伦在线咪咕| 亚洲精品色午夜无码专区日韩| 亚洲AV无码久久精品蜜桃| 久久精品无码午夜福利理论片| 欧洲无码一区二区三区在线观看|