語音識別方法、裝置、智能設備和存儲介質制造方法及圖紙

技術編號：44409915 閱讀：4 留言：0更新日期：2025-02-25 10:23

本申請適用于智能設備技術領域，提供了一種語音識別方法、裝置、智能設備和存儲介質，所述方法包括：將待識別語音輸入至已訓練完成的語音識別模型，獲取所述待識別語音的特征概率譜；對所述特征概率譜進行解碼搜索，獲得第一搜索結果；基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，所述場景詞圖模型為用于提供場景語法規(guī)則的語言模型；根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果。本申請可有效排除非場景的大概率路徑對搜索結果的干擾，提高實時語音識別場景下語音識別的準確性，提升語音識別的性能，進而增強用戶體驗。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本申請涉及智能設備，尤其涉及一種語音識別方法、裝置、智能設備和存儲介質。

技術介紹

1、隨著深度學習研究的不斷深入，語音識別作為人工智能發(fā)展的一個重要分支，近年來整體都有了長足的進步，端到端方法的提出使得語音識別在性能和使用體驗上更是有了質的飛躍。與實驗室端測試不同，語音識別服務在實際應用中會面臨更加多樣復雜的噪聲環(huán)境以及設備干擾，同時其受眾面也會更加廣泛，涵蓋不同口音和發(fā)音習慣的人群以及不同領域的聊天場景，這使得語音識別性能明顯低于實驗室端的測試結果。

2、實時語音識別應用場景要求服務立即反饋識別結果并加以響應，如何提高實時語音識別場景下語音識別的準確性，提升語音識別的性能，增強用戶體驗，是當前亟需解決的問題。

技術實現(xiàn)思路

1、本申請實施例提供了一種語音識別方法、裝置、智能設備和存儲介質，可以提高實時語音識別場景下語音識別的準確性，提升語音識別的性能，增強用戶體驗。

2、第一方面，本申請實施例提供了一種語音識別方法，包括：

3、將待識別語音輸入至已訓練完成的語音識別模型，獲取所述待識別語音的特征概率譜；

4、對所述特征概率譜進行解碼搜索，獲得第一搜索結果；

5、基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，所述場景詞圖模型為用于提供場景語法規(guī)則的語言模型；

6、根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果。

7、在第一方面的一種可能的實現(xiàn)

8、基于所述第一詞圖模型對所述特征概率譜進行解碼搜索，獲得第一子搜索結果，所述第一詞圖模型為根據(jù)短詞文本訓練、用于提供短詞語法規(guī)則的語言模型；

9、所述根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

10、根據(jù)所述第一搜索結果與所述第一子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果。

11、在第一方面的一種可能的實現(xiàn)方式中，所述場景詞圖模型還包括第二詞圖模型，所述基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，還包括：

12、基于所述第二詞圖模型對所述特征概率譜進行解碼搜索，獲得第二子搜索結果，所述第二詞圖模型為根據(jù)特定領域文本訓練、用于提供特定領域語法規(guī)則的語言模型；

13、所述根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

14、根據(jù)所述第一搜索結果、所述第一子搜索結果和所述第二子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果。

15、在第一方面的一種可能的實現(xiàn)方式中，搜索結果包括搜索路徑及其對應的路徑得分；所述根據(jù)所述第一搜索結果、所述第一子搜索結果和所述第二子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

16、確定目標搜索路徑，所述目標搜索路徑為所述第一搜索結果、所述第一子搜索結果以及所述第二子搜索結果三者之中最高的路徑得分對應的搜索路徑；

17、根據(jù)所述目標搜索路徑，確定并輸出所述待識別語音的識別結果。

18、在第一方面的一種可能的實現(xiàn)方式中，所述根據(jù)所述第一搜索結果、所述第一子搜索結果和所述第二子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

19、獲取所述待識別語音的音頻時長；

20、若所述音頻時長大于預設時長閾值，則根據(jù)所述第一搜索結果與所述第二子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果；

21、若所述音頻時長小于或者等于所述預設時長閾值，則根據(jù)所述第一搜索結果、所述第一子搜索結果和所述第二子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果。

22、在第一方面的一種可能的實現(xiàn)方式中，在所述基于所述第一詞圖模型對所述特征概率譜進行解碼搜索，獲得第一子搜索結果之前，包括：

23、將指定數(shù)量的預設短詞測試集依次輸入至所述已訓練完成的語音識別模型，獲取偽標簽；

24、根據(jù)預設音頻時長和所述偽標簽對場景樣本進行篩選，獲取目標短詞樣本；

25、利用所述目標短詞樣本對語言模型進行訓練，得到所述第一詞圖模型。

26、在第一方面的一種可能的實現(xiàn)方式中，所述根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

27、若所述待識別語音存在上下文知識，則分別計算所述第一搜索結果、所述第二搜索結果中搜索路徑與所述上下文知識的相關程度；

28、根據(jù)所述第一搜索結果中搜索路徑與所述上下文知識的所述相關程度，確定第一目標路徑得分；

29、根據(jù)所述第二搜索結果中搜索路徑與所述上下文知識的所述相關程度，確定第二目標路徑得分；

30、確定目標搜索路徑，所述目標搜索路徑為所述第一目標路徑得分與所述第二目標路徑得分中較高的路徑得分對應的搜索路徑；

31、根據(jù)所述目標搜索路徑，確定并輸出所述待識別語音的識別結果。

32、第二方面，本申請實施例提供了一種語音識別裝置，所述裝置包括：

33、識別信息獲取單元，用于將待識別語音輸入至已訓練完成的語音識別模型，獲取所述待識別語音的特征概率譜；

34、第一搜索單元，用于對所述特征概率譜進行解碼搜索，獲得第一搜索結果；

35、第二搜索單元，用于基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，所述場景詞圖模型為用于提供場景語法規(guī)則的語言模型；

36、識別結果確定輸出單元，用于根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果。

37、第三方面，本申請實施例提供了一種智能設備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述第一方面所述的語音識別方法。

38、第四方面，本申請實施例提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的語音識別方法。

39、第五方面，本申請實施例提供了一種計算機程序產品，當計算機程序產品在智能設備上運行時，使得智能設備執(zhí)行如上述第一方面所述的語音識別方法。

40、本申請實施例中，通過將待識別語音輸入至已訓練完成的語音識別模型，獲取所述待識別語音的特征概率譜，然后對所述特征概率譜進行解碼搜索，獲得第一搜索結果，基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，所述場景詞圖模型為用于提供場景語法規(guī)則的語言模型，再根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語本文檔來自技高網...

【技術保護點】

1.一種語音識別方法，其特征在于，包括：

2.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述場景詞圖模型包括第一詞圖模型，所述基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，包括：

3.根據(jù)權利要求2所述的語音識別方法，其特征在于，所述場景詞圖模型還包括第二詞圖模型，所述基于場景詞圖模型對所述特征概率譜進行解碼搜索，獲得第二搜索結果，還包括：

4.根據(jù)權利要求3所述的語音識別方法，其特征在于，搜索結果包括搜索路徑及其對應的路徑得分；

5.根據(jù)權利要求3所述的語音識別方法，其特征在于，所述根據(jù)所述第一搜索結果、所述第一子搜索結果和所述第二子搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

6.根據(jù)權利要求2所述的語音識別方法，其特征在于，在所述基于所述第一詞圖模型對所述特征概率譜進行解碼搜索，獲得第一子搜索結果之前，包括：

7.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述根據(jù)所述第一搜索結果與所述第二搜索結果的融合結果，確定并輸出所述待識別語音的識別結果，包括：

<...

【技術特征摘要】

1.一種語音識別方法，其特征在于，包括：

4.根據(jù)權利要求3所述的語音識別方法，其特征在于，搜索結果包括搜索路徑及其對應的路徑得分；

6.根據(jù)權利要求2...

【專利技術屬性】
技術研發(fā)人員：齊欣，
申請(專利權)人：順豐科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術