一種語音識別方法、裝置、車輛、系統及存儲介質制造方法及圖紙

技術編號：44486059 閱讀：2 留言：0更新日期：2025-03-04 17:51

本申請公開了一種語音識別方法、裝置、車輛、系統及存儲介質，所述方法包括：當采集到音頻信息時，采集預設位置的視頻信息；對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀；確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀；生成包含所述目標音頻幀的有效音頻；對所述有效音頻進行語音識別，以得到與所述有效音頻對應的識別結果。采用本申請所提供的方案：通過將音頻信息與視頻信息結合，僅保留了人物口部張開時的音頻，排除了其他聲源發出語音的干擾，提高了語音識別的精確度。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及語音識別，特別涉及一種語音識別方法、裝置、車輛、系統及存儲介質。

技術介紹

1、現有語音活動是通過檢測音頻模態信息來判斷是否有人說話。但是，當存在其他語音干擾時，例如，當座艙內有電子設備播放視頻時，其中視頻中人物的聲音則很容易被標記為語音。因此，現有技術中，無法排除其他聲源的干擾，無法精確判斷是否有真實的交互意圖。

技術實現思路

1、本申請提供一種語音識別方法、裝置、車輛、系統及存儲介質，用以排除其他聲源的干擾，提高語音識別的精確度。

2、本申請提供一種語音識別方法，包括：

3、當采集到音頻信息時，采集預設位置的視頻信息；

4、對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀；

5、確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀；

6、生成包含所述目標音頻幀的有效音頻；

7、對所述有效音頻進行語音識別，以得到與所述有效音頻對應的識別結果。

8、本申請的有益效果在于：當采集到音頻信息時，采集預設位置的視頻信息，對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，再確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀，生成包含所述目標音頻幀的有效音頻，再對所述有效音頻進行語音識別，以得到與所述有效音頻對應的識別結果，對所述有效音頻進行語音識別，以得到與所述有效音頻對應的識別結果。本方案通過將音頻信息與視頻信息結合，進而僅保留了人物口部張開時的

9、在一個實施例中，所述對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，包括：

10、提取所述視頻信息中的視頻幀；

11、判斷所述視頻幀中是否出現人臉；

12、當所述視頻幀中出現人臉時，確定所述人臉中的口部區域；

13、將所述人臉中的口部區域與預存儲的閉口狀態的視頻幀口部區域進行比對；

14、當所述人臉中的口部區域與所述預存儲的閉口狀態的視頻幀口部區域之間的差異度高于預設差異度時，確定所述視頻幀為所述視頻信息中出現的人物口部張開的視頻幀。

15、在一個實施例中，所述對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，包括：

16、將所述視頻信息輸入訓練完成的開口判斷模型中；

17、獲取所述訓練完成的開口判斷模型輸出的所述視頻信息中各個視頻幀是否出現人物口部張開的判斷結果；

18、根據所述判斷結果確定所述視頻信息中出現的人物口部張開的視頻幀。

19、在一個實施例中，所述訓練完成的開口判斷模型的創建方法包括：

20、構建開口判斷模型；

21、將第一音頻幀、與所述第一音頻幀對應的第一視頻幀以及所述第一音頻幀和第一視頻幀對應的開閉口標簽作為訓練集對所述開口判斷模型進行訓練，以得到訓練后的開口判斷模型；

22、將第二音頻幀、與所述第二音頻幀對應的第二視頻幀作為測試集輸入至訓練后的開口判斷模型；

23、獲取所述訓練后的開口判斷模型輸出的所述測試集對應的開閉口識別結果；

24、將所述測試集對應的開閉口識別結果與所述測試集對應的開閉口標簽進行比對；

25、當比對結果表征所述開閉口識別結果與所述測試集對應的開閉口標簽的匹配度大于預設匹配度時，確定所述開口判斷模型訓練完成。

26、在一個實施例中，所述確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀，包括：

27、當所述視頻信息中出現人物口部張開的視頻幀時，將音頻狀態設置為語音態，并將語音態持續過程中采集的音頻幀作為與所述出現的人物口部張開的視頻幀對應的目標音頻幀；

28、在語音態持續過程中，當所述視頻信息中出現由開口狀態切換為閉口狀態的情況時，確定閉口狀態的持續時長；

29、當閉口狀態的持續時長大于預設時長時，由所述語音態切換為靜音態，并將閉口狀態之后采集的音頻信息執行刪除操作。

30、在一個實施例中，所述生成包含所述目標音頻幀的有效音頻，包括：

31、將同一次語音態下的目標音頻幀以及同一組目標音頻幀之間的所有音頻幀組合為有效音頻。

32、在一個實施例中，所述生成包含所述目標音頻幀的有效音頻，包括：

33、確定相鄰目標音頻幀之間的幀間隔；

34、確定所述幀間隔小于預設間隔的目標音頻幀為同一組目標音頻幀；

35、將所述同一組的目標音頻幀以及同一組目標音頻幀之間的所有音頻幀組合為有效音頻。

36、在一個實施例中，所述方法還包括：

37、確定幀間隔大于所述預設間隔的目標音頻幀為不同組的目標音頻幀；

38、對所述不同組目標音頻幀之間的音頻幀執行刪除操作。

39、本申請還提供一種語音識別裝置，包括：

40、采集模塊，用于當采集到音頻信息時，采集預設位置的視頻信息；

41、第一識別模塊，用于對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀；

42、確定模塊，用于確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀；

43、生成模塊，用于生成包含所述目標音頻幀的有效音頻；

44、第二識別模塊，用于對所述有效音頻進行語音識別，以得到與所述有效音頻對應的識別結果。

45、在一個實施例中，所述第一識別模塊，包括：

46、提取子模塊，用于提取所述視頻信息中的視頻幀；

47、判斷子模塊，用于判斷所述視頻幀中是否出現人臉；

48、第一確定子模塊，用于當所述視頻幀中出現人臉時，確定所述人臉中的口部區域；

49、比對子模塊，用于將所述人臉中的口部區域與預存儲的閉口狀態的視頻幀口部區域進行比對；

50、第二確定子模塊，用于當所述人臉中的口部區域與所述預存儲的閉口狀態的視頻幀口部區域之間的差異度高于預設差異度時，確定所述視頻幀為所述視頻信息中出現的人物口部張開的視頻幀。

51、在一個實施例中，所述第一識別模塊，包括：

52、輸入子模塊，用于將所述視頻信息輸入訓練完成的開口判斷模型中；

53、獲取子模塊，用于獲取所述訓練完成的開口判斷模型輸出的所述視頻信息中各個視頻幀是否出現人物口部張開的判斷結果；

54、第三確定子模塊，用于根據所述判斷結果確定所述視頻信息中出現的人物口部張開的視頻幀。

55、在一個實施例中，所述訓練完成的開口判斷模型的創建方法包括：

56、構建開口判斷模型；

57、將第一音頻幀、與所述第一音頻幀對應的第一視頻幀以及所述第一音頻幀和第一視頻幀對應的開閉口標簽作為訓練集對所述開口判斷模型進行訓練，以得到訓練后本文檔來自技高網...

【技術保護點】

1.一種語音識別方法，其特征在于，包括：

2.如權利要求1所述的方法，其特征在于，所述對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，包括：

3.如權利要求1所述的方法，其特征在于，所述對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，包括：

4.如權利要求3所述的方法，其特征在于，訓練完成的開口判斷模型的創建方法包括：

5.如權利要求1所述的方法，其特征在于，所述確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀，包括：

6.如權利要求1所述的方法，其特征在于，所述生成包含所述目標音頻幀的有效音頻，包括：

7.如權利要求6所述的方法，其特征在于，所述方法包括：

8.一種語音識別裝置，其特征在于，包括：

9.一種語音識別系統，其特征在于，包括：

10.一種計算機可讀存儲介質，其特征在于，當存儲介質中的指令由語音識別系統對應的處理器執行時，使得語音識別系統能夠實現如權利要求1-7任一項所述的語音識別方法。

11.

...

【技術特征摘要】

1.一種語音識別方法，其特征在于，包括：

2.如權利要求1所述的方法，其特征在于，所述對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，包括：

3.如權利要求1所述的方法，其特征在于，所述對采集的視頻信息進行識別，以確定所述視頻信息中出現的人物口部張開的視頻幀，包括：

4.如權利要求3所述的方法，其特征在于，訓練完成的開口判斷模型的創建方法包括：

5.如權利要求1所述的方法，其特征在于，所述確定與所述出現的人物口部張開的視頻幀對應的目標...

【專利技術屬性】
技術研發人員：張皓博，
申請(專利權)人：北京羅克維爾斯科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

一種語音識別方法、裝置、車輛、系統及存儲介質制造方法及圖紙

一種語音識別方法、裝置、車輛、系統及存儲介質制造方法及圖紙