System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码专区永久免费AV网站,AV无码小缝喷白浆在线观看,97在线视频人妻无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音識別方法、裝置、車輛、系統及存儲介質制造方法及圖紙

    技術編號:44486059 閱讀:2 留言:0更新日期:2025-03-04 17:51
    本申請公開了一種語音識別方法、裝置、車輛、系統及存儲介質,所述方法包括:當采集到音頻信息時,采集預設位置的視頻信息;對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀;確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀;生成包含所述目標音頻幀的有效音頻;對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。采用本申請所提供的方案:通過將音頻信息與視頻信息結合,僅保留了人物口部張開時的音頻,排除了其他聲源發出語音的干擾,提高了語音識別的精確度。

    【技術實現步驟摘要】

    本申請涉及語音識別,特別涉及一種語音識別方法、裝置、車輛、系統及存儲介質。


    技術介紹

    1、現有語音活動是通過檢測音頻模態信息來判斷是否有人說話。但是,當存在其他語音干擾時,例如,當座艙內有電子設備播放視頻時,其中視頻中人物的聲音則很容易被標記為語音。因此,現有技術中,無法排除其他聲源的干擾,無法精確判斷是否有真實的交互意圖。


    技術實現思路

    1、本申請提供一種語音識別方法、裝置、車輛、系統及存儲介質,用以排除其他聲源的干擾,提高語音識別的精確度。

    2、本申請提供一種語音識別方法,包括:

    3、當采集到音頻信息時,采集預設位置的視頻信息;

    4、對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀;

    5、確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀;

    6、生成包含所述目標音頻幀的有效音頻;

    7、對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。

    8、本申請的有益效果在于:當采集到音頻信息時,采集預設位置的視頻信息,對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,再確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀,生成包含所述目標音頻幀的有效音頻,再對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果,對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。本方案通過將音頻信息與視頻信息結合,進而僅保留了人物口部張開時的音頻,排除了其他聲源發出語音的干擾,提高了語音識別的精確度。

    9、在一個實施例中,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    10、提取所述視頻信息中的視頻幀;

    11、判斷所述視頻幀中是否出現人臉;

    12、當所述視頻幀中出現人臉時,確定所述人臉中的口部區域;

    13、將所述人臉中的口部區域與預存儲的閉口狀態的視頻幀口部區域進行比對;

    14、當所述人臉中的口部區域與所述預存儲的閉口狀態的視頻幀口部區域之間的差異度高于預設差異度時,確定所述視頻幀為所述視頻信息中出現的人物口部張開的視頻幀。

    15、在一個實施例中,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    16、將所述視頻信息輸入訓練完成的開口判斷模型中;

    17、獲取所述訓練完成的開口判斷模型輸出的所述視頻信息中各個視頻幀是否出現人物口部張開的判斷結果;

    18、根據所述判斷結果確定所述視頻信息中出現的人物口部張開的視頻幀。

    19、在一個實施例中,所述訓練完成的開口判斷模型的創建方法包括:

    20、構建開口判斷模型;

    21、將第一音頻幀、與所述第一音頻幀對應的第一視頻幀以及所述第一音頻幀和第一視頻幀對應的開閉口標簽作為訓練集對所述開口判斷模型進行訓練,以得到訓練后的開口判斷模型;

    22、將第二音頻幀、與所述第二音頻幀對應的第二視頻幀作為測試集輸入至訓練后的開口判斷模型;

    23、獲取所述訓練后的開口判斷模型輸出的所述測試集對應的開閉口識別結果;

    24、將所述測試集對應的開閉口識別結果與所述測試集對應的開閉口標簽進行比對;

    25、當比對結果表征所述開閉口識別結果與所述測試集對應的開閉口標簽的匹配度大于預設匹配度時,確定所述開口判斷模型訓練完成。

    26、在一個實施例中,所述確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀,包括:

    27、當所述視頻信息中出現人物口部張開的視頻幀時,將音頻狀態設置為語音態,并將語音態持續過程中采集的音頻幀作為與所述出現的人物口部張開的視頻幀對應的目標音頻幀;

    28、在語音態持續過程中,當所述視頻信息中出現由開口狀態切換為閉口狀態的情況時,確定閉口狀態的持續時長;

    29、當閉口狀態的持續時長大于預設時長時,由所述語音態切換為靜音態,并將閉口狀態之后采集的音頻信息執行刪除操作。

    30、在一個實施例中,所述生成包含所述目標音頻幀的有效音頻,包括:

    31、將同一次語音態下的目標音頻幀以及同一組目標音頻幀之間的所有音頻幀組合為有效音頻。

    32、在一個實施例中,所述生成包含所述目標音頻幀的有效音頻,包括:

    33、確定相鄰目標音頻幀之間的幀間隔;

    34、確定所述幀間隔小于預設間隔的目標音頻幀為同一組目標音頻幀;

    35、將所述同一組的目標音頻幀以及同一組目標音頻幀之間的所有音頻幀組合為有效音頻。

    36、在一個實施例中,所述方法還包括:

    37、確定幀間隔大于所述預設間隔的目標音頻幀為不同組的目標音頻幀;

    38、對所述不同組目標音頻幀之間的音頻幀執行刪除操作。

    39、本申請還提供一種語音識別裝置,包括:

    40、采集模塊,用于當采集到音頻信息時,采集預設位置的視頻信息;

    41、第一識別模塊,用于對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀;

    42、確定模塊,用于確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀;

    43、生成模塊,用于生成包含所述目標音頻幀的有效音頻;

    44、第二識別模塊,用于對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。

    45、在一個實施例中,所述第一識別模塊,包括:

    46、提取子模塊,用于提取所述視頻信息中的視頻幀;

    47、判斷子模塊,用于判斷所述視頻幀中是否出現人臉;

    48、第一確定子模塊,用于當所述視頻幀中出現人臉時,確定所述人臉中的口部區域;

    49、比對子模塊,用于將所述人臉中的口部區域與預存儲的閉口狀態的視頻幀口部區域進行比對;

    50、第二確定子模塊,用于當所述人臉中的口部區域與所述預存儲的閉口狀態的視頻幀口部區域之間的差異度高于預設差異度時,確定所述視頻幀為所述視頻信息中出現的人物口部張開的視頻幀。

    51、在一個實施例中,所述第一識別模塊,包括:

    52、輸入子模塊,用于將所述視頻信息輸入訓練完成的開口判斷模型中;

    53、獲取子模塊,用于獲取所述訓練完成的開口判斷模型輸出的所述視頻信息中各個視頻幀是否出現人物口部張開的判斷結果;

    54、第三確定子模塊,用于根據所述判斷結果確定所述視頻信息中出現的人物口部張開的視頻幀。

    55、在一個實施例中,所述訓練完成的開口判斷模型的創建方法包括:

    56、構建開口判斷模型;

    57、將第一音頻幀、與所述第一音頻幀對應的第一視頻幀以及所述第一音頻幀和第一視頻幀對應的開閉口標簽作為訓練集對所述開口判斷模型進行訓練,以得到訓練后本文檔來自技高網...

    【技術保護點】

    1.一種語音識別方法,其特征在于,包括:

    2.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    3.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    4.如權利要求3所述的方法,其特征在于,訓練完成的開口判斷模型的創建方法包括:

    5.如權利要求1所述的方法,其特征在于,所述確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀,包括:

    6.如權利要求1所述的方法,其特征在于,所述生成包含所述目標音頻幀的有效音頻,包括:

    7.如權利要求6所述的方法,其特征在于,所述方法包括:

    8.一種語音識別裝置,其特征在于,包括:

    9.一種語音識別系統,其特征在于,包括:

    10.一種計算機可讀存儲介質,其特征在于,當存儲介質中的指令由語音識別系統對應的處理器執行時,使得語音識別系統能夠實現如權利要求1-7任一項所述的語音識別方法。

    11.一種車輛,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種語音識別方法,其特征在于,包括:

    2.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    3.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    4.如權利要求3所述的方法,其特征在于,訓練完成的開口判斷模型的創建方法包括:

    5.如權利要求1所述的方法,其特征在于,所述確定與所述出現的人物口部張開的視頻幀對應的目標...

    【專利技術屬性】
    技術研發人員:張皓博,
    申請(專利權)人:北京羅克維爾斯科技有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 韩国免费a级作爱片无码| 精品人妻中文无码AV在线| 国产在线无码一区二区三区视频 | 国产成人精品无码一区二区老年人| 精品人妻无码一区二区色欲产成人| 精品一区二区无码AV| 西西444www无码大胆| 无码人妻精品一区二区三区66| 成人免费一区二区无码视频| 亚洲AV人无码综合在线观看| YY111111少妇无码理论片| 亚洲最大av资源站无码av网址| 亚洲爆乳无码专区| 国产午夜激无码av毛片| 亚洲国产成人无码AV在线影院| 亚洲国产精品无码专区| 最新国产AV无码专区亚洲| 国产精品午夜无码AV天美传媒| 精品无码一区二区三区爱欲九九| 国产日产欧洲无码视频无遮挡| 精品无码成人片一区二区| 亚洲日韩av无码中文| 久久无码人妻一区二区三区| 一区二区三区人妻无码| 国产aⅴ无码专区亚洲av麻豆| 四虎成人精品国产永久免费无码 | 妖精色AV无码国产在线看| 亚洲av无码一区二区三区天堂古代| 亚洲精品无码成人AAA片| 国产在线观看无码免费视频| 国产精品午夜无码体验区| 无码人妻一区二区三区免费| 乱人伦人妻中文字幕无码| 亚洲国产成人无码AV在线影院 | 日韩美无码五月天| 日韩加勒比一本无码精品| 2020无码专区人妻系列日韩| 国产成人年无码AV片在线观看| 国产精品无码亚洲一区二区三区 | 午夜无码中文字幕在线播放| 亚洲av中文无码|