音頻識(shí)別方法、裝置、介質(zhì)及芯片制造方法及圖紙

技術(shù)編號(hào)：37143968 閱讀：23 留言：0更新日期：2023-04-06 21:53

本公開涉及一種音頻識(shí)別方法、裝置、介質(zhì)及芯片。本公開的音頻識(shí)別方法包括：采集待識(shí)別的音頻數(shù)據(jù)；將音頻數(shù)據(jù)進(jìn)行特征提取，獲得音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征；將音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型，獲取音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出，其中，候選分類包括喚醒詞分類和環(huán)境音分類，候選分類下的預(yù)測(cè)輸出用于表示音頻數(shù)據(jù)為候選分類的概率；根據(jù)多個(gè)預(yù)測(cè)輸出，確定音頻數(shù)據(jù)的分類識(shí)別結(jié)果。通過本公開，可以對(duì)音頻數(shù)據(jù)中是否包含喚醒詞和環(huán)境音進(jìn)行識(shí)別，通過一次識(shí)別可以獲得更加全面的識(shí)別結(jié)果，提高分類識(shí)別結(jié)果的準(zhǔn)確性，還能有效降低音頻識(shí)別模型在部署時(shí)的資源占用，拓寬該音頻識(shí)別方法的使用范圍，提升音頻識(shí)別效率。提升音頻識(shí)別效率。提升音頻識(shí)別效率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
音頻識(shí)別方法、裝置、介質(zhì)及芯片

[0001]本公開涉及通信
，尤其涉及一種音頻識(shí)別方法、裝置、介質(zhì)及芯片。

技術(shù)介紹

[0002]用戶在使用智能硬件產(chǎn)品時(shí)，通常可以通過喚醒詞來喚醒智能硬件產(chǎn)品，然后再進(jìn)行下一步的語音交互，例如，智能音箱、電視、手機(jī)、語音助手等智能硬件產(chǎn)品。
[0003]智能硬件產(chǎn)品可以和用戶進(jìn)行語音交互，也可以和聲音世界進(jìn)行交互，實(shí)現(xiàn)對(duì)環(huán)境音的識(shí)別，以便于對(duì)用戶進(jìn)行通知提示。在相關(guān)技術(shù)中，語音喚醒技術(shù)和環(huán)境音識(shí)別技術(shù)作為兩個(gè)獨(dú)立的任務(wù)，運(yùn)行消耗資源多，功耗高。

技術(shù)實(shí)現(xiàn)思路

[0004]為克服相關(guān)技術(shù)中存在的問題，本公開提供一種音頻識(shí)別方法、裝置、介質(zhì)及芯片。
[0005]根據(jù)本公開實(shí)施例的第一方面，提供一種音頻識(shí)別方法，包括：
[0006]采集待識(shí)別的音頻數(shù)據(jù)；
[0007]將所述音頻數(shù)據(jù)進(jìn)行特征提取，獲得所述音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征；
[0008]將所述音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型，獲取所述音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出，其中，所述候選分類包括喚醒詞分類和環(huán)境音分類，所述候選分類下的預(yù)測(cè)輸出用于表示所述音頻數(shù)據(jù)為所述候選分類的概率；
[0009]根據(jù)多個(gè)所述預(yù)測(cè)輸出，確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果。
[0010]可選地，所述根據(jù)多個(gè)所述預(yù)測(cè)輸出，確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果，包括：
[0011]獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于喚醒詞分類的喚醒詞預(yù)測(cè)輸出；
[0012]若所述喚醒詞分類對(duì)應(yīng)的最大喚醒...

【技術(shù)保護(hù)點(diǎn)】

【技術(shù)特征摘要】
1.一種音頻識(shí)別方法，其特征在于，應(yīng)用于終端，包括：采集待識(shí)別的音頻數(shù)據(jù)；將所述音頻數(shù)據(jù)進(jìn)行特征提取，獲得所述音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征；將所述音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型，獲取所述音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出，其中，所述候選分類包括喚醒詞分類和環(huán)境音分類，所述候選分類下的預(yù)測(cè)輸出用于表示所述音頻數(shù)據(jù)為所述候選分類的概率；根據(jù)多個(gè)所述預(yù)測(cè)輸出，確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)多個(gè)所述預(yù)測(cè)輸出，確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果，包括：獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于喚醒詞分類的喚醒詞預(yù)測(cè)輸出；若所述喚醒詞分類對(duì)應(yīng)的最大喚醒詞預(yù)測(cè)輸出大于或等于喚醒詞閾值，則將所述最大喚醒詞預(yù)測(cè)輸出對(duì)應(yīng)的喚醒詞分類添加至所述分類識(shí)別結(jié)果。3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)多個(gè)所述預(yù)測(cè)輸出，確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果，還包括：獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于環(huán)境音分類的環(huán)境音預(yù)測(cè)輸出；針對(duì)每一所述環(huán)境音分類，若所述環(huán)境音分類下的環(huán)境音預(yù)測(cè)輸出大于或等于所述環(huán)境音分類對(duì)應(yīng)的分類閾值，則將所述環(huán)境音分類作為環(huán)境音分類結(jié)果；將確定出的至少一個(gè)所述環(huán)境音分類結(jié)果添加至所述分類識(shí)別結(jié)果。4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：根據(jù)所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果，確定所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式；根據(jù)所述響應(yīng)模式，控制終端對(duì)所述音頻數(shù)據(jù)進(jìn)行響應(yīng)。5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果，確定所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式，包括：若所述分類識(shí)別結(jié)果表示所述音頻數(shù)據(jù)對(duì)應(yīng)的分類為喚醒詞分類，確定所述響應(yīng)模式為語音應(yīng)答響應(yīng)；若所述分類識(shí)別結(jié)果表示所述音頻數(shù)據(jù)對(duì)應(yīng)的分類為預(yù)設(shè)的目標(biāo)環(huán)境音分類，將所述目標(biāo)環(huán)境音分類對(duì)應(yīng)的響應(yīng)模式確定為所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式。6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述音頻識(shí)別模型通過以下方式進(jìn)行訓(xùn)練：獲取訓(xùn)練樣本集，其中，所述訓(xùn)練樣本集中的訓(xùn)練樣本包括喚...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：王永慶，丁翰林，閆志勇，張俊博，王育軍，
申請(qǐng)(專利權(quán))人：北京小米松果電子有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)