本公開涉及一種音頻識(shí)別方法、裝置、介質(zhì)及芯片。本公開的音頻識(shí)別方法包括:采集待識(shí)別的音頻數(shù)據(jù);將音頻數(shù)據(jù)進(jìn)行特征提取,獲得音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征;將音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型,獲取音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出,其中,候選分類包括喚醒詞分類和環(huán)境音分類,候選分類下的預(yù)測(cè)輸出用于表示音頻數(shù)據(jù)為候選分類的概率;根據(jù)多個(gè)預(yù)測(cè)輸出,確定音頻數(shù)據(jù)的分類識(shí)別結(jié)果。通過本公開,可以對(duì)音頻數(shù)據(jù)中是否包含喚醒詞和環(huán)境音進(jìn)行識(shí)別,通過一次識(shí)別可以獲得更加全面的識(shí)別結(jié)果,提高分類識(shí)別結(jié)果的準(zhǔn)確性,還能有效降低音頻識(shí)別模型在部署時(shí)的資源占用,拓寬該音頻識(shí)別方法的使用范圍,提升音頻識(shí)別效率。提升音頻識(shí)別效率。提升音頻識(shí)別效率。
【技術(shù)實(shí)現(xiàn)步驟摘要】
音頻識(shí)別方法、裝置、介質(zhì)及芯片
[0001]本公開涉及通信
,尤其涉及一種音頻識(shí)別方法、裝置、介質(zhì)及芯片。
技術(shù)介紹
[0002]用戶在使用智能硬件產(chǎn)品時(shí),通常可以通過喚醒詞來喚醒智能硬件產(chǎn)品,然后再進(jìn)行下一步的語音交互,例如,智能音箱、電視、手機(jī)、語音助手等智能硬件產(chǎn)品。
[0003]智能硬件產(chǎn)品可以和用戶進(jìn)行語音交互,也可以和聲音世界進(jìn)行交互,實(shí)現(xiàn)對(duì)環(huán)境音的識(shí)別,以便于對(duì)用戶進(jìn)行通知提示。在相關(guān)技術(shù)中,語音喚醒技術(shù)和環(huán)境音識(shí)別技術(shù)作為兩個(gè)獨(dú)立的任務(wù),運(yùn)行消耗資源多,功耗高。
技術(shù)實(shí)現(xiàn)思路
[0004]為克服相關(guān)技術(shù)中存在的問題,本公開提供一種音頻識(shí)別方法、裝置、介質(zhì)及芯片。
[0005]根據(jù)本公開實(shí)施例的第一方面,提供一種音頻識(shí)別方法,包括:
[0006]采集待識(shí)別的音頻數(shù)據(jù);
[0007]將所述音頻數(shù)據(jù)進(jìn)行特征提取,獲得所述音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征;
[0008]將所述音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型,獲取所述音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出,其中,所述候選分類包括喚醒詞分類和環(huán)境音分類,所述候選分類下的預(yù)測(cè)輸出用于表示所述音頻數(shù)據(jù)為所述候選分類的概率;
[0009]根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果。
[0010]可選地,所述根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,包括:
[0011]獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于喚醒詞分類的喚醒詞預(yù)測(cè)輸出;
[0012]若所述喚醒詞分類對(duì)應(yīng)的最大喚醒詞預(yù)測(cè)輸出大于或等于喚醒詞閾值,則將所述最大喚醒詞預(yù)測(cè)輸出對(duì)應(yīng)的喚醒詞分類添加至所述分類識(shí)別結(jié)果。
[0013]可選地,所述根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,還包括:
[0014]獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于環(huán)境音分類的環(huán)境音預(yù)測(cè)輸出;
[0015]針對(duì)每一所述環(huán)境音分類,若所述環(huán)境音分類下的環(huán)境音預(yù)測(cè)輸出大于或等于所述環(huán)境音分類對(duì)應(yīng)的分類閾值,則將所述環(huán)境音分類作為環(huán)境音分類結(jié)果;
[0016]將確定出的至少一個(gè)所述環(huán)境音分類結(jié)果添加至所述分類識(shí)別結(jié)果。
[0017]可選地,所述方法還包括:
[0018]根據(jù)所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,確定所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式;
[0019]根據(jù)所述響應(yīng)模式,控制終端對(duì)所述音頻數(shù)據(jù)進(jìn)行響應(yīng)。
[0020]可選地,所述根據(jù)所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,確定所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式,包括:
[0021]若所述分類識(shí)別結(jié)果表示所述音頻數(shù)據(jù)對(duì)應(yīng)的分類為喚醒詞分類,確定所述響應(yīng)
模式為語音應(yīng)答響應(yīng);
[0022]若所述分類識(shí)別結(jié)果表示所述音頻數(shù)據(jù)對(duì)應(yīng)的分類為預(yù)設(shè)的目標(biāo)環(huán)境音分類,將所述目標(biāo)環(huán)境音分類對(duì)應(yīng)的響應(yīng)模式確定為所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式。
[0023]可選地,所述音頻識(shí)別模型通過以下方式進(jìn)行訓(xùn)練:
[0024]獲取訓(xùn)練樣本集,其中,所述訓(xùn)練樣本集中的訓(xùn)練樣本包括喚醒詞訓(xùn)練樣本和環(huán)境音訓(xùn)練樣本,所述訓(xùn)練樣本包含訓(xùn)練音頻和所述訓(xùn)練音頻對(duì)應(yīng)的標(biāo)注標(biāo)簽,所述標(biāo)注標(biāo)簽用于標(biāo)注所述訓(xùn)練音頻對(duì)應(yīng)的分類,所述喚醒詞訓(xùn)練樣本的標(biāo)注標(biāo)簽包括喚醒詞標(biāo)簽和環(huán)境音標(biāo)簽,所述環(huán)境音訓(xùn)練樣本的標(biāo)注標(biāo)簽包括環(huán)境音標(biāo)簽,所述喚醒詞標(biāo)簽用于標(biāo)注所述訓(xùn)練音頻在喚醒詞分類下所屬的分類,所述環(huán)境音標(biāo)簽用于標(biāo)注所述訓(xùn)練音頻在環(huán)境音分類下所屬的分類;
[0025]將所述訓(xùn)練樣本中的訓(xùn)練音頻進(jìn)行特征提取,獲得所述訓(xùn)練音頻對(duì)應(yīng)的訓(xùn)練音頻特征;
[0026]將所述訓(xùn)練音頻特征輸入預(yù)設(shè)模型,獲得所述訓(xùn)練音頻特征在多個(gè)訓(xùn)練分類下的預(yù)測(cè)輸出;
[0027]根據(jù)所述多個(gè)訓(xùn)練分類下的預(yù)測(cè)輸出和所述訓(xùn)練音頻對(duì)應(yīng)的標(biāo)注標(biāo)簽,確定所述預(yù)設(shè)模型的目標(biāo)損失;
[0028]根據(jù)所述目標(biāo)損失對(duì)所述預(yù)設(shè)模型進(jìn)行訓(xùn)練,并將訓(xùn)練完成的預(yù)設(shè)模型確定為所述音頻識(shí)別模型。
[0029]可選地,所述候選分類為所述音頻識(shí)別模型對(duì)應(yīng)的訓(xùn)練分類中的部分或全部分類
[0030]根據(jù)本公開實(shí)施例的第二方面,提供一種音頻識(shí)別裝置,包括:
[0031]采集模塊,用于獲取終端所在環(huán)境中的音頻數(shù)據(jù);
[0032]第一獲取模塊,用于將所述音頻數(shù)據(jù)進(jìn)行特征提取,獲得所述音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征;
[0033]第二獲取模塊,用于將所述音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型,獲取所述音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出,其中,所述候選分類包括喚醒詞分類和環(huán)境音分類,所述候選分類下的預(yù)測(cè)輸出用于表示所述音頻數(shù)據(jù)為所述候選分類的概率;
[0034]第一確定模塊,用于根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果。
[0035]根據(jù)本公開實(shí)施例的第三方面,提供一種音頻識(shí)別裝置,包括:
[0036]處理器;
[0037]用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0038]其中,所述處理器被配置為:執(zhí)行本公開實(shí)施例的第一方面所提供的音頻識(shí)別方法。
[0039]根據(jù)本公開實(shí)施例的第四方面,提供一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序指令,該程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開實(shí)施例的第一方面所提供的音頻識(shí)別方法。
[0040]根據(jù)本公開的實(shí)施例的第五方面,提供一種芯片,包括處理器和接口;所述處理器用于讀取指令以執(zhí)行本公開實(shí)施例的第一方面所提供的音頻識(shí)別方法。
[0041]本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0042]通過上述技術(shù)方案,本公開可以在采集待識(shí)別的音頻數(shù)據(jù)后,對(duì)音頻數(shù)據(jù)進(jìn)行特
征提取,并將所提取的音頻特征輸入至訓(xùn)練完成的音頻識(shí)別模型,從而獲取音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出,其中,候選分類包括喚醒詞分類和環(huán)境音分類,候選分類下的預(yù)測(cè)輸出用于表示音頻數(shù)據(jù)為候選分類的概率,進(jìn)而可以根據(jù)多個(gè)預(yù)測(cè)輸出,確定音頻數(shù)據(jù)的分類識(shí)別結(jié)果。由此,通過上述技術(shù)方案,音頻識(shí)別模型中的候選分類可以包括喚醒詞分類和環(huán)境音分類,則可以通過音頻識(shí)別模型對(duì)音頻數(shù)據(jù)中是否包含喚醒詞和環(huán)境音進(jìn)行識(shí)別,通過一次識(shí)別可以獲得更加全面的識(shí)別結(jié)果,提高分類識(shí)別結(jié)果的準(zhǔn)確性。同時(shí),可以通過部署該音頻識(shí)別模型實(shí)現(xiàn)對(duì)喚醒詞和環(huán)境音的識(shí)別,從而有效降低音頻識(shí)別模型在部署時(shí)的資源占用,拓寬該音頻識(shí)別方法的使用范圍,提升音頻識(shí)別效率。
[0043]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
[0044]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實(shí)施例,并與說明書一起用于解釋本公開的原理。
[0045]圖1是根據(jù)一示例性實(shí)施例示出的一種音頻識(shí)別方法的流程圖。
[0046]圖2是根據(jù)一示例性實(shí)施例示出的一種音頻識(shí)別裝置的框圖。
[0047]圖3是根據(jù)一示例性實(shí)施例示出的一種用于音頻識(shí)別的裝置的框圖。
具體實(shí)施方式
[0048]這里將詳細(xì)地對(duì)示本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種音頻識(shí)別方法,其特征在于,應(yīng)用于終端,包括:采集待識(shí)別的音頻數(shù)據(jù);將所述音頻數(shù)據(jù)進(jìn)行特征提取,獲得所述音頻數(shù)據(jù)對(duì)應(yīng)的音頻特征;將所述音頻特征輸入訓(xùn)練完成的音頻識(shí)別模型,獲取所述音頻數(shù)據(jù)在多個(gè)候選分類下的預(yù)測(cè)輸出,其中,所述候選分類包括喚醒詞分類和環(huán)境音分類,所述候選分類下的預(yù)測(cè)輸出用于表示所述音頻數(shù)據(jù)為所述候選分類的概率;根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,包括:獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于喚醒詞分類的喚醒詞預(yù)測(cè)輸出;若所述喚醒詞分類對(duì)應(yīng)的最大喚醒詞預(yù)測(cè)輸出大于或等于喚醒詞閾值,則將所述最大喚醒詞預(yù)測(cè)輸出對(duì)應(yīng)的喚醒詞分類添加至所述分類識(shí)別結(jié)果。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)多個(gè)所述預(yù)測(cè)輸出,確定所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,還包括:獲取多個(gè)所述預(yù)測(cè)輸出中對(duì)應(yīng)于環(huán)境音分類的環(huán)境音預(yù)測(cè)輸出;針對(duì)每一所述環(huán)境音分類,若所述環(huán)境音分類下的環(huán)境音預(yù)測(cè)輸出大于或等于所述環(huán)境音分類對(duì)應(yīng)的分類閾值,則將所述環(huán)境音分類作為環(huán)境音分類結(jié)果;將確定出的至少一個(gè)所述環(huán)境音分類結(jié)果添加至所述分類識(shí)別結(jié)果。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:根據(jù)所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,確定所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式;根據(jù)所述響應(yīng)模式,控制終端對(duì)所述音頻數(shù)據(jù)進(jìn)行響應(yīng)。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述音頻數(shù)據(jù)的分類識(shí)別結(jié)果,確定所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式,包括:若所述分類識(shí)別結(jié)果表示所述音頻數(shù)據(jù)對(duì)應(yīng)的分類為喚醒詞分類,確定所述響應(yīng)模式為語音應(yīng)答響應(yīng);若所述分類識(shí)別結(jié)果表示所述音頻數(shù)據(jù)對(duì)應(yīng)的分類為預(yù)設(shè)的目標(biāo)環(huán)境音分類,將所述目標(biāo)環(huán)境音分類對(duì)應(yīng)的響應(yīng)模式確定為所述音頻數(shù)據(jù)對(duì)應(yīng)的響應(yīng)模式。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述音頻識(shí)別模型通過以下方式進(jìn)行訓(xùn)練:獲取訓(xùn)練樣本集,其中,所述訓(xùn)練樣本集中的訓(xùn)練樣本包括喚...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王永慶,丁翰林,閆志勇,張俊博,王育軍,
申請(qǐng)(專利權(quán))人:北京小米松果電子有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。