"/>
【技術實現步驟摘要】
語音喚醒方法、電子設備及計算機可讀存儲介質
[0001]本專利技術涉及基于語音識別的
,具體地,是一種低功耗
、
低延時的語音喚醒方法,還涉及實現該方法的電子設備及計算機可讀存儲介質
。
技術介紹
[0002]現有的電子設備,例如手機
、
耳機
、
智能音箱等,大多設置有麥克風
。
隨著人工智能技術的發展,電子設備大多設置有語音喚醒的功能,在電子設備處于休眠狀態下,如果用戶說出指定的喚醒詞,則電子設備將被喚醒
。
[0003]現有的具有語音喚醒功能的電子設備可分為電源供電和電池供電兩類,由電池供電的電子設備,如手機
、
便攜音箱
、
可穿戴電子設備等,往往對產品的待機功耗有比較嚴格的要求,需要電子設備在不運行是保持非常低的功耗以保障電池續航時間
。
然而,為了保證用戶能隨時可喚醒電子設備,電子設備所使用的語音喚醒算法必須持續不間斷運行,這對電子設備和算法的功耗控制提出很高的要求
。
[0004]現有的語音喚醒方法通過麥克風獲取音頻信號,并通過對音頻信號進行分析,并使用人工智能的算法識別出所獲取的音頻信號中是否存在特定的喚醒詞
。
但是,這種方法需要控制器長時間處于工作狀態以執行人工智能的算法,導致電子設備待機時功耗過高
。
[0005]而現有的一些電子設備則通過檢測用戶的動作的方式來判斷用戶是否打算喚醒電子設備,例如公開號為 />CN113825063A
的專利技術專利申請公開了一種耳機的語音識別啟動方法及耳機的語音識別方法,該語音識別啟動方法應用在耳機上,尤其是設置有電容檢測的耳機上,通過獲取設置在耳機上的電容感應器的電容量的變化值來判斷電容量的變化值是否超過第一閾值,并以此來確定是否需要啟動耳機
。
然而,這種方法只能夠應用在具有電容檢測功能的耳機上,對于其他的電子設備,尤其是不具備電容檢測功能的電子設備則無法使用
。
[0006]而另一種語音喚醒的方法則是在電子設備處于待機狀態時,讓控制器工作在較低的運行頻率,并且檢測語音信號后進行喚醒詞的初步檢測,而檢測到可能存在喚醒詞后,在喚醒控制器并進行第二次檢測
。
然而,這種方法需要控制器長時間處于運行狀態,并且需要實時對語音信號進行檢測,導致電子設備的功耗過高,不利于電子設備的長時間運行
。
技術實現思路
[0007]本專利技術的第一目的是提供一種使電子設備在待機時保持低功耗且喚醒低延時的語音喚醒方法
。
[0008]本專利技術的第二目的是提供一種實現上述語音喚醒方法的電子設備
。
[0009]本專利技術的第三目的是提供一種實現上述語音喚醒方法的計算機可讀存儲介質
。
[0010]為實現本專利技術的第一目的,本專利技術提供的語音喚醒方法包括獲取麥克風所采集的音頻信號,對音頻信號進行過零率檢測,判斷是否檢測到人聲信號,如檢測到人聲信號,則喚醒控制器,如沒有檢測到人聲信號,控制器處于休眠狀態;其中,控制器喚醒后,以第一運
行頻率運行,并計算麥克風所采集的音頻信號的語音特征,將預設時間段內的語音特征存儲在預設存儲器中,并應用第一算法對預設的喚醒詞進行識別,如識別出喚醒詞,則控制器以第二運行頻率運行,如未能識別出喚醒詞,控制器進行休眠狀態;控制器以第二運行頻率運行后,應用第二算法對喚醒詞進行識別,如識別出喚醒詞,控制器執行喚醒后操作,如未能識別出喚醒詞,則控制器進行休眠狀態;其中,第一運行頻率低于第二運行頻率
。
[0011]由上述方案可見,一方面,電子設備先應用硬件電路對音頻信號進行過零率檢測,如果沒有檢測到人聲信號,則控制器持續保持在休眠狀態,此時控制器并不執行任何識別算法,從而使得控制器消耗的電能很小,可以使得控制器長時間工作,有利于延長電子設備的待機時間
。
[0012]另一方面,一旦檢測到人聲信號,控制器并不是以很高的運行頻率運行,而是先以較低的運行頻率運行,并使用較為簡單的算法檢測是否識別到喚醒詞,這樣,可以進一步避免控制器消耗過多的電能
。
只有通過第一算法識別到喚醒詞后,控制器才會工作在較高的運行頻率,并使用第二算法對喚醒詞做精確的識別,確保識別的準確性
。
[0013]一個優選的方案是,第一算法為基于隱馬爾可夫的深度神經網絡模型的流式語音識別算法
。
[0014]由于運行基于隱馬爾可夫的深度神經網絡模型并不需要控制器運行在較高的運行頻率,并且可以快速的對喚醒詞進行識別,能夠提高識別的效率,又能夠避免控制器消耗過多的電能
。
[0015]進一步的方案是,基于隱馬爾可夫的深度神經網絡模型的流式語音識別算法以標注過的喚醒詞對應的語音為正樣本,以無關語音或雜音為負樣本進行訓練獲得
。
[0016]這樣,經過訓練的基于隱馬爾可夫的深度神經網絡模型的流式語音識別算法可以快速的
、
準確的對喚醒詞進行識別
。
[0017]進一步的方案是,第二算法為基于深度神經網絡的非流式語音識別算法
。
[0018]由于基于深度神經網絡的非流式語音識別算法能以一個參數量更大的模型對語音再進行一次篩選,從而降低誤觸發率
。
此外,非流式模型可以處理整段語音數據,使用更多上下文信息從而使識別效果好于相同計算量的流式模型
。
雖然控制器以較高的運行頻率運行,但是該算法能在較短時間內完成運行,從而使得平均功耗保持在較低水平
。
[0019]一個優選的方案是,基于深度神經網絡的非流式語音識別算法以標注過的喚醒詞對應的語音為正樣本,以無關語音或雜音為負樣本進行訓練獲得
。
[0020]優選的方案是,控制器以第二運行頻率運行后,應用第二算法對存儲在預設存儲器內的語音特征進行識別
。
[0021]由此可見,通過存儲器預先存儲語音特征,使得控制器可以快速的對預先存儲的語音特征進行識別,提高識別效率
。
[0022]進一步的方案是,計算麥克風所采集的音頻信號的語音特征時,音頻信號的梅爾倒譜系數
。
[0023]進一步的方案是,控制器進行休眠狀態后,再次獲取麥克風所采集的音頻信號,對音頻信號進行過零率檢測
。
[0024]由此可見,電子設備是實時對音頻信號進行過零率檢測,從而監聽是否存在人聲信號,可以實現低延時的喚醒
。
[0025]為實現上述的第二目的,本專利技術提供的電子設備包括處理器以及存儲器,存儲器存儲有計算機程序,計算機程序被處理器執行時實現上述語音喚醒方法的各個步驟
。
[0026]為實現上述的第三目的,本專利技術提供計算機可讀存儲介質上存儲有計算機程序,計算機程序被處理器執行時實現上述語音喚醒方法的各個步驟
。...
【技術保護點】
【技術特征摘要】
1.
語音喚醒方法,包括:獲取麥克風所采集的音頻信號,對所述音頻信號進行過零率檢測,判斷是否檢測到人聲信號,如檢測到人聲信號,則喚醒控制器,如沒有檢測到人聲信號,所述控制器處于休眠狀態;其特征在于:所述控制器喚醒后,以第一運行頻率運行,并計算所述麥克風所采集的音頻信號的語音特征,將預設時間段內的所述語音特征存儲在預設存儲器中,并應用第一算法對預設的喚醒詞進行識別,如識別出所述喚醒詞,則所述控制器以第二運行頻率運行,如未能識別出所述喚醒詞,所述控制器進行休眠狀態;所述控制器以第二運行頻率運行后,應用第二算法對所述喚醒詞進行識別,如識別出所述喚醒詞,所述控制器執行喚醒后操作,如未能識別出所述喚醒詞,則所述控制器進行休眠狀態;其中,所述第一運行頻率低于所述第二運行頻率
。2.
根據權利要求1所述的語音喚醒方法,其特征在于:所述第一算法為基于隱馬爾可夫的深度神經網絡模型的流式語音識別算法
。3.
根據權利要求2所述的語音喚醒方法,其特征在于:所述基于隱馬爾可夫的深度神經網絡模型的流式語音識別算法以標注過的所述喚醒詞對應的語音為正樣本,以無關語音或雜音為負樣本進行訓練獲得
。4.
根據權利要求1所述的語音喚醒方法,其特征在于:所述第二算法為基于深度...
【專利技術屬性】
技術研發人員:王天策,徐超,李正平,
申請(專利權)人:珠海普林芯馳科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。