本發明專利技術涉及信息處理技術及傳感信號處理領域,特別是涉及到一種基于動態噪聲估計時頻域自適應自動語音檢測方法,本發明專利技術根據聲音的時域短時能量和一定范圍頻域短時能量變化分別進行語音的檢測,最后根據動態估計出的背景噪聲能量的大小,選擇最優的結果,從而大幅提高了語音識別的準確率并提高了語音識別對環境變化的適應性。
【技術實現步驟摘要】
本專利技術涉及信息處理技術及傳感信號處理領域,特別是涉及到一種基于動態噪聲估計時頻域自適應語音檢測方法。
技術介紹
人工智能應用領域的一個熱點就是語音識別,目前語音識別已經開始在各個領域廣泛應用。語音檢測的實現是語音識別系統實時實現的重要部分,其目的是在復雜的實際環境中區分語音段與非語音段。有文獻表明,實際應用中識別率較低部分很大程度是由于未對語音進行正確處理,大量的非語音信息嚴重影響了語音識別系統的準確率,特別是應用環境帶有大量噪聲的語音識別,正確的語音檢測技術可有效地降低系統運算量,縮短系統處理時間,減少移動端發射功率并節省信道資源,提高語音識別準確率,尤其是在復雜背景噪聲下,語音識別系統性能的優劣在很大程度上取決于語音檢測技術的優劣,因此穩健、精確、實時、自適應性強及魯棒性好的語音檢測技術是每個語音識別系統所必需的。目前語音識別技術在移動端尤其是手機或語音遙控器上應用時,主要依靠按鍵方式決定語音的起始和結束,然而這種方式對于大量遠講應用則非常不方便,對遠講或者是不拿在手上的支持語音識別的智能設備、機器人而言,自動語音檢測系統就是必不可少的部件。當前自動語音檢測的主流方法是依靠時域中短時能量大小,過零率大小,以及頻域中頻帶能量均方差三種方法來檢測,具體方法式求出短時能量、過零率或者頻帶能量均方差,然后與一個經驗閾值進行比較,實驗證明,這種單獨比較短時能量大小或過零率大小的方法對于有噪聲的環境適應性不好,尤其是當應用環境發生變化時,同一環境的背景噪聲也會發生相應的變化,而頻帶能量均方差方法對于安靜環境也適應不好。為解決上述問題,需要專利技術一種根據時域和頻域聲音平均能量的變化分別進行語音的檢測,最后根據動態估計出的背景噪聲大小,選擇最優的結果,從而大幅提高了語音識別的準確率以及對環境變化的適應性。
技術實現思路
本專利技術的目的在于克服現有技術中所存在的上述不足,提供一種能大幅提高語音識別的準確率以及對環境變化適應性的語音檢測方法。為了達到上述目的,本專利技術提供了如下技術方案。一種基于動態噪聲估計時頻域自適應語音檢測方法,其包括以下步驟:步驟一,載入當前幀數據,所述當前幀數據為時域內語音數據;步驟二,計算所述時域內語音數據的每幀聲音的能量總和作為時域短時能量,并將每幀所述時域內語音數據通過FFT變換為頻域數據;步驟三,選取所述頻域數據一定頻率范圍子帶數據,計算所述一定頻率范圍子帶數據的能量并累加作為頻域短時能量;步驟四,背景噪聲估計單元計算出背景噪聲能量,頻域背景能量計算單元計算出頻域背景能量;步驟五,將所述時域短時能量與所述背景噪聲能量進行比較,結果為大于所述背景噪聲能量的則為語音,結果為小于或等于所述背景噪聲能量的則為非語音;步驟六,將所述頻域短時能量與所述頻域背景能量進行比較,結果為大于所述頻域背景能量的則為語音,結果為小于或等于所述頻域背景能量的則為非語音;步驟七,將所述背景噪聲能量與一系統設定的閾值一進行比較,若大于閾值一則選擇步驟六中比較為語音的結果,若小于等于閾值一則選擇步驟五中比較為語音的結果;步驟八,若所述當前幀結果檢測為非語音,則將所述當前幀的所述時域短時能量送到所述背景噪聲估計單元中累加,累加到第一幀數后,將累加值除以所述第一幀數得到新的背景噪聲作為輸出,同時將所述當前幀的所述頻域短時能量送到所述頻域背景能量計算單元中累加,累加到第二幀數后,將累加值除以所述第二幀數得到新的頻域背景能量作為輸出。通常的語音能量具有短時穩定性,而所述背景噪聲能量具有長時穩定性,所述時域短時能量與所述背景噪聲能量進行比較,比較結果作為該時刻是語音的時域概率,通常非語音期間周期會遠大于語音期間,因為所述時域短時能量可看作可能含語音和所述背景噪聲能量的聲音能量,而時域長時能量主要由所述背景噪聲能量構成,所述時域短時能量比所述時域長時能量大,則是語音的概率就大,而所述時域長時能量是動態計算出的,所以能很好的適應環境噪聲的變化,利用所述時域短時能量與所述背景噪聲能量比較的方法比較適合安靜的環境,為了提高語音檢測的準確性,使用所述時域短時能量與所述背景噪聲能量比較的方法和所述頻域短時能量與所述頻域背景能量比較的方法相結合的新方法進行語音檢測,提高語音檢測的準確性。作為本專利技術的優選方案,步驟五中所述時域短時能量與所述背景噪聲能量進行比較的方法是用所述時域短時能量減去所述背景噪聲能量的差值與系統設定的閾值二比較,結果大于所述閾值二則為語音,結果小于或等于所述閾值二則為非語音;步驟六中所述頻域短時能量與所述頻域背景能量進行比較的方法是用所述頻域短時能量減去所述頻域背景能量的差值與系統設定的閾值三比較,結果大于所述閾值三則為語音,結果小于或等于所述閾值三則為非語音。作為本專利技術的優選方案,步驟五中所述時域短時能量與所述背景噪聲能量進行比較的方法是用所述時域短時能量與所述背景噪聲能量的比值與系統設定的閾值四比較,結果大于所述閾值四則為語音,結果小于或等于所述閾值四則為非語音;步驟六中所述頻域短時能量與所述頻域背景能量進行比較的方法是用所述頻域短時能量與所述頻域背景能量的比值與系統設定的閾值五比較,結果大于所述閾值五則為語音,結果小于或等于所述閾值五則為非語音。作為本專利技術的優選方案,所述頻率范圍為人語音能量主要分布的頻率范圍,人的聲音頻譜分布比較廣,人聲頻帶區間可以通過兩個參數來設置, 一是上頻率閾值,另一個是下頻率閾值,通常超過這個頻率范圍的聲音往往是環境噪聲或者其他非人聲,在該頻帶范圍內,環境噪聲能量受到了較大的抑制,一般來說人聲能量主要集中在300Hz到4000Hz之間,而背景噪聲能量主要分布在300Hz以內,取人聲主要分布頻帶范圍的能量進行比較,因此在該頻帶范圍內,當有語音時,所述頻域短時能量會有明顯的增高,因此和所述時域短時能量比較類似,用所述頻域短時能量與所述頻域背景能量比較,超過系統設置的所述閾值三或者所述閾值五的,則該時段大概率為語音。作為本專利技術的優選方案,所述幀的時間范圍大小在10毫秒到50毫秒之間,所述第一幀數和所述第二幀數由系統配置。作為本專利技術的優選方案,所述背景噪聲能量是將判斷為非語音期間的所述時域短時能量進行累加后求平均的結果。作為本專利技術的優選方案,所述頻域背景能量是將判斷為非語音期間的所述頻域短時能量進行累加后求平均的結果。與現有技術相比,本專利技術的有益效果:本專利技術根據時域和頻域聲音平均能量的變化分別進行語音的檢測,最后根據動態估計出的背景噪聲大小,選擇最優的結果,從而大幅提高了語音識別的準確率以及對環境變化的適應性。附圖說明圖1為本專利技術流程圖;圖2為本專利技術運行框圖。具體實施方式下面結合實施例及具體實施方式對本專利技術作進一步的詳細描述,但不應將此理解為本專利技術上述主體的范圍僅限于以下的實施例,凡基于本
技術實現思路
所實現的技術均屬于本專利技術的范圍。如圖1所示,一種基于動態噪聲估計時頻域自適應語音檢測方法,其包括以下步驟:步驟一,載入當前幀數據,當前幀數據為時域內語音數據;步驟二,計算時域內語音數據的每幀聲音的能量總和作為時域短時能量,并將每幀時域內語音數據通過FFT變換為頻域數據;步驟三,選取頻域數據一定頻率范圍子帶數據,計算一定頻率范圍子帶數據的能量并累加作為頻域短時能量;步驟四,背景噪聲估計單元計算出背景噪本文檔來自技高網...
【技術保護點】
一種基于動態噪聲估計時頻域自適應語音檢測方法,其包括以下步驟:步驟一,載入當前幀數據,所述當前幀數據為時域內語音數據;步驟二,計算所述時域內語音數據的每幀聲音的能量總和作為時域短時能量,并將每幀所述時域內語音數據通過FFT變換為頻域數據;步驟三,選取所述頻域數據一定頻率范圍子帶數據,計算所述一定頻率范圍子帶數據的能量并累加作為頻域短時能量;步驟四,背景噪聲能量估計單元計算出背景噪聲能量,頻域背景能量計算單元計算出頻域背景能量;步驟五,將所述時域短時能量與所述背景噪聲能量進行比較,結果為大于所述背景噪聲能量的則為語音,結果為小于或等于所述背景噪聲能量的則為非語音;步驟六,將所述頻域短時能量與所述頻域背景能量進行比較,結果為大于所述頻域背景能量的則為語音,結果為小于或等于所述頻域背景能量的則為非語音;步驟七,將所述背景噪聲能量與一系統設定的閾值一進行比較,若大于閾值一則選擇步驟六中比較為語音的結果,若小于等于閾值一則選擇步驟五中比較為語音的結果;步驟八,若所述當前幀結果檢測為非語音,則將所述當前幀的所述時域短時能量送到所述背景噪聲估計單元中累加,累加到第一幀數后,將累加值除以所述第一幀數得到新的背景噪聲能量作為輸出,同時將所述當前幀的所述頻域短時能量送到所述頻域背景能量計算單元中累加,累加到第二幀數后,將累加值除以所述第二幀數得到新的頻域背景能量作為輸出。...
【技術特征摘要】
1.一種基于動態噪聲估計時頻域自適應語音檢測方法,其包括以下步驟:步驟一,載入當前幀數據,所述當前幀數據為時域內語音數據;步驟二,計算所述時域內語音數據的每幀聲音的能量總和作為時域短時能量,并將每幀所述時域內語音數據通過FFT變換為頻域數據;步驟三,選取所述頻域數據一定頻率范圍子帶數據,計算所述一定頻率范圍子帶數據的能量并累加作為頻域短時能量;步驟四,背景噪聲能量估計單元計算出背景噪聲能量,頻域背景能量計算單元計算出頻域背景能量;步驟五,將所述時域短時能量與所述背景噪聲能量進行比較,結果為大于所述背景噪聲能量的則為語音,結果為小于或等于所述背景噪聲能量的則為非語音;步驟六,將所述頻域短時能量與所述頻域背景能量進行比較,結果為大于所述頻域背景能量的則為語音,結果為小于或等于所述頻域背景能量的則為非語音;步驟七,將所述背景噪聲能量與一系統設定的閾值一進行比較,若大于閾值一則選擇步驟六中比較為語音的結果,若小于等于閾值一則選擇步驟五中比較為語音的結果;步驟八,若所述當前幀結果檢測為非語音,則將所述當前幀的所述時域短時能量送到所述背景噪聲估計單元中累加,累加到第一幀數后,將累加值除以所述第一幀數得到新的背景噪聲能量作為輸出,同時將所述當前幀的所述頻域短時能量送到所述頻域背景能量計算單元中累加,累加到第二幀數后,將累加值除以所述第二幀數得到新的頻域背景能量作為輸出。2.根據權利要求1所述的基于動態噪聲估計時頻域自適應語音檢測方法,其特征在于:步驟五中所述時域短時能量與所述背景噪聲能量進行比較的方法是用所述時域短時能量減去所述背景噪聲能量的差值與系統設定...
【專利技術屬性】
技術研發人員:何云鵬,
申請(專利權)人:成都啟英泰倫科技有限公司,
類型:發明
國別省市:四川;51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。