本發(fā)明專利技術(shù)涉及一種語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音采集模塊、預(yù)處理模塊、特征提取模塊、存儲(chǔ)模塊、模式匹配模塊、參數(shù)調(diào)整模塊、語(yǔ)音指令識(shí)別模塊和語(yǔ)意識(shí)別模塊;從語(yǔ)音的產(chǎn)生原理開始分析語(yǔ)音的特性,并使用MFCC參數(shù),來提取所述語(yǔ)音特征參數(shù),進(jìn)而建立用戶的語(yǔ)音模型,并識(shí)別用戶的實(shí)際語(yǔ)意。
A speech recognition system
The invention relates to a speech recognition system, including voice acquisition module, preprocessing module, feature extraction module, memory module, pattern matching module, parameter adjustment module, the voice command recognition module and semantic recognition module; from the principle of speech analysis and speech characteristic, use the MFCC parameter to extract the speech feature the speech model parameters, and establish user, and identify the user's actual meaning.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種語(yǔ)音識(shí)別系統(tǒng)
本專利技術(shù)涉及語(yǔ)音
,尤其是指一種語(yǔ)音識(shí)別系統(tǒng)。
技術(shù)介紹
語(yǔ)音識(shí)別是一門交叉學(xué)科。近二十年來,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語(yǔ)音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息
十大重要的科技發(fā)展技術(shù)之一。語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(英語(yǔ):AutomaticSpeechRecognition,ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與用戶識(shí)別及用戶確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的用戶而非其中所包含的詞匯內(nèi)容。語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語(yǔ)音識(shí)別包含用戶識(shí)別和用戶語(yǔ)義識(shí)別兩種,前者利用的是語(yǔ)音信號(hào)中用戶的個(gè)性特征,不考慮包含在語(yǔ)音中的字詞的含義,強(qiáng)調(diào)的是用戶的個(gè)性;而后者的目的是識(shí)別出語(yǔ)音信號(hào)中的語(yǔ)義內(nèi)容,并不考慮用戶的個(gè)性,強(qiáng)調(diào)的是語(yǔ)音的共性;同時(shí)對(duì)于具體用戶的實(shí)際語(yǔ)意沒有進(jìn)行考慮。然而現(xiàn)有技術(shù)識(shí)別用戶的技術(shù)可靠性不高,因此使得采用具有特定語(yǔ)意的用戶語(yǔ)音產(chǎn)品不能被廣泛應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
為了解決上述技術(shù)問題,本專利技術(shù)提供一種語(yǔ)音識(shí)別系統(tǒng)。本專利技術(shù)是以如下技術(shù)方案實(shí)現(xiàn)的,一種語(yǔ)音識(shí)別系統(tǒng),包括:語(yǔ)音采集模塊,用于收集用戶待識(shí)別的語(yǔ)音數(shù)據(jù);預(yù)處理模塊,用于對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;特征提取模塊,用于從預(yù)處理后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音特征參數(shù);存儲(chǔ)模塊,用于存儲(chǔ)至少一個(gè)用戶的語(yǔ)音模型;模式匹配模塊,基于提取所述語(yǔ)音特征參數(shù),并且選擇對(duì)應(yīng)于所述語(yǔ)音特征參數(shù)的語(yǔ)音模型;參數(shù)調(diào)整模塊,用于通過使用所選擇的所述模式匹配模塊來調(diào)整語(yǔ)音參數(shù),所述語(yǔ)音參數(shù)是用于識(shí)別所述待識(shí)別的語(yǔ)音數(shù)據(jù)的語(yǔ)音指令和語(yǔ)意;語(yǔ)音指令識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)音指令;語(yǔ)意識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)意。優(yōu)選的是,所述預(yù)處理模塊包括模數(shù)轉(zhuǎn)換單元、信號(hào)放大單元、增益控制單元、降噪單元、濾波單元和采樣單元,用于依次對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行將采集到的模擬語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為數(shù)字語(yǔ)音數(shù)據(jù)、數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行放大、校正所述數(shù)字語(yǔ)音數(shù)據(jù)的增益、消除所述數(shù)字語(yǔ)音數(shù)據(jù)中的噪聲、對(duì)所述所述數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行濾波和采樣;其中,語(yǔ)音信號(hào)具有相關(guān)性,而背景噪聲則無相關(guān)性,因而利用相關(guān)性的不同,可以檢測(cè)出語(yǔ)音,尤其是可以將清音從噪聲中檢測(cè)出來。優(yōu)選的是,所述預(yù)處理模塊還包括編碼單元,用于對(duì)采樣的數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換及編碼,使其被分割為由多幀組合而成的短時(shí)信號(hào);其中,語(yǔ)音短時(shí)信號(hào)中包含有激勵(lì)源和聲道的特性,因而可以反映用戶生理上的差別。而短時(shí)信號(hào)隨時(shí)間變化,又在一定程度上反映了用戶的發(fā)音習(xí)慣,因此,由語(yǔ)音短時(shí)信號(hào)中導(dǎo)出的參數(shù)可以有效地用于用戶識(shí)別中。優(yōu)選的是,所述預(yù)處理模塊還包括端點(diǎn)檢測(cè)單元,用于計(jì)算進(jìn)行格式轉(zhuǎn)換及編碼后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)的語(yǔ)音起點(diǎn)和終點(diǎn),獲得所述待識(shí)別的語(yǔ)音數(shù)據(jù)中語(yǔ)音的時(shí)域范圍。優(yōu)選的是,所述特征提取模塊通過從編碼后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)中提取頻率倒譜系數(shù)MFCC特征,來提取所述語(yǔ)音特征參數(shù)。優(yōu)選的是,所述語(yǔ)意識(shí)別模塊包括儲(chǔ)存單元、識(shí)別單元和選擇單元,所述儲(chǔ)存單元儲(chǔ)存不同語(yǔ)音情感的語(yǔ)意;所述識(shí)別單元基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述語(yǔ)調(diào),并通過選擇單元選取所述儲(chǔ)存單元中的語(yǔ)意。優(yōu)選的是,所述模式匹配模塊利用高斯混合模型,使用最大后驗(yàn)概率算法MAP將所提取的所述語(yǔ)音特征參數(shù)與所述語(yǔ)音模型進(jìn)行匹配,計(jì)算所述待識(shí)別語(yǔ)音信號(hào)與每一個(gè)所述語(yǔ)音模型的似然度,來選擇對(duì)應(yīng)于所述語(yǔ)音特征參數(shù)的語(yǔ)音模型。本專利技術(shù)的有益效果是:從語(yǔ)音的產(chǎn)生原理開始分析語(yǔ)音的特性,并使用MFCC參數(shù),來提取所述語(yǔ)音特征參數(shù),進(jìn)而建立用戶的語(yǔ)音模型并識(shí)別用戶的實(shí)際語(yǔ)意。附圖說明圖1是本專利技術(shù)語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本專利技術(shù)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本專利技術(shù)作進(jìn)一步地詳細(xì)描述。如圖1所示,本專利技術(shù)是以如下技術(shù)方案實(shí)現(xiàn)的,一種語(yǔ)音識(shí)別系統(tǒng),包括:語(yǔ)音采集模塊,用于收集用戶待識(shí)別的語(yǔ)音數(shù)據(jù);預(yù)處理模塊,用于對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;特征提取模塊,用于從預(yù)處理后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音特征參數(shù);存儲(chǔ)模塊,用于存儲(chǔ)至少一個(gè)用戶的語(yǔ)音模型;模式匹配模塊,基于提取所述語(yǔ)音特征參數(shù),并且選擇對(duì)應(yīng)于所述語(yǔ)音特征參數(shù)的語(yǔ)音模型;參數(shù)調(diào)整模塊,用于通過使用所選擇的所述模式匹配模塊來調(diào)整語(yǔ)音參數(shù),所述語(yǔ)音參數(shù)是用于識(shí)別所述待識(shí)別的語(yǔ)音數(shù)據(jù)的語(yǔ)音指令和語(yǔ)意;語(yǔ)音指令識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)音指令;語(yǔ)意識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)意。優(yōu)選的是,所述預(yù)處理模塊包括模數(shù)轉(zhuǎn)換單元、信號(hào)放大單元、增益控制單元、降噪單元、濾波單元和采樣單元,用于依次對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行將采集到的模擬語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為數(shù)字語(yǔ)音數(shù)據(jù)、數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行放大、校正所述數(shù)字語(yǔ)音數(shù)據(jù)的增益、消除所述數(shù)字語(yǔ)音數(shù)據(jù)中的噪聲、對(duì)所述所述數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行濾波和采樣;其中,語(yǔ)音信號(hào)具有相關(guān)性,而背景噪聲則無相關(guān)性,因而利用相關(guān)性的不同,可以檢測(cè)出語(yǔ)音,尤其是可以將清音從噪聲中檢測(cè)出來。優(yōu)選的是,所述預(yù)處理模塊還包括編碼單元,用于對(duì)采樣的數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換及編碼,使其被分割為由多幀組合而成的短時(shí)信號(hào);其中,語(yǔ)音短時(shí)信號(hào)中包含有激勵(lì)源和聲道的特性,因而可以反映用戶生理上的差別。而短時(shí)信號(hào)隨時(shí)間變化,又在一定程度上反映了用戶的發(fā)音習(xí)慣,因此,由語(yǔ)音短時(shí)信號(hào)中導(dǎo)出的參數(shù)可以有效地用于用戶識(shí)別中。優(yōu)選的是,所述預(yù)處理模塊還包括端點(diǎn)檢測(cè)單元,用于計(jì)算進(jìn)行格式轉(zhuǎn)換及編碼后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)的語(yǔ)音起點(diǎn)和終點(diǎn),獲得所述待識(shí)別的語(yǔ)音數(shù)據(jù)中語(yǔ)音的時(shí)域范圍。優(yōu)選的是,所述特征提取模塊通過從編碼后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)中提取頻率倒譜系數(shù)MFCC特征,來提取所述語(yǔ)音特征參數(shù)。優(yōu)選的是,所述語(yǔ)意識(shí)別模塊包括儲(chǔ)存單元、識(shí)別單元和選擇單元,所述儲(chǔ)存單元儲(chǔ)存不同語(yǔ)音情感的語(yǔ)意;所述識(shí)別單元基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述語(yǔ)調(diào),并通過選擇單元選取所述儲(chǔ)存單元中的語(yǔ)意。優(yōu)選的是,所述模式匹配模塊利用高斯混合模型,使用最大后驗(yàn)概率算法MAP將所提取的所述語(yǔ)音特征參數(shù)與所述語(yǔ)音模型進(jìn)行匹配,計(jì)算所述待識(shí)別語(yǔ)音信號(hào)與每一個(gè)所述語(yǔ)音模型的似然度,來選擇對(duì)應(yīng)于所述語(yǔ)音特征參數(shù)的語(yǔ)音模型。以上所揭露的僅為本專利技術(shù)較佳實(shí)施例而已,當(dāng)然不能以此來限定本專利技術(shù)之權(quán)利范圍,因此依本專利技術(shù)權(quán)利要求所作的等同變化,仍屬本專利技術(shù)所涵蓋的范圍。本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種語(yǔ)音識(shí)別系統(tǒng),其特征在于:包括:語(yǔ)音采集模塊,用于收集用戶待識(shí)別的語(yǔ)音數(shù)據(jù);預(yù)處理模塊,用于對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;特征提取模塊,用于從預(yù)處理后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音特征參數(shù);存儲(chǔ)模塊,用于存儲(chǔ)至少一個(gè)用戶的語(yǔ)音模型;模式匹配模塊,基于提取所述語(yǔ)音特征參數(shù),并且選擇對(duì)應(yīng)于所述語(yǔ)音特征參數(shù)的語(yǔ)音模型;參數(shù)調(diào)整模塊,用于通過使用所選擇的所述模式匹配模塊來調(diào)整語(yǔ)音參數(shù),所述語(yǔ)音參數(shù)是用于識(shí)別所述待識(shí)別的語(yǔ)音數(shù)據(jù)的語(yǔ)音指令和語(yǔ)意;語(yǔ)音指令識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)音指令;語(yǔ)意識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)意。
【技術(shù)特征摘要】
1.一種語(yǔ)音識(shí)別系統(tǒng),其特征在于:包括:語(yǔ)音采集模塊,用于收集用戶待識(shí)別的語(yǔ)音數(shù)據(jù);預(yù)處理模塊,用于對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;特征提取模塊,用于從預(yù)處理后的所述待識(shí)別的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音特征參數(shù);存儲(chǔ)模塊,用于存儲(chǔ)至少一個(gè)用戶的語(yǔ)音模型;模式匹配模塊,基于提取所述語(yǔ)音特征參數(shù),并且選擇對(duì)應(yīng)于所述語(yǔ)音特征參數(shù)的語(yǔ)音模型;參數(shù)調(diào)整模塊,用于通過使用所選擇的所述模式匹配模塊來調(diào)整語(yǔ)音參數(shù),所述語(yǔ)音參數(shù)是用于識(shí)別所述待識(shí)別的語(yǔ)音數(shù)據(jù)的語(yǔ)音指令和語(yǔ)意;語(yǔ)音指令識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)音指令;語(yǔ)意識(shí)別模塊,用于基于調(diào)整的所述語(yǔ)音參數(shù)來識(shí)別所述用戶的所述語(yǔ)意。2.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述預(yù)處理模塊包括模數(shù)轉(zhuǎn)換單元、信號(hào)放大單元、增益控制單元、降噪單元、濾波單元和采樣單元,用于依次對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行將采集到的模擬語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為數(shù)字語(yǔ)音數(shù)據(jù)、數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行放大、校正所述數(shù)字語(yǔ)音數(shù)據(jù)的增益、消除所述數(shù)字語(yǔ)音數(shù)據(jù)中的噪聲、對(duì)所述所述數(shù)字語(yǔ)音數(shù)據(jù)進(jìn)行濾波和采樣。3.根據(jù)權(quán)利要求2所述的語(yǔ)音識(shí)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:斯琴高娃,尹利平,吳坤書,錢勇,
申請(qǐng)(專利權(quán))人:海南職業(yè)技術(shù)學(xué)院,
類型:發(fā)明
國(guó)別省市:海南,46
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。