• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>三星電子株式會社專利>正文

    增強(qiáng)語音識別系統(tǒng)穩(wěn)健性的方法技術(shù)方案

    技術(shù)編號:3764466 閱讀:273 留言:0更新日期:2012-04-11 18:40
    提出了用于增強(qiáng)語音識別系統(tǒng)的穩(wěn)健性噪聲估計方法,所述方法包括:根據(jù)當(dāng)前信號段的瞬時功率譜更新語音信號功率譜的長時平均值和語音信號功率譜的長時平均值的最小值;根據(jù)功率譜長時平均值的最小值計算語音信號的第一頻域信噪比;根據(jù)第一頻域信噪比來判決不同頻率分布區(qū)域是否存在有效語音的判決,基于所述判決估計瞬時的第一噪聲功率譜;根據(jù)估計的第一噪聲功率譜來更新噪聲的功率譜長時平均值和噪聲的功率譜長時平均值的最小值;根據(jù)更新的噪聲的功率譜長時平均值的最小值再次估計語音信號的第二頻域信噪比;基于第二次估計得到的第二頻域信噪比估計頻域中存在語音的概率;基于語音存在的概率估計第二噪聲功率譜。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及自動語音識別技術(shù),具體地,涉及用于在嘈雜環(huán)境中增強(qiáng)語音識別系統(tǒng)穩(wěn)健性能的方法。
    技術(shù)介紹
    如今,語音識別技術(shù)被廣泛使用。例如,呼叫中心使用大規(guī)模的語音識別系統(tǒng)來識 別用戶的語音內(nèi)容并通過語音分析技術(shù)來自動回答用戶的問題。另外,可在語音識別引擎 的幫助下通過語音訪問互聯(lián)網(wǎng)服務(wù)。例如,一些網(wǎng)絡(luò)搜索服務(wù)提供商同時也推出了基于手 機(jī)平臺的語音搜索服務(wù),很大程度上解決了用戶在使用手機(jī)瀏覽網(wǎng)頁時,不方便輸入文字 的問題,提高了用戶的滿意程度。又例如,大量的電子玩具都裝備有嵌入式語音識別引擎, 從而使得它們能夠通過語音與玩家進(jìn)行互動。通過語音識別引擎掃描語音內(nèi)容并簡要概括 內(nèi)容或為了安全搜索敏感詞。通過語音識別引擎處理多媒體內(nèi)容的音軌以給出索引,從而 方便搜索或瀏覽。隨著語音識別技術(shù)的進(jìn)步,其使用范圍將越來越廣泛。然而,為了增強(qiáng)語音識別引擎的成功應(yīng)用,還需要解決一些復(fù)雜的問題。如何在噪 聲環(huán)境中提高語音識別引擎的穩(wěn)健性能是一個重要的問題。如果語音識別引擎暴露于嘈雜 的環(huán)境,則很難像在干凈或接近于干凈的環(huán)境下工作的一樣。目前,提出了各種技術(shù)和方法來提高語音識別系統(tǒng)的穩(wěn)健性。可從語音識別系統(tǒng) 的框架來研究如何提高語音識別系統(tǒng)的穩(wěn)健性能。現(xiàn)在,大部分成功的語音識別系統(tǒng)采用 如圖1所示的框架。圖1示出了語音識別系統(tǒng)的主要構(gòu)成框架,其中,一般可包括5個部 分前端處理模塊、頻譜處理模塊、倒譜處理模塊、高斯處理模塊、解碼模塊。首先,接收待分 析信號的前端處理模塊接收語音輸入信號,并將其轉(zhuǎn)換為能夠被二進(jìn)制機(jī)器處理的數(shù)字格 式。通常,前端處理模塊包括麥克風(fēng)、模擬/數(shù)字(A/D)轉(zhuǎn)換器和編解碼器。接下來,對數(shù) 字化的采樣進(jìn)行時間-頻率分析以提取能夠代表語音的特征的頻域特征。在多數(shù)情況下, 通過快速傅立葉變換(FTT)來實(shí)現(xiàn)該處理。然后,從頻率代表變換更好的代表特征。所述 的特征應(yīng)該是更具有代表性和/或區(qū)分度的,并組成精簡的特征集。現(xiàn)在最普遍的特征集 是梅爾頻率倒譜系數(shù)(Mel-FrequencyC印strum Coefficient),或者倒譜。接下來,通過一 些距離測量將倒譜與之前已知并存儲在機(jī)器中的一些統(tǒng)計信息進(jìn)行比較,搜索最有可能的 能夠產(chǎn)生提取的倒譜的語音單元。在多數(shù)情況下,該比較過程非常復(fù)雜且包括負(fù)責(zé)處理語 音信息的時間排列問題的耗時的解碼處理。在順序地搜索出每個倒譜的語音單元之后,可 輸出語音系列,并通過模擬語音信號給出語音內(nèi)容的猜測。通過猜測,機(jī)器可“識別”用戶 所說的語音。但是在噪聲存在的情況下,圖1的每個模塊的輸入與干凈情況下相比有很大失 真。例如,輸入模擬語音信號混雜有噪聲信號。這樣形成了噪聲頻譜,從噪聲頻譜提取的是 噪聲倒譜。當(dāng)將噪聲倒譜與已知的倒譜進(jìn)行比較時,由于不能從噪聲倒譜得到與干凈環(huán)境 中的對應(yīng)部分最近的距離測量,難以搜索出正確的語音單元。因此,搜索出錯誤的語音單 元。最后,順序輸出了偏離正確語音的錯誤的語音單元。通常,噪聲越多,識別的效果越差。例如,在車站、餐廳等公共場合,傳統(tǒng)的語音識別系統(tǒng)的識別效果很差。目前,為了解決該問題,如圖1所示,已經(jīng)公開了用于圖1中的各個模塊的增強(qiáng)方 法。例如,在前端處理過程中,可使用前端增強(qiáng)技術(shù)來從嘈雜的語音中估計干凈的語音。總 體說來,維納(Wiener)濾波方法是最常用的。可采用多麥克風(fēng)技術(shù)來提高干凈信號估計的 精確度。但是該技術(shù)方案需要多個麥克風(fēng)輸入信道,否則難以僅通過單信道的混合輸入估 計干凈的語音信號。但是在許多實(shí)際應(yīng)用中,硬件設(shè)計限制了多信道的使用,而改變硬件設(shè) 計是很困難的。 除了維納濾波外,還有其它很多方法嘗試從噪聲頻譜中估計干凈的語音頻譜。比 如,在估計了噪聲頻譜之后,從嘈雜的頻譜中減去噪聲頻譜。這一類的方法被命名為噪聲頻 譜減法。這類方法在語音增強(qiáng)技術(shù)中起到了長久和成功的效應(yīng)。已經(jīng)開發(fā)了多種良好的算 法從混合的頻譜中估計干凈的頻譜。此外,如果允許采用多信道,則可更大程度地提高性 能。但是該方法也具有天然的缺陷。首先,從單信道輸入的混合的嘈雜頻譜中估計干凈的 頻譜仍是難題;其次,噪聲頻譜減法方法不能給出正確的語音頻譜估計,而只是給出計算的 可行近似度。因此,噪聲頻譜減法產(chǎn)生了錯誤因素,將降低語音識別引擎的性能。另外,多數(shù)補(bǔ)償方法都作用于倒譜域。提出了多種方法從嘈雜的噪聲倒譜估計干 凈的語音信號倒譜。例如,利用從嘈雜語音庫訓(xùn)練得到的預(yù)測參數(shù),從現(xiàn)場提取的嘈雜倒譜 估計干凈的語音倒譜,取得了較好性能。但是,由于該方法涉及大量的嘈雜語音庫來訓(xùn)練相 關(guān)參數(shù),因此難以復(fù)制其成功模式。噪聲語音庫的使用對于其他使用者,尤其是預(yù)算不足的 使用者來說是一個沉重的負(fù)擔(dān)。即使采用相同的方法,但是如果不使用代表性的噪聲語音 庫,也難以得到理想的性能。雖然已經(jīng)提出了多種方法來提高語音識別系統(tǒng)的穩(wěn)健性能,然而目前在強(qiáng)噪聲和 一般應(yīng)用場合下提高語音識別系統(tǒng)的穩(wěn)健性能仍是難題。某些特定的應(yīng)用可以很好地處理 在某些背景環(huán)境下的問題,例如,設(shè)計用于室內(nèi)環(huán)境的語音識別系統(tǒng)可處理在室內(nèi)的語音 環(huán)境下的識別穩(wěn)健性能。然而,一般性的解決方案仍有待開發(fā)。另一個問題是,目前的語音 識別方案都具有不同的缺點(diǎn),例如,一些方案需要承載巨大的計算量,而另一些方案需要大 量的噪聲訓(xùn)練庫。因此,尤其對于嵌入式語音識別系統(tǒng)來說,低成本、沒有訓(xùn)練需求、幀同步 處理和在不同情況下良好的底線的高效語音識別設(shè)備仍是亟待解決的問題。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)提出了一種增強(qiáng)語音識別系統(tǒng)穩(wěn)健性能的方法,以支持實(shí)時幀同步處理, 并可以在不需要噪聲訓(xùn)練庫的訓(xùn)練的情況下高效的工作,以此更加適合于在考慮嵌入式系 統(tǒng)平臺的計算資源的限制的情況下使用。根據(jù)本專利技術(shù)的一方面,提出了一種增強(qiáng)語音識別系統(tǒng)穩(wěn)健性的噪聲估計方法,包 括步驟對輸入的語音信號進(jìn)行分段處理;根據(jù)當(dāng)前信號段的瞬時功率譜更新語音信號功 率譜的長時平均值和語音信號功率譜的長時平均值的最小值;將更新后的功率譜長時平均 值的最小值作為對噪聲功率譜的估計,計算語音信號的第一頻域信噪比;根據(jù)第一頻域信 噪比來判決不同頻率分布區(qū)域是否存在有效語音的判決,基于所述判決估計瞬時的第一噪 聲功率譜;根據(jù)估計的第一噪聲功率譜來更新噪聲的功率譜長時平均值和噪聲的功率譜長 時平均值的最小值;將更新的噪聲的功率譜長時平均值的最小值作為對噪聲功率譜的第二次估計再次估計語音信號的第二頻域信噪比;基于第二次估計得到的第二頻域信噪比估計 頻域中存在語音的概率;基于語音存在的概率估計第二噪聲功率譜。根據(jù)本專利技術(shù)的另一方面,還提出了一種用于增強(qiáng)語音識別系統(tǒng)的穩(wěn)健性的噪聲補(bǔ) 償方法,包括從語音信號功率譜減去估計的噪聲功率譜;在梅爾頻域上對減去噪聲功率 譜的語音信號進(jìn)行指數(shù)運(yùn)算處理;提取指數(shù)運(yùn)算處理的語音信號的梅爾頻率倒譜系數(shù)作為 噪聲補(bǔ)償后的語音信號的特征系數(shù)。附圖說明通過下面結(jié)合附圖對實(shí)施例的詳細(xì)描述,本專利技術(shù)的上述和/或其他方 面將會變得 清楚和更容易理解,其中圖1是示出傳統(tǒng)的語音識別系統(tǒng)的主要構(gòu)成框架的框圖;圖2示出的是傳統(tǒng)的嵌入移動終端的語音識別引擎的結(jié)構(gòu);圖3是示出根據(jù)本專利技術(shù)實(shí)施例的用于增強(qiáng)語音識別系統(tǒng)的穩(wěn)健性能的設(shè)備的總 體框圖;圖4是示出根據(jù)本專利技術(shù)實(shí)施例的語音識別系統(tǒng)的噪聲估計模塊的工作過程本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種用于增強(qiáng)語音識別系統(tǒng)穩(wěn)健性的噪聲估計方法,其特征在于包括步驟:根據(jù)當(dāng)前信號段的瞬時功率譜更新語音信號功率譜的長時平均值和語音信號功率譜的長時平均值的最小值;將更新后的所述功率譜長時平均值的最小值作為對噪聲功率譜的估計,計算語音信號的第一頻域信噪比;根據(jù)所述第一頻域信噪比來判決不同頻率分布區(qū)域是否存在有效語音,并基于該判決估計瞬時的第一噪聲功率譜;根據(jù)所述第一噪聲功率譜來更新噪聲的功率譜長時平均值和噪聲的功率譜長時平均值的最小值;將更新的噪聲的功率譜長時平均值的最小值作為對噪聲功率譜的第二次估計計算語音信號的第二頻域信噪比;基于所述第二次估計得到的第二頻域信噪比估計頻域中存在語音的概率;基于語音存在的概率估計第二噪聲功率譜。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:史媛媛朱璇鄧菁
    申請(專利權(quán))人:三星電子株式會社北京三星通信技術(shù)研究有限公司
    類型:發(fā)明
    國別省市:KR[韓國]

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 永久免费无码日韩视频| 无码人妻少妇久久中文字幕蜜桃| 无码一区二区三区在线观看 | 亚洲日韩v无码中文字幕| 国产精品视频一区二区三区无码| 久久AV高清无码| 亚洲av无码成人精品区在线播放| 无码中文字幕av免费放dvd| 国产精品无码制服丝袜| 日韩免费无码一区二区三区| 人妻无码久久精品| 中文无码一区二区不卡αv| 亚洲韩国精品无码一区二区三区 | 午夜无码人妻av大片色欲| 最新高清无码专区| 天码av无码一区二区三区四区| 日韩网红少妇无码视频香港| 国产精品va在线观看无码| 亚洲AV无码国产一区二区三区| 无码人妻熟妇AV又粗又大| 中文字幕久久精品无码| 亚洲精品无码成人片在线观看| 亚洲熟妇无码AV| 高清无码中文字幕在线观看视频| 国产成人精品无码播放| 中文字幕无码av激情不卡久久| 爆乳无码AV一区二区三区| 加勒比无码一区二区三区| 99无码人妻一区二区三区免费| 亚洲va无码专区国产乱码| 国产∨亚洲V天堂无码久久久| 中文成人无码精品久久久不卡| 国产激情无码一区二区三区| 狼人无码精华AV午夜精品| 尤物永久免费AV无码网站| 天码av无码一区二区三区四区| 免费A级毛片无码久久版 | 少妇无码太爽了不卡视频在线看 | 人妻系列无码专区久久五月天 | 国产午夜鲁丝片AV无码| 免费VA在线观看无码|