語音識別系統中評估發聲的方法技術方案

技術編號：3047581 閱讀：172 留言：0更新日期：2012-04-11 18:40

本公開內容提供在講話者有關系統的框架內為檢測詞匯外發聲而計算標準填料或廢料模型的手段。具體說，本方法包括以下步驟：在語音識別系統中接收新訓練數據（２０２）；計算新訓練數據的統計參數（２０４）；根據統計參數為新訓練數據計算全局統計參數（２０６）；及根據全局統計參數更新廢料模型（２０８）。當用戶錄用詞匯時在線地執行以上步驟。廢料模型最好是表示用戶當前錄用的全部語音數據的平均講話者模型。廢料模型優選地作為錄用詞匯過程的副產品而獲取。（*該技術在2019年保護過期，可自由使用*）

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音識別系統，更具體地涉及一種在。大部分講話者有關語音識別系統沒有能力檢測由于詞匯外(OOV)詞或被環境噪音所嚴重破壞的發聲所引起的識別誤差。其結果是，不必要的識別誤差可能使用戶失望和使本來可靠的語音識別系統的可察覺的優點顯示不出來。誤差檢測是語音識別系統為改善它們總體可用性所必需的手段。對于一個單獨的詞，命令和控制型識別器而言，會遇到三類識別誤差。第一類誤差稱為刪除誤差，當輸入發聲或未被識別為任何詞或被識別為環境噪音時即發生此類誤差。在此情況下，用戶接口應恰當處理此類誤差并重新提示用戶重復該發聲。第二類誤差是插入誤差，當用戶未說任何詞而系統識別一個不正確詞時，發生這類誤差。最后，第三類誤差是替代誤差，識別到不正確詞而不是正確發聲時發生此類誤差。當用戶或說有效詞匯中詞或不留意地輸入OOV發聲時這都能發生。在講話者有關識別系統中，當用戶試圖選用他們并未錄用的詞或當它們已忘記以前錄用過詞的準確發聲時，通常會輸入詞匯外發聲。語音識別器也會將特別大的背景噪音或背景談話誤認為有效輸入發聲。所造成的替代和插入誤差會最具有危害性，因系統可能因此啟動非法操作，而以后用戶還必須取消此操作。識別并恰當地處理這兩類識別誤差的能力可以顯著提高語音識別系統的總體性能。此外，在語音識別系統用于手忙或眼忙情況(如開車時)的事件中，系統應避免要求用戶付出不必要的注意力。已研究和實施了許多供單獨的和連續型的識別系統用于檢測識別誤差的涉及基于閾值的可靠度度量的技術。已使用基于N-最佳維特比(Viterbi)搜索結果的可靠度度量。雖然這些技術對識別一定替代誤差是有用的，但它...

【技術保護點】
一種在語音識別系統中評估發聲的方法，所述方法包括以下步驟：在所述語音識別系統中接收新訓練數據；為所述新訓練數據計算統計參數；根據所述統計參數為所述新訓練數據計算全局統計參數；以及根據所述全局統計參數更新一個廢料模型。

【技術特征摘要】
US 1998-1-30 0162141.一種在語音識別系統中評估發聲的方法，所述方法包括以下步驟在所述語音識別系統中接收新訓練數據；為所述新訓練數據計算統計參數；根據所述統計參數為所述新訓練數據計算全局統計參數；以及根據所述全局統計參數更新一個廢料模型。2.權利要求1的評估發聲的方法，其中所述為所述新訓練數據計算統計參數的步驟包括為所述新訓練數據計算均值和協方差。3.權利要求1的評估發聲的方法，其中所述計算全局統計參數的步驟包括為所述新訓練數據計算全局均值和全局協方差。4.權利要求1的評估發聲的方法，其中所述計算全局統計參數的步驟包括根據先前全局統計參數和所述統計參數為所述新訓練數據計算全局統計參數。5.權利要求1的評估發聲的方法，其中所述計算全局統計參數的步驟包括根據在開始訓練過程之前自可用的訓練數據的數據庫中推導出的先前全局均值和先前全局方差及所述新數據的所述均值和所述方差來計算全局統計參數。6.權利要求1的評估發聲的方法，其中所述更新廢料模型的步驟包括生成單狀態HMM。7.權利要求1的評估發聲的方法，進一步包括接收新識別數據并將所述新識別數據的模型與先前存放于所述語音識別系統中的眾多模型進行比較的步驟。8.權利要求7的評估發聲的方法，其中所述比較所述新識別數據的模型的步驟進一步包括在逐幀基礎上搜索數據和為每幀所述新識別數據生成每個模型的更新值的步驟。9.權利要求8的評估發聲的方法，進一步包括當評估所述廢料模型時使用定標系數為所述更新值加權的步驟。10.權利要求9的評估發聲的方法，其中所述為所述更新值加權的步驟包括根據環境條件使用定標系數調整所述更新值。11.權利要求10的評估發聲的方法，其中所述為所述更新值加權的步驟進一步包括感測所述環境條件中變化的步驟。12.權利要求9的評估發聲的方法，進一步包括以下步驟如果所述廢料模型在與所有其它有效模型一起評估時被選為最佳模型，則排除所述發聲。13.權利要求9的評估發聲的方法，其中所述為所述更新值加權的步驟包括在逐幀基礎上為所述更新值加權。14.權利要求7的評估發聲的方法，其中所述比較所述新識別數據的模型的步驟包括在逐個模型基礎上搜索數據和為所述新識別數據的每個模型生成一個更新值。15.權利要求14的評估發聲的方法，進一步包括當評估所述廢料模型時使用定標系數為所述更新值加權的步驟。16.權利要求15的評估發聲的方法，其中所述為所述更新值加權的步驟包括根據環境條件使用定標系數調整所述更新值。17.權利要求16的評估發聲的方法，其中所述為所述更新值加權的步驟進一步包括感測所述環境條件中變化的步驟。18.權利要求15的評估發聲的方法，進一步包括以下步驟如果所述廢料模型在與所有其它有效模型一起評估時被選為最佳模型，則排除所述發聲。19.權利要求15的評估發聲的方法，其中所述為所述更新值加權的步驟包括在逐幀基礎上為所述更新值加權。20.一種在用于接收數據的講話者有關語音識別系統中評估發聲的方法，所述方法包括以下步驟接收用戶供給的訓練數據；計算所述新訓練數據統計參數；根據所述均值和所述協方差為所述新訓練數據計算全局均值和全局方差；以及根據所述全局均值和所述全局協方差更新廢料模型。21.權利要求20的評估發聲的方法，其中計算所述新訓練數據統計參數的步驟包括計算所述新訓練數據的均值和協方差。22.權利要求20的評估發聲的方法，其中所述計算全局統計參數的步驟包括計算所述新訓...

【專利技術屬性】
技術研發人員：愛德華斯普倫格，杰弗里A穆昂爾，威廉M庫什納，
申請(專利權)人：摩托羅拉公司，
類型：發明
國別省市：US[美國]

全部詳細技術資料下載我是這個專利的主人

相關技術