• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    語音識別系統中評估發聲的方法技術方案

    技術編號:3047581 閱讀:172 留言:0更新日期:2012-04-11 18:40
    本公開內容提供在講話者有關系統的框架內為檢測詞匯外發聲而計算標準填料或廢料模型的手段。具體說,本方法包括以下步驟:在語音識別系統中接收新訓練數據(202);計算新訓練數據的統計參數(204);根據統計參數為新訓練數據計算全局統計參數(206);及根據全局統計參數更新廢料模型(208)。當用戶錄用詞匯時在線地執行以上步驟。廢料模型最好是表示用戶當前錄用的全部語音數據的平均講話者模型。廢料模型優選地作為錄用詞匯過程的副產品而獲取。(*該技術在2019年保護過期,可自由使用*)

    【技術實現步驟摘要】

    本專利技術涉及語音識別系統,更具體地涉及一種在。大部分講話者有關語音識別系統沒有能力檢測由于詞匯外(OOV)詞或被環境噪音所嚴重破壞的發聲所引起的識別誤差。其結果是,不必要的識別誤差可能使用戶失望和使本來可靠的語音識別系統的可察覺的優點顯示不出來。誤差檢測是語音識別系統為改善它們總體可用性所必需的手段。對于一個單獨的詞,命令和控制型識別器而言,會遇到三類識別誤差。第一類誤差稱為刪除誤差,當輸入發聲或未被識別為任何詞或被識別為環境噪音時即發生此類誤差。在此情況下,用戶接口應恰當處理此類誤差并重新提示用戶重復該發聲。第二類誤差是插入誤差,當用戶未說任何詞而系統識別一個不正確詞時,發生這類誤差。最后,第三類誤差是替代誤差,識別到不正確詞而不是正確發聲時發生此類誤差。當用戶或說有效詞匯中詞或不留意地輸入OOV發聲時這都能發生。在講話者有關識別系統中,當用戶試圖選用他們并未錄用的詞或當它們已忘記以前錄用過詞的準確發聲時,通常會輸入詞匯外發聲。語音識別器也會將特別大的背景噪音或背景談話誤認為有效輸入發聲。所造成的替代和插入誤差會最具有危害性,因系統可能因此啟動非法操作,而以后用戶還必須取消此操作。識別并恰當地處理這兩類識別誤差的能力可以顯著提高語音識別系統的總體性能。此外,在語音識別系統用于手忙或眼忙情況(如開車時)的事件中,系統應避免要求用戶付出不必要的注意力。已研究和實施了許多供單獨的和連續型的識別系統用于檢測識別誤差的涉及基于閾值的可靠度度量的技術。已使用基于N-最佳維特比(Viterbi)搜索結果的可靠度度量。雖然這些技術對識別一定替代誤差是有用的,但它們不是用于識別OOV的發生的合適方法。當考慮到低成本DSP實施時,基于N-最佳搜索方法的可靠度度量的不斷增大的計算復雜性會是明顯的缺點。現有技術的涉及OOV發聲的排斥的講話者無關系統是基于顯式廢料或填料模型的,該模型是在OOV發聲的多講話者數據庫上離線訓練的。該模型的特征是語音識別系統數據存儲中詞匯項目的參數化表示。模型的典型表示包括如動態時間反卷(DTW)型識別器中使用的常規模板,如隱藏馬爾柯夫模型(HMM)識別器中現有的統計學表示,或用于表示多層人工神經網絡(ANN)特征的一組加權系數。在顯式廢料模型中,當輸入發聲對應于一個OOV項目時,由標準Viterbi譯碼器得出的最佳匹配對應于廢料模型。此方法學通常不適用于講話者有關系統,因OOV發聲數據庫無法事先用于訓練具體用戶的離線模型的。此外,只為了訓練在線廢料模型的目的而要求用戶提供一系列輸入記號而不是正規用戶詞匯的一部分的做法也是不現實的。但另一個原先用于關鍵詞辨認應用中的現有技術方法并不要求顯式的填料模型。此方法基于平均局部廢料值,該值是從每個時間幀的N-最佳值中計算而得。例如,一個幀可定義為一個時間段,在此時間段內自語音信號中提取出某些有關參數。此幀即成為識別器操作中的時間單元,一旦完成譯碼過程,將所識別發聲的端點處的局部廢料值求和,即可算出總廢料值。然而,這種方法的缺點是總廢料值在后處理步驟中計算,同時它依賴于對應于最佳詞匯匹配的端點。這種方法也必然包含廢料模型與所識別發聲的完全對準,而這種強迫的對準可能不如依賴于單獨模型用于處理OOV發生的技術有效和準確。因此,需要一種在講話者有關系統的框架中計算用于檢測OOV發聲的標準廢料模型的方法。附圖說明圖1是根據本專利技術的語音識別系統訓練模塊的功能框圖;圖2是根據本專利技術的講話者有關聲音識別系統中一種用于生成和更新廢料模型的方法的流程圖;圖3是根據本專利技術的語音識別系統用的識別模塊的功能框圖;以及圖4是一個流程圖,用于顯示一種根據本專利技術用于檢測有效發聲和排除詞匯外發聲的方法;以及圖5是一個流程圖,用于顯示一種根據本專利技術的替代實施例的檢測有效發聲和排除詞匯外發聲的方法。本公開內容描述一種在線建模技術,它能排除不同操作環境中的OOV詞和一些其它替代型誤差。由于本公開內容中描述的方法提供更健壯的誤差處理機制,減少用戶可能碰到的煩惱,因此它改善了講話者有關系統的總體可用性。本公開內容中描述的方法試圖在不同環境條件下控制和減少替代或插入誤差的出現,與此同時還試圖盡少地排除那些相反地可以正確地由系統識別的發聲(即誤報警率)。具體說,本公開內容提供了一種在講話者有關系統的框架中計算用于檢測OOV發聲的標準填料(或廢料)模型的方法。當用戶錄用詞匯時該方法在線地被執行,而廢料模型作為錄用詞匯過程的副產品而被生成。因此,該方法不需要任何附加計算,而只需要最少的附加存儲量。本公開內容的方法不需離線估算廢料模型參數,也不需用戶在此訓練過程中提供可能的OOV發聲。此公開內容中描述的廢料模型可考慮為一個平均講話者模型,表示當今用戶錄用的全部語音數據,并優選地在特征上和拓撲結構上類似于模型存儲庫中可用的所有其它正規詞匯模型。當以與所有其它和標準詞匯項目相關連的模型相同的方式處理廢料模型時,最好使用加權系數以調整其局部補償。與現有技術方法不同,為確認輸入發聲的有效性,不需要后處理或詞端點計算。因為模型復雜性通常小于與正規詞匯項目相關連的模型,因此本專利技術的技術對識別器的總體實時性能并無重大影響,而與此同時卻對于可能的識別誤差的辨別提供附加保證。在識別階段,本專利技術的方法既與OOV項目匹配,也與那些和現有詞匯模型中的一個并不很好匹配的詞匯內發聲匹配。考慮到訓練階段期間唯一可用數據是有效語音數據,用于確定廢料模型的可能方法可以基于由用戶隨時提供的所有語音數據的均值。此平均或全局講話者模型將然后在識別階段中用于包涵甚廣的模型的目的。與此包涵甚廣的或廢料模型相關連的值將比當講出有效發聲時正確模型的值更壞。另一方面,當存在OOV發聲或由周圍噪音嚴重歪曲的發聲時,可以預料廢料模型的值比與表示有效發聲的模型相關連的任何值更好些。講話者有關系統中所用訓練算法非常適用于確定這類廢料模型。根據本專利技術,廢料模型作為訓練過程副產品而生成,而其估算無需附加計算。講話者有關系統最好基于HMM技術,其中每個HMM狀態最好由單個高斯密度表征。每個高斯密度的參數,即平均向量和協方差矩陣最好如下計算。每個HMM狀態的均值是根據模型的每個狀態中的特征向量賦值估算的。協方差矩陣是根據在所有現有詞匯項目的所有狀態下存儲起來以保證對環境變化的足夠堅實性的數據來計算的。當更多詞匯項目由用戶訓練時,將全局協方差矩陣更新以反映新數據。協方差矩陣及其相關的全局均值的精細化是用增量方式計算的,將現有統計學特性更新以考慮附加訓練發聲。此計算可由下列等式形式表示&Sigma;N=11+NoN{1N[&Sigma;k=1NXkXkT]-(1+NoN)MNMNT+NoN(&Sigma;o+MoNoT)}]]>其中[Mo∑o]是先前迭代全局樣本均值和樣本協方差估值,MN是根據將被訓練的重復的現有詞匯項目的參數化的語音X的N個樣本的樣本均值,及∑N是基于先前統計學數據和現有數據兩者的新全局協方差矩陣估值。然后每當用戶訓練一個新詞匯項目時重復此更新過程。當可用更多數據時,可獲得更堅實的協方差估值,后者然后替代所有訓練的詞匯項目的先前估值。這些表示所有用戶語音的統計學信息的全局協方差和均值估值也可用于表征一個單狀態本文檔來自技高網...

    【技術保護點】
    一種在語音識別系統中評估發聲的方法,所述方法包括以下步驟: 在所述語音識別系統中接收新訓練數據; 為所述新訓練數據計算統計參數; 根據所述統計參數為所述新訓練數據計算全局統計參數;以及 根據所述全局統計參數更新一個廢料模型。

    【技術特征摘要】
    US 1998-1-30 0162141.一種在語音識別系統中評估發聲的方法,所述方法包括以下步驟在所述語音識別系統中接收新訓練數據;為所述新訓練數據計算統計參數;根據所述統計參數為所述新訓練數據計算全局統計參數;以及根據所述全局統計參數更新一個廢料模型。2.權利要求1的評估發聲的方法,其中所述為所述新訓練數據計算統計參數的步驟包括為所述新訓練數據計算均值和協方差。3.權利要求1的評估發聲的方法,其中所述計算全局統計參數的步驟包括為所述新訓練數據計算全局均值和全局協方差。4.權利要求1的評估發聲的方法,其中所述計算全局統計參數的步驟包括根據先前全局統計參數和所述統計參數為所述新訓練數據計算全局統計參數。5.權利要求1的評估發聲的方法,其中所述計算全局統計參數的步驟包括根據在開始訓練過程之前自可用的訓練數據的數據庫中推導出的先前全局均值和先前全局方差及所述新數據的所述均值和所述方差來計算全局統計參數。6.權利要求1的評估發聲的方法,其中所述更新廢料模型的步驟包括生成單狀態HMM。7.權利要求1的評估發聲的方法,進一步包括接收新識別數據并將所述新識別數據的模型與先前存放于所述語音識別系統中的眾多模型進行比較的步驟。8.權利要求7的評估發聲的方法,其中所述比較所述新識別數據的模型的步驟進一步包括在逐幀基礎上搜索數據和為每幀所述新識別數據生成每個模型的更新值的步驟。9.權利要求8的評估發聲的方法,進一步包括當評估所述廢料模型時使用定標系數為所述更新值加權的步驟。10.權利要求9的評估發聲的方法,其中所述為所述更新值加權的步驟包括根據環境條件使用定標系數調整所述更新值。11.權利要求10的評估發聲的方法,其中所述為所述更新值加權的步驟進一步包括感測所述環境條件中變化的步驟。12.權利要求9的評估發聲的方法,進一步包括以下步驟如果所述廢料模型在與所有其它有效模型一起評估時被選為最佳模型,則排除所述發聲。13.權利要求9的評估發聲的方法,其中所述為所述更新值加權的步驟包括在逐幀基礎上為所述更新值加權。14.權利要求7的評估發聲的方法,其中所述比較所述新識別數據的模型的步驟包括在逐個模型基礎上搜索數據和為所述新識別數據的每個模型生成一個更新值。15.權利要求14的評估發聲的方法,進一步包括當評估所述廢料模型時使用定標系數為所述更新值加權的步驟。16.權利要求15的評估發聲的方法,其中所述為所述更新值加權的步驟包括根據環境條件使用定標系數調整所述更新值。17.權利要求16的評估發聲的方法,其中所述為所述更新值加權的步驟進一步包括感測所述環境條件中變化的步驟。18.權利要求15的評估發聲的方法,進一步包括以下步驟如果所述廢料模型在與所有其它有效模型一起評估時被選為最佳模型,則排除所述發聲。19.權利要求15的評估發聲的方法,其中所述為所述更新值加權的步驟包括在逐幀基礎上為所述更新值加權。20.一種在用于接收數據的講話者有關語音識別系統中評估發聲的方法,所述方法包括以下步驟接收用戶供給的訓練數據;計算所述新訓練數據統計參數;根據所述均值和所述協方差為所述新訓練數據計算全局均值和全局方差;以及根據所述全局均值和所述全局協方差更新廢料模型。21.權利要求20的評估發聲的方法,其中計算所述新訓練數據統計參數的步驟包括計算所述新訓練數據的均值和協方差。22.權利要求20的評估發聲的方法,其中所述計算全局統計參數的步驟包括計算所述新訓...

    【專利技術屬性】
    技術研發人員:愛德華斯普倫格,杰弗里A穆昂爾,威廉M庫什納,
    申請(專利權)人:摩托羅拉公司,
    類型:發明
    國別省市:US[美國]

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文无码精品一区二区三区| 久久无码AV一区二区三区| 久久久久久国产精品无码超碰| 亚洲AV无码之国产精品| 亚洲AV中文无码乱人伦下载| 亚洲国产av无码精品| 国产精品无码2021在线观看| 中文无码字慕在线观看| 无码国内精品久久人妻| 日韩网红少妇无码视频香港| 狠狠精品干练久久久无码中文字幕| 亚洲AV无码一区二区三区人 | 性虎精品无码AV导航| 一道久在线无码加勒比| 亚洲爆乳无码精品AAA片蜜桃| 国产真人无码作爱视频免费| 亚洲欧洲精品无码AV| 国产福利无码一区在线| 无码福利写真片视频在线播放| 中出人妻中文字幕无码| 久久亚洲精品成人av无码网站| 亚洲av无码天堂一区二区三区 | 日韩精品人妻系列无码av东京| 亚洲性无码AV中文字幕| av色欲无码人妻中文字幕| 99久久人妻无码精品系列蜜桃| 国产在线精品无码二区| 精品无码国产自产拍在线观看蜜 | 性色av无码不卡中文字幕| 亚洲熟妇无码AV| 亚洲精品无码专区| 无码人妻丰满熟妇啪啪网站牛牛| 久久亚洲精品成人av无码网站| 精品少妇人妻av无码久久| 精品无码国产自产拍在线观看| 精品无码久久久久久尤物| 亚洲av午夜精品无码专区 | 中文字幕韩国三级理论无码| 亚洲精品无码不卡| 中文字幕亚洲精品无码| 日韩精品无码区免费专区|