本發明專利技術公開了一種基于基頻包絡的漢語普通話孤立詞識別方法,包括以基頻包絡的形式事先存貯在模板庫中的詞匯,還依次包括以下步驟:1)語音切割并降噪;2)提取語音的基頻特征;3)判斷:當語料是用來訓練、即語料庫中沒有相應的詞匯時,進入步驟4);當語料是用來識別時,進入步驟5);4)將該語料的基頻特征加入到模板庫中;5)比較測試語音與模板的基頻包絡之間的相似性,取與測試語音距離最小的模板所代表的詞匯作為識別結果;6)輸出識別結果。本發明專利技術的方法通過對漢語聲調的研究,依靠比較測試語音和模板的基頻包絡之間的相似性,從而實現漢語普通話孤立詞識別。
【技術實現步驟摘要】
本專利技術涉及孤立詞識別技術,特別是一種通過比較測試語音和模板的基頻包絡之間的 相似性來進行漢語普通話孤立詞識別的方法。
技術介紹
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語 音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。 語音識別是一門交叉學科。語音識別技術所涉及的領域包括信號處理、模式識別、概率 論和信息論、發聲機理和聽覺機理、人工智能等等。近二十年來,語音識別技術取得顯著 進歩,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家 電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。根據語音是連續的還是每次說一個詞,語音識別分為連續語音識別和孤立詞識別。在 連續語音識別中,很難決定一個詞的起始位置。此外,在連續語音識別中由于語音和詞根 據上下文的不同展現了很大的變化,所以連續語音識別比孤立詞識別要困難。 一個典型的 孤立詞識別系統包括如何歸一化語音信號中的變化;什么是語音信號的參數表示;系統 如何適應新的說話人或詞匯;如何度量兩段語料之間的相似性;如何加速匹配過程。在語 音信號的參數表示方面,短時頻譜特征(如線性預測譜)和頻率規整的頻譜特征(如梅爾 倒譜系數)被廣泛使用。在度量兩段語料的相似性時,通常使用經典的模式識別方法,包 括基于模板的方法,如動態時間規整(DTW),以及統計方法,如隱馬爾可夫模型(HMM)。 當前的孤立詞識別系統在某些情況下識別率可以達到90%以上。漢語是聲調語言,而基頻 包絡(Pitch Contour)能從一定程度上反映漢語聲調,將對漢語聲調的研究應用到漢語孤 立詞識別中,這方面的研究還很少。
技術實現思路
本專利技術要解決的技術問題是提供, 該方法通過對漢語聲調的研究,依靠比較測試語音和模板的基頻包絡之間的相似性,從而實現漢語普通話孤立詞識別。為了解決上述技術問題,本專利技術提供一種基于基頻包絡的漢語普通話孤立詞識別方 法,包括以基頻包絡的形式事先存貯在模板庫中的詞匯,依次包括以下步驟1) 、語音切割并降噪;2) 、提取語音的基頻特征;3) 、判斷當語料是用來訓練、即語料庫中沒有相應的詞匯時,進入步驟4); 當語料是用來識別時,進入步驟5);4) 、將該語料的基頻特征加入到模板庫中;5) 、比較測試語音與模板的基頻包絡之間的相似性,取與測試語音距離最小的模板所 代表的詞匯作為識別結果;6) 、輸出識別結果。作為本專利技術的基于基頻包絡的漢語普通話孤立詞識別方法的改進步驟2)采用自相關算法提取語音基頻。作為本專利技術的基于基頻包絡的漢語普通話孤立詞識別方法的進一步改進步驟5)采 用了動態時間規整(DTW)的方法來比較測試語音與模板的基頻包絡之間的相似性。作為本專利技術的基于基頻包絡的漢語普通話孤立詞識別方法的進一歩改進步驟5)中 通常不同的詞在基頻的時長方面存在差異,因此需要進行基頻時長方面的補償;在DTW算 出測試語音與模板之間的距離后,如果測試語音的基頻時長與模板的基頻時長的差異大于 某一閾值,那么就對距離進行補償。作為本專利技術的基于基頻包絡的漢語普通話孤立詞識別方法的進一步改進步驟l)中使用短時能量檢測語音端點,并降噪音,即靜音切除。漢語屬于音節聲調語言,音節單說時有一定的聲調,不能任意改變;如果改變了,這 個音節的意義也改變,由它組成的詞義也就完全不同了。漢語聲調的調型分為4種陰平、 陽平、上聲和去聲。聲調是利用嗓音音調(聲帶振動)的高低來區別詞義的。聲調的一種 定義是在一種語言中,音高(Pitch)隨時間的變化模式具有詞匯意義時,這種音高模式就是聲調。音高是指聲帶每秒鐘振動的次數,又叫基頻(Fundamental Frequency, F0)。圖1 顯示了漢語普通話中開燈這個詞的基頻包絡示意圖。漢語的聲調模式在基頻曲線上主 要表現為元音和濁輔音。聲調聽覺征兆的研究表明基頻曲線是聲調的最本質特征,因此聲調模型也主要是針對基頻曲線建模??捎糜诒容^基頻包絡相似性的方法有多種,本專利技術在實施過程中采用了動態時間規整 (DTW)的方法。語音信號的準平穩隨機特性,使得即使是同一說話人發同一話音的不同 次發音,語音的音長也往往不同,相應的語音特征序列長度(幀數)也不相同,因此測試 音特征序列和模板特征序列在時間上對齊的問題是孤立詞識別領域的基本問題。在這種情 況下,動態時間規整(Dynamic Time Warping, DTW)技術被提出來,并在語音識別中得到 了廣泛的應用,它比較有效的解決了語音特征矢量與參考模板之間的時間對準與匹配問 題。可以說,DTW技術的出現是語音識別中的一個歷程碑,它使語音識別技術空前活躍 起來?;l的檢測和估計是語音信號處理的重要內容,尤其在漢語語音處理中更是如此,這 是因為漢語的聲調主要體現在音節韻母部分F0隨時間變化的軌跡上。準確的基頻檢測和 估計算法對于聲調的建模、分析起了關鍵的作用。常見的基頻檢測算法分為三類。第一類 是時域檢測算法,這一類算法是直接由語音信號的波形來估計基頻。常見的算法有自相關 法、并行處理法等。第二類是變換域基頻檢測算法,這一類算法是將語音信號變換到頻域 或其他空間來估計基音周期。常見的有倒頻譜法、小波法等。第三類算法是激勵源估計類 算法,這一類算法的特點是通過語音信號的產生模型來估計聲門閉合點(Glottal Closure) 以求出激勵源信號。常見的算法有LPC逆濾波法。本專利技術在實施過程中采用了自相關算法 提取語音的基頻包絡。綜上所述,本專利技術是針對特定人有限詞匯量詞庫,提出了一種通過比較測試語音和模 板的基頻包絡之間的相似性來進行漢語普通話孤立詞識別的方法;主要用于特定人有限詞 匯量的漢語孤立詞識別。本專利技術將反映聲調的基頻包絡應用于漢語普通話孤立詞識別,這 樣能夠充分利用了漢語是聲調語言的特性。本專利技術的有益效果是利用漢語是聲調語言的特點,針對特定人有限詞匯量的應用背 景,通過比較測試語音和模板的基頻包絡之間的相似性進行漢語孤立詞識別并且能夠達到 很高的正確識別率。附圖說明下面結合附圖對本專利技術的具體實施方式作進一步詳細說明。 圖1是開燈的基頻包絡示意圖; 圖2是本專利技術的算法流程圖;圖3是圖2中的自相關算法提取基頻包絡的流程圖; 圖4是圖2中的DTW的算法示意圖。具體實施例方式實施例l、圖2 圖4結合給出了,包括將一些常用詞匯以基頻包絡的形式事先存貯在模板庫中,然后依次進行以下步驟 1)、語音切割使用短時能量檢測語音端點語音信號經采樣后,計算每一幀語音信號的能量,如果 該能量大于某一閾值,則保留該幀,否則剔除該幀。語音切割的參數如下表1所示<table>table see original document page 6</column></row><table>2)、提取語音的基頻特征;使用自相關算法提取語音的基頻。自相關算法是指通過短時自相關函數對基頻估值的 算法,它一般是通過求中心削波后的語音信號自相關函數的極值加上其他條件來進行清濁 音判斷和基頻估計。下面結合圖3具體介紹一下自相關算法提取基頻的步驟。(1) 預處理為了去除加了海寧窗的在納奎斯特率附近的信號分量的傅立葉變換的旁波瓣,我們實本文檔來自技高網...
【技術保護點】
一種基于基頻包絡的漢語普通話孤立詞識別方法,包括以基頻包絡的形式事先存貯在模板庫中的詞匯,其特征是依次包括以下步驟:?。保?、語音切割并降噪;?。玻?、提取語音的基頻特征;?。常?、判斷: 當語料是用來訓練、即語料庫中沒有 相應的詞匯時,進入步驟4); 當語料是用來識別時,進入步驟5); 4)、將該語料的基頻特征加入到模板庫中;?。担?、比較測試語音與模板的基頻包絡之間的相似性,取與測試語音距離最小的模板所代表的詞匯作為識別結果; 6)、 輸出識別結果。
【技術特征摘要】
1、一種基于基頻包絡的漢語普通話孤立詞識別方法,包括以基頻包絡的形式事先存貯在模板庫中的詞匯,其特征是依次包括以下步驟1)、語音切割并降噪;2)、提取語音的基頻特征;3)、判斷當語料是用來訓練、即語料庫中沒有相應的詞匯時,進入步驟4);當語料是用來識別時,進入步驟5);4)、將該語料的基頻特征加入到模板庫中;5)、比較測試語音與模板的基頻包絡之間的相似性,取與測試語音距離最小的模板所代表的詞匯作為識別結果;6)、輸出識別結果。2、 根據權利要求l所述的基于基頻包絡的漢語普通話孤立詞識別方法,其特征是所述 步驟2)采用自相關算...
【專利技術屬性】
技術研發人員:楊瑩春,吳朝暉,魏春明,
申請(專利權)人:浙江大學,
類型:發明
國別省市:86[中國|杭州]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。