【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及語音合成領(lǐng)域,特指一種語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法及系統(tǒng)。
技術(shù)介紹
語音合成是指將輸入的文本信息轉(zhuǎn)化為聲音的系統(tǒng),語音合成系統(tǒng)分為兩個(gè)模塊,前端處理模塊和后端模塊。在前端中對文本進(jìn)行分析,輸出帶有發(fā)音以及分詞、詞性等和韻律停頓相關(guān)的信息。后端模塊利用前端模塊的的輸出信息和原始語音提出的特征,分別訓(xùn)練倒譜參數(shù)模型,基頻參數(shù)模型和時(shí)長參數(shù)模型。參數(shù)語音合成系統(tǒng)的優(yōu)勢是模型小、方便合成定制、利于離線實(shí)現(xiàn)的場景。參數(shù)語音合成系統(tǒng)通常是基于標(biāo)準(zhǔn)語音數(shù)據(jù)庫,數(shù)據(jù)庫中包含語音文件和相應(yīng)的標(biāo)注信息文件。標(biāo)注信息分為三類,發(fā)音信息,韻律信息,時(shí)長切分信息。這些信息需要專業(yè)的標(biāo)注人員通過人工聽語音進(jìn)行判斷標(biāo)注,尤其是時(shí)長切分信息,時(shí)長映射信息的標(biāo)注包括語音中停頓的判斷和音素與語音時(shí)間的映射關(guān)系。若數(shù)據(jù)庫中的數(shù)據(jù)量龐大,這樣靠人工聽進(jìn)行停頓的標(biāo)注一方面使得數(shù)據(jù)庫建立的周期長,且成本高,經(jīng)濟(jì)效益較差。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法及系統(tǒng),解決現(xiàn)有技術(shù)中靠人工聽來標(biāo)注停頓的方法存在的周期長、成本高、且經(jīng)濟(jì)效益差的問題。實(shí)現(xiàn)上述目的的技術(shù)方案是:本專利技術(shù)一種語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,包括:獲取語音合成數(shù)據(jù)庫中待標(biāo)注的語音數(shù)據(jù);將所述語音數(shù)據(jù)轉(zhuǎn)化為語音特征幀序列并判斷所述語音特征幀序列中的停 ...
【技術(shù)保護(hù)點(diǎn)】
一種語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,其特征在于,包括:獲取語音合成數(shù)據(jù)庫中待標(biāo)注的語音數(shù)據(jù);將所述語音數(shù)據(jù)轉(zhuǎn)化為語音特征幀序列并判斷所述語音特征幀序列中的停頓信息,形成停頓信息的預(yù)測位置;從語音合成數(shù)據(jù)庫中獲取與所述語音數(shù)據(jù)對應(yīng)的文本數(shù)據(jù);利用自動(dòng)切分對齊方法計(jì)算所述語音數(shù)據(jù)和所述文本數(shù)據(jù)在時(shí)間軸上的映射關(guān)系;基于所述映射關(guān)系將所述停頓信息插入到所述文本數(shù)據(jù)中以形成標(biāo)注文本信息;以及利用自動(dòng)切分對齊方法計(jì)算所述語音數(shù)據(jù)和所述標(biāo)注文本信息在時(shí)間軸上的映射關(guān)系。
【技術(shù)特征摘要】 【專利技術(shù)屬性】
1.一種語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,其特征在于,包括:
獲取語音合成數(shù)據(jù)庫中待標(biāo)注的語音數(shù)據(jù);
將所述語音數(shù)據(jù)轉(zhuǎn)化為語音特征幀序列并判斷所述語音特征幀序列
中的停頓信息,形成停頓信息的預(yù)測位置;
從語音合成數(shù)據(jù)庫中獲取與所述語音數(shù)據(jù)對應(yīng)的文本數(shù)據(jù);
利用自動(dòng)切分對齊方法計(jì)算所述語音數(shù)據(jù)和所述文本數(shù)據(jù)在時(shí)間軸
上的映射關(guān)系;
基于所述映射關(guān)系將所述停頓信息插入到所述文本數(shù)據(jù)中以形成標(biāo)
注文本信息;以及
利用自動(dòng)切分對齊方法計(jì)算所述語音數(shù)據(jù)和所述標(biāo)注文本信息在時(shí)
間軸上的映射關(guān)系。
2.如權(quán)利要求1所述的語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,其
特征在于,將所述語音數(shù)據(jù)轉(zhuǎn)化為語音特征幀序列并判斷所述語音特征幀
序列中的停頓信息,形成停頓信息的預(yù)測位置,包括:
以設(shè)定的幀長和幀移對所述語音數(shù)據(jù)進(jìn)行分幀處理,獲得對應(yīng)的語音
特征幀序列;
計(jì)算所述語音特征幀序列中每一語音特征幀的能量值,形成對應(yīng)所述
語音特征幀序列的語音特征幀能量序列;
平滑所述語音特征幀能量序列,設(shè)定能量閾值,判斷得出所述語音特
征幀能量序列中低于所述能量閾值的能量值的起始幀和結(jié)束幀,形成預(yù)判
的停頓片段;
設(shè)定停頓時(shí)長,比較所述預(yù)判的停頓片段與所述停頓時(shí)長的大小,若
所述預(yù)判的停頓片段大于所述停頓時(shí)長,則判斷所述預(yù)判的停頓片段為停
頓信息。
3.如權(quán)利要求1所述的語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,其
特征在于,利用自動(dòng)切分對齊方法計(jì)算所述語音數(shù)據(jù)和所述文本數(shù)據(jù)在時(shí)
間軸上的映射關(guān)系,包括:
提取所述語音合成數(shù)據(jù)庫中多條語音數(shù)據(jù)的頻譜特征參數(shù);
利用所提取的頻譜特征參數(shù)和與多條語音數(shù)據(jù)對應(yīng)的文本數(shù)據(jù)迭代
訓(xùn)練頻譜特征聲學(xué)模型;
計(jì)算對應(yīng)待標(biāo)注的語音數(shù)據(jù)的語音頻譜特征參數(shù)和所述頻譜特征聲
學(xué)模型之間的相似度,以找到與待標(biāo)注的語音數(shù)據(jù)對應(yīng)的所述文本數(shù)據(jù)中
的音素序列的切分路徑。
4.如權(quán)利要求3所述的語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,其
特征在于,基于所述映射關(guān)系將所述停頓信息插入到所述文本數(shù)據(jù)中以形
成標(biāo)注文本信息,包括:
根據(jù)所述音素序列的切分路徑在時(shí)間軸上的位置信息,將所述停頓信
息按照時(shí)間軸的順序插入相應(yīng)的音素間。
5.如權(quán)利要求1所述的語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注方法,其
特征在于,還包括:對所形成的標(biāo)注文本信息進(jìn)行糾錯(cuò)處理,所述糾錯(cuò)處
理包括:
遍歷所述標(biāo)注文本信息,查找所述標(biāo)注文本信息中相鄰的聲母音素和
韻母音素間是否存有停頓信息,若存有停頓信息,則刪除所述停頓信息。
6.一種語音合成數(shù)據(jù)庫停頓信息自動(dòng)標(biāo)注系統(tǒng),其特征在于,包括:
語音獲取單元,與語音合成數(shù)據(jù)庫連接,用于從所述語音合成數(shù)據(jù)庫
中讀取待標(biāo)注的語音數(shù)據(jù);
停頓預(yù)測單元,與所述語音獲取單元連接,用于將所述語音獲取單元
讀取的語音數(shù)據(jù)轉(zhuǎn)化為語音特征幀序列并判斷得出所述語音特征幀序列
技術(shù)研發(fā)人員:劉青松,許東星,王鳴,黃盼,
申請(專利權(quán))人:上海語知義信息技術(shù)有限公司,
類型:發(fā)明
國別省市:上海;31
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。