一種聲音轉換方法及裝置制造方法及圖紙

技術編號：12618280 閱讀：117 留言：0更新日期：2015-12-30 15:27

本發明專利技術公開了一種聲音轉換方法及裝置，該方法包括：接收待轉換語音數據；對所述待轉換語音數據進行語音識別，得到識別結果及所述識別結果的時長信息；獲取目標發音人的語音合成模型；利用所述語音合成模型及所述時長信息生成語音合成參數；利用所述語音合成參數對所述識別結果進行語音合成，得到目標發音人音色合成語音數據。利用本發明專利技術，可以使轉換后的語音數據的時長與待轉換語音數據的時長一致，提高合成語音的自然度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音信號處理
，具體涉及一種聲音轉換方法及裝置。
技術介紹
在日常的生活交流中，一個人的聲音往往就是他的身份名片，聽到自己熟悉人的聲音后，就可辨認出這個人。聲音轉換技術由于可以將一個發音人的聲音轉換為另一個發音人的聲音，使人聽起來像是另一個人的發音，有著廣泛的應用前景，如用戶可以將自己的聲音轉換成自己喜歡的明星的聲音，或轉換成用戶自己熟悉人的聲音。現有的聲音轉換方法一般是將待轉換語音數據進行語音識別，得到識別文本后，利用目標發音人合成模型對所述識別文本進行語音合成，從而得到目標發音人音色的合成語音數據。這種方法對識別文本進行語音合成時，容易出現合成的語音數據與待轉換語音數據的時長不一致的情況，從而使合成語音聽起來較機械，韻律感差，大大降低了合成語音的自然度。
技術實現思路
本專利技術提供一種聲音轉換方法及裝置，以使轉換后的語音數據的時長與待轉換語音數據的時長一致，提高合成語音的自然度。為此，本專利技術提供如下技術方案：一種聲音轉換方法，包括：接收待轉換語音數據；對所述待轉換語音數據進行語音識別，得到識別結果及所述識別結果的時長信息；獲取目標發音人的語音合成模型；利用所述語音合成模型及所述時長信息生成語音合成參數；利用所述語音合成參數對所述識別結果進行語音合成，得到目標發音人音色合成語音數據。優選地，所述對所述待轉換語音數據進行語音識別，得到識別結果及所述識別結果的時長信息包括：利用預先訓練的聲學模型及語言模型構建解碼網絡；提取所述待轉換語音數據的特征參數；基于所述解碼網絡及所...

【技術保護點】
一種聲音轉換方法，其特征在于，包括：接收待轉換語音數據；對所述待轉換語音數據進行語音識別，得到識別結果及所述識別結果的時長信息；獲取目標發音人的語音合成模型；利用所述語音合成模型及所述時長信息生成語音合成參數；利用所述語音合成參數對所述識別結果進行語音合成，得到目標發音人音色合成語音數據。

【技術特征摘要】

【專利技術屬性】
技術研發人員：陳凌輝，江源，李棟梁，李嘯，張衛慶，胡國平，
申請(專利權)人：科大訊飛股份有限公司，
類型：發明
國別省市：安徽;34