本發明專利技術公開了一種聲音轉換方法及裝置,該方法包括:接收待轉換語音數據;對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結果的時長信息;獲取目標發音人的語音合成模型;利用所述語音合成模型及所述時長信息生成語音合成參數;利用所述語音合成參數對所述識別結果進行語音合成,得到目標發音人音色合成語音數據。利用本發明專利技術,可以使轉換后的語音數據的時長與待轉換語音數據的時長一致,提高合成語音的自然度。
【技術實現步驟摘要】
本專利技術涉及語音信號處理
,具體涉及一種聲音轉換方法及裝置。
技術介紹
在日常的生活交流中,一個人的聲音往往就是他的身份名片,聽到自己熟悉人的 聲音后,就可辨認出這個人。聲音轉換技術由于可以將一個發音人的聲音轉換為另一個發 音人的聲音,使人聽起來像是另一個人的發音,有著廣泛的應用前景,如用戶可以將自己的 聲音轉換成自己喜歡的明星的聲音,或轉換成用戶自己熟悉人的聲音。 現有的聲音轉換方法一般是將待轉換語音數據進行語音識別,得到識別文本后, 利用目標發音人合成模型對所述識別文本進行語音合成,從而得到目標發音人音色的合成 語音數據。這種方法對識別文本進行語音合成時,容易出現合成的語音數據與待轉換語音 數據的時長不一致的情況,從而使合成語音聽起來較機械,韻律感差,大大降低了合成語音 的自然度。
技術實現思路
本專利技術提供一種聲音轉換方法及裝置,以使轉換后的語音數據的時長與待轉換語 音數據的時長一致,提高合成語音的自然度。 為此,本專利技術提供如下技術方案: 一種聲音轉換方法,包括: 接收待轉換語音數據; 對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結果的時長信 息; 獲取目標發音人的語音合成模型; 利用所述語音合成模型及所述時長信息生成語音合成參數; 利用所述語音合成參數對所述識別結果進行語音合成,得到目標發音人音色合成 語音數據。 優選地,所述對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結 果的時長信息包括: 利用預先訓練的聲學模型及語言模型構建解碼網絡; 提取所述待轉換語音數據的特征參數; 基于所述解碼網絡及所述特征參數對所述待轉換語音數據進行解碼,得到最優解 碼路徑對應的文本序列及所述文本序列中各字和/或詞的時長信息。 優選地,所述對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結 果的時長信息包括: 利用預先訓練的聲學模型及語言模型構建解碼網絡; 提取所述待轉換語音數據的特征參數; 基于所述解碼網絡及所述特征參數對所述待轉換語音數據進行解碼,得到最優解 碼路徑對應的語法單元序列及所述語法單元序列中各語法單元的時長信息。 優選地,所述獲取目標發音人的語音合成模型包括: 向用戶展現可選的目標發音人信息,并根據用戶的選擇確定目標發音人,然后獲 取所述目標發音人的語音合成模型;或者 接收用戶提供的目標發音人語音數據,并利用所述目標發音人語音數據訓練得到 目標發音人的語音合成模型。 優選地,所述目標發音人合成模型包括:時長合成模型、基頻合成模型、頻譜合成 豐旲型; 所述利用所述語音合成模型及所述時長信息生成語音合成參數包括: 利用所述時長信息及所述時長合成模型生成每個語法單元每個狀態的時長合成 參數; 利用目標發音人基頻合成模型生成基頻合成參數; 利用目標發音人頻譜合成模型生成頻譜合成參數。 -種聲音轉換裝置,包括: 接收模塊,用于接收待轉換語音數據; 語音識別模塊,用于對所述待轉換語音數據進行語音識別,得到識別結果及所述 識別結果的時長信息; 模型獲取模塊,用于獲取目標發音人的語音合成模型; 合成參數生成模塊,用于利用所述語音合成模型及所述時長信息生成語音合成參 數; 語音合成模塊,用于利用所述語音合成參數對所述識別結果進行語音合成,得到 目標發音人音色合成語音數據。 優選地,所述語音識別模塊包括: 第一解碼網絡構建單元,用于利用預先訓練的聲學模型及語言模型構建解碼網 絡; 特征提取單元,用于提取所述待轉換語音數據的特征參數; 第一解碼單元,用于基于所述解碼網絡及所述特征參數對所述待轉換語音數據進 行解碼,得到最優解碼路徑對應的文本序列及所述文本序列中各字和/或詞的時長信息。 優選地,所述語音識別模塊包括: 第二解碼網絡構建單元,用于利用預先訓練的聲學模型及語言模型構建解碼網 絡; 特征提取單元,用于提取所述待轉換語音數據的特征參數; 第二解碼單元,用于基于所述解碼網絡及所述特征參數對所述待轉換語音數據進 行解碼,得到最優解碼路徑對應的語法單元序列及所述語法單元序列中各語法單元的時長 fg息。 優選地,所述模型獲取模塊包括: 展現單元,用于向用戶展現可選的目標發音人信息;目標發音人確定單元,用于根據用戶的選擇確定目標發音人; 模型獲取單元,用于獲取所述目標發音人的語音合成模型; 或者,所述目標發音人確定模塊包括: 接收單元,用于接收用戶提供的目標發音人語音數據; 模型訓練單元,用于利用所述目標發音人語音數據訓練得到目標發音人的語音合 成模型。 優選地,所述目標發音人合成模型包括:時長合成模型、基頻合成模型、頻譜合成 模型; 所述合成參數生成模塊包括: 時長合成參數生成單元,用于利用所述時長信息及所述時長合成模型生成每個語 法單元每個狀態的時長合成參數; 基頻合成參數生成單元,用于利用目標發音人基頻合成模型生成基頻合成參數; 頻譜合成參數生成單元,用于利用目標發音人頻譜合成模型生成頻譜合成參數。 本專利技術實施例提供的聲音轉換方法及裝置,首先接收待轉換語音數據,然后對待 轉換語音數據進行語音識別,得到識別結果及其時長信息,最后利用目標發音人的語音合 成模型及所述時長信息生成語音合成參數,利用該語音合成參數對所述識別結果進行語音 合成,得到目標發音人音色合成語音數據。該方法及裝置對待轉換語音數據進行語音識別 時,不僅獲取識別結果,而且還要獲取該識別結果的時長信息,利用該時長信息生成目標發 音人的語音合成參數,有效保證了合成語音數據的時長與待轉換語音數據的時長一致,提 高了轉換后語音的自然度。【附圖說明】 為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術中記載的一 些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。圖1是本專利技術實施例聲音轉換方法的一種流程圖;圖2是本專利技術實施例聲音當前第1頁1 2 3 4 本文檔來自技高網...
【技術保護點】
一種聲音轉換方法,其特征在于,包括:接收待轉換語音數據;對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結果的時長信息;獲取目標發音人的語音合成模型;利用所述語音合成模型及所述時長信息生成語音合成參數;利用所述語音合成參數對所述識別結果進行語音合成,得到目標發音人音色合成語音數據。
【技術特征摘要】
【專利技術屬性】
技術研發人員:陳凌輝,江源,李棟梁,李嘯,張衛慶,胡國平,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:安徽;34
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。