System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,尤其涉及一種語音合成方法、裝置、存儲介質及電子設備。
技術介紹
1、文本轉語音(text-to-speech,tts)可讓計算機將書面文字數據實時轉換成人類語言輸出,朗讀出來。這項技術廣泛應用于多個領域,包括輔助視力受限用戶、車載導航系統、教育工具、客戶服務自動應答系統、語音助手、有聲讀物書籍和在線內容等。
2、將文本轉語音需要涉及語音合成技術,然而目前相關技術的語音合成方式的語音合成質量較差,進而影響了文本轉語音的效果。
技術實現思路
1、有鑒于此,本申請提供了一種語音合成方法、裝置、存儲介質及電子設備,主要目的在于改善目前相關技術的語音合成方式的語音合成質量較差,進而影響了文本轉語音的效果的技術問題。
2、第一方面,本申請提供了一種語音合成方法,包括:
3、獲取待語音合成的目標文本;
4、將所述目標文本輸入到語音合成模型中,所述語音合成模型采用vits模型架構作為基礎架構,并采用duration?predictor替換所述vits模型架構中的對齊結構,所述語音合成模型包括pitch?decoder;
5、利用所述duration?predictor,獲取所述目標文本對應的音素的目標時長,以及利用所述pitch?decoder,獲取所述音素的目標基頻;
6、根據所述目標時長和所述目標基頻合成所述目標文本對應的目標語音,作為所述語音合成模型的輸出結果。
7、第二方面,本申請提供了
8、獲取模塊,被配置為獲取待語音合成的目標文本;
9、輸入模塊,被配置為將所述目標文本輸入到語音合成模型中,所述語音合成模型采用vits模型架構作為基礎架構,并采用duration?predictor替換所述vits模型架構中的對齊結構,所述語音合成模型包括pitch?decoder;
10、獲取模塊,被配置為利用所述duration?predictor,獲取所述目標文本對應的音素的目標時長,以及利用所述pitch?decoder,獲取所述音素的目標基頻;
11、合成模塊,被配置為根據所述目標時長和所述目標基頻合成所述目標文本對應的目標語音,作為所述語音合成模型的輸出結果。
12、第三方面,本申請提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現第一方面所述的語音合成方法。
13、第四方面,本申請提供了一種電子設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現第一方面所述的語音合成方法。
14、第五方面,本申請提供了一種計算機程序產品,其上存儲有計算機程序,所述計算機程序被處理器執行時實現第一方面所述的語音合成方法。
15、借由上述技術方案,本申請提供的一種語音合成方法、裝置、存儲介質及電子設備,首先獲取待語音合成的目標文本;然后將所述目標文本輸入到語音合成模型中,所述語音合成模型采用vits模型架構作為基礎架構,并采用duration?predictor替換所述vits模型架構中的對齊結構,所述語音合成模型包括pitch?decoder;再利用所述durationpredictor,獲取所述目標文本對應的音素的目標時長,以及利用所述pitch?decoder,獲取所述音素的目標基頻;最后根據所述目標時長和所述目標基頻合成所述目標文本對應的目標語音,作為所述語音合成模型的輸出結果。與目前現有技術相比,本申請中語音合成模型采用vits模型架構作為基礎架構,并采用duration?predictor替換vits模型架構中的對齊結構,利用duration?predictor,獲取目標文本對應的音素的目標時長,利用語音合成模型中的pitch?decoder,獲取音素的目標基頻,再根據目標時長和目標基頻合成目標文本對應的目標語音,提高了語音合成質量,進而改善了文本轉語音的效果。
16、上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。
本文檔來自技高網...【技術保護點】
1.一種語音合成生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述語音合成模型包括文本編碼器TextEncoder;
3.根據權利要求2所述的方法,其特征在于,所述語音合成模型包括基頻編碼器PitchEncoder;
4.根據權利要求1所述的方法,其特征在于,所述語音合成模型的訓練過程,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述訓練集訓練所述語音合成模型,得到所述樣本文本對應的所述樣本預測基頻,包括:
6.根據權利要求4所述的方法,其特征在于,所述語音合成模型包括幀網絡FrameNetwork、Flow結構、音頻解碼器;
7.根據權利要求4所述的方法,其特征在于,所述語音標簽包括基頻標簽和基頻嵌入標簽;
8.一種語音合成裝置,其特征在于,包括:
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法。
10.一種電子設備,包括存儲介質、處理器及存儲在存儲介質
11.一種計算機程序產品,其上存儲有計算機程序,其特征在于,所述計算機程序產品被處理器執行時實現權利要求1至7中任一項所述的方法。
...【技術特征摘要】
1.一種語音合成生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述語音合成模型包括文本編碼器textencoder;
3.根據權利要求2所述的方法,其特征在于,所述語音合成模型包括基頻編碼器pitchencoder;
4.根據權利要求1所述的方法,其特征在于,所述語音合成模型的訓練過程,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述訓練集訓練所述語音合成模型,得到所述樣本文本對應的所述樣本預測基頻,包括:
6.根據權利要求4所述的方法,其特征在于,所述語音合成模型包括幀網絡framenetwork、flow結構、音頻解...
【專利技術屬性】
技術研發人員:孫莉,高迅,
申請(專利權)人:中移蘇州軟件技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。