System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及語音處理,尤其涉及一種語音風格轉換方法、裝置、設備及存儲介質。
技術介紹
1、隨著科學技術不斷的發展,語音轉換技術也逐漸應用在不同的領域當中。比如變聲系統或語音聊天等場景中。語音轉換指的是將一個人的聲音轉換為另一個人的聲音,而不改變其說話內容。也即,給出某一說話人的音頻,針對任意文本序列,生成具有該說話人特點的語音。
2、現有技術中,往往語音轉換通過對語音成分進行解耦和重組。解耦是將語音拆分成多個維度的音頻成分,但往往音高、內容和風格特征仍然混雜,不能將語音完全解耦。重組是指給定任何的風格特征,即可將音高內容特征轉換為任意風格的語音。通過該方法一般是采用時間聚合方法將幀級特征轉為一個固定長度的特征向量,再通過一個全連接層將話語級的特征映射為說話人嵌入。然而在幀級層面上進行風格轉換,容易存在噪聲幀的影響,導致語音風格轉換的效果不佳。
技術實現思路
1、本專利技術實施例提供一種語音風格轉換方法、裝置、設備及存儲介質,以解決現有技術中語音風格轉換的效果不佳的問題。
2、一種語音風格轉換方法,包括:
3、獲取語音數據集,所述語音數據集中包括至少一個源語音和與所述源語音對應的目標語音;
4、對所有所述源語音和所有所述目標語音進行頻譜特征提取,得到與所述源語音對應的第一梅爾頻譜,以及與所述目標語音對應的第二梅爾頻譜;
5、通過預設內容編碼器對所述第一梅爾頻譜進行內容特征提取,得到與所述源語音對應的內容特征;
7、通過預設風格編碼器對所述第二梅爾頻譜進行風格特征提取,得到與所述目標語音對應的風格特征;
8、對所述風格特征和所述隱藏態序列進行對齊嵌入,得到目標風格特征;
9、根據所述隱藏態序列和所述目標風格特征,確定語音轉換結果。
10、一種語音風格轉換裝置,包括:
11、語音獲取模塊,用于獲取語音數據集,所述語音數據集中包括至少一個源語音和與所述源語音對應的目標語音;
12、頻譜提取模塊,用于對所有所述源語音和所有所述目標語音進行頻譜特征提取,得到與所述源語音對應的第一梅爾頻譜,以及與所述目標語音對應的第二梅爾頻譜;
13、內容特征模塊,用于通過預設內容編碼器對所述第一梅爾頻譜進行內容特征提取,得到與所述源語音對應的內容特征;
14、下采樣模塊,用于對與所述內容特征對齊的音素序列進行下采樣處理,得到隱藏態序列;
15、風格特征模塊,用于通過預設風格編碼器對所述第二梅爾頻譜進行風格特征提取,得到與所述目標語音對應的風格特征;
16、對齊嵌入模塊,用于對所述風格特征和所述隱藏態序列進行對齊嵌入,得到目標風格特征;
17、轉換結果模塊,用于根據所述隱藏態序列和所述目標風格特征,確定語音轉換結果。
18、一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述語音風格轉換方法。
19、一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述語音風格轉換方法。
20、本專利技術提供一種語音風格轉換方法、裝置、設備及存儲介質,該方法通過對獲取到的所有源語音和所有目標語音進行頻譜轉換,實現了對源語音的第一梅爾頻譜的獲取和對目標語音的第二梅爾頻譜的獲取。通過預設內容編碼器對第一梅爾頻譜進行內容特征提取,實現了對源語音中內容特征的提取。進而通過對與內容特征對齊的音素序列進行下采樣,實現了對內容特征中音素序列的轉換。通過預設風格編碼器對第二梅爾頻譜進行風格特征提取,實現了對目標語音風格特征的提取。對風格特征和隱藏態序列進行對齊嵌入,實現了對目標語音中局部特征的對齊。根據隱藏態序列和目標風格特征,實現了對源語音的風格轉換,進而實現了對語音轉換結果的獲取。進一步地,通過對與內容特征對齊的音素序列進行下采樣,實現了對音素序列的每幀隱藏態提取表示,進而解決了存在噪聲幀的問題。通過對風格特征和隱藏態序列進行對齊嵌入,實現了有效轉移除音色外的其他風格,進而減少了噪聲幀和音色的影響,提高了語音風格的轉換效果。
本文檔來自技高網...【技術保護點】
1.一種語音風格轉換方法,其特征在于,包括:
2.如權利要求1所述的語音風格轉換方法,其特征在于,所述對所述風格特征和所述隱藏態序列進行對齊嵌入,得到目標風格特征,包括:
3.如權利要求1所述的語音風格轉換方法,其特征在于,所述對與所述內容特征對齊的音素序列進行下采樣處理,得到隱藏態序列,包括:
4.如權利要求1所述的語音風格轉換方法,其特征在于,所述根據所述隱藏態序列和所述目標風格特征,確定語音轉換結果,包括:
5.如權利要求1所述的語音風格轉換方法,其特征在于,所述通過預設內容編碼器對所述第一梅爾頻譜進行內容特征提取,得到與所述源語音對應的內容特征,包括:
6.如權利要求1所述的語音風格轉換方法,其特征在于,所述通過預設風格編碼器對所述第二梅爾頻譜進行風格特征提取,得到與所述目標語音對應的風格特征,包括:
7.如權利要求1所述的語音風格轉換方法,其特征在于,所述對所有所述源語音和所有所述目標語音進行頻譜特征提取,得到與所述源語音對應的第一梅爾頻譜,以及與所述目標語音對應的第二梅爾頻譜,包括:
9.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述語音風格轉換方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述語音風格轉換方法。
...【技術特征摘要】
1.一種語音風格轉換方法,其特征在于,包括:
2.如權利要求1所述的語音風格轉換方法,其特征在于,所述對所述風格特征和所述隱藏態序列進行對齊嵌入,得到目標風格特征,包括:
3.如權利要求1所述的語音風格轉換方法,其特征在于,所述對與所述內容特征對齊的音素序列進行下采樣處理,得到隱藏態序列,包括:
4.如權利要求1所述的語音風格轉換方法,其特征在于,所述根據所述隱藏態序列和所述目標風格特征,確定語音轉換結果,包括:
5.如權利要求1所述的語音風格轉換方法,其特征在于,所述通過預設內容編碼器對所述第一梅爾頻譜進行內容特征提取,得到與所述源語音對應的內容特征,包括:
6.如權利要求1所述的語音風格轉換方法,其特征在于,所述通過預設風格編碼器對所...
【專利技術屬性】
技術研發人員:張旭龍,王健宗,程寧,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。