System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,尤其是涉及一種歌聲特征轉換方法、電子設備、存儲介質。
技術介紹
1、聲音轉換(voice?conversion,vc),指的是在保留聲音的語言特征的同時,轉換聲音的非語言特征。聲音的語言特征指的是對應語言發音的表意內容,聲音的非語言特征包括口音、音色、說話風格等。歌聲特征轉換(singing?voice?conversion,svc),則是把一首歌歌唱的非語言特征從源歌手轉換為目標歌手,并且不改變唱段語言內容的技術。
2、相關技術中,歌聲特征轉換都要求成對的平行數據,也就是通過不同的人演唱同一句歌詞,以獲取平行數據。但是對應現實應用來說,這種數據是很難得到的。因此,如何在實現歌聲特征轉換的過程中擺脫對平行數據的依賴,已經成為業內亟待解決的一個問題。
技術實現思路
1、本申請旨在至少解決現有技術中存在的技術問題之一。為此,本申請提出一種歌聲特征轉換方法、電子設備、存儲介質,能夠在實現歌聲特征轉換的過程中擺脫對平行數據的依賴。
2、根據本申請的第一方面實施例的歌聲特征轉換方法,包括:
3、獲取源音頻與目標聲音標識,所述源音頻包括源歌手的音頻唱段;
4、將所述源音頻與所述目標聲音標識輸入預先訓練的音頻處理模型,所述音頻處理模型包括聲碼器、音樂情感識別網絡、變分對抗網絡;
5、基于所述聲碼器對所述源音頻進行聲學特征提取,得到內容特征參數;
6、基于所述音樂情感識別網絡對所述源音頻進行情感信息提取,得
7、基于所述目標聲音標識,通過所述變分對抗網絡將所述源情感特征向量替換為目標情感特征向量;
8、基于所述變分對抗網絡對所述目標情感特征向量與所述內容特征參數進行重構處理,得到歌聲特征轉換后的目標音頻。
9、根據本申請的一些實施例,在所述將所述源音頻與所述目標聲音標識輸入預先訓練的音頻處理模型之前,所述方法還包括對所述音頻處理模型進行預先訓練,具體包括:
10、獲取訓練數據集,所述訓練數據集包括第一數目個訓練音頻,每一所述訓練音頻配置有一一對應的訓練聲音標識;
11、對第一數目個所述訓練音頻進行分組處理,得到第二數目個訓練音頻組,每一所述訓練音頻組包括不同歌手演唱同一音頻唱段的所述訓練音頻;
12、將第二數目個所述訓練音頻組輸入原始的所述音頻處理模型,并基于所述訓練音頻與所述訓練聲音標識對所述音頻處理模型進行迭代訓練;
13、當所述音頻處理模型在迭代訓練中符合第一預設條件,得到預先訓練的所述音頻處理模型。
14、根據本申請的一些實施例,所述將第二數目個所述訓練音頻組輸入原始的所述音頻處理模型,并基于所述訓練音頻與所述訓練聲音標識對所述音頻處理模型進行迭代訓練,包括:
15、每一輪迭代訓練中,從第二數目個所述訓練音頻組選出一個迭代音頻組,并從所述迭代音頻組中選出訓練源音頻與訓練靶音頻;
16、基于所述聲碼器對所述訓練源音頻進行聲學特征提取,得到訓練內容參數;
17、基于預先訓練的所述音樂情感識別網絡對所述訓練源音頻進行情感信息提取,得到情感初始向量;
18、基于預先訓練的所述音樂情感識別網絡對所述訓練靶音頻進行情感信息提取,得到情感替換向量;
19、將所述訓練靶音頻配置的所述訓練聲音標識確定為聲音替換標識,并基于所述聲音替換標識,通過所述變分對抗網絡將所述情感初始向量替換為所述情感替換向量;
20、基于所述變分對抗網絡對所述情感替換向量與所述訓練內容參數進行重構處理,得到預測音頻;
21、基于所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到預測偏差數據;
22、每一輪所述迭代訓練后,基于所述預測偏差數據對所述音頻處理模型的模型參數進行更新。
23、根據本申請的一些實施例,所述訓練內容參數包括訓練韻律參數與訓練頻譜參數,所述基于所述變分對抗網絡對所述情感替換向量與所述訓練內容參數進行重構處理,得到預測音頻,包括:
24、對所述訓練頻譜參數進行語言特征解析,得到訓練隱向量,所述訓練隱向量用于表征所述訓練源音頻的語句內容;
25、對所述情感替換向量、所述訓練韻律參數與所述訓練隱向量進行整合拼接,得到所述預測音頻。
26、根據本申請的一些實施例,所述預測偏差數據包括損失函數值,所述基于所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到預測偏差數據,包括:
27、基于所述訓練源音頻與所述訓練隱向量進行第一損失計算,得到所述音樂情感識別網絡對應的編碼損失元素;
28、基于所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行第二損失計算,得到所述變分對抗網絡對應的解碼損失元素;
29、基于所述編碼損失元素與所述解碼損失元素進行損失構建,得到預測損失函數;
30、基于所述預測損失函數對所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到所述損失函數值。
31、根據本申請的一些實施例,在所述基于所述預測損失函數對所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到所述損失函數值之前,所述方法還包括:
32、基于所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行第三損失計算,得到所述變分對抗網絡對應的判別損失元素;
33、基于預設的權重因子將所述判別損失元素整合進所述預測損失函數。
34、根據本申請的一些實施例,所述基于所述聲碼器對所述源音頻進行聲學特征提取,得到內容特征參數,包括:
35、基于所述聲碼器對所述源音頻進行基頻特征提取,得到源韻律特征參數,所述源韻律特征參數用于表征所述源音頻的韻律內容;
36、基于所述聲碼器對所述源音頻進行頻譜特征提取,得到頻譜特征參數;
37、將所述源韻律特征參數與所述頻譜特征參數進行整合,得到所述內容特征參數。
38、根據本申請的一些實施例,所述基于所述變分對抗網絡對所述目標情感特征向量與所述內容特征參數進行重構處理,得到歌聲特征轉換后的目標音頻,包括:
39、從所述內容特征參數中獲取所述頻譜特征參數與所述源韻律特征參數;
40、對所述頻譜特征參數進行語言特征解析,得到語句隱向量,所述語句隱向量用于表征所述源音頻的語句內容;
41、對所述目標情感特征向量、所述源韻律特征參數與所述語句隱向量進行整合拼接,得到所述目標音頻。
42、第二方面,本申請實施例提供了一種電子設備,包括:存儲器、處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現如本申請第一方面實施例中任意一項所述的歌聲特征轉換方法。
43、第三方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器本文檔來自技高網...
【技術保護點】
1.一種歌聲特征轉換方法,包括:
2.根據權利要求1所述的方法,在所述將所述源音頻與所述目標聲音標識輸入預先訓練的音頻處理模型之前,所述方法還包括對所述音頻處理模型進行預先訓練,具體包括:
3.根據權利要求2所述的方法,所述將第二數目個所述訓練音頻組輸入原始的所述音頻處理模型,并基于所述訓練音頻與所述訓練聲音標識對所述音頻處理模型進行迭代訓練,包括:
4.根據權利要求3所述的方法,所述訓練內容參數包括訓練韻律參數與訓練頻譜參數,所述基于所述變分對抗網絡對所述情感替換向量與所述訓練內容參數進行重構處理,得到預測音頻,包括:
5.根據權利要求4所述的方法,所述預測偏差數據包括損失函數值,所述基于所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到預測偏差數據,包括:
6.根據權利要求5所述的方法,在所述基于所述預測損失函數對所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到所述損失函數值之前,所述方法還包括:
7.根據權利要求1至6任一項所述的方法,所述基于所述聲碼器對所述源音頻進行聲學特征
8.根據權利要求7所述的方法,所述基于所述變分對抗網絡對所述目標情感特征向量與所述內容特征參數進行重構處理,得到歌聲特征轉換后的目標音頻,包括:
9.一種電子設備,包括:存儲器、處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現如權利要求1至8中任意一項所述的歌聲特征轉換方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行實現如權利要求1至8中任意一項所述的歌聲特征轉換方法。
...【技術特征摘要】
1.一種歌聲特征轉換方法,包括:
2.根據權利要求1所述的方法,在所述將所述源音頻與所述目標聲音標識輸入預先訓練的音頻處理模型之前,所述方法還包括對所述音頻處理模型進行預先訓練,具體包括:
3.根據權利要求2所述的方法,所述將第二數目個所述訓練音頻組輸入原始的所述音頻處理模型,并基于所述訓練音頻與所述訓練聲音標識對所述音頻處理模型進行迭代訓練,包括:
4.根據權利要求3所述的方法,所述訓練內容參數包括訓練韻律參數與訓練頻譜參數,所述基于所述變分對抗網絡對所述情感替換向量與所述訓練內容參數進行重構處理,得到預測音頻,包括:
5.根據權利要求4所述的方法,所述預測偏差數據包括損失函數值,所述基于所述訓練源音頻、所述訓練靶音頻與所述預測音頻進行損失計算,得到預測偏差數據,包括:
6.根據權利要...
【專利技術屬性】
技術研發人員:張旭龍,王健宗,程寧,孫一夫,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。