System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及音頻轉換領域,特別是涉及一種音頻處理方法及裝置、電子設備、存儲介質。
技術介紹
1、音色轉換(voice?conversion),是利用機器學習算法將一段語音中的聲線變換為另一個人(目標人)的聲線,內容不變,盡可能接近目標人的個人特色;歌聲轉換則是音色轉換范疇內進一步的細分領域,是進一步要求轉換后的語音保持輸入語音的旋律,本質上是要求控制輸出語音的瞬時音高變化與原輸入語音相同。
2、目前業內主流的音色轉換技術,已經發展到“任意人到目標人”的轉換,即用少量目標人的隨意錄音訓練好目標人的轉換模型后,輸入任意人的語音都能直接轉換成該目標人的語音;歌聲轉換則是在通用音色轉換方案的基礎上,加上音高控制功能,相關技術中,一般是通過相應轉換模型獲取目標人的譜特征,并對原始音高進行外部提取與調整,進而獲取調整后的音高相對應的周期性信號,最后將譜特征與周期性信號輸入到聲碼器之中完成由任意人歌聲到目標人歌聲的歌聲轉換。
3、相關技術在進行歌聲轉換時一般采用的是支持外部控制修改音高的聲碼器,然而,在應用支持外部控制修改音高的聲碼器時,對原始音高進行外部調整后生成并輸入聲碼器中的周期性信號與原來輸入的譜特征往往沒有任何聯系,可能會對輸入到聲碼器之后的歌聲轉換效果產生負面影響;此外,周期性信號本身的幾何形狀也存在過于理想化/平滑化的問題,事實上,人體聲帶振動時發出的音頻波形并不是理想的周期性波形,而是一定程度上呈現準周期性的雜亂波形,機器學習時若過于平滑化會導致喪失細節,而個人的發音特色往往就隱藏在發音細節里,進而導
技術實現思路
1、鑒于上述問題,提出了以便提供克服上述問題或者至少部分地解決上述問題的一種音頻處理方法及裝置、電子設備、存儲介質,包括:
2、一種音頻處理的方法,所述方法包括:
3、獲取第一音頻數據和針對所述第一音頻數據選取的目標音色信息,并根據所述目標音色信息,對所述第一音頻數據進行處理,得到譜特征;
4、根據所述譜特征,確定周期性信號修正系數;
5、獲取所述第一音頻數據的音高數據,并采用所述周期性信號修正系數,對所述音高數據進行轉換,得到周期性信號;
6、根據所述周期性信號和所述譜特征,生成第二音頻數據。
7、可選的,所述根據所述目標音色信息,對所述第一音頻數據進行處理,得到譜特征,包括:
8、根據所述目標音色信息,確定所述目標音色信息相對應的音色轉換模型;
9、對所述第一音頻數據進行發音內容提取,獲取所述第一音頻數據的發音內容向量;
10、將所述發音內容向量發送至所述音色轉換模型,獲取所述音色轉換模型輸出的所述譜特征。
11、可選的,所述采用所述周期性信號修正系數,對所述音高數據進行轉換,得到周期性信號,包括:
12、根據所述音高數據,確定所述第一音頻數據的音高序列;
13、根據所述周期性信號修正系數,對預設的周期性信號轉換關系進行修正,并采用修正后的周期性信號轉換關系,對所述音高序列進行轉換,得到所述周期性信號。
14、可選的,所述采用修正后的周期性信號轉換關系,對所述音高序列進行轉換,得到所述周期性信號,包括:
15、獲取所述音高序列中的幀數與所述第一音頻數據的采樣率,并根據所述音高序列中的幀數與所述第一音頻數據的采樣率確定所述音高序列中首幀至尾幀的瞬時音高累加和;
16、采用修正后的周期性信號轉換關系,對所述瞬時音高累加和進行轉換,得到所述周期性信號。
17、可選的,所述修正后的周期性信號轉換關系為由所述周期性信號修正系數進行修正后的泰勒公式,所述采用修正后的周期性信號轉換關系,對所述瞬時音高累加和進行轉換,得到所述周期性信號,包括:
18、獲取所述泰勒公式中多項式的預設項數,并根據所述多項式的預設項數確定所述泰勒公式的最高階數;
19、根據所述泰勒公式的最高階數,對所述瞬時音高累加和進行轉換,得到所述周期性信號。
20、可選的,所述周期性信號修正系數通過將所述譜特征輸入預設神經網絡模塊進行確定。
21、可選的,所述根據所述周期性信號與所述譜特征,生成所述第二音頻數據,包括:
22、將所述周期性信號與所述譜特征輸入聲碼器中進行擬合,并獲取所述聲碼器擬合生成的所述第二音頻數據。
23、一種音頻處理的裝置,所述裝置包括:
24、譜特征獲取模塊,用于獲取第一音頻數據和針對所述第一音頻數據選取的目標音色信息,并根據所述目標音色信息,對所述第一音頻數據進行處理,得到譜特征;
25、周期性信號修正系數確定模塊,用于根據所述譜特征,確定周期性信號修正系數;
26、周期性信號確定模塊,用于獲取所述第一音頻數據的音高數據,并采用所述周期性信號修正系數,對所述音高數據進行轉換,得到周期性信號;
27、第二音頻數據生成模塊,用于根據所述周期性信號和所述譜特征,生成第二音頻數據。
28、一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現如上所述的音頻處理的方法。
29、一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執行時實現如上所述的音頻處理的方法。
30、本專利技術實施例具有以下優點:
31、在本專利技術實施例中,通過獲取第一音頻數據和針對第一音頻數據選取的目標音色信息,并根據目標音色信息對第一音頻數據進行處理,得到譜特征;進而根據譜特征確定周期性信號修正系數;并在獲取第一音頻數據的音高數據后,采用周期性信號修正系數對音高數據進行轉換,得到周期性信號;從而根據周期性信號和譜特征生成第二音頻數據的方式,實現了將對原始音頻的音高進行外部調整后生成并輸入聲碼器中的周期性信號與譜特征聯系起來,并通過引入與譜特征相關聯的周期性信號修正系數的方式來根據譜特征微調準周期性信號的形狀細節,解決了周期性信號自身幾何形狀過于理想化/平滑化的問題,改善了聲碼器在進行歌聲轉換時的擬合精度,提高了歌聲轉換后生成的目標音頻的擬人度,提升了歌聲轉換的實際效果。
本文檔來自技高網...【技術保護點】
1.一種音頻處理的方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述目標音色信息,對所述第一音頻數據進行處理,得到譜特征,包括:
3.根據權利要求1或2所述的方法,其特征在于,所述采用所述周期性信號修正系數,對所述音高數據進行轉換,得到周期性信號,包括:
4.根據權利要求3所述的方法,其特征在于,所述采用修正后的周期性信號轉換關系,對所述音高序列進行轉換,得到所述周期性信號,包括:
5.根據權利要求4所述的方法,其特征在于,所述修正后的周期性信號轉換關系為由所述周期性信號修正系數進行修正后的泰勒公式,所述采用修正后的周期性信號轉換關系,對所述瞬時音高累加和進行轉換,得到所述周期性信號,包括:
6.根據權利要求1或2所述的方法,其特征在于,所述周期性信號修正系數通過將所述譜特征輸入預設神經網絡模塊進行確定。
7.根據權利要求1或2所述的方法,其特征在于,所述根據所述周期性信號與所述譜特征,生成所述第二音頻數據,包括:
8.一種音頻處理的裝置,其特征在于,所述裝置
9.一種電子設備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現如權利要求1至7中任一項所述的音頻處理的方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的音頻處理的方法。
...【技術特征摘要】
1.一種音頻處理的方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述目標音色信息,對所述第一音頻數據進行處理,得到譜特征,包括:
3.根據權利要求1或2所述的方法,其特征在于,所述采用所述周期性信號修正系數,對所述音高數據進行轉換,得到周期性信號,包括:
4.根據權利要求3所述的方法,其特征在于,所述采用修正后的周期性信號轉換關系,對所述音高序列進行轉換,得到所述周期性信號,包括:
5.根據權利要求4所述的方法,其特征在于,所述修正后的周期性信號轉換關系為由所述周期性信號修正系數進行修正后的泰勒公式,所述采用修正后的周期性信號轉換關系,對所述瞬時音高累加和進行轉換,得到所述周期性信號,包括:
【專利技術屬性】
技術研發人員:王愈,陳明,李健,武衛東,
申請(專利權)人:北京捷通華聲科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。