基于情感的語音轉換方法和裝置、設備、存儲介質制造方法及圖紙

技術編號：44455950 閱讀：3 留言：0更新日期：2025-02-28 19:02

本申請實施例提供了一種基于情感的語音轉換方法和裝置、設備、存儲介質，屬于人工智能和金融科技技術領域。該方法包括：獲取語音樣本數據和文本樣本數據；根據所述語音樣本數據和所述文本樣本數據對預設的原始解碼器進行訓練，得到目標語音解碼器；獲取原始語音數據；根據所述原始語音數據進行情感屬性預測，得到情感屬性嵌入向量；對所述原始語音數據進行情感風格編碼，得到情感風格嵌入向量；基于所述目標語音解碼器對所述情感屬性嵌入向量和所述情感風格嵌入向量進行語音重構，得到目標語音數據，從而實現綜合情感的語音轉換，提高轉換效果。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能和金融科技，尤其涉及一種基于情感的語音轉換方法和裝置、設備、存儲介質。

技術介紹

1、語音轉換(voice?conversion)：語音轉換是一種語音轉換技術語音轉換是將一個人的聲音轉移到另一個人的說話內容上。通常，vc應用于中性情感，即應用于無情感的話語，以金融場景為例，在智能保險代理人向投保人進行智能應答時，語氣較為僵硬，情感較為中性，或者智能客服向客戶提供相關服務時，均是較為中性情感的語氣，給用戶的體驗不佳。

技術實現思路

1、本申請實施例的主要目的在于提出一種基于情感的語音轉換方法和裝置、設備、存儲介質，旨在基于情感進行語音轉換、提升語音轉換效果。

2、為實現上述目的，本申請實施例的第一方面提出了一種基于情感的語音轉換方法，所述方法包括：

3、獲取語音樣本數據和文本樣本數據；其中，所述語音樣本數據具有樣本情感風格，所述文本樣本數據是所述語音樣本數據的語音內容；

4、根據所述語音樣本數據和所述文本樣本數據對預設的原始解碼器進行訓練，得到目標語音解碼器；

5、獲取原始語音數據；其中，所述原始語音數據具有原始情感風格；

6、根據所述原始語音數據進行情感屬性預測，得到情感屬性嵌入向量；其中，所述情感屬性嵌入向量用于表征所述原始情感風格與所述樣本情感風格之間的差異性；

7、對所述原始語音數據進行情感風格編碼，得到情感風格嵌入向量；

8、基于所述目標語音解碼器對所述情感屬性嵌入向量和所

9、在一些實施例，所述語音樣本數據包括樣本語音特征，所述樣本初始語音特征用于表征所述樣本情感風格，所述根據所述原始語音數據進行情感屬性預測，得到情感屬性嵌入向量，包括：

10、對所述原始語音數據進行特征提取，得到初始語音特征；其中，所述初始語音特征用于表征所述原始情感風格；

11、根據所述初始語音特征進行情感差異預測，得到情感差異數據；其中，所述情感差異數據用于表征所述初始語音特征與所述樣本語音特征之間的差異性；

12、根據所述情感差異數據進行嵌入向量轉換，得到所述情感屬性嵌入向量。

13、在一些實施例，所述根據所述情感差異數據進行嵌入向量轉換，得到所述情感屬性嵌入向量，包括：

14、獲取預設的情感排名函數；

15、根據所述情感排名函數對所述情感差異數據進行排序，得到情感排序數據；

16、通過預設的全連接層對所述情感排序數據進行投影處理，得到所述情感屬性嵌入向量。

17、在一些實施例，所述根據所述初始語音特征進行情感差異預測，得到情感差異數據，包括：

18、基于支持向量機對所述初始語音特征進行權重估計，得到特征權重數據；

19、根據所述初始語音特征和所述特征權重數據進行乘積處理，得到初始語音特征數據；

20、根據所述初始語音特征數據和預設的樣本語音特征數據得到所述情感差異數據。

21、在一些實施例，所述根據所述初始語音特征數據和預設的樣本語音特征數據得到所述情感差異數據，包括：

22、基于所述支持向量機對所述樣本語音特征進行權重估計，得到樣本權重數據；

23、根據所述語音樣本特征和所述樣本權重數據進行乘積處理，得到樣本語音特征數據；

24、對所述初始語音特征數據和所述樣本語音特征數據之間進行求差計算，得到所述情感差異數據。

25、在一些實施例，所述根據所述語音樣本數據和所述文本樣本數據對預設的原始解碼器進行訓練，得到目標語音解碼器，包括：

26、基于預設的文本編碼器對所述文本樣本數據進行文本編碼，得到樣本文本嵌入向量；

27、獲取預設的語言編碼模型；其中，所述語言編碼模型包括語言編碼器和語言解碼器；

28、基于所述語言編碼器對所述語音樣本數據進行語言編碼，得到初步語言向量；

29、基于所述語言解碼器對所述初步語言向量進行語言解碼，得到樣本語言嵌入向量；

30、根據所述樣本文本嵌入向量和所述樣本語言嵌入向量對所述原始解碼器進行訓練，得到所述目標語音解碼器。

31、在一些實施例，所述對所述原始語音數據進行情感風格編碼，得到情感風格嵌入向量，包括：

32、獲取預先訓練的目標情感編碼模型；

33、基于所述目標情感編碼模型對原始語音數據進行情感風格編碼，得到情感風格向量；

34、基于所述目標情感編碼模型對所述情感風格向量進行投影處理，得到所述情感風格嵌入向量。

35、為實現上述目的，本申請實施例的第二方面提出了一種基于情感的語音轉換裝置，所述裝置包括：

36、樣本數據獲取模塊，用于獲取語音樣本數據和文本樣本數據；其中，所述語音樣本數據具有樣本情感風格，所述文本樣本數據是所述語音樣本數據的語音內容；

37、解碼器訓練模塊，用于根據所述語音樣本數據和所述文本樣本數據對預設的原始解碼器進行訓練，得到目標語音解碼器；

38、原始語音數據獲取模塊，用于獲取原始語音數據；其中，所述原始語音數據具有原始情感風格；

39、情感屬性預測模塊，用于根據所述原始語音數據進行情感屬性預測，得到情感屬性嵌入向量；其中，所述情感屬性嵌入向量用于表征所述原始情感風格與所述樣本情感風格之間的差異性；

40、情感風格編碼模塊，用于對所述原始語音數據進行情感風格編碼，得到情感風格嵌入向量；

41、語音重構模塊，用于基于所述目標語音解碼器對所述情感屬性嵌入向量和所述情感風格嵌入向量進行語音重構，得到目標語音數據。

42、為實現上述目的，本申請實施例的第三方面提出了一種電子設備，所述電子設備包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執行所述計算機程序時實現上述第一方面所述的方法。

43、為實現上述目的，本申請實施例的第四方面提出了一種存儲介質，所述存儲介質為計算機可讀存儲介質，所述存儲介質存儲有計算機程序，所述計算機程序被處理器執行時實現上述第一方面所述的方法。

44、本申請實施例提出的基于情感的語音轉換方法和裝置、設備、存儲介質,可以應用于人工智能和金融科技領域，其通過獲取語音樣本數據、文本樣本數據、原始語音數據，根據所述語音樣本數據和所述文本樣本數據對預設的原始解碼器進行訓練，得到目標語音解碼器，根據所述原始語音數據進行情感屬性預測，得到情感屬性嵌入向量；對所述原始語音數據進行情感風格編碼，得到情感風格嵌入向量；基于所述目標語音解碼器對所述情感屬性嵌入向量和所述情感風格嵌入向量進行語音重構，得到目標語音數據，實現基于情感的語音轉換，提升語音轉換效果。

本文檔來自技高網...

【技術保護點】

1.一種基于情感的語音轉換方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述語音樣本數據包括樣本語音特征，所述樣本初始語音特征用于表征所述樣本情感風格，所述根據所述原始語音數據進行情感屬性預測，得到情感屬性嵌入向量，包括：

3.根據權利要求2所述的方法，其特征在于，所述根據所述情感差異數據進行嵌入向量轉換，得到所述情感屬性嵌入向量，包括：

4.根據權利要求2所述的方法，其特征在于，所述根據所述初始語音特征進行情感差異預測，得到情感差異數據，包括：

5.根據權利要求4所述的方法，其特征在于，所述根據所述初始語音特征數據和預設的樣本語音特征數據得到所述情感差異數據，包括：

6.根據權利要求1至5任一項所述的方法，其特征在于，所述根據所述語音樣本數據和所述文本樣本數據對預設的原始解碼器進行訓練，得到目標語音解碼器，包括：

7.根據權利要求1至4任一項所述的方法，其特征在于，所述對所述原始語音數據進行情感風格編碼，得到情感風格嵌入向量，包括：

8.一種基于情感的語音轉換裝置，其特征在于，所述裝置包括：

9.一種電子設備，其特征在于，所述電子設備包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的方法。

10.一種計算機可讀存儲介質，所述存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法。

...

【技術特征摘要】

1.一種基于情感的語音轉換方法，其特征在于，所述方法包括：

3.根據權利要求2所述的方法，其特征在于，所述根據所述情感差異數據進行嵌入向量轉換，得到所述情感屬性嵌入向量，包括：

4.根據權利要求2所述的方法，其特征在于，所述根據所述初始語音特征進行情感差異預測，得到情感差異數據，包括：

5.根據權利要求4所述的方法，其特征在于，所述根據所述初始語音特征數據和預設的樣本語音特征數據得到所述情感差異數據，包括：

6.根...

【專利技術屬性】
技術研發人員：張旭龍，王健宗，程寧，孫一夫，
申請(專利權)人：平安科技深圳有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術