語音信號生成方法、裝置及電子設備制造方法及圖紙

技術編號：43787247 閱讀：14 留言：0更新日期：2024-12-24 16:20

本申請提供了一種語音信號生成方法、裝置及電子設備，該方法包括：獲取目標文本；目標文本包括N個句子文本以及每個句子文本的旁白對話標簽；基于韻律編碼預測器、目標文本、目標文本的文本特征以及每個句子文本的音色嵌入信息，獲得中心句文本的韻律信息；每個句子文本的音色嵌入信息基于每個句子文本的旁白對話標簽與參考語音生成；基于時長預測器、目標文本、目標文本的文本特征以及每個句子文本的音色嵌入信息，獲得中心句文本的時長信息；基于頻譜預測器，以及中心句文本的文本特征、音色嵌入信息、時長信息以及韻律信息，獲得中心句文本的語音信號。能夠提升語音合成的韻律表現，并且可以實現合成多樣化音色的語音。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及數據處理，特別涉及一種語音信號生成方法、裝置及電子設備。

技術介紹

1、在當前的語音合成
，典型的流程涉及三個主要階段：首先，前端模塊分析純文本輸入，并將其轉化為一組結構化的文本特征；隨后，聲學模型利用這些特征生成相應的聲學參數；最后，聲碼器將這些聲學參數轉換成可聽的語音波形。這一過程使得文本到語音的轉換成為可能，在諸如新聞播報和導航指引等應用場景中發揮著重要作用。

2、然而，盡管這一技術在諸多方面展現出了卓越的性能，但在面對如小說朗讀這樣要求高度角色化、情感化的語音合成任務時，其局限性便逐漸凸顯。具體而言，當前語音合成技術所生成的小說語音往往呈現出音色單一、韻律表現平淡的問題，難以精準捕捉并再現小說中不同角色的獨特聲音特質與復雜情感變化，從而無法滿足用戶對于多角色對話場景下語音合成的多樣化需求。這一現狀不僅限制了語音合成技術在文學演繹、有聲讀物等領域的進一步拓展，也激發了行業內外對于開發更加智能、靈活、富有表現力的語音合成技術的迫切愿望。

技術實現思路

1、本申請所要解決的技術問題是提供一種語音信號生成方法、裝置及電子設備，能夠提升語音合成的韻律表現，并且可以實現合成多樣化音色的語音。具體方案如下：

2、一種語音信號生成方法，包括：

3、獲取待處理的目標文本；所述目標文本包括n個句子文本以及每個所述句子文本的旁白對話標簽，每個所述旁白對話標簽用于指示所屬句子文本的類型，所述句子文本的類型為旁白類型和對話類型中的一種；

>4、基于預先訓練好的韻律編碼預測器、所述目標文本、所述目標文本的文本特征以及每個所述句子文本的音色嵌入信息，獲得中心句文本的韻律信息；每個所述句子文本的音色嵌入信息基于每個所述句子文本的旁白對話標簽與參考語音生成；所述中心句文本為所述目標文本中的第m個句子文本，其中，1<m<n；

5、基于預先訓練好的時長預測器、所述目標文本、所述目標文本的文本特征以及每個所述句子文本的音色嵌入信息，獲得中心句文本的時長信息；

6、基于預先訓練好的頻譜預測器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時長信息以及所述中心句文本的韻律信息，獲得所述中心句文本的語音信號。

7、上述的方法，可選的，所述韻律編碼預測器的訓練過程，包括：

8、獲取對抗生成網絡以及第一訓練數據集；所述對抗生成網絡包括生成器以及判別器；所述生成器包括初始韻律編碼預測器、所述初始韻律編碼對應的第一音色編碼器；所述第一訓練數據集包括多個第一訓練數據，每個所述第一訓練數據包括n個第一訓練句子文本，以及所述n個第一訓練句子文本的文本特征、預先提取好的韻律編碼、旁白對話標簽和語音信息；

9、在所述第一訓練數據集的各個第一訓練數據中選取出當前用于訓練的第一目標訓練數據；

10、根據所述第一音色編碼器、所述第一目標訓練數據的旁白對話標簽以及語音信息，獲得所述第一目標訓練數據的音色嵌入信息；

11、根據所述初始韻律編碼預測器、第一目標訓練數據中的n個第一訓練句子文本以及文本特征，獲得所述第一目標訓練數據中的n個第一訓練句子文本的韻律編碼；

12、根據所述生成器、判別器、所述第一目標訓練數據以及所述第一目標訓練數據中的n個第一訓練句子文本的韻律編碼，獲得所述生成器、判別器的損失函數值；

13、利用所述生成器的損失函數值更新所述生成器中的第一音色編碼器的模型參數以及所述初始韻律編碼預測器的模型參數；并利用所述判別器的損失函數值更新所述判別器的模型參數；

14、在更新后的所述生成器與判別器未滿足預設的第一訓練完成條件的情況下，返回執行在訓練數據集的各個訓練數據中選取出當前用于訓練的第一目標訓練數據的步驟；

15、在更新后的所述生成器與判別器滿足預設的第一訓練完成條件的情況下，將更新后的所述生成器中的初始韻律編碼預測器，確定為訓練好的韻律編碼預測器。

16、上述的方法，可選的，所述頻譜預測器的訓練過程，包括：

17、獲取待訓練的初始頻譜預測器、第二音色編碼器、韻律編碼提取器以及第二訓練數據集；所述第二訓練數據集包括多個包括第二訓練數據，每個所述第二訓練數據包括第二訓練句子文本，以及所述第二訓練句子文本的韻律特征、文本特征、語音信息、旁白對話標簽以及目標信號；所述韻律特征包括時長、基頻和能量；

18、在第二訓練數據集的各個第二訓練數據中選取出當前用于訓練的第二目標訓練數據；

19、將所述第二目標訓練數據中的韻律特征輸入到所述韻律編碼提取器中，獲得所述第二目標訓練數據中的第二訓練句子文本的韻律編碼；

20、根據所述第二音色編碼器、所述第二目標訓練數據的旁白對話標簽以及語音信息，獲得所述第二目標訓練數據中的第二訓練句子文本的音色嵌入信息；

21、根據所述初始頻譜預測器、所述第二目標訓練數據中的文本特征、韻律特征中的時長、第二訓練句子文本的韻律編碼以及音色嵌入信息，獲得所述第二目標訓練數據中的第二訓練句子文本的語音信號；

22、通過預設的第一損失函數、所述第二目標訓練數據中的第二訓練句子文本的語音信號以及目標信號，計算得到第一損失函數值；

23、利用所述第一損失函數值對所述初始頻譜預測器、所述第二音色編碼器以及韻律編碼提取器的模型參數進行更新；

24、在更新后的所述初始頻譜預測器未滿足預設的第二訓練完成條件的情況下，返回執行在第二訓練數據集的各個第二訓練數據中選取出當前用于訓練的第二目標訓練數據的步驟；

25、在更新后的所述初始頻譜預測器滿足預設的第二訓練完成條件的情況下，將滿足所述第二訓練完成條件的初始頻譜預測器，確定為訓練好的頻譜預測器。

26、上述的方法，可選的，所述時長預測器的訓練過程，包括：

27、獲取待訓練的初始時長預測器、第三音色編碼器以及第三訓練數據集；所述第三訓練數據集包括多個第三訓練數據；每個所述第三訓練數據包括n個第三訓練句子文本，以及所述n個第三訓練句子文本的文本特征、旁白對話標簽、語音信息以及目標時長信息；

28、在第三訓練數據集的各個第三訓練數據中選取出當前用于訓練的第三目標訓練數據；

29、根據所述第三音色編碼器、所述第三目標訓練數據的旁白對話標簽以及語音信息，獲得所述第三目標訓練數據中的n個第三訓練句子文本的音色嵌入信息；

30、根據所述初始時長預測器、第三目標訓練數據中的n個第三訓練句子文本以及文本特征，獲得所述第三目標訓練數據中的n個第三訓練句子文本的時長信息；

31、通過預設的第二損失函數、所述第三目標訓練數據中的n個第三訓練句子文本的時長信息以及目標時長信息，計算得到第二損失函數值；

32、利用所述第二損失函數值對所述初始時長預測器以及所述第三音色編碼器的模型參數進行更新；

33、在更新本文檔來自技高網...

【技術保護點】

1.一種語音信號生成方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述韻律編碼預測器的訓練過程，包括：

3.根據權利要求1所述的方法，其特征在于，所述頻譜預測器的訓練過程，包括：

4.根據權利要求1所述的方法，其特征在于，所述時長預測器的訓練過程，包括：

5.根據權利要求1所述的方法，其特征在于，所述基于預先訓練好的頻譜預測器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時長信息以及所述中心句文本的韻律信息，獲得所述中心句文本的語音信號，包括：

6.一種語音信號生成裝置，其特征在于，包括：

7.根據權利要求6所述的裝置，其特征在于，所述第一執行單元，包括：

8.根據權利要求6所述的裝置，其特征在于，所述第三執行單元，包括：

9.根據權利要求6所述的裝置，其特征在于，所述第二執行單元，包括：

10.一種電子設備，其特征在于，包括存儲器，以及一個或者一個以上的指令，其中一個或一個以上指令存儲于存儲器中，且經配置以由一個或者一個以

...

【技術特征摘要】

1.一種語音信號生成方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述韻律編碼預測器的訓練過程，包括：

3.根據權利要求1所述的方法，其特征在于，所述頻譜預測器的訓練過程，包括：

4.根據權利要求1所述的方法，其特征在于，所述時長預測器的訓練過程，包括：

5.根據權利要求1所述的方法，其特征在于，所述基于預先訓練好的頻譜預測器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時長信息以及所述中心句文本的韻律信息，獲得所述中心句文本...

【專利技術屬性】
技術研發人員：吳寧謙，凌震華，
申請(專利權)人：中國科學技術大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術