基于聲音克隆的數(shù)字人口唇訓練方法、裝置、設(shè)備及介質(zhì)制造方法及圖紙

技術(shù)編號：44473287 閱讀：3 留言：0更新日期：2025-03-04 17:43

本發(fā)明專利技術(shù)屬于人工智能技術(shù)領(lǐng)域，公開了一種基于聲音克隆的數(shù)字人口唇訓練方法、裝置、設(shè)備及介質(zhì)，所述方法包括：獲取預訓練的多模態(tài)語音模型以及待克隆的文本數(shù)據(jù)，并將目標對象的第二語音數(shù)據(jù)和待克隆的文本數(shù)據(jù)輸入至預訓練的多模態(tài)語音模型中進行訓練，生成克隆語音數(shù)據(jù)；基于構(gòu)建的目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系，構(gòu)建數(shù)字人口唇動作預測模型；將生成的克隆語音數(shù)據(jù)輸入至數(shù)字人口唇動作預測模型中，預測數(shù)字人口唇動作的各項參數(shù)信息；基于預測的數(shù)字人口唇動作的各項參數(shù)信息，驅(qū)動數(shù)字人模擬目標對象輸出克隆語音數(shù)據(jù)時呈現(xiàn)的口唇動作。本發(fā)明專利技術(shù)有效的提高了數(shù)字人口唇訓練的準確率。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)屬于人工智能，尤其涉及一種基于聲音克隆的數(shù)字人口唇訓練方法、裝置、設(shè)備及介質(zhì)。

技術(shù)介紹

1、目前，在對數(shù)字人進行口唇訓練時，大多是把實際人物的視頻當作訓練素材，從實際人物的視頻中提取音頻與人臉信息，進而對數(shù)字人進行口唇訓練。然而，隨著人們對數(shù)字人定制化要求日益攀升，呈現(xiàn)出“千人千面”的需求日益膨脹，僅僅依靠現(xiàn)有的這些素材，已然無法滿足實際需求了。此外，在進行數(shù)字人合成時，雖然可以借助聲音生成口唇動作，可卻只能依賴現(xiàn)實中數(shù)量有限的視頻資料，難以挖掘出個體在不同情緒狀態(tài)下的口唇形態(tài)，使得數(shù)字人口唇訓練的準確率不高。

2、鑒于此，如何提高數(shù)字人口唇訓練的準確率，是一個亟待解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)提供一種基于聲音克隆的數(shù)字人口唇訓練方法、裝置、設(shè)備及介質(zhì)，以解決現(xiàn)有的數(shù)字人口唇訓練的準確率不高的技術(shù)問題。

2、第一方面，本專利技術(shù)提供了一種基于聲音克隆的數(shù)字人口唇訓練方法，包括：

3、獲取目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻，并對獲取的目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻進行數(shù)據(jù)預處理，得到目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻；

4、基于目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻，構(gòu)建目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系；

5、獲取預訓練的多模態(tài)語音模型以及待克隆的文本數(shù)據(jù)，并將目標對象的第二語音數(shù)據(jù)和待克隆的文本數(shù)據(jù)輸入至預訓練的多模態(tài)語音模型中進

6、基于構(gòu)建的目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系，構(gòu)建數(shù)字人口唇動作預測模型；

7、將生成的克隆語音數(shù)據(jù)輸入至數(shù)字人口唇動作預測模型中，預測數(shù)字人口唇動作的各項參數(shù)信息；

8、基于預測的數(shù)字人口唇動作的各項參數(shù)信息，驅(qū)動數(shù)字人模擬目標對象輸出克隆語音數(shù)據(jù)時呈現(xiàn)的口唇動作。

9、第二方面，本專利技術(shù)提供了一種基于聲音克隆的數(shù)字人口唇訓練裝置，所述裝置用于實現(xiàn)如上述第一方面所述的基于聲音克隆的數(shù)字人口唇訓練方法，包括：

10、處理模塊，用于獲取目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻，并對獲取的目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻進行數(shù)據(jù)預處理，得到目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻；

11、第一構(gòu)建模塊，用于基于目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻，構(gòu)建目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系；

12、訓練模塊，用于獲取預訓練的多模態(tài)語音模型以及待克隆的文本數(shù)據(jù)，并將目標對象的第二語音數(shù)據(jù)和待克隆的文本數(shù)據(jù)輸入至預訓練的多模態(tài)語音模型中進行訓練，生成克隆語音數(shù)據(jù)；

13、第二構(gòu)建模塊，用于基于構(gòu)建的目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系，構(gòu)建數(shù)字人口唇動作預測模型；

14、預測模塊，用于將生成的克隆語音數(shù)據(jù)輸入至數(shù)字人口唇動作預測模型中，預測數(shù)字人口唇動作的各項參數(shù)信息；

15、驅(qū)動模塊，用于基于預測的數(shù)字人口唇動作的各項參數(shù)信息，驅(qū)動數(shù)字人模擬目標對象輸出克隆語音數(shù)據(jù)時呈現(xiàn)的口唇動作。

16、第三方面，本專利技術(shù)提供了一種計算機設(shè)備，包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序，處理器執(zhí)行計算機程序時實現(xiàn)上述基于聲音克隆的數(shù)字人口唇訓練方法的步驟。

17、第四方面，本專利技術(shù)提供了一種計算機可讀存儲介質(zhì)，計算機可讀存儲介質(zhì)存儲有計算機程序，計算機程序被處理器執(zhí)行時實現(xiàn)上述基于聲音克隆的數(shù)字人口唇訓練方法的步驟。

18、上述基于聲音克隆的數(shù)字人口唇訓練方法、裝置、設(shè)備及介質(zhì)所實現(xiàn)的方案中，可以通過客戶端獲取目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻，并對獲取的目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻進行數(shù)據(jù)預處理，得到目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻；基于目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻，構(gòu)建目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系；獲取預訓練的多模態(tài)語音模型以及待克隆的文本數(shù)據(jù)，并將目標對象的第二語音數(shù)據(jù)和待克隆的文本數(shù)據(jù)輸入至預訓練的多模態(tài)語音模型中進行訓練，生成克隆語音數(shù)據(jù)；基于構(gòu)建的目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系，構(gòu)建數(shù)字人口唇動作預測模型；將生成的克隆語音數(shù)據(jù)輸入至數(shù)字人口唇動作預測模型中，預測數(shù)字人口唇動作的各項參數(shù)信息；基于預測的數(shù)字人口唇動作的各項參數(shù)信息，驅(qū)動數(shù)字人模擬目標對象輸出克隆語音數(shù)據(jù)時呈現(xiàn)的口唇動作，在本專利技術(shù)中，可以先將待克隆的文本數(shù)據(jù)輸入至預訓練的多模態(tài)語音模型中進行訓練，生成克隆語音數(shù)據(jù)，再將生成的克隆語音數(shù)據(jù)輸入至數(shù)字人口唇動作預測模型中，預測數(shù)字人口唇動作的各項參數(shù)信息，最后，根據(jù)預測的數(shù)字人口唇動作的各項參數(shù)信息，驅(qū)動數(shù)字人模擬目標對象輸出克隆語音數(shù)據(jù)時呈現(xiàn)的口唇動作，有效地提高了數(shù)字人口唇訓練的準確率。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，所述對獲取的目標對象的第一語音數(shù)據(jù)以及對應的第一口唇動作視頻進行數(shù)據(jù)預處理，得到目標對象的第二語音數(shù)據(jù)以及對應的第二口唇動作視頻，包括

3.根據(jù)權(quán)利要求1所述的基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，構(gòu)建目標對象的語音數(shù)據(jù)與口唇動作之間的映射關(guān)系，包括：

4.根據(jù)權(quán)利要求3所述的基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，所述將目標對象的語音數(shù)據(jù)和待克隆的文本數(shù)據(jù)輸入至預訓練的多模態(tài)語音模型中進行訓練，生成克隆語音數(shù)據(jù)，包括：

5.根據(jù)權(quán)利要求4所述的基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，所述將所述目標特征信息輸入至預訓練的多模態(tài)語音模型中進行訓練，生成克隆語音數(shù)據(jù)，包括：

6.根據(jù)權(quán)利要求1所述的基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，將生成的克隆語音數(shù)據(jù)輸入至數(shù)字人口唇動作預測模型中，預測數(shù)字人口唇動作的各項參數(shù)信息，包括：

7.根據(jù)權(quán)利要求4所述的基于

8.一種基于聲音克隆的數(shù)字人口唇訓練裝置，其特征在于，所述裝置用于實現(xiàn)如權(quán)利要求1-7任一項所述的基于聲音克隆的數(shù)字人口唇訓練方法，包括：

9.一種計算機設(shè)備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7任一項所述的基于聲音克隆的數(shù)字人口唇訓練方法的步驟。

10.一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的基于聲音克隆的數(shù)字人口唇訓練方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于聲音克隆的數(shù)字人口唇訓練方法，其特征在于，包括：

6.根據(jù)權(quán)利要求1所述...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：陳欣，
申請(專利權(quán))人：平安科技深圳有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)