當(dāng)前位置: 首頁(yè) > 專利查詢>聯(lián)想北京有限公司專利>正文

語(yǔ)音模型調(diào)整方法和裝置制造方法及圖紙

技術(shù)編號(hào)：44490638 閱讀：4 留言：0更新日期：2025-03-04 17:55

本申請(qǐng)公開(kāi)了一種語(yǔ)音模型調(diào)整方法和裝置，該方法包括：獲得第一文本和用戶語(yǔ)音，所述用戶語(yǔ)音為用戶讀出所述第一文本的語(yǔ)音；確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段；從所述多個(gè)不匹配音頻片段中確定多個(gè)目標(biāo)音頻片段，所述多個(gè)目標(biāo)音頻片段之間具有對(duì)應(yīng)關(guān)系，所述目標(biāo)音頻片段的數(shù)量滿足數(shù)量要求；根據(jù)所述目標(biāo)音頻片段確定目標(biāo)音頻特征；基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到第二語(yǔ)音模型。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)涉及計(jì)算機(jī)，特別涉及一種語(yǔ)音模型調(diào)整方法和裝置。

技術(shù)介紹

1、目前可以通過(guò)語(yǔ)音模型對(duì)用戶的語(yǔ)音進(jìn)行克隆，從而得到符合用戶音色的語(yǔ)音。由于用戶可能對(duì)一些文字發(fā)音不標(biāo)準(zhǔn)，造成語(yǔ)音模型輸出的語(yǔ)音無(wú)法準(zhǔn)確匹配用戶的發(fā)音特征，輸出的語(yǔ)音準(zhǔn)確性低。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供了一種語(yǔ)音模型調(diào)整方法，包括：獲得第一文本和用戶語(yǔ)音，所述用戶語(yǔ)音為用戶讀出所述第一文本的語(yǔ)音；確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段；從所述多個(gè)不匹配音頻片段中確定多個(gè)目標(biāo)音頻片段，所述多個(gè)目標(biāo)音頻片段之間具有對(duì)應(yīng)關(guān)系，所述目標(biāo)音頻片段的數(shù)量滿足數(shù)量要求；根據(jù)所述目標(biāo)音頻片段確定目標(biāo)音頻特征；基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到第二語(yǔ)音模型。

2、在一些實(shí)施例中，所述確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段，包括：對(duì)所述用戶語(yǔ)音進(jìn)行語(yǔ)音識(shí)別，得到第二文本；將所述第二文本與所述第一文本進(jìn)行比對(duì)，確定所述第二文本中與所述第一文本不匹配的文本信息；根據(jù)所述文本信息從所述用戶語(yǔ)音中確定所述不匹配音頻片段。

3、在一些實(shí)施例中，所述確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段，包括：對(duì)所述第一文本進(jìn)行語(yǔ)音合成，得到第一音頻；將所述第一音頻與所述用戶語(yǔ)音進(jìn)行比對(duì)，得到所述不匹配音頻片段。

4、在一些實(shí)施例中，對(duì)所述第一文本進(jìn)行語(yǔ)音合成，得到第一音頻，包括：確定所述用戶語(yǔ)音的發(fā)音風(fēng)格參數(shù)；利用符合所述發(fā)音風(fēng)格參數(shù)的語(yǔ)

5、在一些實(shí)施例中，所述從所述多個(gè)不匹配音頻片段中確定多個(gè)目標(biāo)音頻片段，包括：對(duì)所述不匹配音頻片段進(jìn)行聚類處理，得到多個(gè)聚類集合；從所述多個(gè)聚類集合中確定目標(biāo)聚類集合，所述目標(biāo)聚類集合中所述不匹配音頻片段的數(shù)量滿足所述數(shù)量要求，所述目標(biāo)聚類集合中的所述不匹配音頻片段為所述目標(biāo)音頻片段。

6、在一些實(shí)施例中，對(duì)所述不匹配音頻片段進(jìn)行聚類處理，包括以下至少之一：根據(jù)與所述不匹配音頻片段對(duì)應(yīng)的文字對(duì)所述不匹配音頻片段進(jìn)行聚類處理；根據(jù)與所述不匹配音頻片段對(duì)應(yīng)的音素對(duì)所述不匹配音頻片段進(jìn)行聚類處理。

7、在一些實(shí)施例中，所述目標(biāo)聚類集合所對(duì)應(yīng)的文字與預(yù)設(shè)文字庫(kù)中的任意文字都不同。

8、在一些實(shí)施例中，所述基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到第二語(yǔ)音模型，包括：根據(jù)所述目標(biāo)音頻特征和與所述目標(biāo)音頻特征對(duì)應(yīng)的音素，生成音素音頻特征對(duì)；基于所述音素音頻特征對(duì)，對(duì)所述第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到所述第二語(yǔ)音模型。

9、在一些實(shí)施例中，所述第一語(yǔ)音模型包括第一語(yǔ)音克隆子模型和第一語(yǔ)音調(diào)整子模型，基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到第二語(yǔ)音模型，包括：根據(jù)所述目標(biāo)音頻特征和與所述目標(biāo)音頻特征對(duì)應(yīng)的音素，生成音素音頻特征對(duì)；基于所述音素音頻特征對(duì)，對(duì)所述第一語(yǔ)音調(diào)整子模型進(jìn)行參數(shù)調(diào)整，得到所述第二語(yǔ)音模型，所述第一語(yǔ)音克隆子模型能夠在輸入第三文本后生成第一語(yǔ)音，所述調(diào)整后的第一語(yǔ)音調(diào)整子模型能夠在輸入所述第一語(yǔ)音后生成目標(biāo)語(yǔ)音。

10、本申請(qǐng)實(shí)施例還提出了一種語(yǔ)音模型調(diào)整裝置，包括：獲得模塊，用于獲得第一文本和用戶語(yǔ)音，所述用戶語(yǔ)音為用戶讀出所述第一文本的語(yǔ)音；第一確定模塊，用于確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段；第二確定模塊，用于從所述多個(gè)不匹配音頻片段中確定多個(gè)目標(biāo)音頻片段，所述多個(gè)目標(biāo)音頻片段之間具有對(duì)應(yīng)關(guān)系，所述目標(biāo)音頻片段的數(shù)量滿足數(shù)量要求；第三確定模塊，用于根據(jù)所述目標(biāo)音頻片段確定目標(biāo)音頻特征；調(diào)整模塊，用于基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到第二語(yǔ)音模型。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種語(yǔ)音模型調(diào)整方法，包括：

2.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段，包括：

3.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段，包括：

4.如權(quán)利要求3所述的語(yǔ)音模型調(diào)整方法，對(duì)所述第一文本進(jìn)行語(yǔ)音合成，得到第一音頻，包括：

5.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述從所述多個(gè)不匹配音頻片段中確定多個(gè)目標(biāo)音頻片段，包括：

6.如權(quán)利要求5所述的語(yǔ)音模型調(diào)整方法，對(duì)所述不匹配音頻片段進(jìn)行聚類處理，包括以下至少之一：

7.如權(quán)利要求6所述的語(yǔ)音模型調(diào)整方法，所述目標(biāo)聚類集合所對(duì)應(yīng)的文字與預(yù)設(shè)文字庫(kù)中的任意文字都不同。

8.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)行參數(shù)調(diào)整，得到第二語(yǔ)音模型，包括：

9.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述第一語(yǔ)音模型包括第一語(yǔ)音克隆子模型和第一語(yǔ)音調(diào)整子模型，基于所述目標(biāo)音頻特征對(duì)第一語(yǔ)音模型進(jìn)

10.一種語(yǔ)音模型調(diào)整裝置，包括：

...

【技術(shù)特征摘要】

1.一種語(yǔ)音模型調(diào)整方法，包括：

2.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段，包括：

3.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述確定所述用戶語(yǔ)音中與所述第一文本不匹配的多個(gè)不匹配音頻片段，包括：

4.如權(quán)利要求3所述的語(yǔ)音模型調(diào)整方法，對(duì)所述第一文本進(jìn)行語(yǔ)音合成，得到第一音頻，包括：

5.如權(quán)利要求1所述的語(yǔ)音模型調(diào)整方法，所述從所述多個(gè)不匹配音頻片段中確定多個(gè)目標(biāo)音頻片段，包括：

6.如權(quán)利要求5所述的語(yǔ)音模型調(diào)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李曉梅，張曉平，
申請(qǐng)(專利權(quán))人：聯(lián)想北京有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)