當(dāng)前位置: 首頁(yè) > 專利查詢>騰訊科技深圳有限公司專利>正文

目標(biāo)說(shuō)話人語(yǔ)音提取方法和裝置制造方法及圖紙

技術(shù)編號(hào)：43466145 閱讀：15 留言：0更新日期：2024-11-27 13:02

本公開提供了利用人工智能技術(shù)的目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。目標(biāo)說(shuō)話人語(yǔ)音提取方法可以包括：基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量；至少基于混合語(yǔ)音信號(hào)和目標(biāo)說(shuō)話人特征向量，利用第一語(yǔ)音提取模型生成目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)并利用第二語(yǔ)音提取模型生成目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)，其中，第一語(yǔ)音提取模型包括至少一個(gè)變換器塊，至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層；以及基于第一語(yǔ)音信號(hào)和第二語(yǔ)音信號(hào)中的至少一個(gè)生成目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本公開涉及人工智能領(lǐng)域，并且更具體地，涉及一種目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

技術(shù)介紹

1、人工智能(artificial?intelligence,ai)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能，感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。換句話說(shuō)，人工智能是計(jì)算機(jī)科學(xué)的一個(gè)綜合技術(shù)，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法，使機(jī)器具有感知、推理與決策的功能。

2、人工智能技術(shù)是一門綜合學(xué)科，涉及領(lǐng)域廣泛，既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能基礎(chǔ)技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理技術(shù)、預(yù)訓(xùn)練模型技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。其中，預(yù)訓(xùn)練模型又稱大模型、基礎(chǔ)模型，經(jīng)過(guò)微調(diào)后可以廣泛應(yīng)用于人工智能各大方向下游任務(wù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音處理技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。

3、在現(xiàn)今生活中，語(yǔ)音技術(shù)(speech?technology)已被廣泛應(yīng)用。語(yǔ)音技術(shù)的關(guān)鍵技術(shù)有自動(dòng)語(yǔ)音識(shí)別技術(shù)(automatic?speech?recognition，asr)、語(yǔ)音合成技術(shù)(text?tospeech，tts)以及聲紋識(shí)別技術(shù)。讓計(jì)算機(jī)能聽(tīng)、能看、能說(shuō)、能感覺(jué)，是未來(lái)人機(jī)交互的發(fā)展方向，其中語(yǔ)音成為未來(lái)最被看好的人機(jī)交互方式之一。在

技術(shù)實(shí)現(xiàn)思路

1、本公開提出了一種目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序產(chǎn)品。

2、根據(jù)本公開實(shí)施例的一個(gè)方面，提供了一種目標(biāo)說(shuō)話人語(yǔ)音提取方法，包括：基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量；至少基于混合語(yǔ)音信號(hào)和所述目標(biāo)說(shuō)話人特征向量，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)并利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)，其中，所述第一語(yǔ)音提取模型包括至少一個(gè)變換器塊，所述至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層；以及基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。

3、根據(jù)本公開實(shí)施例的示例，其中，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括：基于所述混合語(yǔ)音信號(hào)生成第一混合特征向量；利用所述第一語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述第一混合特征向量生成目標(biāo)說(shuō)話人活動(dòng)概率，其中，所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率；基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)。

4、根據(jù)本公開實(shí)施例的示例，其中，基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括：基于預(yù)定閾值將所述目標(biāo)說(shuō)話人活動(dòng)概率轉(zhuǎn)換為二值化形式的目標(biāo)說(shuō)話人活動(dòng)標(biāo)簽；利用所述目標(biāo)說(shuō)話人活動(dòng)標(biāo)簽對(duì)所述混合語(yǔ)音信號(hào)進(jìn)行過(guò)濾，以生成所述第一語(yǔ)音信號(hào)。

5、根據(jù)本公開實(shí)施例的示例，其中，利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括：利用所述第二語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述第一語(yǔ)音信號(hào)生成所述第二語(yǔ)音信號(hào)，其中，基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括：將所述第二語(yǔ)音信號(hào)確定為所述目標(biāo)語(yǔ)音信號(hào)。

6、根據(jù)本公開實(shí)施例的示例，其中，基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括：通過(guò)將所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)進(jìn)行相乘來(lái)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。

7、根據(jù)本公開實(shí)施例的示例，其中，利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括：利用第二語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述混合語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人掩膜向量，其中，所述目標(biāo)說(shuō)話人掩膜向量指示所述混合語(yǔ)音信號(hào)中所述目標(biāo)說(shuō)話人語(yǔ)音信號(hào)的位置；基于所述目標(biāo)說(shuō)話人掩膜向量和所述混合語(yǔ)音信號(hào)生成所述第二語(yǔ)音信號(hào)。

8、根據(jù)本公開實(shí)施例的示例，其中，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括：基于所述第二語(yǔ)音信號(hào)生成第二混合特征向量；基于所述目標(biāo)說(shuō)話人特征向量和所述第二混合特征向量生成目標(biāo)說(shuō)話人活動(dòng)概率，其中，所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率；基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)，其中，基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括：將所述第一語(yǔ)音信號(hào)確定為所述目標(biāo)語(yǔ)音信號(hào)。

9、根據(jù)本公開實(shí)施例的示例，其中，所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊，并且所述至少一個(gè)變換器塊還包括線性層和至少一個(gè)殘差連接與歸一化層。

10、根據(jù)本公開實(shí)施例的示例，其中，所述第一語(yǔ)音提取模型為用于檢測(cè)目標(biāo)說(shuō)話人活動(dòng)概率的目標(biāo)說(shuō)話人語(yǔ)音活動(dòng)檢測(cè)模型，并且所述第二語(yǔ)音提取模型為用于提取目標(biāo)說(shuō)話人掩膜向量的目標(biāo)說(shuō)話人掩膜提取模型，所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率，所述目標(biāo)說(shuō)話人掩膜向量指示所述混合語(yǔ)音信號(hào)中所述目標(biāo)說(shuō)話人語(yǔ)音信號(hào)的位置。

11、根據(jù)本公開實(shí)施例的示例，其中，所述混合語(yǔ)音信號(hào)中包括存在多個(gè)說(shuō)話人的語(yǔ)音信號(hào)段和所述目標(biāo)說(shuō)話人缺席的語(yǔ)音信號(hào)段，并且其中，所述目標(biāo)說(shuō)話人的語(yǔ)音時(shí)長(zhǎng)占所述混合語(yǔ)音信號(hào)的總語(yǔ)音時(shí)長(zhǎng)的比率是變化的。

12、根據(jù)本公開實(shí)施例的另一方面，提供了一種目標(biāo)說(shuō)話人語(yǔ)音提取裝置，所述裝置包括：特征向量提取單元，被配置為基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量；目標(biāo)語(yǔ)音信號(hào)生成單元，被配置為至少基于混合語(yǔ)音信號(hào)和所述目標(biāo)說(shuō)話人特征向量，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)和并利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)，并基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)，其中，所述第一語(yǔ)音提取模型包括至少一個(gè)變換器塊，所述至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層。

13、根據(jù)本公開實(shí)施例的示例，其中，所述第一語(yǔ)音提取模型為用于檢測(cè)目標(biāo)說(shuō)話人活動(dòng)概率的目標(biāo)說(shuō)話人語(yǔ)音活動(dòng)檢測(cè)模型，并且所述第二語(yǔ)音提取模型為用于提取目標(biāo)說(shuō)話人掩膜向量的目標(biāo)說(shuō)話人掩膜提取模型，所述目標(biāo)說(shuō)話人活動(dòng)本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種目標(biāo)說(shuō)話人語(yǔ)音提取方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括：

4.根據(jù)權(quán)利要求2所述的方法，其中，利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括：

5.根據(jù)權(quán)利要求2所述的方法，其中，基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括：

6.根據(jù)權(quán)利要求1所述的方法，其中，利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括：

8.根據(jù)權(quán)利要求1所述的方法，其中，所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊，并且所述至少一個(gè)變換器塊還包括線性層和至少一個(gè)殘差連接與歸一化層。

9.根據(jù)權(quán)利要求1所述的方法，其中，

10.根據(jù)權(quán)利要求1所述的方法，其中，所述混

11.一種目標(biāo)說(shuō)話人語(yǔ)音提取裝置，所述裝置包括：

12.根據(jù)權(quán)利要求11所述的裝置，其中，

13.一種目標(biāo)說(shuō)話人語(yǔ)音提取設(shè)備，包括：

14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)可讀指令，所述計(jì)算機(jī)可讀指令在被處理器執(zhí)行時(shí)，使得所述處理器執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法。

15.一種計(jì)算機(jī)程序產(chǎn)品，其包括計(jì)算機(jī)可讀指令，所述計(jì)算機(jī)可讀指令在被處理器執(zhí)行時(shí)，使得所述處理器執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法。

...

【技術(shù)特征摘要】

1.一種目標(biāo)說(shuō)話人語(yǔ)音提取方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括：

4.根據(jù)權(quán)利要求2所述的方法，其中，利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括：

6.根據(jù)權(quán)利要求1所述的方法，其中，利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括：

8.根據(jù)權(quán)利要求1所述的方法，其中，所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：趙赫，陳航艇，余劍威，翁超，
申請(qǐng)(專利權(quán))人：騰訊科技深圳有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)