System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本公開涉及人工智能領(lǐng)域,并且更具體地,涉及一種目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、人工智能(artificial?intelligence,ai)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。換句話說(shuō),人工智能是計(jì)算機(jī)科學(xué)的一個(gè)綜合技術(shù),它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法,使機(jī)器具有感知、推理與決策的功能。
2、人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能基礎(chǔ)技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理技術(shù)、預(yù)訓(xùn)練模型技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。其中,預(yù)訓(xùn)練模型又稱大模型、基礎(chǔ)模型,經(jīng)過(guò)微調(diào)后可以廣泛應(yīng)用于人工智能各大方向下游任務(wù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音處理技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。
3、在現(xiàn)今生活中,語(yǔ)音技術(shù)(speech?technology)已被廣泛應(yīng)用。語(yǔ)音技術(shù)的關(guān)鍵技術(shù)有自動(dòng)語(yǔ)音識(shí)別技術(shù)(automatic?speech?recognition,asr)、語(yǔ)音合成技術(shù)(text?tospeech,tts)以及聲紋識(shí)別技術(shù)。讓計(jì)算機(jī)能聽(tīng)、能看、能說(shuō)、能感覺(jué),是未來(lái)人機(jī)交互的發(fā)展方向,其中語(yǔ)音成為未來(lái)最被看好的人機(jī)交互方式之一。在
技術(shù)實(shí)現(xiàn)思路
1、本公開提出了一種目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序產(chǎn)品。
2、根據(jù)本公開實(shí)施例的一個(gè)方面,提供了一種目標(biāo)說(shuō)話人語(yǔ)音提取方法,包括:基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量;至少基于混合語(yǔ)音信號(hào)和所述目標(biāo)說(shuō)話人特征向量,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)并利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào),其中,所述第一語(yǔ)音提取模型包括至少一個(gè)變換器塊,所述至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層;以及基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。
3、根據(jù)本公開實(shí)施例的示例,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:基于所述混合語(yǔ)音信號(hào)生成第一混合特征向量;利用所述第一語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述第一混合特征向量生成目標(biāo)說(shuō)話人活動(dòng)概率,其中,所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率;基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)。
4、根據(jù)本公開實(shí)施例的示例,其中,基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括:基于預(yù)定閾值將所述目標(biāo)說(shuō)話人活動(dòng)概率轉(zhuǎn)換為二值化形式的目標(biāo)說(shuō)話人活動(dòng)標(biāo)簽;利用所述目標(biāo)說(shuō)話人活動(dòng)標(biāo)簽對(duì)所述混合語(yǔ)音信號(hào)進(jìn)行過(guò)濾,以生成所述第一語(yǔ)音信號(hào)。
5、根據(jù)本公開實(shí)施例的示例,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:利用所述第二語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述第一語(yǔ)音信號(hào)生成所述第二語(yǔ)音信號(hào),其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:將所述第二語(yǔ)音信號(hào)確定為所述目標(biāo)語(yǔ)音信號(hào)。
6、根據(jù)本公開實(shí)施例的示例,其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:通過(guò)將所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)進(jìn)行相乘來(lái)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。
7、根據(jù)本公開實(shí)施例的示例,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:利用第二語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述混合語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人掩膜向量,其中,所述目標(biāo)說(shuō)話人掩膜向量指示所述混合語(yǔ)音信號(hào)中所述目標(biāo)說(shuō)話人語(yǔ)音信號(hào)的位置;基于所述目標(biāo)說(shuō)話人掩膜向量和所述混合語(yǔ)音信號(hào)生成所述第二語(yǔ)音信號(hào)。
8、根據(jù)本公開實(shí)施例的示例,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:基于所述第二語(yǔ)音信號(hào)生成第二混合特征向量;基于所述目標(biāo)說(shuō)話人特征向量和所述第二混合特征向量生成目標(biāo)說(shuō)話人活動(dòng)概率,其中,所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率;基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào),其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:將所述第一語(yǔ)音信號(hào)確定為所述目標(biāo)語(yǔ)音信號(hào)。
9、根據(jù)本公開實(shí)施例的示例,其中,所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊,并且所述至少一個(gè)變換器塊還包括線性層和至少一個(gè)殘差連接與歸一化層。
10、根據(jù)本公開實(shí)施例的示例,其中,所述第一語(yǔ)音提取模型為用于檢測(cè)目標(biāo)說(shuō)話人活動(dòng)概率的目標(biāo)說(shuō)話人語(yǔ)音活動(dòng)檢測(cè)模型,并且所述第二語(yǔ)音提取模型為用于提取目標(biāo)說(shuō)話人掩膜向量的目標(biāo)說(shuō)話人掩膜提取模型,所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率,所述目標(biāo)說(shuō)話人掩膜向量指示所述混合語(yǔ)音信號(hào)中所述目標(biāo)說(shuō)話人語(yǔ)音信號(hào)的位置。
11、根據(jù)本公開實(shí)施例的示例,其中,所述混合語(yǔ)音信號(hào)中包括存在多個(gè)說(shuō)話人的語(yǔ)音信號(hào)段和所述目標(biāo)說(shuō)話人缺席的語(yǔ)音信號(hào)段,并且其中,所述目標(biāo)說(shuō)話人的語(yǔ)音時(shí)長(zhǎng)占所述混合語(yǔ)音信號(hào)的總語(yǔ)音時(shí)長(zhǎng)的比率是變化的。
12、根據(jù)本公開實(shí)施例的另一方面,提供了一種目標(biāo)說(shuō)話人語(yǔ)音提取裝置,所述裝置包括:特征向量提取單元,被配置為基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量;目標(biāo)語(yǔ)音信號(hào)生成單元,被配置為至少基于混合語(yǔ)音信號(hào)和所述目標(biāo)說(shuō)話人特征向量,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)和并利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào),并基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào),其中,所述第一語(yǔ)音提取模型包括至少一個(gè)變換器塊,所述至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層。
13、根據(jù)本公開實(shí)施例的示例,其中,所述第一語(yǔ)音提取模型為用于檢測(cè)目標(biāo)說(shuō)話人活動(dòng)概率的目標(biāo)說(shuō)話人語(yǔ)音活動(dòng)檢測(cè)模型,并且所述第二語(yǔ)音提取模型為用于提取目標(biāo)說(shuō)話人掩膜向量的目標(biāo)說(shuō)話人掩膜提取模型,所述目標(biāo)說(shuō)話人活動(dòng)本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種目標(biāo)說(shuō)話人語(yǔ)音提取方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括:
4.根據(jù)權(quán)利要求2所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:
5.根據(jù)權(quán)利要求2所述的方法,其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:
7.根據(jù)權(quán)利要求6所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊,并且所述至少一個(gè)變換器塊還包括線性層和至少一個(gè)殘差連接與歸一化層。
9.根據(jù)權(quán)利要求1所述的方法,其中,
10.根據(jù)權(quán)利要求1所述的方法,其中,所述混
11.一種目標(biāo)說(shuō)話人語(yǔ)音提取裝置,所述裝置包括:
12.根據(jù)權(quán)利要求11所述的裝置,其中,
13.一種目標(biāo)說(shuō)話人語(yǔ)音提取設(shè)備,包括:
14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令在被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法。
15.一種計(jì)算機(jī)程序產(chǎn)品,其包括計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令在被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.一種目標(biāo)說(shuō)話人語(yǔ)音提取方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括:
4.根據(jù)權(quán)利要求2所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:
5.根據(jù)權(quán)利要求2所述的方法,其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:
7.根據(jù)權(quán)利要求6所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:趙赫,陳航艇,余劍威,翁超,
申請(qǐng)(專利權(quán))人:騰訊科技深圳有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。