System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲人片在线观看天堂无码 ,免费无码作爱视频,一本大道无码日韩精品影视
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    目標(biāo)說(shuō)話人語(yǔ)音提取方法和裝置制造方法及圖紙

    技術(shù)編號(hào):43466145 閱讀:15 留言:0更新日期:2024-11-27 13:02
    本公開提供了利用人工智能技術(shù)的目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。目標(biāo)說(shuō)話人語(yǔ)音提取方法可以包括:基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量;至少基于混合語(yǔ)音信號(hào)和目標(biāo)說(shuō)話人特征向量,利用第一語(yǔ)音提取模型生成目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)并利用第二語(yǔ)音提取模型生成目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào),其中,第一語(yǔ)音提取模型包括至少一個(gè)變換器塊,至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層;以及基于第一語(yǔ)音信號(hào)和第二語(yǔ)音信號(hào)中的至少一個(gè)生成目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本公開涉及人工智能領(lǐng)域,并且更具體地,涉及一種目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。


    技術(shù)介紹

    1、人工智能(artificial?intelligence,ai)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。換句話說(shuō),人工智能是計(jì)算機(jī)科學(xué)的一個(gè)綜合技術(shù),它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法,使機(jī)器具有感知、推理與決策的功能。

    2、人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能基礎(chǔ)技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理技術(shù)、預(yù)訓(xùn)練模型技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。其中,預(yù)訓(xùn)練模型又稱大模型、基礎(chǔ)模型,經(jīng)過(guò)微調(diào)后可以廣泛應(yīng)用于人工智能各大方向下游任務(wù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音處理技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。

    3、在現(xiàn)今生活中,語(yǔ)音技術(shù)(speech?technology)已被廣泛應(yīng)用。語(yǔ)音技術(shù)的關(guān)鍵技術(shù)有自動(dòng)語(yǔ)音識(shí)別技術(shù)(automatic?speech?recognition,asr)、語(yǔ)音合成技術(shù)(text?tospeech,tts)以及聲紋識(shí)別技術(shù)。讓計(jì)算機(jī)能聽(tīng)、能看、能說(shuō)、能感覺(jué),是未來(lái)人機(jī)交互的發(fā)展方向,其中語(yǔ)音成為未來(lái)最被看好的人機(jī)交互方式之一。在聲紋識(shí)別中,目標(biāo)說(shuō)話人提取(target?speaker?extraction,tse)是借助目標(biāo)說(shuō)話人的注冊(cè)語(yǔ)音信息,從帶有噪聲、干擾語(yǔ)音的混合語(yǔ)音信號(hào)中提取目標(biāo)說(shuō)話人的語(yǔ)音。現(xiàn)有的目標(biāo)說(shuō)話人提取方法對(duì)于存在較多說(shuō)話人、目標(biāo)說(shuō)話人缺席以及目標(biāo)說(shuō)話人重疊率低的混合語(yǔ)音信號(hào)的提取效果欠佳,因此,需要一種能夠有效處理此類混合語(yǔ)音信號(hào)的目標(biāo)說(shuō)話人提取方法。


    技術(shù)實(shí)現(xiàn)思路

    1、本公開提出了一種目標(biāo)說(shuō)話人語(yǔ)音提取方法、目標(biāo)說(shuō)話人語(yǔ)音提取裝置和設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序產(chǎn)品。

    2、根據(jù)本公開實(shí)施例的一個(gè)方面,提供了一種目標(biāo)說(shuō)話人語(yǔ)音提取方法,包括:基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量;至少基于混合語(yǔ)音信號(hào)和所述目標(biāo)說(shuō)話人特征向量,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)并利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào),其中,所述第一語(yǔ)音提取模型包括至少一個(gè)變換器塊,所述至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層;以及基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。

    3、根據(jù)本公開實(shí)施例的示例,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:基于所述混合語(yǔ)音信號(hào)生成第一混合特征向量;利用所述第一語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述第一混合特征向量生成目標(biāo)說(shuō)話人活動(dòng)概率,其中,所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率;基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)。

    4、根據(jù)本公開實(shí)施例的示例,其中,基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括:基于預(yù)定閾值將所述目標(biāo)說(shuō)話人活動(dòng)概率轉(zhuǎn)換為二值化形式的目標(biāo)說(shuō)話人活動(dòng)標(biāo)簽;利用所述目標(biāo)說(shuō)話人活動(dòng)標(biāo)簽對(duì)所述混合語(yǔ)音信號(hào)進(jìn)行過(guò)濾,以生成所述第一語(yǔ)音信號(hào)。

    5、根據(jù)本公開實(shí)施例的示例,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:利用所述第二語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述第一語(yǔ)音信號(hào)生成所述第二語(yǔ)音信號(hào),其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:將所述第二語(yǔ)音信號(hào)確定為所述目標(biāo)語(yǔ)音信號(hào)。

    6、根據(jù)本公開實(shí)施例的示例,其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:通過(guò)將所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)進(jìn)行相乘來(lái)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)。

    7、根據(jù)本公開實(shí)施例的示例,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:利用第二語(yǔ)音提取模型基于所述目標(biāo)說(shuō)話人特征向量和所述混合語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人掩膜向量,其中,所述目標(biāo)說(shuō)話人掩膜向量指示所述混合語(yǔ)音信號(hào)中所述目標(biāo)說(shuō)話人語(yǔ)音信號(hào)的位置;基于所述目標(biāo)說(shuō)話人掩膜向量和所述混合語(yǔ)音信號(hào)生成所述第二語(yǔ)音信號(hào)。

    8、根據(jù)本公開實(shí)施例的示例,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:基于所述第二語(yǔ)音信號(hào)生成第二混合特征向量;基于所述目標(biāo)說(shuō)話人特征向量和所述第二混合特征向量生成目標(biāo)說(shuō)話人活動(dòng)概率,其中,所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率;基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào),其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:將所述第一語(yǔ)音信號(hào)確定為所述目標(biāo)語(yǔ)音信號(hào)。

    9、根據(jù)本公開實(shí)施例的示例,其中,所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊,并且所述至少一個(gè)變換器塊還包括線性層和至少一個(gè)殘差連接與歸一化層。

    10、根據(jù)本公開實(shí)施例的示例,其中,所述第一語(yǔ)音提取模型為用于檢測(cè)目標(biāo)說(shuō)話人活動(dòng)概率的目標(biāo)說(shuō)話人語(yǔ)音活動(dòng)檢測(cè)模型,并且所述第二語(yǔ)音提取模型為用于提取目標(biāo)說(shuō)話人掩膜向量的目標(biāo)說(shuō)話人掩膜提取模型,所述目標(biāo)說(shuō)話人活動(dòng)概率表示所述混合語(yǔ)音信號(hào)中的每個(gè)時(shí)間幀是所述目標(biāo)說(shuō)話人的語(yǔ)音信號(hào)的概率,所述目標(biāo)說(shuō)話人掩膜向量指示所述混合語(yǔ)音信號(hào)中所述目標(biāo)說(shuō)話人語(yǔ)音信號(hào)的位置。

    11、根據(jù)本公開實(shí)施例的示例,其中,所述混合語(yǔ)音信號(hào)中包括存在多個(gè)說(shuō)話人的語(yǔ)音信號(hào)段和所述目標(biāo)說(shuō)話人缺席的語(yǔ)音信號(hào)段,并且其中,所述目標(biāo)說(shuō)話人的語(yǔ)音時(shí)長(zhǎng)占所述混合語(yǔ)音信號(hào)的總語(yǔ)音時(shí)長(zhǎng)的比率是變化的。

    12、根據(jù)本公開實(shí)施例的另一方面,提供了一種目標(biāo)說(shuō)話人語(yǔ)音提取裝置,所述裝置包括:特征向量提取單元,被配置為基于來(lái)自目標(biāo)說(shuō)話人的參考語(yǔ)音信號(hào)生成目標(biāo)說(shuō)話人特征向量;目標(biāo)語(yǔ)音信號(hào)生成單元,被配置為至少基于混合語(yǔ)音信號(hào)和所述目標(biāo)說(shuō)話人特征向量,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)和并利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào),并基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào),其中,所述第一語(yǔ)音提取模型包括至少一個(gè)變換器塊,所述至少一個(gè)變換器塊具有多頭自注意力層和門控循環(huán)單元層。

    13、根據(jù)本公開實(shí)施例的示例,其中,所述第一語(yǔ)音提取模型為用于檢測(cè)目標(biāo)說(shuō)話人活動(dòng)概率的目標(biāo)說(shuō)話人語(yǔ)音活動(dòng)檢測(cè)模型,并且所述第二語(yǔ)音提取模型為用于提取目標(biāo)說(shuō)話人掩膜向量的目標(biāo)說(shuō)話人掩膜提取模型,所述目標(biāo)說(shuō)話人活動(dòng)本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種目標(biāo)說(shuō)話人語(yǔ)音提取方法,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:

    3.根據(jù)權(quán)利要求2所述的方法,其中,基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括:

    4.根據(jù)權(quán)利要求2所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:

    5.根據(jù)權(quán)利要求2所述的方法,其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:

    6.根據(jù)權(quán)利要求1所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:

    7.根據(jù)權(quán)利要求6所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:

    8.根據(jù)權(quán)利要求1所述的方法,其中,所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊,并且所述至少一個(gè)變換器塊還包括線性層和至少一個(gè)殘差連接與歸一化層。

    9.根據(jù)權(quán)利要求1所述的方法,其中,

    10.根據(jù)權(quán)利要求1所述的方法,其中,所述混合語(yǔ)音信號(hào)中包括存在多個(gè)說(shuō)話人的語(yǔ)音信號(hào)段和所述目標(biāo)說(shuō)話人缺席的語(yǔ)音信號(hào)段,并且其中,所述目標(biāo)說(shuō)話人的語(yǔ)音時(shí)長(zhǎng)占所述混合語(yǔ)音信號(hào)的總語(yǔ)音時(shí)長(zhǎng)的比率是變化的。

    11.一種目標(biāo)說(shuō)話人語(yǔ)音提取裝置,所述裝置包括:

    12.根據(jù)權(quán)利要求11所述的裝置,其中,

    13.一種目標(biāo)說(shuō)話人語(yǔ)音提取設(shè)備,包括:

    14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令在被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法。

    15.一種計(jì)算機(jī)程序產(chǎn)品,其包括計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令在被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1-10中任一項(xiàng)所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種目標(biāo)說(shuō)話人語(yǔ)音提取方法,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:

    3.根據(jù)權(quán)利要求2所述的方法,其中,基于所述目標(biāo)說(shuō)話人活動(dòng)概率和所述混合語(yǔ)音信號(hào)生成所述第一語(yǔ)音信號(hào)包括:

    4.根據(jù)權(quán)利要求2所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:

    5.根據(jù)權(quán)利要求2所述的方法,其中,基于所述第一語(yǔ)音信號(hào)和所述第二語(yǔ)音信號(hào)中的至少一個(gè)生成所述目標(biāo)說(shuō)話人的目標(biāo)語(yǔ)音信號(hào)包括:

    6.根據(jù)權(quán)利要求1所述的方法,其中,利用第二語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第二語(yǔ)音信號(hào)包括:

    7.根據(jù)權(quán)利要求6所述的方法,其中,利用第一語(yǔ)音提取模型生成所述目標(biāo)說(shuō)話人的第一語(yǔ)音信號(hào)包括:

    8.根據(jù)權(quán)利要求1所述的方法,其中,所述第一語(yǔ)音提取模型還包括至少一個(gè)卷積塊...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:趙赫陳航艇余劍威翁超
    申請(qǐng)(專利權(quán))人:騰訊科技深圳有限公司
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久人午夜亚洲精品无码区| 国产在线无码视频一区| 无码精品久久久久久人妻中字| 国产精品无码AV一区二区三区 | 无码人妻熟妇AV又粗又大 | 亚洲午夜国产精品无码| 99久久人妻无码精品系列蜜桃| 久久久久亚洲?V成人无码| 亚洲精品无码专区久久| 中文无码制服丝袜人妻av| 国产精品午夜无码体验区| 无码八A片人妻少妇久久| 国产aⅴ激情无码久久| 成人免费无码精品国产电影| 99久久亚洲精品无码毛片| 国产aⅴ无码专区亚洲av麻豆| 在线无码午夜福利高潮视频| 亚洲性无码AV中文字幕| 无码欧精品亚洲日韩一区| 在线观看免费无码视频| 永久免费无码日韩视频| 久久中文字幕无码一区二区| 中文字幕日产无码| 日韩精品无码一区二区三区免费| 日韩人妻无码精品系列| 精品无码一级毛片免费视频观看| 成人免费无遮挡无码黄漫视频| 亚洲av无码一区二区三区在线播放 | 亚洲AV无码成人精品区狼人影院| 青青草无码免费一二三区| 国产三级无码内射在线看| 亚洲av永久无码制服河南实里| 中文无码人妻有码人妻中文字幕| 亚洲人成影院在线无码观看| 一本色道无码道在线| 十八禁视频在线观看免费无码无遮挡骂过 | 免费无码一区二区三区| 日韩国产成人无码av毛片| AV无码精品一区二区三区| 日本精品无码一区二区三区久久久 | 国产乱人伦无无码视频试看|