The invention discloses a method for separation of speech, the role of which is based on the feature vector is extracted from the speech signal by frame, get the feature vector sequence; feature vector distribution role labels; using feature vector depth neural network training DNN model with role labels; according to the DNN model and using hidden Markov model HMM features the vector obtained from the training, determine the role sequence corresponding to the sequence of feature vectors, and the output of the separation of roles; the DNN model according to the probability output corresponding to the input feature vector of each character, HMM is used to describe the relationship between the roles of the jump. The present application also provides a voice based role separation device. The method provided by the application, due to the adoption of the DNN model has powerful ability of feature extraction for modeling speaker roles than the traditional GMM has more powerful ability to describe the portrayal of the role, more precise, accurate, so it can obtain more accurate results of the separation of roles.
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于語音的角色分離方法及裝置
本申請涉及語音識別領(lǐng)域,具體涉及一種基于語音的角色分離方法。本申請同時(shí)涉及一種基于語音的角色分離裝置。
技術(shù)介紹
語音是人類最自然的交流溝通方式,語音識別技術(shù)則是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別是一門交叉學(xué)科,所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。在實(shí)際應(yīng)用中,為了能夠?qū)φZ音信號作更為準(zhǔn)確的分析,不僅需要進(jìn)行語音識別,而且要判別出每段語音的說話人,因此很自然地出現(xiàn)了對語音按照角色進(jìn)行分離的需求。在日常生活、會議以及電話對話等很多場景下,都存在對話語音,而通過對對話語音的角色分離,就可以判定哪部分語音是其中一個人說的,哪部分語音是另外一個人說的。在將對話語音按照角色分離之后,結(jié)合說話人識別、語音識別,會產(chǎn)生更為廣闊的應(yīng)用空間,例如,將客服中心的對話語音按照角色分離,然后進(jìn)行語音識別就可以確定客服說了什么內(nèi)容,客戶說了什么內(nèi)容,從而可以進(jìn)行相應(yīng)的客服質(zhì)檢或者進(jìn)行客戶潛在需求的挖掘。現(xiàn)有技術(shù)中,通常采用GMM(GaussianMixtureModel—高斯混合模型)和HMM(HiddenMarkovModel—隱馬爾科夫模型)進(jìn)行對話語音的角色分離,即:對于每個角色使用GMM建模,對于不同角色之間的跳轉(zhuǎn)采用HMM建模。由于GMM建模技術(shù)提出的時(shí)間比較早,而且其擬合任意函數(shù)的功能取決于混合高斯函數(shù)的個數(shù),所以其對角色的刻畫能力有一定的局限性,導(dǎo)致角色分離的準(zhǔn)確率通常比較低,無法滿足應(yīng)用的需求。
技術(shù)實(shí)現(xiàn)思路
本申請實(shí)施例提供一種基于語音的角色分離方法 ...
【技術(shù)保護(hù)點(diǎn)】
一種基于語音的角色分離方法,其特征在于,包括:從語音信號中逐幀提取特征矢量,得到特征矢量序列;為特征矢量分配角色標(biāo)簽;利用具有角色標(biāo)簽的特征矢量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)DNN模型;根據(jù)所述DNN模型和利用特征矢量訓(xùn)練得到的隱馬爾科夫模型HMM,判定特征矢量序列對應(yīng)的角色序列,并輸出角色分離結(jié)果;其中,所述DNN模型用于根據(jù)輸入的特征矢量輸出對應(yīng)每個角色的概率,HMM用于描述角色間的跳轉(zhuǎn)關(guān)系。
【技術(shù)特征摘要】
1.一種基于語音的角色分離方法,其特征在于,包括:從語音信號中逐幀提取特征矢量,得到特征矢量序列;為特征矢量分配角色標(biāo)簽;利用具有角色標(biāo)簽的特征矢量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)DNN模型;根據(jù)所述DNN模型和利用特征矢量訓(xùn)練得到的隱馬爾科夫模型HMM,判定特征矢量序列對應(yīng)的角色序列,并輸出角色分離結(jié)果;其中,所述DNN模型用于根據(jù)輸入的特征矢量輸出對應(yīng)每個角色的概率,HMM用于描述角色間的跳轉(zhuǎn)關(guān)系。2.根據(jù)權(quán)利要求1所述的基于語音的角色分離方法,其特征在于,在所述從語音信號中逐幀提取特征矢量的步驟之后、在所述為特征矢量分配角色標(biāo)簽的步驟之前,執(zhí)行下述操作:通過識別并剔除不包含語音內(nèi)容的音頻幀、將所述語音信號切分為語音段;所述為特征矢量分配角色標(biāo)簽包括:為各語音段中的特征矢量分配角色標(biāo)簽;所述判定特征矢量序列對應(yīng)的角色序列包括:判定各語音段所包含的特征矢量序列對應(yīng)的角色序列。3.根據(jù)權(quán)利要求2所述的基于語音的角色分離方法,其特征在于,所述為各語音段中的特征矢量分配角色標(biāo)簽包括:通過建立高斯混合模型GMM和HMM,為各語音段中的特征矢量分配角色標(biāo)簽;其中所述GMM用于針對每個角色、根據(jù)輸入的特征矢量輸出該特征矢量對應(yīng)于所述角色的概率;所述根據(jù)所述DNN模型和利用特征矢量訓(xùn)練得到的HMM,判定各語音段所包含的特征矢量序列對應(yīng)的角色序列包括:根據(jù)所述DNN模型和為各語音段中的特征矢量分配角色標(biāo)簽所采用的HMM,判定所述各語音段所包含的特征矢量序列對應(yīng)的角色序列。4.根據(jù)權(quán)利要求3所述的基于語音的角色分離方法,其特征在于,所述通過建立高斯混合模型GMM和HMM,為各語音段中的特征矢量分配角色標(biāo)簽,包括:按照預(yù)設(shè)的初始角色數(shù)量選擇相應(yīng)數(shù)量的語音段,并為每個語音段分別指定不同角色;利用指定角色的語音段中的特征矢量,訓(xùn)練針對每個角色的GMM以及HMM;根據(jù)訓(xùn)練得到的GMM和HMM進(jìn)行解碼,獲取輸出各語音段所包含的特征矢量序列的概率值排序靠前的角色序列;判斷所述角色序列對應(yīng)的概率值是否大于預(yù)設(shè)閾值;若是,按照所述角色序列為各語音段中的特征矢量分配角色標(biāo)簽。5.根據(jù)權(quán)利要求4所述的基于語音的角色分離方法,其特征在于,當(dāng)所述判斷所述角色序列對應(yīng)的概率值是否大于預(yù)設(shè)閾值的結(jié)果為否時(shí),執(zhí)行下述操作:根據(jù)所述角色序列,為每個語音段指定對應(yīng)的角色;根據(jù)每個語音段中的特征矢量以及對應(yīng)的角色,訓(xùn)練針對每個角色的GMM以及HMM;轉(zhuǎn)到所述根據(jù)訓(xùn)練得到的GMM和HMM進(jìn)行解碼的步驟執(zhí)行。6.根據(jù)權(quán)利要求5所述的基于語音的角色分離方法,其特征在于,所述根據(jù)所述角色序列,為每個語音段指定對應(yīng)的角色,包括:針對每個語音段,將其中各特征矢量對應(yīng)的角色的眾數(shù)指定為所述語音段的角色。7.根據(jù)權(quán)利要求5所述的基于語音的角色分離方法,其特征在于,所述根據(jù)每個語音段中的特征矢量以及對應(yīng)的角色,訓(xùn)練針對每個角色的GMM以及HMM,包括:在上一次訓(xùn)練得到的模型基礎(chǔ)上采用增量方式訓(xùn)練所述GMM以及HMM。8.根據(jù)權(quán)利要求5所述的基于語音的角色分離方法,其特征在于,當(dāng)所述判斷所述角色序列對應(yīng)的概率值是否大于預(yù)設(shè)閾值的結(jié)果為否時(shí),執(zhí)行下述操作:判斷在當(dāng)前角色數(shù)量下訓(xùn)練GMM和HMM的次數(shù)是否小于預(yù)設(shè)的訓(xùn)練次數(shù)上限;若是,執(zhí)行所述根據(jù)所述角色序列為每個語音段指定對應(yīng)的角色的步驟;若否,執(zhí)行下述操作:調(diào)整角色數(shù)量,選擇相應(yīng)數(shù)量的語音段并為每個語音段分別指定不同角色;并轉(zhuǎn)到所述利用指定角色的語音段中的特征矢量,訓(xùn)練針對每個角色的GMM以及HMM的步驟執(zhí)行。9.根據(jù)權(quán)利要求8所述的基于語音的角色分離方法,其特征在于,當(dāng)所述判斷在當(dāng)前角色數(shù)量下訓(xùn)練GMM和HMM的次數(shù)是否小于預(yù)設(shè)的訓(xùn)練次數(shù)上限的結(jié)果為否時(shí),執(zhí)行下述操作:判斷當(dāng)前角色數(shù)量是否符合預(yù)設(shè)要求;若是,轉(zhuǎn)到所述按照所述角色序列為各語音段中的特征矢量分配角色標(biāo)簽的步驟執(zhí)行,若否,則執(zhí)行所述調(diào)整角色數(shù)量的步驟。10.根據(jù)權(quán)利要求8所述的基于語音的角色分離方法,其特征在于,所述預(yù)設(shè)的初始角色數(shù)量為2,所述調(diào)整角色數(shù)量包括:為當(dāng)前角色數(shù)量加1。11.根據(jù)權(quán)利要求1所述的基于語音的角色分離方法,其特征在于,所述從語音信號中逐幀提取特征矢量,得到特征矢量序列包括:按照預(yù)先設(shè)定的幀長度對語音信號進(jìn)行分幀處理,得到多個音頻幀;提取各音頻幀的特征矢量,得到所述特征矢量序列。12.根據(jù)權(quán)利要求11所述的基于語音的角色分離方法,其特征在于,所述提取各音頻幀的特征矢量包括:提取MFCC特征、PLP特征、或者LPC特征。13.根據(jù)權(quán)利要求2所述的基于語音的角色分離方法,其特征在于,所述識別并剔除不包含語音內(nèi)容的音頻幀包括:采用VAD技術(shù)識別所述不包含語音內(nèi)容的音頻幀、并執(zhí)行相應(yīng)的剔除操作。14.根據(jù)權(quán)利要求13所述的基于語音的角色分離方法,其特征在于,在采用VAD技術(shù)執(zhí)行所述識別及剔除操作、并將所述語音信號切分為語音段之后,執(zhí)行下述VAD平滑操作:將時(shí)長小于預(yù)設(shè)閾值的語音段與相鄰語音段合并。15.根據(jù)權(quán)利要求1所述的基于語音的角色分離方法,其特征在于,所述利用具有角色標(biāo)簽的特征矢量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)DNN模型包括:采用反向傳播算法訓(xùn)練所述DNN模型。16.根據(jù)權(quán)利要求1所述的基于語音的角色分離方法,其特征在于,所述根據(jù)所述DNN模型和利用特征矢量訓(xùn)練得到的隱馬爾科夫模型HMM,判定特征矢量序列對應(yīng)的角色序列,包括:根據(jù)所述DNN模型和HMM執(zhí)行解碼操作,獲取輸出所述特征矢量序列的概率值排序靠前的角色序列,并將所述角色序列作為與所述特征矢量序列對應(yīng)的角色序列。17.根據(jù)權(quán)利要求1所述的基于語音的角色分離方法,其特征在于,所述輸出角色分離結(jié)果包括:根據(jù)特征矢量序列對應(yīng)的角色序列,針對每個角色輸出與其對應(yīng)的特征矢量所屬音頻幀的起止時(shí)間信息。18.根據(jù)權(quán)利要求4或8所述的基于語音的角...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李曉輝,李宏言,
申請(專利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類型:發(fā)明
國別省市:開曼群島,KY
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。