本發(fā)明專利技術(shù)涉及一種基于語音和面部表情的雙模態(tài)情感融合的識別方法,包括以下步驟:獲取待識別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);從視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割;從三個區(qū)域的圖像中提取每個區(qū)域圖像中的面部表情特征;S4、對語音情感特征和面部表情特征進(jìn)行PCA分析降維;將兩種模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,并將條件概率進(jìn)行決策級融合,得到最終情感識別結(jié)果。本發(fā)明專利技術(shù)采用決策級融合方法對語音情感特征和面部表情特征進(jìn)行融合,能夠?yàn)橄乱徊竭M(jìn)行相應(yīng)條件概率的計(jì)算提供了更加準(zhǔn)確的數(shù)據(jù),使得本發(fā)明專利技術(shù)的方法能夠更準(zhǔn)確的得出受測對象的情感狀態(tài),從而提高情感識別的準(zhǔn)確性和可靠性。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于情感識別領(lǐng)域,更具體地,涉及一種基于語音和面部表情的雙模態(tài)情感融合和識別方法及系統(tǒng)。
技術(shù)介紹
隨著生活水平的提高和信息技術(shù)的高速發(fā)展人類對智能化生活的需求越來越高,人機(jī)交互能力也越來越得到重視,作為人機(jī)交互的重要部分的情感計(jì)算也就成為了研究熱點(diǎn)。目前國內(nèi)外在情感識別方面的研究主要分為兩大類,一類是基于單一模態(tài)的情感識別,另一類是基于多模態(tài)的情感識別。兩類情感識別的主要區(qū)別是多模態(tài)情感識別是通過對多通道采集到的信息進(jìn)行分析,并通過一系列的技術(shù)手段最終較為準(zhǔn)確的獲得被測者的情感狀態(tài),而單一模態(tài)情感識別是通過對某一通道采集到的信息進(jìn)行分析,并通過一系列的技術(shù)手段最終較為準(zhǔn)確的獲得被測者的情感狀態(tài)。現(xiàn)有的情感識別主要是基于單一模態(tài)的情感識別,在面部表情識別上多數(shù)研究仍停留在對基本面部表情的情感識別,對更加細(xì)微的表情的識別效果不好。對于語音情感識別方面的研究較為成熟,但是針對語音進(jìn)行單一模態(tài)的情感識別時,如果語音通道受阻則對情感識別的結(jié)果影響很大。葉亮等提出了一種用于混合語音情感識別的語音特征篩選方法,能夠很好地提取一系列聲學(xué)特征中的最佳特征集合,但是未考慮聲學(xué)通道受阻的情況。趙小明等提出了基于壓縮感知的魯棒性語音情感識別方法,將特征參數(shù)的提取從韻律特征和音質(zhì)特征兩方面擴(kuò)充到梅爾頻率倒譜系數(shù)MFCC,提高了特征信號的抗干擾性,但是仍未解決聲學(xué)通道無法獲取信號時的情感識別。韓志艷等提出了一種串并結(jié)合的多模式情感信息融合與識別方法,通過 講語音信號特征參數(shù)和面部表情特征參數(shù)順序組合起來等處理方法融合語音和面部表情的特征信息,采用Adaboost算法訓(xùn)練獲得分類器,最終采用投票法獲得最終結(jié)果。而本專利創(chuàng)新的采用貝葉斯分類器和決策級融合方法,融合情感語音特征和面部表情特征,獲得更好的效果。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)所要解決的技術(shù)問題是提供一種基于語音和面部表情的雙模態(tài)情感融合和識別方法及系統(tǒng)。本專利技術(shù)解決上述技術(shù)問題的技術(shù)方案如下:基于語音和面部表情的雙模態(tài)情感融合的識別方法,包括以下步驟:S1、獲取待識別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);S2、對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號;從所述視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個區(qū)域的圖像;S3、從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域的圖像中提取每個區(qū)域圖像中的面部表情特征;S4、對所述語音情感特征和所述面部表情特征進(jìn)行PCA分析降維,獲得最終語音情感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情特征作為面部模態(tài)樣本;S5、將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;S6、將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級融合,得到待識別對象的最終情感識別結(jié)果。本專利技術(shù)的有益效果是:本專利技術(shù)基于語音和面部表情的雙模態(tài)情感識別方 法使用了標(biāo)準(zhǔn)數(shù)據(jù)庫對分類器進(jìn)行訓(xùn)練使得情感識別結(jié)果更加的準(zhǔn)確高效。并且采用決策級融合方法對語音情感特征和面部表情特征進(jìn)行融合,能夠更好地得到融合后的情感特征為下一步進(jìn)行相應(yīng)條件概率的計(jì)算提供了更加準(zhǔn)確的數(shù)據(jù),使得本專利的方法能夠更準(zhǔn)確的得出受測對象的情感狀態(tài),從而提高情感識別的準(zhǔn)確性和可靠性。在上述技術(shù)方案的基礎(chǔ)上,本專利技術(shù)還可以做如下改進(jìn)。進(jìn)一步的,所述步驟S2對音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號的具體步驟為:S2A.1、對音頻數(shù)據(jù)進(jìn)行固定頻率的采樣,將音頻數(shù)據(jù)的幅值分為若干個有限區(qū)間,將屬于同一區(qū)間的音頻數(shù)據(jù)用區(qū)間所對應(yīng)的幅值統(tǒng)一表示,最終將信號轉(zhuǎn)化為時間和幅值離散的數(shù)字信號;S2A.2、采用高通濾波器H(z)=1-αz-1對數(shù)字信號的高頻部分的功率進(jìn)行補(bǔ)償,放大語音信號高頻部分,得到補(bǔ)償語音信號,其中H(z)為語音信號功率函數(shù),z為頻率,α為預(yù)加重系數(shù)且0.9≤α<1;S2A.3、對步驟S2A.2處理后的補(bǔ)償語音信號進(jìn)行分幀處理,將補(bǔ)償語音信號劃分為多幀語音段,并對分幀后的語音段進(jìn)行加窗處理,得到情感語音信號。采用上述進(jìn)一步方案的有益效果為:對語音信號進(jìn)行一定頻率的采樣保證了信號不失真的同時,包含最少的冗余信息。預(yù)加重增強(qiáng)了情感識別中所需要的信息。分幀和加窗確保了幀與幀之間的平穩(wěn)過渡并且減少幀起始處與幀結(jié)束處信號的不連續(xù)問題。進(jìn)一步的,所述步驟S2從步驟S1抽取的視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個區(qū)域圖像的具體步驟為:S2B.1、獲取所述人臉表情圖像中眼睛、鼻子、嘴巴的三個區(qū)域的四角坐標(biāo),將每個區(qū)域的坐標(biāo)值經(jīng)過坐標(biāo)變換和取整數(shù),獲取相應(yīng)裁剪區(qū)域的矩 形信息,將眼睛、鼻子、嘴巴從所述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和嘴巴區(qū)域圖像;S2B.2、將待識別對象的所有眼睛區(qū)域圖像調(diào)節(jié)為同一尺寸,所有的鼻子區(qū)域圖像調(diào)節(jié)為同一尺寸,所有的嘴巴區(qū)域圖像調(diào)節(jié)為同一尺寸;S2B.3、增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像;S2B.4、通過調(diào)整高亮度圖像的灰度值將圖像像素均勻地分布在整個圖像范圍內(nèi)得到統(tǒng)一標(biāo)準(zhǔn)的三個區(qū)域圖像。采用上述進(jìn)一步方案的有益效果為:三個區(qū)域分割減少了圖像中非關(guān)鍵部分對表情變化信息的干擾,也減少了數(shù)據(jù)量,提高了計(jì)算速度,由于分割后的灰度圖像較為模糊,不易識別,灰度變換通過調(diào)整圖像的灰度值,將其均勻地分布在整個范圍的灰度區(qū)域,使一定灰度區(qū)間的像素個數(shù)大體相同,從而使圖像的對比度得以增強(qiáng),直方圖均衡化使圖像的對比度得以增強(qiáng)。進(jìn)一步的,所述步驟S3從情感語音信號中提取語音情感特征的具體包括以下步驟:S3A.1、利用短時自相關(guān)函數(shù)法確定情感語音信號的周期,提取出基頻特征的10個統(tǒng)計(jì)學(xué)特征參數(shù),短時自相關(guān)函數(shù)Rω(k)的定義為: 其中,S(n)為情感語音信號的時間序列,Sω(n)為第ω幀情感語音信號,每幀幀長為N,k為時間的延遲量,10個統(tǒng)計(jì)學(xué)特征參數(shù)包括:基頻的最大值Pmax、最小值Pmin、變化范圍Pd=Pmax-Pmin、平均值Pm、標(biāo)準(zhǔn)差σp、平均絕對斜度Ms、上四分位數(shù)P0.75、下四分位數(shù)P0.25、內(nèi)四分極值Pi=P0.75-P0.25、中位數(shù)P0.5;S3A.2、根據(jù)LPC的線性預(yù)測運(yùn)算求出預(yù)測系數(shù){ak,k=1,2,…,p本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征在于,包括以下步驟:S1、獲取待識別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);S2、對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號;從所述視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個區(qū)域的圖像;S3、從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域的圖像中提取每個區(qū)域圖像中的面部表情特征;S4、對所述語音情感特征和所述面部表情特征進(jìn)行PCA分析降維,獲得最終語音情感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情特征作為面部模態(tài)樣本;S5、將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;S6、將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級融合,得到待識別對象的最終情感識別結(jié)果。
【技術(shù)特征摘要】
1.基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征在于,包括以下步驟:S1、獲取待識別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);S2、對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號;從所述視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個區(qū)域的圖像;S3、從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域的圖像中提取每個區(qū)域圖像中的面部表情特征;S4、對所述語音情感特征和所述面部表情特征進(jìn)行PCA分析降維,獲得最終語音情感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情特征作為面部模態(tài)樣本;S5、將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;S6、將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級融合,得到待識別對象的最終情感識別結(jié)果。2.根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征在于,所述步驟S2對音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號的具體步驟為:S2A.1、對音頻數(shù)據(jù)進(jìn)行固定頻率的采樣,將音頻數(shù)據(jù)的幅值分為若干個有限區(qū)間,將屬于同一區(qū)間的音頻數(shù)據(jù)用區(qū)間所對應(yīng)的幅值統(tǒng)一表示,最終將信號轉(zhuǎn)化為時間和幅值離散的數(shù)字信號;S2A.2、采用高通濾波器H(z)=1-αz-1對數(shù)字信號的高頻部分的功率進(jìn)行 補(bǔ)償,放大語音信號高頻部分,得到補(bǔ)償語音信號,其中H(z)為語音信號功率函數(shù),z為頻率,α為預(yù)加重系數(shù)且0.9≤α<1;S2A.3、對步驟S2A.2處理后的補(bǔ)償語音信號進(jìn)行分幀處理,將補(bǔ)償語音信號劃分為多幀語音段,并對分幀...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉振燾,吳敏,曹衛(wèi)華,陳鑫,潘芳芳,徐建平,張日,丁學(xué)文,
申請(專利權(quán))人:中國地質(zhì)大學(xué)武漢,
類型:發(fā)明
國別省市:湖北;42
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。