The invention discloses a method of speech emotion recognition time and memory network based on convolutional neural network, the method of constructing speech emotion recognition system based on LSTM and CNN, the speech sequence as the input of the system is trained using back propagation algorithm of LSTM and CNN, the parameter optimization of the network, get the optimized network model use; speech sequence network model trained on the new input of emotion classification, divided into sadness, joy, disgust, fear, fear and neutral six emotions. This method takes into account the two network models of LSTM and CNN, avoids the complexity of manual selection and extraction of features, and improves the accuracy of emotion recognition.
【技術實現步驟摘要】
基于長短時間記憶網絡和卷積神經網絡的語音情感識別方法
本專利技術涉及圖像處理與模式識別領域,特別是基于長短時間記憶網絡和卷積神經網絡的語音情感識別方法。
技術介紹
在人際交往中,存在包括語音、肢體語言、面部表情等在內的多種信息交換的方式。其中,語音信號是最快速的、最原始的交流方式,被研究學者認為是實現人機交互的最有效的方法之一。近半個世紀以來,學者們研究了大量的關于語音識別的課題,即如何將語音序列轉換為文本。盡管在語音識別方面取得重大進展,但是由于機器無法了解說話者的情感狀態,導致在實現人類和機器自然的交互方面還有很長的路要走。這也帶動了另一個方面的研究,就是如何從語音中識別出說話者的情感狀態,即語音情感識別。語音情感識別作為人機交互的一個重要分支,可以廣泛應用與教育、醫療、交通等各個領域。在車載系統中,可以用作對駕駛者的精神狀態進行監控,判斷其是否處于安全狀態,從而能在駕駛員疲勞的時候予以提醒,避免交通事故的發生;在電話服務中,可以用作對言辭表達激烈的用戶進行分揀,將其轉接給人工客服,優化用戶體驗,提高整個服務水平;在臨床醫學中,借助語音情感識別對抑郁癥患者或者自閉癥兒童的情感變化進行跟蹤,作為疾病診斷和輔助治療的工具;在機器人研究中,幫助機器人利用語音信息理解人的感情,做出友好且智能的回應,實現交互。現階段大部分語音情感識別的方法均采用傳統提取特征,再用分類器進行分類的方法。常用的語音特征包括基音、語速、強度(韻律特征)、線性預測倒譜系數、梅爾頻率倒譜系數(頻譜特征)等。常用的分類方法包括隱馬爾可夫模型,支持向量機,高斯混合模型。傳統的情感識別方法已經 ...
【技術保護點】
一種基于長短時間記憶網絡和卷積神經網絡的語音情感識別方法,其特征在于,包括以下步驟:步驟A、對語音情感數據庫中的語音樣本進行預處理操作,使得每個語音樣本均能用一個等長的序列表示,從而得到預處理后的語音序列;步驟B、構建基于長短時間記憶網絡LSTM和卷積神經網絡CNN的語音情感識別系統,其包含兩個基本模塊:長短時間記憶網絡模塊和卷積神經網絡模塊;步驟C、將預處理后的語音序列依次送入語音情感識別系統進行多次訓練,利用反向傳播算法調整LSTM和CNN的參數,獲得優化后的網絡模型;步驟D、利用步驟C訓練得到的網絡模型對新輸入的語音序列進行情感分類,分為悲傷、高興、厭惡、恐懼、驚嚇、中性六種情感。
【技術特征摘要】
1.一種基于長短時間記憶網絡和卷積神經網絡的語音情感識別方法,其特征在于,包括以下步驟:步驟A、對語音情感數據庫中的語音樣本進行預處理操作,使得每個語音樣本均能用一個等長的序列表示,從而得到預處理后的語音序列;步驟B、構建基于長短時間記憶網絡LSTM和卷積神經網絡CNN的語音情感識別系統,其包含兩個基本模塊:長短時間記憶網絡模塊和卷積神經網絡模塊;步驟C、將預處理后的語音序列依次送入語音情感識別系統進行多次訓練,利用反向傳播算法調整LSTM和CNN的參數,獲得優化后的網絡模型;步驟D、利用步驟C訓練得到的網絡模型對新輸入的語音序列進行情感分類,分為悲傷、高興、厭惡、恐懼、驚嚇、中性六種情感。2.根據權利要求1所述的一種基于長短時間記憶網絡和卷積神經網絡的語音情感識別方法,其特征在于,所述步驟B中的長短時間記憶網絡模塊,具體構建步驟如下:B1.1、設定語音樣本序列的長度為m,m=n×n,n為正整數,設定當前時刻遺忘門單元和輸入門單元的輸出分別為ft和it,滿足:ft=σ(Wf·xc+bf)it=σ(Wi·xc+bi)其中,xc=[ht-1,xt],新向量xc是將兩個ht-1、xt向量首尾相連得到的,xt為當前時刻的輸入,ht-1為前一時刻隱藏層的狀態,xc為連接后的新向量,Wf和Wi分別為遺忘門單元和輸入門單元的權值矩陣,bf和bi分別為遺忘門單元和輸入門單元的偏置向量,σ(·)為sigmoid激勵函數;B1.2、通過下式計算得出當前細胞狀態Ct的值:其中,Ct-1為前一時刻細胞狀態,為當前時刻細胞狀態的參考值,WC為細胞狀態的權值矩陣,bC為細胞狀態的偏置向量,tanh(·)為雙曲正切函數;B1.3、根據下式得到各個隱藏節點的輸出ht,將ht依次連接,構成m維的特征向量;ht=ot*tanh(Ct)ot=σ(Wo·[ht-1,xt]+bo)其中,Wo為輸出門單元的權值矩陣,bo為輸出門單元的偏置向量,ot為輸出門單元的輸出。3.根據權利要求2所述的一種基于長短時間記憶網絡和卷積神經網絡的語音情感識別方法,其特征在于,所述步驟B中的卷積神經網絡模塊,具體構建步驟如下:B2.1、將步驟B1.3中提取的m維的特征向量轉換為n×n的特征矩陣作為卷積神經網絡的輸入;B2.2、卷積神經網絡的第一層為卷積層,選用m1個k1×k1維的卷積核對輸入數據進行卷積運算,卷積步長為s1,卷積后的結果再經過激勵函數...
【專利技術屬性】
技術研發人員:袁亮,盧官明,閆靜杰,
申請(專利權)人:南京郵電大學,
類型:發明
國別省市:江蘇,32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。