當(dāng)前位置: 首頁 > 專利查詢>安徽財(cái)經(jīng)大學(xué)專利>正文

一種基于多模態(tài)特征融合的語音情感識別方法技術(shù)

技術(shù)編號：44489470 閱讀：3 留言：0更新日期：2025-03-04 17:54

本發(fā)明專利技術(shù)公開了一種基于多模態(tài)特征融合的語音情感識別方法，本發(fā)明專利技術(shù)設(shè)計(jì)多模態(tài)語音情感識別模型，其中音頻作為主要模態(tài)，利用wav2vec2.0的功能，并結(jié)合文本和視覺模式來增強(qiáng)基于音頻的情感識別的性能，結(jié)合自注意力機(jī)制、GRU和LVC來從視覺模態(tài)中提取全局和局部信息，并僅從文本特征中提取全局信息，可以更全面地理解與情緒相關(guān)的視覺線索和文本線索，將提取好的文本和視覺特征集成到wav2vec2.0模型中，形成多級音頻信息的多模態(tài)表示，同時(shí)利用多模態(tài)同質(zhì)特征差異學(xué)習(xí)來增強(qiáng)模型的判別能力，在兩個(gè)數(shù)據(jù)集上評估提出的模型，以證明其與現(xiàn)有最先進(jìn)模型相比，具有卓越的魯棒性和泛化性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及語音情感識別，具體涉及一種基于多模態(tài)特征融合的語音情感識別方法。

技術(shù)介紹

1、隨著人機(jī)交互技術(shù)的進(jìn)步，人們對機(jī)器能夠準(zhǔn)確識別和理解人類情感的需求越來越大。語音情感識別(ser)在為情感智能系統(tǒng)中的情感交互奠定基礎(chǔ)方面發(fā)揮著至關(guān)重要的作用，有助于改善機(jī)器與人類之間的溝通和情感感知。它旨在分析人類的語音信號以識別和理解說話者的情緒狀態(tài)。語音情感識別技術(shù)已在各個(gè)領(lǐng)域得到應(yīng)用，包括客戶服務(wù)和市場研究、學(xué)習(xí)和教育、心理健康和社交媒體分析。

2、在現(xiàn)實(shí)生活場景中，每個(gè)人不僅通過言語表達(dá)情感，還通過文本和視覺等其他方式表達(dá)情感。因此，僅僅依靠語音來進(jìn)行準(zhǔn)確的情緒識別是遠(yuǎn)遠(yuǎn)不夠的。為了準(zhǔn)確識別說話者表達(dá)的情緒，必須有效地結(jié)合多種模態(tài)的信息。在多模態(tài)情感識別(mer)領(lǐng)域，不同模態(tài)的使用通常是互補(bǔ)的，為減輕語義和情感歧義提供補(bǔ)充線索。這種模式之間固有的互補(bǔ)性增強(qiáng)了對潛在情緒表達(dá)的整體理解，促進(jìn)了對所傳達(dá)的情緒的更徹底的理解。

3、音頻波形中，較高的音調(diào)和音調(diào)通常與幸福和興奮等積極情緒相關(guān)，而較低的音調(diào)和音調(diào)通常與悲傷和沮喪等負(fù)面情緒相關(guān)。事實(shí)上，由于音頻片段中同時(shí)存在較高和較低的音調(diào)，單獨(dú)分析音頻模式來確定確切的情緒狀態(tài)可能具有挑戰(zhàn)性。因此，僅依靠音頻模式很難準(zhǔn)確識別確切的情感狀態(tài)。

4、并且，多模態(tài)語音情感識別(msea)面臨著幾個(gè)阻礙其發(fā)展的未解決問題。首先，獲取大規(guī)模、高質(zhì)量的多模態(tài)數(shù)據(jù)集是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。與單模態(tài)數(shù)據(jù)相比，多模態(tài)數(shù)據(jù)的獲取和標(biāo)記成本更高。而數(shù)據(jù)的稀缺將會直接限制模型

技術(shù)實(shí)現(xiàn)思路

1、針對上述缺陷，本專利技術(shù)所要解決的技術(shù)問題在于提供一種基于多模態(tài)特征融合的語音情感識別方法，包括：

2、輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí)；

3、還包括有如下的流程：

4、s1：使用輔助模態(tài)編碼器提取單獨(dú)的視頻和文本特征；從每個(gè)片段中提取固定的t幀，并使用在vggface和afew數(shù)據(jù)集上預(yù)訓(xùn)練的effecientnet作為特征提取器來獲取視覺特征；

5、s2：獲得視頻特征后，將它們輸入到由門控循環(huán)單元、自注意力和lvc塊組成的a-gru-lvc模塊中，以捕獲全局和局部信息；對于文本，使用roberta-base預(yù)訓(xùn)練模型作為特征提取器，然后使用門控循環(huán)單元和自注意力機(jī)制來獲取全局特征；

6、s3：使用wav2vec2.0作為編碼器來學(xué)習(xí)音頻序列的上下文信息，將門控跨模態(tài)注意力塊嵌入到wav2vec2.0中，最后，共享編碼器負(fù)責(zé)集成輔助模態(tài)和主要模態(tài)的特征，利用多模態(tài)同質(zhì)特征差異學(xué)習(xí)，重點(diǎn)關(guān)注區(qū)分相同模態(tài)但具有不同情感的表示。

7、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中，優(yōu)選地，給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里，模態(tài)用{a,t,v}表示，指的是音頻、文本和視覺模態(tài)，多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別；它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類，將其分配給特定的情感類別或類別c是情感類別的數(shù)量。

8、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中，優(yōu)選地，所述步驟s1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程：

9、對于視覺模態(tài)，使用effecientnet預(yù)訓(xùn)練模型作為特征提取器來獲取視覺特征可以表述為：

10、

11、其中φvisual代表effecientnet預(yù)訓(xùn)練模型函數(shù)；

12、然后將上一步獲得的視覺特征輸入到所提出的a-gru-lvc模塊中，該模塊旨在提取全局和局部特征；在第一個(gè)塊中，采用門控循環(huán)單元(gru)和自注意力機(jī)制來捕獲視覺特征內(nèi)的全局遠(yuǎn)程依賴性，該塊側(cè)重于從視覺輸入中提取全局信息，使模型能夠理解不同視覺元素之間的整體上下文和關(guān)系；

13、

14、其中，fsa和fgru分別代表門控循環(huán)單元和自注意力機(jī)制學(xué)習(xí)函數(shù)；

15、同時(shí)，為了保留局部角點(diǎn)區(qū)域并提取局部信息，在視覺特征上實(shí)現(xiàn)了可學(xué)習(xí)的視覺中心(lvc)，聚合了本地區(qū)域的特征，確保保留重要的本地信息；lvc是一種編碼器，它包含一個(gè)內(nèi)在字典，該字典包含兩個(gè)主要組件：一個(gè)內(nèi)在碼本和一組與可學(xué)習(xí)視覺中心相關(guān)的縮放因子：

16、b＝{b1,b2,...,bk}

17、s＝{s1,s2,...,sk}

18、其中，k表示輸入特征中嵌入維度的數(shù)量，在視覺特征提取過程中特征圖被展平的情況下，k可以被視為特征圖的空間尺寸的乘積；使用卷積層的組合對視覺特征進(jìn)行編碼，與方法相反，利用一維卷積而不是二維卷積；然后，這些編碼后的特征由cbr塊進(jìn)行處理，該塊包含內(nèi)核大小為3的一維卷積、批量歸一化層和relu激活函數(shù)，重新處理視覺特征，以便在碼本中進(jìn)一步處理；

19、為了將視覺特征映射到碼本中，使用了一組比例因子sk，這些比例因子依次將(表示視覺特征的第ith像素點(diǎn))和bk(表示第kth代碼字)映射到其對應(yīng)項(xiàng)，第kth個(gè)碼字對應(yīng)的整個(gè)圖像的信息可以計(jì)算如下：

20、

21、表示有關(guān)每個(gè)像素相對于相應(yīng)碼字的位置的信息，這里，k表示視覺中心的總數(shù)，隨后，使用函數(shù)融合所有的ek，其中包括1d-bn(一維批量歸一化)和relu層以及平均池化層，整個(gè)圖像關(guān)于k個(gè)碼字的完整信息計(jì)算如下：

22、

23、獲得碼本的輸出后，繼續(xù)將e通過全連接層和內(nèi)核大小為1的一維卷積層，預(yù)測專門突出關(guān)鍵類的特征；接下來，在視覺輸入特征和縮放因子系數(shù)δ之間執(zhí)行逐通道乘法：

24、δ＝fsigmoid(conv1d(e))

25、

26、fsigmoid是sigmoid激活函數(shù)，是逐通道乘法，然后，在輸入視覺特征和局部區(qū)域特征z之間進(jìn)行通道求和，是通道總和，可以表示為：

27、

28、最后，通過沿最后一個(gè)維度連接自注意力模塊的輸出和lvc塊的輸出獲得a-gru-lvc塊的輸出：

29、

30、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中，優(yōu)選地，所述步驟s1中的輔助模態(tài)編碼器中上下文文本編碼具體有：

31、對輸入文本進(jìn)行標(biāo)記，將文本轉(zhuǎn)換為一系列標(biāo)記，分割后，roberta在輸入文本數(shù)據(jù)中添加一些特殊標(biāo)簽，例如開始標(biāo)記<cls>和分隔標(biāo)記<sep>，開始標(biāo)記用于指示文本的開始，分隔標(biāo)記用于分隔不同的句子，然后，為了保留單詞的位置信息，為每個(gè)標(biāo)本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，包括輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí)；

2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里，模態(tài)用{a,t,v}表示，指的是音頻、文本和視覺模態(tài)，多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別；它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類，將其分配給特定的情感類別或類別c是情感類別的數(shù)量。

3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，所述步驟S1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程：

4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，所述步驟S1中的輔助模態(tài)編碼器中上下文文本編碼具體有：

5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，所述主模態(tài)編碼器中具體包括有：通過用門控跨模式注意機(jī)制替換wav2vec2.0變壓器層中的自注意機(jī)制來區(qū)分的方法，以此，文本和視覺信號被編碼

6.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，所述多模態(tài)同質(zhì)特征差異學(xué)習(xí)中具體包括：

...

【技術(shù)特征摘要】

3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，所述步驟s1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程：

4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法，其特征在于，...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李峰，王玲玲，楊菲，羅久淞，
申請(專利權(quán))人：安徽財(cái)經(jīng)大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)