System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及語音情感識別,具體涉及一種基于多模態(tài)特征融合的語音情感識別方法。
技術(shù)介紹
1、隨著人機(jī)交互技術(shù)的進(jìn)步,人們對機(jī)器能夠準(zhǔn)確識別和理解人類情感的需求越來越大。語音情感識別(ser)在為情感智能系統(tǒng)中的情感交互奠定基礎(chǔ)方面發(fā)揮著至關(guān)重要的作用,有助于改善機(jī)器與人類之間的溝通和情感感知。它旨在分析人類的語音信號以識別和理解說話者的情緒狀態(tài)。語音情感識別技術(shù)已在各個(gè)領(lǐng)域得到應(yīng)用,包括客戶服務(wù)和市場研究、學(xué)習(xí)和教育、心理健康和社交媒體分析。
2、在現(xiàn)實(shí)生活場景中,每個(gè)人不僅通過言語表達(dá)情感,還通過文本和視覺等其他方式表達(dá)情感。因此,僅僅依靠語音來進(jìn)行準(zhǔn)確的情緒識別是遠(yuǎn)遠(yuǎn)不夠的。為了準(zhǔn)確識別說話者表達(dá)的情緒,必須有效地結(jié)合多種模態(tài)的信息。在多模態(tài)情感識別(mer)領(lǐng)域,不同模態(tài)的使用通常是互補(bǔ)的,為減輕語義和情感歧義提供補(bǔ)充線索。這種模式之間固有的互補(bǔ)性增強(qiáng)了對潛在情緒表達(dá)的整體理解,促進(jìn)了對所傳達(dá)的情緒的更徹底的理解。
3、音頻波形中,較高的音調(diào)和音調(diào)通常與幸福和興奮等積極情緒相關(guān),而較低的音調(diào)和音調(diào)通常與悲傷和沮喪等負(fù)面情緒相關(guān)。事實(shí)上,由于音頻片段中同時(shí)存在較高和較低的音調(diào),單獨(dú)分析音頻模式來確定確切的情緒狀態(tài)可能具有挑戰(zhàn)性。因此,僅依靠音頻模式很難準(zhǔn)確識別確切的情感狀態(tài)。
4、并且,多模態(tài)語音情感識別(msea)面臨著幾個(gè)阻礙其發(fā)展的未解決問題。首先,獲取大規(guī)模、高質(zhì)量的多模態(tài)數(shù)據(jù)集是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。與單模態(tài)數(shù)據(jù)相比,多模態(tài)數(shù)據(jù)的獲取和標(biāo)記成本更高。而數(shù)據(jù)的稀缺將會直接限制模型
技術(shù)實(shí)現(xiàn)思路
1、針對上述缺陷,本專利技術(shù)所要解決的技術(shù)問題在于提供一種基于多模態(tài)特征融合的語音情感識別方法,包括:
2、輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí);
3、還包括有如下的流程:
4、s1:使用輔助模態(tài)編碼器提取單獨(dú)的視頻和文本特征;從每個(gè)片段中提取固定的t幀,并使用在vggface和afew數(shù)據(jù)集上預(yù)訓(xùn)練的effecientnet作為特征提取器來獲取視覺特征;
5、s2:獲得視頻特征后,將它們輸入到由門控循環(huán)單元、自注意力和lvc塊組成的a-gru-lvc模塊中,以捕獲全局和局部信息;對于文本,使用roberta-base預(yù)訓(xùn)練模型作為特征提取器,然后使用門控循環(huán)單元和自注意力機(jī)制來獲取全局特征;
6、s3:使用wav2vec2.0作為編碼器來學(xué)習(xí)音頻序列的上下文信息,將門控跨模態(tài)注意力塊嵌入到wav2vec2.0中,最后,共享編碼器負(fù)責(zé)集成輔助模態(tài)和主要模態(tài)的特征,利用多模態(tài)同質(zhì)特征差異學(xué)習(xí),重點(diǎn)關(guān)注區(qū)分相同模態(tài)但具有不同情感的表示。
7、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中,優(yōu)選地,給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里,模態(tài)用{a,t,v}表示,指的是音頻、文本和視覺模態(tài),多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別;它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類,將其分配給特定的情感類別或類別c是情感類別的數(shù)量。
8、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中,優(yōu)選地,所述步驟s1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程:
9、對于視覺模態(tài),使用effecientnet預(yù)訓(xùn)練模型作為特征提取器來獲取視覺特征可以表述為:
10、
11、其中φvisual代表effecientnet預(yù)訓(xùn)練模型函數(shù);
12、然后將上一步獲得的視覺特征輸入到所提出的a-gru-lvc模塊中,該模塊旨在提取全局和局部特征;在第一個(gè)塊中,采用門控循環(huán)單元(gru)和自注意力機(jī)制來捕獲視覺特征內(nèi)的全局遠(yuǎn)程依賴性,該塊側(cè)重于從視覺輸入中提取全局信息,使模型能夠理解不同視覺元素之間的整體上下文和關(guān)系;
13、
14、其中,fsa和fgru分別代表門控循環(huán)單元和自注意力機(jī)制學(xué)習(xí)函數(shù);
15、同時(shí),為了保留局部角點(diǎn)區(qū)域并提取局部信息,在視覺特征上實(shí)現(xiàn)了可學(xué)習(xí)的視覺中心(lvc),聚合了本地區(qū)域的特征,確保保留重要的本地信息;lvc是一種編碼器,它包含一個(gè)內(nèi)在字典,該字典包含兩個(gè)主要組件:一個(gè)內(nèi)在碼本和一組與可學(xué)習(xí)視覺中心相關(guān)的縮放因子:
16、b={b1,b2,...,bk}
17、s={s1,s2,...,sk}
18、其中,k表示輸入特征中嵌入維度的數(shù)量,在視覺特征提取過程中特征圖被展平的情況下,k可以被視為特征圖的空間尺寸的乘積;使用卷積層的組合對視覺特征進(jìn)行編碼,與方法相反,利用一維卷積而不是二維卷積;然后,這些編碼后的特征由cbr塊進(jìn)行處理,該塊包含內(nèi)核大小為3的一維卷積、批量歸一化層和relu激活函數(shù),重新處理視覺特征,以便在碼本中進(jìn)一步處理;
19、為了將視覺特征映射到碼本中,使用了一組比例因子sk,這些比例因子依次將(表示視覺特征的第ith像素點(diǎn))和bk(表示第kth代碼字)映射到其對應(yīng)項(xiàng),第kth個(gè)碼字對應(yīng)的整個(gè)圖像的信息可以計(jì)算如下:
20、
21、表示有關(guān)每個(gè)像素相對于相應(yīng)碼字的位置的信息,這里,k表示視覺中心的總數(shù),隨后,使用函數(shù)融合所有的ek,其中包括1d-bn(一維批量歸一化)和relu層以及平均池化層,整個(gè)圖像關(guān)于k個(gè)碼字的完整信息計(jì)算如下:
22、
23、獲得碼本的輸出后,繼續(xù)將e通過全連接層和內(nèi)核大小為1的一維卷積層,預(yù)測專門突出關(guān)鍵類的特征;接下來,在視覺輸入特征和縮放因子系數(shù)δ之間執(zhí)行逐通道乘法:
24、δ=fsigmoid(conv1d(e))
25、
26、fsigmoid是sigmoid激活函數(shù),是逐通道乘法,然后,在輸入視覺特征和局部區(qū)域特征z之間進(jìn)行通道求和,是通道總和,可以表示為:
27、
28、最后,通過沿最后一個(gè)維度連接自注意力模塊的輸出和lvc塊的輸出獲得a-gru-lvc塊的輸出:
29、
30、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中,優(yōu)選地,所述步驟s1中的輔助模態(tài)編碼器中上下文文本編碼具體有:
31、對輸入文本進(jìn)行標(biāo)記,將文本轉(zhuǎn)換為一系列標(biāo)記,分割后,roberta在輸入文本數(shù)據(jù)中添加一些特殊標(biāo)簽,例如開始標(biāo)記<cls>和分隔標(biāo)記<sep>,開始標(biāo)記用于指示文本的開始,分隔標(biāo)記用于分隔不同的句子,然后,為了保留單詞的位置信息,為每個(gè)標(biāo)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,包括輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí);
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里,模態(tài)用{a,t,v}表示,指的是音頻、文本和視覺模態(tài),多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別;它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類,將其分配給特定的情感類別或類別c是情感類別的數(shù)量。
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述步驟S1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程:
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述步驟S1中的輔助模態(tài)編碼器中上下文文本編碼具體有:
5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述主模態(tài)編碼器中具體包括有:通過用門控跨模式注意機(jī)制替換wav2vec2.0變壓器層中的自注意機(jī)制來區(qū)分的方法,以此,文本和視覺信號被編碼
6.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述多模態(tài)同質(zhì)特征差異學(xué)習(xí)中具體包括:
...【技術(shù)特征摘要】
1.一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,包括輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí);
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里,模態(tài)用{a,t,v}表示,指的是音頻、文本和視覺模態(tài),多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別;它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類,將其分配給特定的情感類別或類別c是情感類別的數(shù)量。
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述步驟s1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程:
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李峰,王玲玲,楊菲,羅久淞,
申請(專利權(quán))人:安徽財(cái)經(jīng)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。