System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日本精品无码一区二区三区久久久 ,免费无码又黄又爽又刺激,亚洲色中文字幕无码AV
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于多模態(tài)特征融合的語音情感識別方法技術(shù)

    技術(shù)編號:44489470 閱讀:3 留言:0更新日期:2025-03-04 17:54
    本發(fā)明專利技術(shù)公開了一種基于多模態(tài)特征融合的語音情感識別方法,本發(fā)明專利技術(shù)設(shè)計(jì)多模態(tài)語音情感識別模型,其中音頻作為主要模態(tài),利用wav2vec2.0的功能,并結(jié)合文本和視覺模式來增強(qiáng)基于音頻的情感識別的性能,結(jié)合自注意力機(jī)制、GRU和LVC來從視覺模態(tài)中提取全局和局部信息,并僅從文本特征中提取全局信息,可以更全面地理解與情緒相關(guān)的視覺線索和文本線索,將提取好的文本和視覺特征集成到wav2vec2.0模型中,形成多級音頻信息的多模態(tài)表示,同時(shí)利用多模態(tài)同質(zhì)特征差異學(xué)習(xí)來增強(qiáng)模型的判別能力,在兩個(gè)數(shù)據(jù)集上評估提出的模型,以證明其與現(xiàn)有最先進(jìn)模型相比,具有卓越的魯棒性和泛化性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及語音情感識別,具體涉及一種基于多模態(tài)特征融合的語音情感識別方法


    技術(shù)介紹

    1、隨著人機(jī)交互技術(shù)的進(jìn)步,人們對機(jī)器能夠準(zhǔn)確識別和理解人類情感的需求越來越大。語音情感識別(ser)在為情感智能系統(tǒng)中的情感交互奠定基礎(chǔ)方面發(fā)揮著至關(guān)重要的作用,有助于改善機(jī)器與人類之間的溝通和情感感知。它旨在分析人類的語音信號以識別和理解說話者的情緒狀態(tài)。語音情感識別技術(shù)已在各個(gè)領(lǐng)域得到應(yīng)用,包括客戶服務(wù)和市場研究、學(xué)習(xí)和教育、心理健康和社交媒體分析。

    2、在現(xiàn)實(shí)生活場景中,每個(gè)人不僅通過言語表達(dá)情感,還通過文本和視覺等其他方式表達(dá)情感。因此,僅僅依靠語音來進(jìn)行準(zhǔn)確的情緒識別是遠(yuǎn)遠(yuǎn)不夠的。為了準(zhǔn)確識別說話者表達(dá)的情緒,必須有效地結(jié)合多種模態(tài)的信息。在多模態(tài)情感識別(mer)領(lǐng)域,不同模態(tài)的使用通常是互補(bǔ)的,為減輕語義和情感歧義提供補(bǔ)充線索。這種模式之間固有的互補(bǔ)性增強(qiáng)了對潛在情緒表達(dá)的整體理解,促進(jìn)了對所傳達(dá)的情緒的更徹底的理解。

    3、音頻波形中,較高的音調(diào)和音調(diào)通常與幸福和興奮等積極情緒相關(guān),而較低的音調(diào)和音調(diào)通常與悲傷和沮喪等負(fù)面情緒相關(guān)。事實(shí)上,由于音頻片段中同時(shí)存在較高和較低的音調(diào),單獨(dú)分析音頻模式來確定確切的情緒狀態(tài)可能具有挑戰(zhàn)性。因此,僅依靠音頻模式很難準(zhǔn)確識別確切的情感狀態(tài)。

    4、并且,多模態(tài)語音情感識別(msea)面臨著幾個(gè)阻礙其發(fā)展的未解決問題。首先,獲取大規(guī)模、高質(zhì)量的多模態(tài)數(shù)據(jù)集是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。與單模態(tài)數(shù)據(jù)相比,多模態(tài)數(shù)據(jù)的獲取和標(biāo)記成本更高。而數(shù)據(jù)的稀缺將會直接限制模型的訓(xùn)練和評估,導(dǎo)致模型的泛化能力和性能有限。其次,多模態(tài)數(shù)據(jù)通常表現(xiàn)出異步性,來自不同方式的信息在時(shí)間上并不完全同步。最后,從不同模態(tài)提取的特征可能看起來相似,但可以傳達(dá)不同的情感含義。例如,語音和文本中的某些特征可能在形式上表現(xiàn)出相似性,卻表達(dá)出不同的情感狀態(tài)。這種可變性使建模進(jìn)一步復(fù)雜化,并凸顯了準(zhǔn)確區(qū)分和理解跨模態(tài)同質(zhì)特征的情感狀態(tài)的重要性。


    技術(shù)實(shí)現(xiàn)思路

    1、針對上述缺陷,本專利技術(shù)所要解決的技術(shù)問題在于提供一種基于多模態(tài)特征融合的語音情感識別方法,包括:

    2、輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí);

    3、還包括有如下的流程:

    4、s1:使用輔助模態(tài)編碼器提取單獨(dú)的視頻和文本特征;從每個(gè)片段中提取固定的t幀,并使用在vggface和afew數(shù)據(jù)集上預(yù)訓(xùn)練的effecientnet作為特征提取器來獲取視覺特征;

    5、s2:獲得視頻特征后,將它們輸入到由門控循環(huán)單元、自注意力和lvc塊組成的a-gru-lvc模塊中,以捕獲全局和局部信息;對于文本,使用roberta-base預(yù)訓(xùn)練模型作為特征提取器,然后使用門控循環(huán)單元和自注意力機(jī)制來獲取全局特征;

    6、s3:使用wav2vec2.0作為編碼器來學(xué)習(xí)音頻序列的上下文信息,將門控跨模態(tài)注意力塊嵌入到wav2vec2.0中,最后,共享編碼器負(fù)責(zé)集成輔助模態(tài)和主要模態(tài)的特征,利用多模態(tài)同質(zhì)特征差異學(xué)習(xí),重點(diǎn)關(guān)注區(qū)分相同模態(tài)但具有不同情感的表示。

    7、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中,優(yōu)選地,給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里,模態(tài)用{a,t,v}表示,指的是音頻、文本和視覺模態(tài),多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別;它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類,將其分配給特定的情感類別或類別c是情感類別的數(shù)量。

    8、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中,優(yōu)選地,所述步驟s1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程:

    9、對于視覺模態(tài),使用effecientnet預(yù)訓(xùn)練模型作為特征提取器來獲取視覺特征可以表述為:

    10、

    11、其中φvisual代表effecientnet預(yù)訓(xùn)練模型函數(shù);

    12、然后將上一步獲得的視覺特征輸入到所提出的a-gru-lvc模塊中,該模塊旨在提取全局和局部特征;在第一個(gè)塊中,采用門控循環(huán)單元(gru)和自注意力機(jī)制來捕獲視覺特征內(nèi)的全局遠(yuǎn)程依賴性,該塊側(cè)重于從視覺輸入中提取全局信息,使模型能夠理解不同視覺元素之間的整體上下文和關(guān)系;

    13、

    14、其中,fsa和fgru分別代表門控循環(huán)單元和自注意力機(jī)制學(xué)習(xí)函數(shù);

    15、同時(shí),為了保留局部角點(diǎn)區(qū)域并提取局部信息,在視覺特征上實(shí)現(xiàn)了可學(xué)習(xí)的視覺中心(lvc),聚合了本地區(qū)域的特征,確保保留重要的本地信息;lvc是一種編碼器,它包含一個(gè)內(nèi)在字典,該字典包含兩個(gè)主要組件:一個(gè)內(nèi)在碼本和一組與可學(xué)習(xí)視覺中心相關(guān)的縮放因子:

    16、b={b1,b2,...,bk}

    17、s={s1,s2,...,sk}

    18、其中,k表示輸入特征中嵌入維度的數(shù)量,在視覺特征提取過程中特征圖被展平的情況下,k可以被視為特征圖的空間尺寸的乘積;使用卷積層的組合對視覺特征進(jìn)行編碼,與方法相反,利用一維卷積而不是二維卷積;然后,這些編碼后的特征由cbr塊進(jìn)行處理,該塊包含內(nèi)核大小為3的一維卷積、批量歸一化層和relu激活函數(shù),重新處理視覺特征,以便在碼本中進(jìn)一步處理;

    19、為了將視覺特征映射到碼本中,使用了一組比例因子sk,這些比例因子依次將(表示視覺特征的第ith像素點(diǎn))和bk(表示第kth代碼字)映射到其對應(yīng)項(xiàng),第kth個(gè)碼字對應(yīng)的整個(gè)圖像的信息可以計(jì)算如下:

    20、

    21、表示有關(guān)每個(gè)像素相對于相應(yīng)碼字的位置的信息,這里,k表示視覺中心的總數(shù),隨后,使用函數(shù)融合所有的ek,其中包括1d-bn(一維批量歸一化)和relu層以及平均池化層,整個(gè)圖像關(guān)于k個(gè)碼字的完整信息計(jì)算如下:

    22、

    23、獲得碼本的輸出后,繼續(xù)將e通過全連接層和內(nèi)核大小為1的一維卷積層,預(yù)測專門突出關(guān)鍵類的特征;接下來,在視覺輸入特征和縮放因子系數(shù)δ之間執(zhí)行逐通道乘法:

    24、δ=fsigmoid(conv1d(e))

    25、

    26、fsigmoid是sigmoid激活函數(shù),是逐通道乘法,然后,在輸入視覺特征和局部區(qū)域特征z之間進(jìn)行通道求和,是通道總和,可以表示為:

    27、

    28、最后,通過沿最后一個(gè)維度連接自注意力模塊的輸出和lvc塊的輸出獲得a-gru-lvc塊的輸出:

    29、

    30、在上述一種基于多模態(tài)特征融合的語音情感識別方法的技術(shù)方案中,優(yōu)選地,所述步驟s1中的輔助模態(tài)編碼器中上下文文本編碼具體有:

    31、對輸入文本進(jìn)行標(biāo)記,將文本轉(zhuǎn)換為一系列標(biāo)記,分割后,roberta在輸入文本數(shù)據(jù)中添加一些特殊標(biāo)簽,例如開始標(biāo)記<cls>和分隔標(biāo)記<sep>,開始標(biāo)記用于指示文本的開始,分隔標(biāo)記用于分隔不同的句子,然后,為了保留單詞的位置信息,為每個(gè)標(biāo)本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,包括輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí);

    2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里,模態(tài)用{a,t,v}表示,指的是音頻、文本和視覺模態(tài),多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別;它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類,將其分配給特定的情感類別或類別c是情感類別的數(shù)量。

    3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述步驟S1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程:

    4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述步驟S1中的輔助模態(tài)編碼器中上下文文本編碼具體有:

    5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述主模態(tài)編碼器中具體包括有:通過用門控跨模式注意機(jī)制替換wav2vec2.0變壓器層中的自注意機(jī)制來區(qū)分的方法,以此,文本和視覺信號被編碼并與多層音頻信息融合在一起,通過淺層變壓器層對低級音頻特征進(jìn)行編碼,然后通過修改后的變壓器層組合文本和視覺特征,形成全面的多模態(tài)表示,將文本和視覺合并到wav2vec2.0中可以檢測大量預(yù)先訓(xùn)練的音頻知識中的相關(guān)信息,從而增強(qiáng)多模態(tài)融合表示中的情感信息,淺變壓器塊提取的低級聲學(xué)特征計(jì)算如下:

    6.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述多模態(tài)同質(zhì)特征差異學(xué)習(xí)中具體包括:

    ...

    【技術(shù)特征摘要】

    1.一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,包括輔助模態(tài)編碼器、主模態(tài)編碼器和多模態(tài)同質(zhì)特征差異學(xué)習(xí);

    2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,給定多模態(tài)信號將從視頻片段j中提取的單模態(tài)原始序列表示為這里,模態(tài)用{a,t,v}表示,指的是音頻、文本和視覺模態(tài),多模態(tài)情緒識別旨在預(yù)測信號中每個(gè)話語的情緒類別;它側(cè)重于對每個(gè)人的言語中傳達(dá)的情感進(jìn)行分類,將其分配給特定的情感類別或類別c是情感類別的數(shù)量。

    3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,所述步驟s1中的輔助模態(tài)編碼器中視覺表征具體有如下的流程:

    4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)特征融合的語音情感識別方法,其特征在于,...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李峰王玲玲楊菲羅久淞
    申請(專利權(quán))人:安徽財(cái)經(jīng)大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码射肉在线播放视频| 国产精品VA在线观看无码不卡| 无码人妻精品一区二区三区66| 亚洲精品无码久久| 亚洲综合无码一区二区三区| 亚洲AV无码一区二区大桥未久| HEYZO无码综合国产精品| 久久亚洲日韩看片无码| 日韩成人无码中文字幕| 成人免费无码大片a毛片软件| 无码av免费一区二区三区| 无码国内精品久久人妻麻豆按摩| 精品无码人妻夜人多侵犯18| 亚洲中久无码不卡永久在线观看| 亚洲精品久久久久无码AV片软件| 日韩国产成人无码av毛片| 少妇无码AV无码一区| 白嫩无码人妻丰满熟妇啪啪区百度| 亚洲中文字幕无码久久| 日韩av无码久久精品免费| 亚洲午夜福利AV一区二区无码| 亚洲无码视频在线| 无码乱码观看精品久久| 亚洲av无码专区在线观看亚| 亚洲AV无码一区二区三区在线| 亚洲AV永久无码精品一百度影院| 潮喷失禁大喷水aⅴ无码| 免费无码专区毛片高潮喷水 | 国产成人亚洲精品无码AV大片| 精品无码一区二区三区电影| 无码伊人66久久大杳蕉网站谷歌| 久久人妻内射无码一区三区| 亚洲成AV人在线播放无码| 亚洲av中文无码乱人伦在线r▽| 亚洲欧洲美洲无码精品VA| 久久人妻av无码中文专区| 日韩精品无码专区免费播放| 久久亚洲AV成人无码国产| 精品久久久久久无码不卡| 高清无码午夜福利在线观看| 无码熟妇人妻在线视频|