System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲成av人片不卡无码久久,日本无码小泬粉嫩精品图,无码人妻一区二区三区免费n鬼沢
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>武漢大學專利>正文

    一種層級關系一致的多模態情感理解方法及系統技術方案

    技術編號:44419945 閱讀:2 留言:0更新日期:2025-02-28 18:35
    本發明專利技術公開了一種層級關系一致的多模態情感理解方法及系統,設計了多級一致性方法,分別在特征間、模態間、樣本間三個不同層級設置一致性來解決此問題。首先在特征間設置了語義一致性,以增強模態內同情緒的聚合,從而加強模態內交互。其次,在模態間設置了表征一致性,通過加強表征的一致來增強模態同步。為了進一步加強不同模態的同步,在樣本間設計了一種幾何一致性算法,通過保證不同樣本的不同模態間的幾何一致性,從而增強模態間同步。如此策略緩解了缺乏模態內交互與模態間同步的影響。本發明專利技術通過廣泛的實驗驗證了本發明專利技術公開的層級關系一致的多模態情感理解方法及系統在多媒體多模態情緒理解方面的有效性與優越性。

    【技術實現步驟摘要】

    本專利技術屬于計算機,涉及一種多模態情感理解方法及系統,具體涉及一種層級關系一致的多模態情感理解方法及系統。


    技術介紹

    1、在數字時代,多媒體在信息傳播和人類互動中變得至關重要,特別是具有字符主題的多媒體數據。多模態情緒理解位于解讀多媒體的核心。通過整合語言、音頻和視頻模態,多模態情緒理解旨在確定多模態數據剪輯中情緒的極性(積極或消極)和強度(積極或消極的程度),以更好地理解這些數據。多模態情緒理解在多媒體應用中的融入使內容和服務更加貼近用戶的情感狀態和需求,從而增強了人機交互的自然性和有效性。

    2、對于多模態情緒理解,主要挑戰在于不同模態之間固有的異質性。每種模態獨特地傳達語義信息和情緒線索,這導致形成完整且連貫的情緒理解存在困難。為了解決這一問題,主流方法大致可以分為兩類:基于跨模態注意力的方法和基于融合策略方法?;诳缒B注意力的方法專注于發現和利用各種模態之間的連接。這些方法中的注意力機制探索并利用單一模態中的特征,并從其他模態提供的上下文中獲得指導。這些方法加強了更加整合的多模態表示的發展。另一方面,基于融合策略方法旨在創建全面的表示策略,生成獨特的多模態表征。

    3、盡管這些方法擅長于綜合多種模態的信息以創建更豐富的情緒表征,但它們共同存在一個缺點:在各個單一模態內部的情緒理解缺乏深度。這主要是因為忽視了模態內交互,每種模態中情緒的傳達方式各不相同,例如,在語言模態中,積極情緒可能通過直接表達或嵌入內容中的微妙細節來傳達。如果沒有足夠的模態內交互,這些模態內交互的忽視會導致每種模態內部的理解淺層化,從而削弱了模型徹底解釋每種模態所呈現信息的能力。此外,現有方法的另一個關鍵問題是不同模態之間的預測差異。這一缺陷源于它們在模態之間的表征對齊不足。我們將這種現象稱為模態同步缺失,這可能導致不同模態間預測的顯著差異,從而導致預測的重大錯誤和模型的魯棒性差。

    4、綜上所述,為多模態情緒理解設計一個新方法與系統來解決上述兩大問題至關重要。


    技術實現思路

    1、為了解決上述技術問題,本專利技術提出了一種層級關系一致的多模態情感理解方法及系統。

    2、本專利技術的方法采用的技術方案是:一種層級關系一致的多模態情感理解方法,包括以下步驟:

    3、步驟1:提取保留時間維度的原始多模態數據特征xm;其中m∈{l,a,v},xl、xa、xv分別表示文本數據特征、語音數據特征和視覺數據特征;

    4、步驟2:采用共有編碼器εshared來提取三個模態數據xm的模態共有部分xmirr=εshared(xm);采用三個模態專屬編碼器,分別提取三個模態數據xm的模態特有部分xmexc=εmprivate(xm);

    5、所述共有編碼器εshared和三個模態專屬編碼器,均是訓練訓練好的編碼器;訓練過程中,將每個模態對應的共有部分和特有部分相連,再通過解碼器得到重構特征rm=dm([xmexc,xmirr]),其中[·,·]表示相連,dm表示每個模態對應的解碼器;

    6、采用余弦相似作為衡量不同模態特征向量之間的語義一致性指標,最大化不同模態特征向量之間的余弦相似度;采用平方差作為衡量同一樣本內不同模態下的特征表示一致性指標,最小化同一樣本在不同模態下特征表示的平方差;采用內積的平方差作為衡量不同樣本的不同模態子間的幾何一致性指標,最小化不同樣本不同模態特征內積的平方差;

    7、將重構特征rm按照上述三個指標進行一致性處理,然后與原始多模態數據特征xm的三個指標的一致性損失計算加載一起,用于訓練,達到預設的收斂標準后結束訓練;

    8、步驟3:對于各模態的共有部分,采用自注意力機制網絡θ,獲取中間結果ac=[θ(xlirr),θ(xairr),θ(xvirr)];

    9、對于各模態的特有部分,采用跨模態注意力機制網絡φ計算每個模態對應的跨模態結果am=[φ(xmexc,xm1exc),φ(xmexc,xm2exc)],其中,m1、m2表示除m外的另外兩個模態;

    10、最終的綜合情緒推測mlp為多層感知機,a′m=sigmoid(am·wm)m∈{l,a,v,c},sigmoid()為激活函數,wm是為各組模態設置的權重。

    11、作為優選,步驟1中,采用一維時間卷積來提取保留時間維度的多媒體數據原始特征,進一步對數據進行對齊處理。

    12、作為優選,步驟2中,采用共有編碼器εshared來提取三個模態數據xm的模態共有部分xmirr=εshared(xm),其中m∈{l,a,v},l,a,v分別表示文本數據、語音數據和視覺數據;

    13、所述共有編碼器εshared,由順序連接的多頭自注意力層和前饋神經網絡層組成,所述前饋神經網絡層由順序連接的第一卷積層、第一激活函數層、第二卷積層、第二激活函數層和第三卷積層組成。

    14、作為優選,步驟2中,采用三個模態專屬編碼器,分別提取三個模態數據xm的模態特有部分xmexc=εmprivate(xm);

    15、所述文本模態專屬編碼器,由若干順序連接的多層自注意力機制層和一個卷積層組成;所述多層自注意力機制層由順序連接transformer層和卷積層組成,并通過殘差連接后輸出;

    16、所述語音模態專屬編碼器,由順序連接的若干層卷積層和一個雙向長短時記憶網絡組成;

    17、所述視覺模態專屬編碼器,由若干順序連接的卷積層組成,各個卷積層之間殘差連接。

    18、作為優選,步驟2中,所述解碼器,由若干順序連接的混合型層結構和一個逆卷積層組成;所述混合型層結構,由順序連接的卷積層、逆卷積層和激活函數層組成,其中卷積層和逆卷積層之間殘差連接。

    19、作為優選,步驟3中,所述自注意力機制網絡θ,對于每一種模態數據,設定專屬的自注意力模塊,進行數據的轉置和重構處理;處理后的數據分別通過線性投影層,對來自不同模態的特征進行進一步的抽象和加強;三個模態處理后的特征在融合點使用torch.cat函數進行拼接,生成一個綜合特征表示ac;融合過程包括線性變換和非線性激活操作。

    20、作為優選,步驟3中,所述跨模態注意力機制網絡φ,由順序連接的跨模態轉換網絡、記憶增強網絡和特征融合與處理網絡組成;

    21、所述跨模態轉換網絡,包含六個跨模態轉換模塊,每個模塊專門負責將一個模態的信息轉換為另兩個模態的信息格式;

    22、所述記憶增強網絡,每種模態設置有具有三層網絡結構的記憶增強模塊;

    23、所述特征融合與處理網絡,有特征拼接與融合層和特征投影層組成;所述特征拼接與融合層,用于將所述記憶增強網絡輸出的各模態特征在維度上進行拼接,然后通過和特征投影層進行線性投影后輸出。

    24、作為優選,步驟2中,訓練過程中,采用余弦相似作為衡量不同特征間語義一致性的指標,構建相似度矩陣s,其中s[i,j]為特征i與特征j的余弦相似度,i,j∈[0,n),n為每個樣本每個模態的特征數,s本文檔來自技高網...

    【技術保護點】

    1.一種層級關系一致的多模態情感理解方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟1中,采用一維時間卷積來提取保留時間維度的多媒體數據原始特征,進一步對數據進行對齊處理。

    3.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,采用共有編碼器εshared來提取三個模態數據Xm的模態共有部分Xmirr=εshared(Xm),其中m∈{L,A,V},L,A,V分別表示文本數據、語音數據和視覺數據;

    4.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,采用三個模態專屬編碼器,分別提取三個模態數據Xm的模態特有部分Xmexc=εmprivate(Xm);

    5.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,所述解碼器,由若干順序連接的混合型層結構和一個逆卷積層組成;所述混合型層結構,由順序連接的卷積層、逆卷積層和激活函數層組成,其中卷積層和逆卷積層之間殘差連接。

    6.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟3中,所述自注意力機制網絡Θ,對于每一種模態數據,設定專屬的自注意力模塊,進行數據的轉置和重構處理;處理后的數據分別通過線性投影層,對來自不同模態的特征進行進一步的抽象和加強;三個模態處理后的特征在融合點使用torch.cat函數進行拼接,生成一個綜合特征表示aC;融合過程包括線性變換和非線性激活操作。

    7.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于步驟3中,所述跨模態注意力機制網絡Φ,由順序連接的跨模態轉換網絡、記憶增強網絡和特征融合與處理網絡組成;

    8.根據權利要求1-7任一項所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,訓練過程中,采用余弦相似作為衡量不同特征間語義一致性的指標,構建相似度矩陣S,其中S[i,j]為特征i與特征j的余弦相似度,i,j∈[0,N),N為每個樣本每個模態的特征數,S[i,i]=0;

    9.一種層級關系一致的多模態情感理解系統,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種層級關系一致的多模態情感理解方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟1中,采用一維時間卷積來提取保留時間維度的多媒體數據原始特征,進一步對數據進行對齊處理。

    3.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,采用共有編碼器εshared來提取三個模態數據xm的模態共有部分xmirr=εshared(xm),其中m∈{l,a,v},l,a,v分別表示文本數據、語音數據和視覺數據;

    4.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,采用三個模態專屬編碼器,分別提取三個模態數據xm的模態特有部分xmexc=εmprivate(xm);

    5.根據權利要求1所述的層級關系一致的多模態情感理解方法,其特征在于:步驟2中,所述解碼器,由若干順序連接的混合型層結構和一個逆卷積層組成;所述混合型層結構,由順序連接的卷積層、逆卷積層和激活函數層組成,其中卷積層和逆卷積層之間殘差連...

    【專利技術屬性】
    技術研發人員:葉茫,楊博安,宗小芬
    申請(專利權)人:武漢大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国模无码一区二区三区不卡| 亚洲V无码一区二区三区四区观看| 色窝窝无码一区二区三区 | 中文字幕乱偷无码AV先锋| 在线播放无码高潮的视频| 亚洲av无码专区在线观看下载| 精品无码久久久久久久动漫| 精品无码人妻一区二区三区品 | 亚洲Av无码乱码在线znlu| 亚洲成a人片在线观看无码专区| 中文字幕亚洲精品无码| 红桃AV一区二区三区在线无码AV| 亚洲中文无码av永久| 伊人久久综合无码成人网| 无码人妻久久一区二区三区蜜桃 | 亚洲AV无码一区东京热久久| 国产色无码精品视频国产| 亚洲AV无码无限在线观看不卡 | 无码人妻一区二区三区一| 亚洲国产成人片在线观看无码| 亚洲色偷拍区另类无码专区| 无码国产亚洲日韩国精品视频一区二区三区 | 白嫩无码人妻丰满熟妇啪啪区百度 | 亚洲av无码专区国产不乱码| 日韩精品人妻系列无码专区| 亚洲av无码不卡| 久久人妻内射无码一区三区| 精品无码人妻久久久久久| 精品国产毛片一区二区无码| 一区二区三区无码高清| 国产免费AV片无码永久免费 | 国内精品久久人妻无码不卡| 亚洲AV无码一区二区三区久久精品 | 中文字幕无码久久人妻| 精品人妻少妇嫩草AV无码专区 | 无码中文人妻在线一区二区三区| 亚洲av无码国产综合专区| 亚洲精品无码久久毛片波多野吉衣| 老司机亚洲精品影院无码| 亚洲av片不卡无码久久| 亚洲熟妇无码AV不卡在线播放|