一種基于腦認知啟發的多模態人類意圖理解系統技術方案

技術編號：44493615 閱讀：6 留言：0更新日期：2025-03-04 17:59

本發明專利技術涉及一種基于腦認知啟發的多模態人類意圖理解系統，包括多模態信息采集單元、互交叉注意力強化單元、自交叉注意力強化單元、源模態更新單元、自適應多模態信息融合單元、連續維度的情感意圖理解單元，以及細粒度的行為意圖理解單元。與現有技術相比，本發明專利技術充分融合來自語言、音頻以及視頻模態的有效特征語義，利用不同強化和更新單元中的注意力機制實現了高效的多模態建模，進一步完成了多任務模式下的人類情感和行為意圖理解，有效的解決了真實應用場景下人類意圖理解準確率低，多模態利用率不足以及系統魯棒性差等問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及多模態意圖理解領域，尤其是涉及一種基于腦認知啟發的多模態人類意圖理解系統。

技術介紹

1、當前的多模態意圖理解技術可以從模態種類、識別目標以及建模方法三個維度來歸納。

2、得益于多媒體領域的快速發展，先前的方法大多數聚焦于從音頻和視頻等非語言模態中提取意圖相關的線索。音頻信號中包含有表達人類意圖的音色特征和音質系數等重要參數，而視頻信號主要用來提取和面部動作單元相關的意圖語義；此外，還有一部分研究以音頻信號為基礎，通過自動翻譯和轉錄工具以獲取和音頻模態相對應的文本信息以提取人類語言中包含的意圖表示。

3、從識別目標的維度來看，一些工作聚焦于多模態人類情感意圖識別。情感作為人機交互的基礎，在推動系統理解人類表達中扮演著重要的角色。當前的情感意圖理解主要聚焦于離散的情感表達識別，例如高興、悲傷、生氣以及憤怒等情感狀態。在行為意圖理解方面，多模態行為識別是一種通過結合多個感知模態來準確地識別和理解人類行為的技術。傳統的行為識別方法主要基于單一感知模態，如僅使用圖像或視頻進行行為分析。而多模態行為識別則利用多種感知模態的數據，例如圖像和語音等，以獲得更全面、準確的行為描述。

4、建模方法是多模態人類意圖理解的關鍵環節，通過提取各個感知模態的有效特征，可以更好地描述人類行為。對于圖像/視頻模態，常用的特征提取方法包括卷積神經網絡和長短期記憶網絡；對于語音和語言模態，循環神經網絡是常用的特征提取方法。意圖理解模型是在特征提取后對人類意圖進行識別的關鍵組成部分。常用的意圖理解模型包括支持向量機

5、盡管當前的多模態人類意圖理解技術取得了長足的發展，但是仍存在一些亟待解決的缺點和挑戰：

6、當前的研究大多數聚焦于兩種模態的結合而忽略了三種模態互補的優勢。在雙模態的方法中，某個模態的數據存在噪聲或遮擋時，其他模態可能無法找到對應剩余模態語義來進行模態對齊和提供有用的信息進行意圖理解。不充足的模態利用現狀大大降低了意圖理解系統對干擾和變化的適應能力，以及系統的穩定性和準確率。

7、此外，先前的意圖理解研究要么聚焦于離散維度的情感識別，要么聚焦于粗粒度的行為意圖理解，無法充分的結合不同意圖理解任務帶來的互補信息和語義，造成了系統的性能瓶頸和限制了系統的適用范圍。同時，在單任務學習中，系統只能利用特定任務的數據進行訓練，而忽略了其他任務的數據。這導致了數據的低效利用，尤其在數據稀缺的情況下，可能無法充分利用可用的信息。單任務的意圖理解也無法共享學習到的知識。這意味著在每個任務上都需要從頭開始訓練一個新的模型，而無法受益于其他任務的學習增益。這增加了訓練時間和計算資源的開銷。最嚴重的是，單任務的意圖理解系統缺乏泛化能力，即單任務學習訓練的系統通常在特定任務上表現良好，但可能在面對新任務時缺乏泛化能力。由于單任務系統僅關注特定任務的特征和目標，可能無法很好地適應新任務的需求，需要重新訓練或進行大量調整。

8、在建模方法方面，傳統基于機器學習的方法通常需要手動進行特征工程，即從原始數據中提取有用的特征以供模型學習和預測。這需要領域專業知識和經驗，并且往往是一個耗時且復雜的過程。同時，這些模型的學習能力和表達能力有限，可能無法很好地處理復雜的非線性關系和大規模數據。當數據中出現異常值和噪聲時，這可能導致模型的性能下降。此外，當前大部分深度學習的方法通常使用卷積神經網絡和循環神經網絡來處理多模態異步序列，這些模型由于有限的感受野而無法學習更多的上下文信息，此外，它們通常無法實現高效的并行計算而限制了訓練和推理的速度。在異構序列的特征學習中，傳統的方法通常需要為異構模態設計不同的模型來提取模態特定的特征，增加了計算開銷和系統復雜度。

9、綜上所述，如何開發能同時容納語言，音頻以及視頻的人類多模態序列，以高效的結構框架實現人類情感和行為意圖理解的新型系統成為了本領域技術人員亟待解決的問題。

技術實現思路

1、本專利技術的目的就是為了克服上述現有技術存在的缺陷而提供了一種基于腦認知啟發的多模態人類意圖理解系統，有效的解決了真實應用場景下人類意圖理解準確率低，多模態利用率不足以及系統魯棒性差等問題。

2、本專利技術的目的可以通過以下技術方案來實現：

3、本專利技術提供了一種基于腦認知啟發的多模態人類意圖理解系統，包括：

4、多模態信息采集單元，用于采集包括語言模態、音頻模態和視頻模態的多模態信息；

5、互交叉注意力強化單元，用于對多模態信息采集單元采集到的多模態信息進行互注意力和跨注意力交互運算，得到多模態強化特征；

6、自交叉注意力強化單元，用于對多模態信息采集單元采集到的多模態信息進行自注意力和交叉注意力增強，得到多模態增強特征；

7、源模態更新單元，用于對多模態信息采集單元輸出的多模態信息進行過濾更新處理，用于互交叉注意力強化單元和自交叉注意力強化單元的漸進式強化和增強；

8、自適應多模態信息融合單元，用于采用共享映射矩陣對多模態強化特征和多模態增強特征進行自適應融合，輸出多模態融合特征；

9、連續維度的情感意圖理解單元，用于對多模態融合特征進行情感分數回歸，輸出最終的情感預測數值；

10、細粒度的行為意圖理解單元，用于對多模態融合特征進行多分類操作，輸出最終的行為預測數值。

11、優選地，所述多模態信息采集單元包括獨立設置的：

12、語言模態提取模塊：對視頻信號進行翻譯轉錄并采用預訓練的glove詞嵌入處理模型處理得到語言特征序列；

13、音頻模態提取模塊：通過covarep工具提取為低階聲學特征表示得到音頻特征序列；

14、視頻模態提取模塊：通過facet工具提取出面部動作單元作為視頻特征序列。

15、優選地，所述互交叉注意力強化單元包括：

16、多模態特征序列投影模塊：通過三個獨立的多層感知機模型分別對語言特征序列、音頻特征序列以及視頻特征序列進行投影變換，接著采用三個一維卷積神經網絡層將不同維度的多模態特征序列映射對齊至相同維度；

17、多模態聯合的互注意力運算模塊：將對齊維度后的三個投影變換后的多模態特征序列特征拼接后歸一化處理，接著依據原始多模態特征序列的長度將切分計算得到的注意力分數，獲得模態特定的注意力矩陣，用于和原始多模態特征執行元素級別的元素乘法操作進行原始特征精煉，得到第一精煉特征；

18、多模態獨立的跨注意力交互模塊：單個模態通過全連接層投影到特定模態特征序列空間作為索引訪問，接著采用兩個結構相似但不同權重的全連接層將另外兩個模態特征序列投影到特定源序列空間中作為索引鍵和索引值，不同模態之間分別執行目標索引訪問和源索引鍵與值的跨模態交互，以挖掘跨模態元素之間的相關性和實現特征精煉，得到第二精煉特征；

19、特本文檔來自技高網...

【技術保護點】

1.一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，包括：

2.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述多模態信息采集單元包括獨立設置的：

3.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述互交叉注意力強化單元包括：

4.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述自交叉注意力強化單元包括：

5.根據權利要求4所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述交叉注意力增強模塊中多模態聯合表示通過交叉變異型的特征聯合投影進行三個異構交互空間的特征原型抽取，進行跨模態元素的交叉增強和新知識的變異催生，得到第二增強特征，具體為：通過任意一個模態特征和聯合特征之間的跨模態矩陣乘法和交叉softmax函數，進行跨模態元素的交叉增強和新知識的變異催生，多模態聯合表示通過特征聯合投影和交叉注意力運算進行每個時間戳上一個模態到另一個模態的元素自適應和跨模態元素增強，得到第二增強特征。

6.根據權利要求1

7.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述自適應多模態信息融合單元包括：

8.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述連續維度的情感意圖理解單元具體為：通過情感特定的投影變換將多模態融合特征變換為情感分數變量，接著采用均方誤差損失來計算情感分數變量和情感目標數值之間的差值的平方和從而進行網絡模型的訓練，得到最終的情感預測數值。

9.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述細粒度行為意圖理解單元具體為：通過行為特定的投影變換將多模態融合特征變換為行為分數變量，接著利用交叉熵損失計算行為分數變量和行為目標數值之間的差異，通過類別概率最大化的約束實現網絡模型的訓練，得到最終的行為預測數值。

10.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述系統還包括意圖顯示單元，用于通過可視化的方式將預測的人類情感和行為意圖進行展示和呈現。

...

【技術特征摘要】

1.一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，包括：

2.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述多模態信息采集單元包括獨立設置的：

3.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述互交叉注意力強化單元包括：

4.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統，其特征在于，所述自交叉注意力強化單元包括：

6.根據權利要求1所述的一種基于腦認知啟發的多模態人類意圖理解系統...

【專利技術屬性】
技術研發人員：張立華，楊鼎康，李明程，鄺昊鵬，王順利，鐘楚軼，雷雨萱，
申請(專利權)人：復旦大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術