【技術實現步驟摘要】
融合情感資源的多模態情感分析模型
[0001]本專利技術涉及情感分析
,具體為融合情感資源的多模態情感分析模型。
技術介紹
[0002]情感是人際交流中最為重要的信息之一,情感表達有助于人們了解到彼此對于事物的態度,促進人與人之間的溝通和理解。隨著人工智能技術的發展,特別是以Facebook、YouTube等為代表的社交媒體平臺的迅速興起以及智能客服、餐飲服務機器人等人工智能產品的普及,情感分析技術越來越被重視。通過情感分析技術,各類產品和媒體平臺能夠對用戶的情感和意圖擁有更加精準的理解能力,正因為如此,情感分析受到了學術界和工業界廣泛的關注和深入研究。
[0003]情感分析旨在識別用戶對于事物或人的看法和態度,該類研究在理解不同群體的人及其意圖方面發揮著重要的作用。傳統的情感分析主要通過單模態數據來對研究對象的情緒進行分析和識別,但是由于單模態數據魯棒性不足,容易受到主觀意識和外界環境的影響,因此往往導致識別率不高。例如在面部遮擋、語音受到噪聲干擾等場景下,單一模態包含的有效信息會減少,導致情感分析準確率下降。
[0004]為了充分利用多種模態數據內蘊含的信息,提高情感分析的準確率,多模態情感分析引起了廣泛的關注。多模態情感分析旨在通過語音信號、視覺信號等多種維度的信息來判斷人的態度或情緒的傾向性。與單模態數據相比,多模態數據含有更為豐富的情感信息,通過有效的融合手段來挖掘多種模態數據間的互補信息,從而可以有效地提高情感分析的準確率,減少分類錯誤。目前,針對多模態數據進行融合的方法有很多,如基 ...
【技術保護點】
【技術特征摘要】
1.融合情感資源的多模態情感分析模型,其特征在,包括:用來進行文本、視覺與聽覺模態特征初步提取的單一模態特征提取層模塊(1);利用Transformer捕捉模態內部的動力,并設計情感詞分類預測任務進行情感嵌入學習和提取的單一模態特征深度提取層模塊(2);利用情感嵌入來完成多模態特征交互學習,使得其他模態特征能夠感知文本中情感信息的跨模態交互學習層模塊(3);將前三層學習到的情感特征表示最終輸入深度神經網絡完成最終預測任務的預測層模塊(4)。2.根據權利要求1所述的融合情感資源的多模態情感分析模型,其特征在于:所述單一特征深度提取層模塊(2)包括以觀點詞典為依據獲取情感資源對資源進行分類然后通過公式進行分析并將情感詞分類預測的情感資源的獲取與表達模塊(21)與可捕獲單一模態長距離中相互依賴特征的單峰語言特征學習模塊(22)。3.根據權利要求1所述的融合情感資源的多模態情感分析模型,其特征在于:所述跨模態交互學習層模塊(3)包括用情感嵌入代替文本特征的多模態情感感知模塊(31)、利用視覺模塊進行模態間學習情感特征的視覺模態學習模塊(32)與利用聽覺模塊進行模態間學習情感特征的聽覺模態學習模塊(33)。4.融合情感資源的多模態情感分析模型,其特征在于:多模態情感分析方法包括如下步驟:S1:單一模態特征提取:對于給定的話語,通常包含文本、視覺與聽覺三種模態話語,對于文本模態,考慮到大型預訓語音模型BERT具有強大語言表征能力與特征提取能力,使用BERT進行初始特征提取,對于聲學模態和視覺模態,考慮到模態內部的上下相關性和時序性,本申請使用Bi
?
LSTM來進行特征提取;S2:深度特征提取:a1:情感資源的獲取與表達:除了傳統的多模態情感分析普遍采用的文本、視覺和聲學三個模態之外,本申請認為情感詞也可以為特征學習提供更加精確的識別方向,通過對情感知識的學習,初始文本特征向量能夠學習到自身所包含的情感詞信息,從而使得其富含更加明確的語義信息以及更少的噪聲干擾;本申請選擇以劉冰觀點詞典為情感資源的主要依據,為實驗數據集的文本模態進行情感詞標簽標注,劉冰觀點詞典中列舉了正面和負面兩類英文情感詞,并且包含了拼寫錯誤、俚語變形等非正常情感詞,因此本申請根據觀點詞典對原始文本中的情感詞和非情感詞的位置進行標注,并在短句末尾填充0字符以保證標簽長度的一致性;此外,本申請設計了用于情感詞預測的分類輔助任務。為了確保能夠有效地將情感信息融合至高維度的特征表示中,本申請選擇在遵循非線性的基礎上進行特征壓縮,確保情感特征值在0~1之間,符合概率規律,達到降低信息損失的目的;a2:單峰語言特征學習:Transformer改進了RNN訓練慢的特點,并且可以提高計算的并行性,非常適合用于非對齊模態的特征學習,在自然語言處理領域發揮著舉足輕重的作用,因此為了捕獲單一模態長距離中相互依賴的特征,從上下文表示中提取到更加豐富的語義信息,本申請沒有選擇基于RNN的結構來捕獲模態序列信息,而是選擇采用基于
Transformer的結構分別生成每個模態的序列特征。此外,與單頭注意力機制不同,多頭自注意力機制作為Transformer的關鍵組件能夠通過引入多個query來捕獲模態內部的多種相關性;a3:跨膜態交互學習:考慮到文本并不能包含所有的情感信息,并且由于觀點詞典的局限性,本申請對于情感詞的標注工作僅標注了情感詞,并未對語氣助詞、語氣副詞等同樣會對模態表達情感產生影響的詞語進行標注,同時無法保證完全覆蓋所有的網絡新詞。因此對于準確的情感分析而言,僅僅使用情感嵌入作為主導來進行模態間的特征學習是不夠的。此外,視覺模態和聲學模態中蘊含著文本模態所不具有的額外信息,有助于情感信息的學習和提取,考慮到以上幾點點,本申請將另外兩種模態間的信息也進行引入,以此來補充情感嵌入表示的不足之處;a4:預測層:將得到的特征表示進行拼接,并送入深度神經網絡完成最終的預測;S3:實驗結構與分析:b1:數據集的統計:選擇了三個公共多模態情感分析的數據集來進行實驗,MOSI,MOSEI和IEMOCAP;CMU
?
MOSI:該數據集由來自YouTube的2199個視頻獨白片段組成,每個片段均有一個情感強度標簽,強度在[
?
3,+3]范圍內,+3為穩固的積極情緒,
?
3為穩固的消極情緒。此外,該數據集的訓練集、測試集和驗證集分別包含1284個、229個和686個視頻片段;CMU
?
MOSEI:該數據集是對CMU
?
MOSI的改進,它的視頻片段更多、人物主題等種類更豐富。該數據集包含22856個來自于YouTube的視頻獨白片段,訓練集、驗證集和測試集分別由16326個、1871個和4659個視頻片段組成;IEMOCAP:該數據集包含4453個對話片段,由快樂、憤怒、悲傷、中性等九種情緒類別標記,由于一些情緒標簽存在不平衡性,本申請選擇采用前四種情緒標簽來進行實驗。此外,該數據集的訓練集、驗證集和測試集分別由2717個、798個和938個視頻片段組成;b2:Baselines:TFN:TFN融合了單模態、雙模態和三模態的相互作用,并用笛卡爾積來進行張量融合;LMF:LMF在TFN的基礎上進行了改進,利用低秩分解因子來減少多模態張量融合時的計算內存;MulT:MulT在Transformer編碼器的基礎上利用跨模態注意力模塊來進行模態間的信息交互;ICCN:ICCN將聲學模態和視覺模態信息附加在文本模態上,通過探究語言信息和非語言信息的隱藏關系來進行多模態融合;TCSP:TCSP以文本為中心,利用跨模態預測任務來學習模態的共享和私有語義,并融合語義特征來進行多模態情感預測;BIMHA:BIMHA探討了成對模態鍵的相對重要性和關系,并擴展多頭注意力來進行信息增強;HEMT:HEMT提出了一種基于全息約化表示的方法,該方法是外積模型的壓縮版本,以促進跨模態...
【專利技術屬性】
技術研發人員:彭俊杰,李愛國,李松,李璐,
申請(專利權)人:徐州達希能源技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。