System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及多模態(tài)中文反諷識(shí)別,特別是一種殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法。
技術(shù)介紹
1、目前,針對(duì)準(zhǔn)確識(shí)別多模態(tài)評(píng)論反諷情感的目的,現(xiàn)有技術(shù)一般是融合文本、表情符號(hào)和圖片情感特征,在bilstm,emoji2vec和fcnn模型的基礎(chǔ)上構(gòu)建旅游評(píng)論反諷識(shí)別模型,在對(duì)3種特征進(jìn)行向量化表示之后,分別進(jìn)行雙模和3模特征向量融合,最終采用sigmoid和softmax分類器對(duì)融合向量進(jìn)行分類,輸出旅游評(píng)論反諷結(jié)果。根據(jù)上述設(shè)計(jì)路線,多模態(tài)融合的旅游評(píng)論反諷識(shí)別模型可分為輸入層、特征表示層、特征融合層、反諷識(shí)別層,但是,在特征融合層僅采用了模態(tài)特征的簡(jiǎn)單加權(quán),未考慮模態(tài)間的信息交互。
2、通過對(duì)現(xiàn)有的多模態(tài)中文反諷識(shí)別研究發(fā)現(xiàn),模型的整體設(shè)計(jì)大多集中在深度學(xué)習(xí)模型的訓(xùn)練上,以模態(tài)間信息融合與交互、捕捉“模態(tài)間矛盾”為重點(diǎn)設(shè)計(jì)相關(guān)模型,而忽略了反諷語(yǔ)句本身顯式的語(yǔ)言特征。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種能夠改善現(xiàn)有方法的局限性,提高反諷識(shí)別的準(zhǔn)確性的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法。
2、本專利技術(shù)所要解決的技術(shù)問題是通過以下的技術(shù)方案來實(shí)現(xiàn)的。本專利技術(shù)是一種殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,該方法步驟如下:
3、(1)利用卡方統(tǒng)計(jì)方法對(duì)自構(gòu)建的圖文多模態(tài)中文反諷識(shí)別數(shù)據(jù)集提取具有反諷與非反諷含義的詞語(yǔ),構(gòu)建出語(yǔ)言特征體系;
4、(2)使用textcnn模型提取
5、(3)使用resnet34模型提取圖像特征;
6、(4)引入交叉注意力機(jī)制,建立圖文特征之間的關(guān)聯(lián);
7、(5)特征融合,得到分類結(jié)果。
8、本專利技術(shù)所要解決的技術(shù)問題還可以通過以下的技術(shù)方案來進(jìn)一步實(shí)現(xiàn),對(duì)于以上所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,步驟(2)的具體操作為:
9、利用word2vec模型在海量文本中學(xué)習(xí)突發(fā)事件網(wǎng)民評(píng)論語(yǔ)義信息得到文本向量化表示,作為文本模型的輸入;
10、突發(fā)事件多模態(tài)反諷識(shí)別數(shù)據(jù)集中的網(wǎng)民文本評(píng)論集x={x1,x2,…,xi,…,xn},xi表示一條文本評(píng)論,通過分詞得到的每條評(píng)論xi=(xi1,…,xii,…,xik),xik表示第i條文本評(píng)論的第k個(gè)單詞,每個(gè)通過word2vec訓(xùn)練好的單詞表示第k個(gè)單詞的m維詞向量;
11、textcnn模型的輸入是一個(gè)n×d矩陣x,其中每行表示一段文本中的一個(gè)詞的d維詞向量表示;
12、對(duì)該矩陣卷積操作,通過在矩陣上進(jìn)行滑動(dòng)窗口計(jì)算,得到特征圖矩陣c,一次的卷積計(jì)算如下:
13、ci=f(w×xi:i+h-1+b)
14、其中,xi:i+h-1表示矩陣x的第i行到第i+h-1列,w是卷積核,其大小為h×d,b是偏置向量,f是激活函數(shù);
15、對(duì)得到的每個(gè)特征圖c,通過最大池化操作得到池化向量t:
16、t=max(c)
17、將所有的池化向量t連接形成一個(gè)長(zhǎng)向量t,然后通過一個(gè)全連接層進(jìn)行分類,或用于后續(xù)的應(yīng)用;
18、以同樣的方式獲得語(yǔ)言特征向量l,以便后續(xù)使用。
19、本專利技術(shù)所要解決的技術(shù)問題還可以通過以下的技術(shù)方案來進(jìn)一步實(shí)現(xiàn),對(duì)于以上所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,步驟(3)的具體操作為:
20、突發(fā)事件多模態(tài)反諷識(shí)別數(shù)據(jù)集中的網(wǎng)民文本評(píng)論對(duì)應(yīng)的圖片集p={p1,p2,…,pi,…,pn},p中每張圖片pi的初始大小為224×224×3,圖片經(jīng)若干卷積層至最后一層卷積層(conv?5)后,圖片大小變?yōu)?×7×512,再經(jīng)過平均池化層(avg?pool)后,輸出大小變?yōu)?×1×512,得到池化后的圖像特征i,將圖片特征i輸入至全連接層中得到圖像特征i:
21、i=linear(i)
22、其中,linear()表示全連接層。
23、本專利技術(shù)所要解決的技術(shù)問題還可以通過以下的技術(shù)方案來進(jìn)一步實(shí)現(xiàn),對(duì)于以上所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,步驟(4)的具體操作為:
24、將上文得到的文本特征t和圖像特征i通過交叉注意力機(jī)制學(xué)習(xí)到模態(tài)間的交互信息并建立起它們之間的聯(lián)系,利用殘差連接的方式將交叉注意力機(jī)制應(yīng)用于模態(tài)融合過程,設(shè)計(jì)一個(gè)特征融合模塊:
25、將文本特征作為查詢q,圖像特征作為鍵k和值v,通過應(yīng)用注意力機(jī)制的計(jì)算方式,得到文本層面的注意力特征,計(jì)算公式如下所示:
26、
27、其中,wq,wk,wv是模型訓(xùn)練過程中可學(xué)習(xí)的參數(shù)矩陣,引入dk的目的是平衡不同維度對(duì)相似度計(jì)算的影響;
28、將多個(gè)頭的輸出連接起來,得到總的文本層面注意力特征,在本文中,設(shè)置n_heads=0,接著,通過使用殘差連接的方式將原始的文本特征t和經(jīng)過交叉注意力得到的文本層面注意力特征att(t,i)連接起來:
29、attt=att(t,i)+t
30、至此,得到經(jīng)過文本層注意力特征后的總輸出attt;
31、同樣地,將圖像特征作為查詢q,文本特征作為鍵k和值v,計(jì)算方法與計(jì)算文本層注意力分?jǐn)?shù)相同,通過圖像引導(dǎo)文本信息的方式,計(jì)算圖像層面的注意力分?jǐn)?shù),得到經(jīng)過圖像層注意力特征后的總輸出atti;
32、將得到的文本層注意力特征attt和圖像層注意力特征atti連接起來,形成圖文模態(tài)交叉注意力融合模塊的圖文輸出attti:
33、attti=cat(attt,atti)
34、通過簡(jiǎn)單連接的方式將獲取到的語(yǔ)言特征l和圖文輸出attti連接起來得到模態(tài)融合的最終特征表示atttil:
35、atttil=cat(l,attti)。
36、本專利技術(shù)所要解決的技術(shù)問題還可以通過以下的技術(shù)方案來進(jìn)一步實(shí)現(xiàn),對(duì)于以上所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,該方法的測(cè)試方法為:
37、(1)使用基于微博平臺(tái)上構(gòu)建的圖文多模態(tài)中文反諷識(shí)別數(shù)據(jù)集進(jìn)行效果測(cè)試;
38、(2)將文本和圖片分別送進(jìn)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,前向傳播過程中會(huì)經(jīng)過卷積層進(jìn)行特征提取,之后經(jīng)過歸化層進(jìn)行數(shù)據(jù)映射,最后通過激活函數(shù)來進(jìn)行非線性映射,分別得到文本和圖片的特征,對(duì)得到的文本和圖片的特征進(jìn)行交叉注意力的處理與殘差式連接之后得到總的反諷識(shí)別特征;
39、(3)獲取得到的反諷識(shí)別特征與標(biāo)簽計(jì)算損失;
40、(4)得到損失函數(shù)后進(jìn)行反向梯度計(jì)算;
41、(5)結(jié)合學(xué)習(xí)率進(jìn)行反向權(quán)重更新,學(xué)習(xí)率一開始按照國(guó)際化區(qū)域標(biāo)準(zhǔn)設(shè)置,隨著訓(xùn)次數(shù)的迭代,學(xué)習(xí)率不斷下降,每當(dāng)權(quán)重更新后,代表一次訓(xùn)練結(jié)束;
42、(6)重復(fù)以上操作,繼續(xù)輸入合成數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),直到loss值趨于平穩(wěn),網(wǎng)絡(luò)收斂;
43、(7)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:該方法步驟如下:
2.根據(jù)權(quán)利要求1所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:步驟(2)的具體操作為:
3.根據(jù)權(quán)利要求1所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:步驟(3)的具體操作為:
4.根據(jù)權(quán)利要求1所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:步驟(4)的具體操作為:
5.根據(jù)權(quán)利要求1所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:該方法的測(cè)試方法為:
【技術(shù)特征摘要】
1.一種殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:該方法步驟如下:
2.根據(jù)權(quán)利要求1所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別方法,其特征在于:步驟(2)的具體操作為:
3.根據(jù)權(quán)利要求1所述的殘差式融合語(yǔ)言特征的多模態(tài)中文反諷識(shí)別...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡文彬,陳龍,韓天樂,蔡天翔,
申請(qǐng)(專利權(quán))人:江蘇海洋大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。