本發明專利技術提供了一種基于融合多文本特征的中文文本情感分析方法,包括:步驟Step1:獲取中文文本信息,并對所述中文文本信息進行預處理,得到所述中文文本信息對應的多個序列;步驟Step2:將所述多個序列輸入BiGRU網絡提取各序列的文本特征,生成所述多個序列對應的多個文本特征信息;步驟Step3:將所述多個文本特征信息進行融合,并輸入到BiLSTM網絡中進行學習;步驟Step4:再利用自注意力機制篩選特征;步驟Step5:將經過自注意力機制篩選后的特征向量,輸入sigmoid分類器進行分類,得到最終的情感分析結果,本發明專利技術解決了傳統基于雙向長短期記憶神經網絡(BiLSTM)的文本情感分析方法對文本自身包含的特征信息學習不夠的問題,且能有效地提高中文文本情感分析的準確率。能有效地提高中文文本情感分析的準確率。能有效地提高中文文本情感分析的準確率。
【技術實現步驟摘要】
一種基于融合多文本特征的中文文本情感分析方法
[0001]本專利技術涉及自然語言處理
,尤其涉及到一種基于融合多文本特征的中文文本情感分析方法。
技術介紹
[0002]文本情感分析(Sentiment Analysis)是指利用自然語言處理和文本挖掘技術,對帶有情感色彩的主觀性文本進行分析、處理和抽取的過程。其涉及領域包括自然語言處理、文本挖掘、信息檢索、信息抽取和機器學習等。傳統雙向長短期記憶神經網絡(BidirectiLnalLLng ShLrt
?
Term MemLry,BiLSTM)在文本情感分析上已經取得較好的效果,但對文本自身包含的特征信息學習不夠。針對此問題,本文提出融合多文本特征的中文文本情感分析方法。
[0003]綜上所述,提供一種可解決傳統雙向長短期記憶神經網絡(BiLSTM)對文本自身包含的特征信息學習不夠的問題,且能有效地提高中文文本情感分析的準確率的基于融合多文本特征的中文文本情感分析方法,是本領域技術人員急需解決的問題。
技術實現思路
[0004]本方案針對上文提到的問題和需求,提出一種基于融合多文本特征的中文文本情感分析方法,其由于采取了如下技術方案而能夠解決上述技術問題。
[0005]為實現上述目的,本專利技術提供如下技術方案:一種基于融合多文本特征的中文文本情感分析方法,包括以下步驟:步驟Step1:獲取中文文本信息,并對所述中文文本信息進行預處理,得到所述中文文本信息對應的多個序列;
[0006]步驟Step2:將所述多個序列輸入BiGRU網絡提取各序列的文本特征,生成所述多個序列對應的多個文本特征信息;
[0007]步驟Step3:將所述多個文本特征信息進行融合,并輸入到BiLSTM網絡中進行學習;
[0008]步驟Step4:再利用自注意力機制篩選特征,對步驟Step3提取的特征信息分配相應的權重,獲取最重要的情感信息;
[0009]步驟Step5:將經過自注意力機制篩選后的特征向量,輸入sigmoid分類器進行分類,得到最終的情感分析結果。
[0010]進一步地,所述多個序列包括文本詞序列、詞性序列、字序列、字詞性序列、字
?
位置序列和字
?
詞性
?
位置序列。
[0011]更進一步地,所述提取各序列的文本特征包括:將所述多個序列通過word2vec模型訓練得到所述多個序列對應的多個序列矩陣,每個序列中對應的每個元素的元素向量為x
i
,x
i
∈R
n
×
d
,其中n是元素數,d是向量維度,則每個序列的整個序列矩陣Uj表示為:U
j
={x1,x2,
…
,x
n
},j表示序列編號;將Uj輸入訓練好的BiGRU網絡,同時處理正向和反向文本序列,對文本深層次信息進行特征提取,得到對應的特征向量信息A
t
、B
t
、C
t
、D
t
、E
t
、F
t
。
[0012]更進一步地,所述BiGRU網絡由正向GRU、反向GRU和正反向GRU的輸出狀態連接層組成,若記t時刻正向GRU輸出的隱藏狀態為則反向GRU輸出的隱藏狀態為則而BiGRU網絡輸出的語義表示為h
t
,,其中,w
t
,v
t
是權值矩陣,GRU為GRU函數,U
t
為t時刻的GRU輸入,b
t
為偏置向量。
[0013]更進一步地,所述將所述多個文本特征信息進行融合包括:將所述對應的特征向量信息A
t
、B
t
、C
t
、D
t
、E
t
、F
t
通過矩陣拼接方法或點乘方法進行融合,得到融合后的文本特征Y
t
。
[0014]更進一步地,將融合后的文本特征Y
t
輸入到BiLSTM網絡中進行學習,輸出句子的語義特征信息,其中,某一時刻t的BiLSTM網絡輸出狀態由正向LSTM網絡與反向LSTM網絡的輸出相連接組成,若記t時刻正向LSTM輸出的隱藏狀態為反向LSTM輸出的隱藏狀態為則BiLSTM輸出的隱藏狀態
[0015]更進一步地,所述利用自注意力機制篩選特征包括:生成目標注意力權重v
t
,v
t
=σ(L
t
),σ是為注意力學習函數tanh,L
t
是BiLSTM網絡輸出的特征向量;然后注意力權重概率化,根據公式:通過softmax函數生成概率向量p
t
;最后進行注意力權重配置,根據公式將生成的注意力權重配置給對應的隱層狀態語義編碼L
t
,其中,a
t
是L
t
的加權平均值,權值是p
t
。
[0016]更進一步地,所述通過sigmoid分類器進行分類包括:將自注意力機制處理后的向量a
t
經過dropout層,得到特征向量a
t
′
;將特征向量a
t
′
輸入到全連接層,其中全連接層參數為1,激活函數為sigmoid函數,根據模型:p(y=1|x,ω)=h
ω
(x)=g(ω
T
x)=1/(1+exp(
?
ω
T
x))訓練輸出最終的情感分析結果,其中,樣本是{x,y},y是消極0或者積極1,x是樣本特征向量,ω代表可訓練參數;采用作為損失函數訓練模型參數ω,并采用Adam優化算法進行模型優化,其中,y
i
為輸入x
i
的真實類別,h
ω
(x
i
)為預測輸入x
i
屬于類別1的概率。
[0017]從上述的技術方案可以看出,本專利技術的有益效果是:解決了傳統基于雙向長短期記憶神經網絡(BiLSTM)的文本情感分析方法對文本自身包含的特征信息學習不夠的問題,加強了模型在文本語言預處理過程中對文本的表征能力,且能有效地提高中文文本情感分析的準確率。
[0018]除了上面所描述的目的、特征和優點之外,下文中將結合附圖對實施本專利技術的最優實施例進行更詳盡的描述,以便能容易地理解本專利技術的特征和優點。
附圖說明
[0019]為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下文將對本專利技術實施例或現有技術描述中所需要使用的附圖作簡單地介紹,其中,附圖僅僅用于展示本專利技術的
一些實施例,而非將本專利技術的全部實施例限制于此。
[0020]圖1為本專利技術一種基于融合多文本特征的中文文本情感分析方法的具體步驟示意圖。
[0021]圖2為本專利技術中BiGR本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于融合多文本特征的中文文本情感分析方法,其特征在于,包括以下步驟:步驟Step1:獲取中文文本信息,并對所述中文文本信息進行預處理,得到所述中文文本信息對應的多個序列;步驟Step2:將所述多個序列輸入BiGRU網絡提取各序列的文本特征,生成所述多個序列對應的多個文本特征信息;步驟Step3:將所述多個文本特征信息進行融合,并輸入到BiLSTM網絡中進行學習;步驟Step4:再利用自注意力機制篩選特征,對步驟Step3提取的特征信息分配相應的權重,獲取最重要的情感信息;步驟Step5:將經過自注意力機制篩選后的特征向量,輸入sigmoid分類器進行分類,得到最終的情感分析結果。2.如權利要求1所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述多個序列包括文本詞序列、詞性序列、字序列、字詞性序列、字
?
位置序列和字
?
詞性
?
位置序列。3.如權利要求2所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述提取各序列的文本特征包括:將所述多個序列通過word2vec模型訓練得到所述多個序列對應的多個序列矩陣,每個序列中對應的每個元素的元素向量為x
i
,x
i
∈R
n
×
d
,其中n是元素數,d是向量維度,則每個序列的整個序列矩陣Uj表示為:U
j
={x1,x2,
…
,x
n
},j表示序列編號;將Uj輸入訓練好的BiGRU網絡,同時處理正向和反向文本序列,對文本深層次信息進行特征提取,得到對應的特征向量信息A
t
、B
t
、C
t
、D
t
、E
t
、F
t
。4.如權利要求3所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述BiGRU網絡由正向GRU、反向GRU和正反向GRU的輸出狀態連接層組成,若記t時刻正向GRU輸出的隱藏狀態為則反向GRU輸出的隱藏狀態為則而BiGRU網絡輸出的語義表示為h
t
,,其中,w
t
,v
t
是權值矩陣,GRU為GRU函數,U
t
為t時刻的GRU輸入,b
t
為偏置向量。5.如權利要求4所述的基于融合多文本特征的中文文本情感分析方法,其特征在于,所述將所述多個文本特征信息進行融合包括:將所述對應的特征向量信...
【專利技術屬性】
技術研發人員:王麗亞,陳哲,
申請(專利權)人:王麗亞,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。