本發明專利技術涉及一種基于Transformer實現細粒度情感分析的方法,其中,該方法包括以下步驟:(1)獲取Sem
【技術實現步驟摘要】
基于Transformer實現細粒度情感分析的方法、裝置、處理器及其存儲介質
[0001]本專利技術涉及人工智能
,尤其涉及自然語言處理
,具體是指一種基于Transformer實現細粒度情感分析的方法、裝置、處理器及其計算機可讀存儲介質。
技術介紹
[0002]在人工智能出現之前,機器智能處理結構化的數據(例如Excel里的數據)。但是現實場景中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻
…
。在非結構數據中,文本的數量是最多的,他雖然沒有圖片和視頻占用的空間大,但是他的信息量是最大的。為了能夠分析和利用這些文本信息,我們就需要利用NLP技術,讓機器理解這些文本信息,并加以利用。
[0003]自然語言處理(Natural Language Processing,NLP)是計算機科學,信息工程和人工智能的子領域,涉及計算機與人類(自然)語言之間的交互,特別是如何對計算機進行編程以處理和分析大量自然語言數據。自然語言處理中的挑戰通常涉及自然語言理解(NLU)和自然語言生成(NLG)兩大任務。
[0004]自然語言理解就是希望機器像人一樣,具備正常人的語言理解能力。自然語言理解(NLU)或自然語言解釋(NLI)是自然語言處理在人工智能與機器涉及閱讀理解的子主題。其應用于實體抽取、關系抽取、機器翻譯、智能問答、文本分類、情感分析等諸多子領域。
[0005]自然語言生成是NLP的重要組成部分,主要目的是降低人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式。NLG是為了跨越人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式,如文章、報告等。
[0006]早期的粗粒度情感分析方法只能獲得文本的觀點信息,而事實上評價可能中包含著多個對象與方面的評價,而對這些表達對象被賦予的情感傾向可能不盡相同。例如如下評論文本:手機屏幕很清晰,但是電池續航能力太弱了。
[0007]很顯然,該從文本的角度上看,我們不能直接對判斷用戶對這個手機的情感是正向還是負向,因為用戶對手機的兩個方面(Aspect)分別發表的看法,那么我們便能大致知道ABSA的兩個任務了,即情感對象識別(Aspect Term Extraction),與情感對象傾向分析(Aspect Term Polarity Analysis)。前者是一個NLP的標注任務(如命名實體識別等),后者則是一個分類任務(針對性地判斷Aspect的情感類別),但現有技術是缺乏針對性判斷Aspect的情感類別的。
技術實現思路
[0008]本專利技術的目的是克服了上述現有技術的缺點,提供了一種基于Transformer實現細粒度情感分析的方法、裝置、處理器及其計算機可讀存儲介質。
[0009]為了實現上述目的,本專利技術的基于Transformer實現細粒度情感分析的方法、裝置、處理器及其計算機可讀存儲介質如下:
[0010]該基于Transformer實現細粒度情感分析的方法,其主要特點是,所述的方法包括以下步驟:
[0011](1)獲取Sem
?
Eval 2014Task 4的Laptop和Restaurant兩個領域的數據集進行模型驗證;
[0012](2)對獲取到的相應數據集進行數據解析以及轉換處理;
[0013](3)基于正文文本、主體以及主體情感類別進行情感分析模型的構建;
[0014](4)加入預設的初始參數進行情感分析模型的模型訓練;
[0015](5)獲取模型訓練得到的細粒度情感分析輸出結果。
[0016]較佳地,所述的步驟(1)包括以下步驟:
[0017](1.1)獲取Sem
?
Eval 2014Task 4數據源包含的Laptop和Restaurant兩個領域的數據集,且各個數據集均為文件格式為.xml,包含訓練數據以及測試數據的數據集;
[0018](1.2)將Laptop和Restaurant兩個領域的數據集進行情感標簽確定的準確率作為評估指標進行有效性的驗證。
[0019]較佳地,所述的情感標簽的分布情況具體包括:
[0020]Laptop和Restaurant兩個領域的數據集中正面標簽在訓練集和測試集中的分布情況;
[0021]Laptop和Restaurant兩個領域的數據集中中性標簽在訓練集和測試集中的分布情況;以及
[0022]Laptop和Restaurant兩個領域的數據集中負面標簽在訓練集和測試集中的分布情況。
[0023]較佳地,所述的步驟(2)具體包括以下步驟:
[0024](2.1)針對所述的Laptop和Restaurant數據集中的訓練集數據以及測試集數據分別進行.xml數據的解析,提取包含正文文本信息數據、主體信息數據以及主體情感類別信息數據;
[0025](2.2)將所述的正文文本信息數據、主體信息數據以及主體情感類別信息數據統一轉為UTF
?
8編碼;
[0026](2.3)將所述的正文文本信息數據依據BERT預訓練模型的數據要求進行數據轉換。
[0027]較佳地,所述的步驟(3)具體包括以下步驟:
[0028](3.1)對所述的正文文本進行編碼以符合所述的BERT預訓練模型的數據要求;
[0029](3.2)依據所述的主體在正文文本中的位置信息,構建位置編碼向量;
[0030](3.3)利用替換字符將所述的正文文本中的主體信息進行隱藏;
[0031](3.4)將經過編碼處理后的正文文本輸入到所述的BERT預訓練模型中,得到最后一層隱含層信息;
[0032](3.5)將BERT隱含層信息與主體的位置編碼向量進行相乘,得到所述的主體在BERT隱含層中信息;
[0033](3.6)將所述的主體在BERT隱含層中的信息經過一個線性層進行處理,輸出最終的情感類別。
[0034]較佳地,所述的步驟(4)具體為:
[0035]采用經驗值對初始參數的預設值進行設定,并將各個初始參數采用網格搜索方法進行優化調整,同時利用Adam優化算法計算最小化交叉熵損失函數,以獲取所述的線性層包括但不限于權重和偏置的訓練參數的最優值,從而完成情感分析模型的訓練。
[0036]該基于Transformer實現細粒度情感分析的裝置,其主要特點是,所述的裝置包括:
[0037]處理器,被配置成執行計算機可執行指令;
[0038]存儲器,存儲一個或多個計算機可執行指令,所述計算機可執行指令被所述處理器執行時,實現上述所述的基于Transformer實現細粒度情感分析的方法的各個步驟。
[0039]該基于Transformer實現細粒度情感分析的處理器,其主要特點是,所述的處理器被配置成執行計算機可執行指令,所述的計算機可執行指令被所述的處理器執行時,實現上述所述的基于Transformer本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于Transformer實現細粒度情感分析的方法,其特征在于,所述的方法包括以下步驟:(1)獲取Sem
?
Eval 2014Task 4的Laptop和Restaurant兩個領域的數據集進行模型驗證;(2)對獲取到的相應數據集進行數據解析以及轉換處理;(3)基于正文文本、主體以及主體情感類別進行情感分析模型的構建;(4)加入預設的初始參數進行情感分析模型的模型訓練;(5)獲取模型訓練得到的細粒度情感分析輸出結果。2.根據權利要求1所述的基于Transformer實現細粒度情感分析的方法,其特征在于,所述的步驟(1)包括以下步驟:(1.1)獲取Sem
?
Eval 2014Task 4數據源包含的Laptop和Restaurant兩個領域的數據集,且各個數據集均為文件格式為.xml,包含訓練數據以及測試數據的數據集;(1.2)將Laptop和Restaurant兩個領域的數據集進行情感標簽確定的準確率作為評估指標進行有效性的驗證。3.根據權利要求2所述的基于Transformer實現細粒度情感分析的方法,其特征在于,所述的情感標簽的分布情況具體包括:Laptop和Restaurant兩個領域的數據集中正面標簽在訓練集和測試集中的分布情況;Laptop和Restaurant兩個領域的數據集中中性標簽在訓練集和測試集中的分布情況;以及Laptop和Restaurant兩個領域的數據集中負面標簽在訓練集和測試集中的分布情況。4.根據權利要求3所述的基于Transformer實現細粒度情感分析的方法,其特征在于,所述的步驟(2)具體包括以下步驟:(2.1)針對所述的Laptop和Restaurant數據集中的訓練集數據以及測試集數據分別進行.xml數據的解析,提取包含正文文本信息數據、主體信息數據以及主體情感類別信息數據;(2.2)將所述的正文文本信息數據、主體信息數據以及主體情感類別信息數據統一轉為UTF
?
8編碼;(2.3)將所述的正文文本信息數...
【專利技術屬性】
技術研發人員:俞楓,黃韋,梅龍,
申請(專利權)人:國泰君安證券股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。