本發明專利技術提供了一種基于HowNet的短文本情感識別方法,包括以下步驟:(1)構建情感詞典;(2)利用詞法分析系統ICTCLAS2011對句子分詞;(3)根據詞的不同詞性,對分詞結果進行處理;(4)根據義原抽取規則,從HowNet中抽取詞匯義原,并從情感詞典中獲取PAD值;(5)根據情感產生規則識別句子的PAD值,用來表征句子情感。
【技術實現步驟摘要】
本專利技術涉及一種文本情感識別方法,主要涉及自然語言處理領域以及情感計算領域。
技術介紹
現階段人機交互接口主要基于自然語言,而用于人機交互的文本都屬于短文本。 短文本具有簡潔、靈活,。因此對于文本得情感推理研究可以促進人機交互接口向著更智能的方向發展。同時對于文本的情感識別可以為其他形式的情感識別提供輔助作用,比如說語音及表情。PAD模型是Mehrabian和Russell提出的情感維度測量模型。該模型將情緒分為 愉悅度(Pleasure)——表示個體情感狀態的正負特性,激活度(Arousal)——表示個體神經生理激活水平;優勢度(Dominance)——表示個體對情境和他人的控制狀態。PAD模型不但給出了對情感空間進行描述的理論構想,同時采用量化的方法試圖建立情感空間中各種情緒范疇的定位和關系。HowNet (知網)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。知網中含有豐富的詞匯語義知識和世界知識,為自然語言處理和機器翻譯等方面的研究提供了寶貴的資源。對于文本的情感識別方法目前主要有關鍵詞定位法,詞法關系法。對于關鍵詞定位法對于包含情感詞匯的句子有很好的識別效果,但對于無情感詞匯的句子失效。而詞法關系僅僅考慮了詞匯表面的關系,未深入考慮其語義關系。而結合HowNet常識庫以及PAD 模型可以解決文本情感識別缺乏語義基礎及情感模型的問題。因此,提出一種精確、高效的文本情感識別方法具有很強的現實意義。
技術實現思路
本專利技術要解決的問題是提供一種準確識別短文本情感的方法。本專利技術提供了,包括以下步驟(1)構建情感詞典;(2)利用詞法分析系統ICTCLAS2011對句子分詞;(3)根據詞的不同詞性,對分詞結果進行處理;(4)根據義原抽取規則,從HowNet中抽取詞匯義原,并從情感詞典中獲取PAD值;(5)根據情感產生規則識別句子的PAD值,用來表征句子情感。在上述方法中步驟(1)中情感詞典的建立如下所述從HowNet中的10類義原中選取下列類型義原Event |事件、Entity!實體、 Attribute屬性、Attribute Value屬性值、kcondary Feature次要特征,并從中選取表征情感的義原對其進行PAD值的標注,標注范圍為。而對于義原中表示程度級別的詞語則根據其對情感的影響程度賦予相應的系數。除了 HowNet中的義原,嘆詞、擬聲詞、語氣詞也會納入情感詞典。對這些詞匯,則根據其情感表達方式選擇其對PAD中哪一個值有影響作用,并賦予相應的情感系數,形式如〈factor, category〉。情感詞典的結構如下所示權利要求1.,包括以下步驟(1)構建情感詞典;(2)利用詞法分析系統ICTCLAS2011對句子分詞;(3)根據詞的不同詞性,對分詞結果進行處理;(4)根據義原抽取規則,從HowNet中抽取詞匯義原,并從情感詞典中獲取PAD值;(5)根據情感產生規則識別句子的PAD值,用來表征句子情感。2.根據權利要求1所述的方法,其特征在于,所述步驟(1)從HowNet中的10類義原中選取下列類型義原Event事件、Entity I實體、Attribute屬性、AttributeValue |屬性值、Secondary Feature |次要特征,并從中選取表征情感的義原對其進行PAD值的標注,標注范圍為;而對于義原中表示程度級別的詞語則根據其對情感的影響程度賦予相應的系數;對嘆詞、擬聲詞、語氣詞根據其情感表達方式選擇其對PAD中哪一個值有影響作用,并賦予相應的情感系數,形式如〈factor,category)03.根據權利要求1所述的方法,其特征在于,所述步驟(2)利用ICTCLAS2011進行分詞后,可以得到句子的基本成分,在這里選擇其分詞的形式為細粒度分詞,并采用計算所二級標注。4.根據權利要求1所述的方法,其特征在于,所述步驟(3)對于形容詞、動詞、名詞、代詞進行著重處理,而副詞、語氣詞則作為輔助作用。而對于其他一些標點符號及數量詞則進行冗余處理去除。5.根據權利要求1所述的方法,其特征在于,所述步驟(4)對義原的抽取規則如下 ERl 對于形容詞,若在HowNet中的DEF項類型為Attribute Value屬性值,則選取其DEF項的第三個義原作為該詞匯的最終義原表示;ER2 對于名詞,若在HowNet中的DEF項中出現*、#,則選擇其后面的義原作為其最終義原;ER3 對于動詞,若在HowNet中的DEF項第一個為BeUnable |無能,則對其賦予一個否定系數-1,然后在從其他義原中選取合適的義原;ER4 對于動詞,若在HowNet中的DEF項中出現如下動態語義角色manner、patient、 content、isa、Resultlsa、ResultWhole、cause、StateFin、degree、purpose、state,則選擇其后的義原作為最終義原,若同時出現多個動態語義角色,則優先選擇排在前面的動態語義角色后面的義原。6.根據權利要求1所述的方法,其特征在于,所述步驟(5)對句子的處理規則如下 若句子中只有名詞、代詞、形容詞,認為句子為主觀句,即直接抒發個人的情感,這時選擇形容詞的PAD值作為主導,其對句子最終情感的影響系數為0. 7,其他詞對句子最終情感影響系數分別為0. 3/其他詞的個數;若句子中出現動詞,則認為句子為評價句,即對事實進行陳述。這時選擇動詞和名詞作為情感產生的主要源頭;首先,對形容詞和名詞的PAD值取平均數,得出名詞的PAD值;而對于動詞和名詞,采取相與的規則產生句子的最終PAD值。全文摘要本專利技術提供了,包括以下步驟(1)構建情感詞典;(2)利用詞法分析系統ICTCLAS2011對句子分詞;(3)根據詞的不同詞性,對分詞結果進行處理;(4)根據義原抽取規則,從HowNet中抽取詞匯義原,并從情感詞典中獲取PAD值;(5)根據情感產生規則識別句子的PAD值,用來表征句子情感。文檔編號G06F17/27GK102163191SQ20111012186公開日2011年8月24日 申請日期2011年5月11日 優先權日2011年5月11日專利技術者毛峽, 江琳 申請人:北京航空航天大學本文檔來自技高網...
【技術保護點】
1.一種基于HowNet的短文本情感識別方法,包括以下步驟:(1)構建情感詞典;(2)利用詞法分析系統ICTCLAS2011對句子分詞;(3)根據詞的不同詞性,對分詞結果進行處理;(4)根據義原抽取規則,從HowNet中抽取詞匯義原,并從情感詞典中獲取PAD值;(5)根據情感產生規則識別句子的PAD值,用來表征句子情感。
【技術特征摘要】
【專利技術屬性】
技術研發人員:毛峽,江琳,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。