中文情绪分析方法研究综述

2017-03-02 05:55万琪杨祎
现代计算机 2017年3期
关键词:词典类别分类

万琪,杨祎

(四川大学计算机学院,成都610065)

中文情绪分析方法研究综述

万琪,杨祎

(四川大学计算机学院,成都610065)

随着互联网的持续发展,对博客、论坛、微博等社交媒体文本的情绪分析相关研究得到学术界和工业界广泛关注。针对中文情绪分析,现有的研究主要有三类方法:基于规则和情绪词典方法、基于多类标分类机器学习方法、考虑类标间关联的方法。对几类方法进行介绍,指出存在的一些问题和发展方向。

情绪分析;机器学习;多类标分类;微博

0 引言

随着互联网的发展,论坛、博客等社交媒体成为大众表达情感和传递信息的重要媒介[1]。目前,在移动互联网推动下,微博具备的传播快、信息量大、有较大影响力等特性,很快吸引大量用户在上面抒发自己对及时新闻和生活琐事的感受[2]。这些社交媒体上文本蕴含了巨大的商业价值,分析其中蕴含的情绪色彩能够帮助政府进行舆情监控、企业了解用户体验、预测电影票房等[3,8]。

情绪是人个体所产生的身体和心理状态,情绪分析研究目的是能自动识别文本中表达的情绪类别,它是细粒度情感分析任务。Ekman[4]通过研究人的面部表情,将情绪划分为六种基本状态:喜(joy)、哀(sad)、怒(anger)、惧(fear)、惊(surprise)、恶(disgust)[8]。由于一篇文档中可能同时包含多种情绪,Bhowmick等[5]提出将文本情绪识别看成多类标识别问题。中文的文本不同于英文的语言形式,需要预先进行分词处理[3];同时,由于近几年微博的流行,微博文本中包含大量的新词和不规范表达,这些都对中文情绪分析提出了挑战。目前,针对中文文本的情绪分析任务主要有三类方法:基于情绪和表情词典方法、基于多类标分类机器学习方法、考虑类标间关联的方法。

1 中文情绪分析技术

1.1 基于词典和规则的方法

中文微博情绪分析在起步阶段,许多学者研究建立高精度的中文情绪词典在社交媒体文本分析中的应用[8]。国外有学者在对Twitter等微博进行情绪分类以及情绪强度的分类时,提出利用基于情绪词表的规则方法[6],对中文情绪分类有一定的借鉴意义。国内学者在研究情感分析时,提出从语言学角度出发,分析词典中对词汇语义定义的特点,采用“情感倾向定义”权重优先的计算方法获得短语中各词的语义倾向度[7],对文本进行情感分类。文献[8]提出一种以词典为依据的基于规则的中文情绪分析方法,选取了外部资源HowNet和C-LIWC这两个被广泛应用的情感词典,利用词典微博文本情绪自动分析,找到微博中所包含的情绪词,情绪词数量最多的那种情绪为该文本的主要情绪。然而,基于词典的方法,不能处理文本中情绪词缺失和隐式情绪表达的情况,文献[9]提出了两阶段法进行微博文本的情绪分析;第一步借助情绪词典进行情绪的自动识别,第二步利用SVM对未覆盖的文本进行情绪预测,在NLPCC 2014相关评测任务中取得了较好的效果。

1.2 基于多类标分类机器学习方法

基于词典和规则的方法,存在情绪词缺失和匹配的情绪词有时并不能表达文本当前的真实情绪等问题,同时大多数该方法是一种无监督算法,效果并不理想,所以也有很多学者研究基于统计的机器学习方法来解决文本情绪识别问题。国外,Bhowmick等[5]第一次提出将该问题看成是一个多类标识别的分类问题,同时提出了基于多类标KNN有监督算法来识别句子中的情绪类别。文献[10]提出了基于SVM的中文微博情绪分类方法,主要探讨在利用机器学习算法前提下,文本中选取表情、词袋模型和情绪词典等特征对微博情绪分类的影响。这些方法解决了文本中多种情绪的识别,但是没有分析不同情绪极性的强弱。

文献[9]提出基于Calibrated Label Ranking算法的机器学习方法,解决识别中文情绪类别的强弱顺序问题。该方法,先将多类标分类问题转化成多个单类标分类问题,利用朴素贝叶斯和SVM算法得到每种情绪类别的概率值;然后更具Calibrated Label Ranking公式(1)计算得到一定阈值内排序靠前的情绪类别。

其中,f(xi,yj)表示在文本xi中情绪yj的概率大小;如果满足设置,<π>=1,否则为0;rankf(xi,yj)表示情绪yj在当前文本的排序值。

1.3 考虑类标间关联的方法

上述基于多类标分类机器学习方法在识别文本情绪类别时,没有考虑文本中情绪类别之间的关联,比如:负向情绪愤怒(anger)和厌恶(disgust)往往是共同出现的。所以,有学者提出基于类标关联的方法,主要思路有:基于多层次分类模型[3,11]和基于类标依赖的概率图模型[12]的情绪分析方法。

(1)基于多层次分类模型

图1 微博文本情绪层次结构图

文献[11]提出了根据情绪的正负极性及情绪间的关系,将六类情绪分为三个层次,微博情绪的层次结构如图1所示,基于朴素贝叶斯模型的多层次情绪分析方法。

(2)基于类标依赖的概率图模型

文献[12]考虑了根据文本中情绪类标共现的情况,提出了基于上下文和类标依赖的概率图模型,希望计算在给定网络因子图G情况下,情绪类别Y分布的情况P(Y|G)如公式(2),通过实验对比,该方法相比其他方法取得目前最好的效果[12]。

DFG图模型的学习过程,是通过极大似然估计L(θ)=log Pθ(Y|G),估计最好的参数θ=({α},{β},{δ}),最终得到最优的参数θ如式(6)。

2 结语

本文基于现有的中文情绪分析研究成果进行了介绍,分析了中文情绪分析面临的挑战和几类方法的改进思想。未来,自动分析中文的情绪倾向将有助于预测事件走向、大众需求进而作出迅速及时的反应,具有很高的应用价值,随着新的技术不断被提出,这一领域的工作也是越来越成熟;但是中文的语言形式也在不断演化,给这项任务提出新的挑战,也需要进一步的探索新的解决方法。

[1]周胜臣,瞿文婷,石英子.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164.

[2]黄萱菁,张奇,吴苑斌.文本情感倾向分析[J].中文信息学报,2011,25(6):118-125.

[3]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83.

[4]Ekman P.Facial Expression and Emotion[J].American Psychologist,1993,48:384-392.

[5]Bhowmick P.,A.Basu,P.Mitra,etal.Multi-Label Classification Framework[C].Research in Computing Science.Special Issue:Natural Language Processing and Its Applications,pp.143-154.

[6]G Paltoglou,M Thelwall.Twitter,MySpace,Digg:Unsupervised Sentiment Analysis in Social Media[J].Acm Transactions on Intelligent Systems&Technology,2012,3(4):67-83.

[7]李钝,曹付元,曹元大等.基于短语模式的文本情感分类研究[J].计算机科学,2008,35(4):132-134.

[8]牛耘,潘明慧,魏欧等.基于词典的中文微博情绪识别[J].计算机科学,2014,41(9):253-258,289.

[9]MWang,M Liu,SFeng,DWang,etal.A Novel Calibrated Label Ranking Based Method for Multiple Emotions Detection in Chinese Microblogs[J].Communications in Computer&Information Science,2014,496:238-250.

[10]C Li,H Wu,Q Jin.Emotion Classification of Chinese Microblog Text Via Fusion of BoW and eVector Feature Representations[J]. Springer Berlin Heidelberg,2014,496:217-228.

[11]刘宝芹,牛耘.多层次中文微博情绪分析[J].计算机技术与发展,2015,25(11):23-26.

[12]S Li,L Huang,RWang,et al.Sentence-level Emotion Classification with Label and Context Dependence[C].ACL,2015:1045-1053.

Research Overview of Chinese Emotion Analysis

WAN Qi,YANG Yi

(College of Computer Science,Sichuan University,Chengdu 610065)

With the continuous developmentof the Internet,research on the emotional analysis of socialmedia such as blog,forum,micro-blog has been widely concerned by the academ ic and industrial circles.According to the Chinese emotion analysis,there are three main methods in the present study includemethod based on rule and expression dictionary,machine learningmethod based onmulti label classification and method of the correlation between the emotion labels.Introduces thesemethods are,and points out some problems and development directions.

Emotion Analysis;Machine Learning;MultiClass Label Classification;Micro-Blog

1007-1423(2017)03-0003-03

10.3969/j.issn.1007-1423.2017.03.001

万琪(1991-),男,湖北荆门人,硕士研究生,研究方向为自然语言处理杨祎(1993-),女,四川南充人,硕士研究生,研究方向为自然语言处理

2016-11-01

2016-12-30

猜你喜欢
词典类别分类
论陶瓷刻划花艺术类别与特征
分类算一算
一起去图书馆吧
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
教你一招:数的分类
说说分类那些事
给塑料分分类吧
漫画词典