面向酒店评论的情感分析模型①

2017-10-13 12:06李胜宇高俊波许莉莉
计算机系统应用 2017年1期
关键词:评论者分析模型分值

李胜宇, 高俊波, 许莉莉



面向酒店评论的情感分析模型①

李胜宇, 高俊波, 许莉莉

(上海海事大学信息工程学院, 上海 201306)

提出一种基于文本特征的专门面向酒店评论领域的情感分析模型, 通过构建酒店评论领域专用情感词典, 并结合酒店评论的句式特征、语法特点, 解决了通用情感分析模型应用在酒店评论领域时, 情感匹配不全面, 情感值计算不精确等问题. 本文实验结果表明, 基于文本特征的情感分析模型能对酒店评论情感分析取得较好的分类效果.

情感分析模型; 专用情感词典; 句式特征; 语法特点; 酒店评论

1 概述

越来越多的企业觉察到网络技术带来的机遇, 并因此努力在战略、营销和技术上寻求变革的契机与前进发展的战略. 客户导向型的在线评论是企业获得客户反馈的关键来源. 企业从客户的反馈内容和口碑信息中得到有价值的意见来提升自己的产品、改善服务, 以此提高自身竞争力. 因此, 若能彻底挖掘在线评论中的特征、情感信息并了解客户的喜好偏爱, 对企业和消费者都将具有十分重要的意义.

情感分析是指利用计算机分析隐藏在文本中的情感态度, 并将其分类为积极情感态度或者消极情感态度[1]. 情感分类系统可以帮助我们挖掘出隐藏在酒店评论中的用户的情感倾向[2], 对消费者和决策者提供决策建议. 目前主要有两种情感分析技术: (1)语义方法[3]. BingLiu等[4]人通过提取评论中产品的属性及对于该属性的评价来判断评论的语义倾向. 史伟等[5]从语义的角度构建模糊情感本体, 对在线评论情感分析进行研究. (2)机器学习方法[6]. Whitelaw[7]等人对评论形容词及其修饰语特征抽取, 采用SVM对评论进行褒贬分类. 王祖辉[8]等采用粗糙集方法挖掘在线评论中的固定搭配特征, 将其融合于SVM与Naive Bayes等情感分析模型中.

继续叙述之前, 现将酒店评论的六点明显特征描述如下:

(1) 总结词众多: 酒店评论者多会用“总之”、“总的来说”、“我觉得”、“我认为”等词来总结对整条评论的情感, 是评论者情感值重点体现的文本部分.

(2) 转折词出现频率高: “但是”、“不过”等表总结的词语在酒店评论文本中出现较一般文本次数多.

(3) 关键词出现频率高: 许多评论者在评论的开头或者结尾, 会提出建议性的句子, 标志此类句子的关键词为“建议”, “推荐”等.

(4) 评价词众多: 评价词是酒店评论中出现最多的词语类型, 体现了评论者对酒店的情感态度. 所以评价词在酒店评论领域也要划分为情感词的范畴.

(5) 句式口语化: 由于评论者众多, 各个评论者的句式用户习惯不同, 文本评论呈现出较高程度的口语化.

(6) 网络流行词众多: 酒店评论中通常会出现很多网络流行词语, 这些词语没有被收录在通用情感词典或者评论词词典中.

目前的研究中专门针对酒店评论的情感分析研究还比较少, 不具有非常明确的针对性. 基于机器学习的方法需要大规模的语料库, 往往不能深入到酒店评论的具体语义内部. 而现有的基于语义的方法, 只针对评论与普通文本的共性进行建模, 往往忽略了上文总结出的酒店评论尤为突出的六个特点.

2 基于文本特征的酒店评论情感分析模型

2.1 模型概述

本文正式在酒店评论特征基础上, 深入理解酒店评论文本的语义特点, 从而建立面向酒店评论的情感分析模型. 本文情感分析模型主要由以下几部分组成, 如图1所示.

图1 酒店评论情感分析模型

该模型根据酒店评论特征, 先建立酒店评论领域的专用情感词典, 再根据酒店评论文本特征设定酒店评论文本情感值计算策略, 最后根据计算出的正负情感分值对酒店评论分类.

2.2 构建酒店评论领域专用情感词典

酒店评论领域专用情感词典的构建, 基于HowNet情感词典, 从两个方面构建酒店评论领域专用情感词典.

构建酒店评论领域的特定词词集. 酒店领域特定词在描述其他非酒店领域时没有表现出情感态度, 但在描述酒店领域时却表现明显的情感态度. 这些词只会或者大多数情况下会出现在酒店的评论中, 而在其他领域不会或者极少出现[9], 基于特定词的这一特性, 本文提出了一中基于TF-IDF的特定词词集选取构建方法, 详细步骤如图2所示.

图2 酒店评论领域特定词构建过程

收集能表现出情感值的网络流行词. 本文选用网词典官网(http://wangci.net/word.html)收录的常用网络词汇. 最后将收集到的特定词, 网络流行词合并添加到知网情感词典中, 得到酒店评论领域专用情感词典. 该词典收录了比HowNet情感词典更加全面的针对酒店评论领域的情感词, 使得情感分值的计算更加精确. 部分特定词、网络流行词如表1所示.

表1 部分特定词、网络流行词词表

2.3 酒店评论特殊词语分析

章节1中我们总结出了酒店评论在句式上的3点明确的规律, 即转折词、总结词、关键词出现的频率较高, 这对我们在很大程度上把握酒店评论的情感分析尤为重要, 下面给出这三类词语的特点以及其是如何影响酒店评论的情感的.

(1) 总结词: 汉语中, 总结词表示对一段文本的归纳, 能体现出一段文本的整体意思. 在酒店评论中, 总结词可能出现在句首或句尾, 也总结了评论者对所评论酒店的情感态度.

例1. 环境和设施都不好, 提前预订的不靠铁轨的房间没给保留,整晚的火车汽笛声影响了睡眠. 总之, 很失望, 是不会再去住了.

上例中, “总之”一词后面的情感词不仅是文本中其他位置出现的情感词的复现, 而且更加集中体现了评论者对所评论酒店的情感态度. 所以这种情况下, 总结词后面出现的情感词(总结词所在的句子), 其权重要远大于评论中其他位置的情感词.

(2) 转折词: 转折词在句中出现的位置一般在句子的后半部分, 是对其前面出现的词语的作用的弱化, 并且将句子的情感倾向转向转折词后出现的情感词[10-11]. 一句话中若出现了转折词, 那么该句子的作者往往希望读者更为关注的是转折词句子表达的意思. 所以转折词若在酒店评论中出现, 表明评论者更为在意的是转折词之后的所评论对象, 转折词之后出现的情感词就应具有更大的情感词权重.

例2. 地理位置不错, 距离商业中心政治中心和黄河都很近. 但是服务太差, 连东部地区的三星都不如.

上例中, “但是”一词可以看出相比于酒店“地理位置”评论者更在意酒店“服务”, 在分析这条评论的情感时, 应该给予转折词后面的情感词更大的权重.

(3) 关键词: 这里所说的关键词是指在评论中出现的表示评论者建议性的词语, 如“建议入住”、“特别推荐”等词语或词组.

例3 酒店根本没有装修, 屋子里一股霉味. 收费的宽带, 有的房间还没有. 餐厅一塌糊涂. 没有任何值得推荐的地方. 强烈建议大家以后不要住这里, 真的是太让人失望了.

上例中, “强烈建议”一词明确表明了评论者的情感态度, 即消极态度. 所以, 若一条评论中出现了关键词, 可以把整句的情感态度聚焦到关键词所在句, 即可得到评论者的情感态度. 关键词所在分句的能够比较明确表明评论的整体情感态度, 其表现出的情感态度倾向较强.

一条评论可以被分成多个分句, 如上所述, 而每个分句的情感态度受总结词、转折词、关键词影响. 为了便于下文情感值计算, 将分句分为四类: 总结句, 含有总结词的分句; 关键句, 含有关键词的分句; 转折句, 含有转折词的分句; 一般分句, 不含有任何特征词的分句. 部分特征词如表2所示.

表2 部分特征词

根据特征词将评论分句并分类后, 由于不含情感词的分句对情感极性的计算无影响. 所以为了方便后文情感极性的计算, 对得到的分句列表进行筛选, 只保留含有情感词的分句. 章节3.3中进一步对保留的分句进行情感极性计算.

2.4 酒店评论情感极性计算

情感分类详细流程如图3所示, 依照图3流程情感值计算步骤依次如下:

图3 酒店评论情感分析流程

第一步, 不考虑特殊词的情况下(图3中计算规则), 计算出一个分句的正负情感分值, 分句正向情感分值计算如公式(1), 负向情感分值计算方法类似:

其中,表示一个分句的正向情感词分值;为否定词个数, 否定词个数为偶数时,取值2, 否则取值1;为程度副词权重;为正向情感词分值; 若分句末尾标点符号是“!”, 则m取值1, 否则取值0.

将分值归一化处理:

每个分句情感分值在区间[1, 2]内, 则一条评论的分句情感值可如下表示:

(3)

第二步, 根据酒店评论特殊词, 对正负情感分值作进一步处理:

1) 若评论中含有带转折词的分句, 需要对该分句中的情感词分值进行调整, 使其权重增大, 调整后的情感值如公式(4).

2) 若评论中含有带总结词的分句, 则该评论情感分值只需保留含有总结词分句的情感分值, 该分值就是该评论的情感分值.

3) 若评论中含有带关键词的分句, 则该评论需要做关键词分句计算. 如果一条评论含有五个情感分句, 各个句子得分分别是S1、S2、S3、S4、S5(S1、S2、S3、S4、S5同时为正向情感值或同时为负向情感值, 假设S1是关键词句的情感分值), 整个文本得分计算方法如公式(5)所示.

其中, 参数A、B是分句权重参数, 由于章节3.2分析可知A必大于B, 其大小由实验验证确定最佳值.

在此, 设置多组实验条件确定A、B的大小. 实验条件如表3所示.

表3 参数条件设置

经过多次试验验证, 如果S1是该评论的首句, 当A取0.7, B取0.3时, 计算所得情感分值用于分类时分类效果最好; 如果S1是该评论的尾句, 当A取0.8, B取0.2时时, 计算所得情感分值用于分类时分类效果最好.

可以发现当S1位于句尾时A的大小要大于当S1位于句首时, 这是因为当S1位于句尾时, 关键句涵盖的范围会包括本条酒店评论的起始至结尾, 而S1位于句首时, 后文出现的情感词并不一定涵盖在该关键句的作用范围, 可能出现与关键词句情感态度相反的情感词.

4) 不含有特殊词的一般文本, 将所得情感分句的正负情感分值分别求和, 所得即为该评论的正负情感分值.

经以上分句情感值计算后, 得到整条评论的最终正负情感分值列表. 为了将评论情感态度进行正负分类, 计算评论正负情感倾向相对值, 计算公式如下:

第三步, 最终根据E的大小分类, 如公式(7)所示.

(7)

3 实验结果与分析

3.1 实验数据准备

从国内最大的酒店预订电子商务网站携程旅行网爬取酒店评论12000条, 经人工标注后选取积极评论7000条, 消极评论3000条. 测试集是从数据堂下载的2000条已经标注的酒店评论平衡语料库. 网词典官网(http://wangci.net/word.html)常用流行词库中, 经过人工筛选出常用正向网络流行词语15个, 负向网络流行词语54个.

3.2 评价指标

对于实验结果的评价, 本文采用准确率、召回率和 F1-指数来进行评价:

1) 召回率:

2) 准确率:

3) F1-指数

3.3 实验结果及分析

为了验证本文提出的情感分类模型的有效性, 参照张昊旻等[12]的基于权值算法和SVM分类器设置对比实验. 对比实验结果如表4所示.

表4 对比实验结果

通过比较不同实验条件下的实验结果可以发现, 实验效果的指标是逐渐增高的. 其中当基于文本特征和本文所构建的专用情感词典时, 实现效果整体达到最好, 证明了本文提出的算法的高效性和针对酒店评论的实用性. 产生这种结果的原因主要有两点: (1)构建的专用酒店评论情感分析情感词典降低了酒店评论极性计算时情感词缺失的可能性, 从而提高了情感值计算的准确度; (2)基于文本特征的计算方法, 考虑到特征词在酒店评论文本中情感导向的作用, 引导本文算法将重点集中在评论文本中最能体现评论文本情感倾向的部分.

基于文本的算法中, 一些问题会导致系统情感分类错误, 主要有以下原因:

1) 评论中不含情感词. 在部分酒店评论文本中不含有明确表明态度的情感词, 但是其却有明显的情感倾向. 本文算法在判断此类评论时, 无法计算到情感分值, 导致评论分类错误. 如来自携程旅行网的评论:

例1. 白天叫服务人员来打扫卫生, 一直也没见到人. 就凭这一点, 以后再也不会住该酒店!

2) 情感词正负情感倾向歧义. 知网HowNet情感词典中部分词语应用到酒店评论中, 其正负情感倾向不明确. 例“房间大”, “噪音大”中的“大”字在不同的情景中完全表现出相反的情感态度.

例2. 房间是挺大的, 不过周边环境不太好, 靠近马路, 晚上睡觉的时候噪音非常大.

4 结语

本文提出在酒店评论领域中基于自建情词典和文本特征的情感倾向性分类算法, 提高了算法在具体领域中情感匹配精确度、情感值计算的准确度和情感分类的正确率. 解决了在具体领域中文本情感词匹配错误问题, 提供了一种对网络商品评论情感分析的新思路. 但是, 本研究中仍存在很多缺陷, 如本研究的情感值计算方法是基于权值的计算方法改进得来, 情感值计算方法仍有可提升的空间.

将来的研究会集中在如何正确匹配情感词在不同情境下体现出的情感态度, 提高情感匹配的正确性, 以期进一步提高本研究的分类模型准确度. 本文的研究是以酒店评论来作为研究数据, 但其理论上在网络商品评论领域中是通用并且有效的. 所以将来研究会在本文算法的基础上, 构建多领域、多品类网络商品评论情感分析系统.

1 Singh VK, Piryani R, Uddin A, et al. Sentiment analysis of movie reviews: A new feature-based heuristic for aspect-level sentiment classification. 2013 International Multi-Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). IEEE. 2013. 712–717.

2 Medhat W, Hassan A, Korashy H. Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 2014, 5(4): 1093–1113.

3 Turney PD, Littman ML. Measuring praise and criticism: Inference of semantic orientation from association. ACM Trans. on Information Systems, 2003, 21(4): 315–346.

4 Hu M, Liu B. Mining opinion features in customer reviews. Proc. of the 19th National Conference on Artifical Intelligence. AAAI Press. 2004. 755–760.

5 史伟,王洪伟,何绍义.基于语义的中文在线评论情感分析. 情报学报,2013,32(8):860–867.

6 Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. Proc. of Emnlp. 2002. 79–86.

7 Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis. ACM International Conference on Information and Knowledge Management. ACM. 2005. 625– 631.

8 王祖辉,姜维.基于粗糙集的在线评论情感分析模型.计算机工程,2012,38(16):1–4

9 杜嘉忠,徐健,刘颖.网络商品评论的特征–情感词本体构建与情感分析方法研究.现代图书情报技术,2014,(5):74–82.

10 张谊生.副词的篇章连接功能.语言研究,1996,(1):130–140.

11 孙楠.现代汉语转折副词的反预期标记功能研究[硕士学位论文].南京:南京师范大学,2012.

12 张昊旻,石博莹,刘栩宏.基于权值算法的中文情感分析系统研究与实现.计算机应用研究,2012,29(12):4571–4573.

Sentiment Analysis Solution Based on Hotel Product Reviews

LI Sheng-Yu, GAO Jun-Bo, XU Li-Li

(College of Infor mation Engineering, Shanghai Maritime University, Shanghai 201306, China)

This paper proposes a hotel reviews sentiment analysis model based on text features. The way of the model includes the building of hotel reviews emotional dictionary and the analyzing of hotel reviews sentence patterns and grammar patterns. By this way, we have solved the problems of incomplete emotional matches and the inaccuracy of emotional values counting. Results of this test show that this model has better classification results especially for hotel reviews sentiment analysis.

sentiment analysis model; special sentiment dictionary; sentence patterns; grammar patterns; hotel reviews

2016-04-14;收到修改稿时间:2016-05-12

[10.15888/j.cnki.csa.005511]

猜你喜欢
评论者分析模型分值
基于BERT-VGG16的多模态情感分析模型
网络新闻评论者的伦理责任问题及应对路径探析
芍梅化阴汤对干燥综合征患者生活质量的影响
纤维增强复合材料疲劳寿命预测及损伤分析模型研究进展
悄悄告诉你:统计这样考
谁是科创板创值全能冠军
基于D-S证据理论的电子商务虚假评论者检测
新闻评论的写作方法讨论和研究
全启发式语言分析模型
大功率型EPS控制器热分析模型的研究