细粒度情感分析的酒店评论研究

2016-12-17 05:11朱梦尧徐志广张宏俊
传感器与微系统 2016年12期
关键词:项集出游词典

李 鸣, 吴 波, 宋 阳, 朱梦尧, 徐志广, 张宏俊

(1.上海大学 通信与信息工程学院,上海 200444;2.中国科学院 上海高等研究院,上海 201210; 3.西安航天恒星科技实业(集团)公司,陕西 西安 710061)



细粒度情感分析的酒店评论研究

李 鸣1,2, 吴 波2, 宋 阳3, 朱梦尧1, 徐志广2, 张宏俊2

(1.上海大学 通信与信息工程学院,上海 200444;2.中国科学院 上海高等研究院,上海 201210; 3.西安航天恒星科技实业(集团)公司,陕西 西安 710061)

酒店在线评论细粒度挖掘具有重要研究意义。以酒店在线评论具体特征属性和情感分类为研究目标,应用Apriori算法和情感词典匹配算法,对重庆雾都宾馆在线评论数据深入挖掘,挖掘出用户最关注的酒店十大特征和满意度结果,进一步挖掘出商务出差等五种不同出游类型人最关注的酒店五大特征和满意度结果。这种方法不仅能对酒店领域评论进行分析,同样能够应用于其他领域。

酒店在线评论; 特征挖掘; 情感分析; 细粒度; 情感词典匹配

0 引 言

随着电子商务的快速发展,越来越多的人在网络上预订酒店并对入住体验进行在线评论。这些评论不仅有利于潜在的酒店消费者参考,也有利于商家有针对性地改善服务质量。然而,酒店评论信息量庞大冗杂,给于消费者和商家查找有用的信息带来了极大的麻烦,如何方便快捷地挖掘出评论中有价值的信息逐渐成为研究热点。情感分析能从评论中获取用户的喜怒哀乐,了解用户对酒店的喜好程度。

传统的情感分析主要采用两类方法,基于情感词典的方法和基于机器学习的方法。2002年,Turney P D[1]提出了基于种子词汇发现情感词的方法。Pang B等人[2]采用了贝叶斯、最大熵、支持向量机(SVM)等机器学习的方法来构造分类器,并对这几种方法进行了对比。Kobayashi N等人[3]构建了一个模式库,收录了8种命中率比较高且较准的模式用来提取评价主体、评价方面和评价之间的关系。 Marrese-Taylor E等人[4]考虑到用户对不同的产品发表的评论不同,找出旅游领域的特征,构造出更准确的自然语言处理模型用于旅游领域的挖掘。

然而,前面基于篇章、句子级别的粗粒度情感分析由于没有考虑情感所针对的具体对象,无法满足用户了解酒店各个特征属性的需求。李杰等人[5]对特征提取的研究进行了全面的概括,文献[6,7]着重对酒店细粒度的情感分析进行研究:通过关联规则方法识别出评价对象特征词、情感词以及情感修饰词,并找出他们之间的关系,计算出相应的情感值,构建相关领域的属性词表和情感词表。这些方法在英文领域取得了不错的成果,但是在中文语言下的适应性不是很理想。

本文在前人研究的基础上,将Apriori关联规则算法应用于中文酒店评论领域,并结合酒店领域情感词典做分类,最终实现了更为准确的评论挖掘。通过对重庆雾都宾馆的评论数据进行属性特征挖掘,实现细粒度属性分类,挖掘出用户最关注的酒店十大特征及满意度结果,进一步挖掘出商务出差等五种不同出游类型人最关注的酒店五大特征及满意度结果。这些结果对潜在的酒店用户具有重要的参考价值,同时对于商家有针对性地改善服务质量有积极作用。

1 算法框架

图1为本文的算法框架图。特征挖掘模块挖掘出用户关注的酒店特征,并通过查找合并同义词进行特征过滤。观点句识别与情感分类模块根据挖掘的特征集识别出观点句,并根据用户出游类型特征将识别的观点句用情感词典匹配方法进行情感极性分类。

图1 算法框架图Fig 1 Algorithm frame

2 关键算法

2.1 Apriori算法

本文特征挖掘模块采用了Apriori算法,Apriori算法是挖掘布尔关联规则频繁项集的算法。在这个算法中,所有支持度大于最小支持度的项集称为频繁项集,简称频集。利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将k项集用于探察k+1项集,来穷尽数据集中的所有频繁项集。先找到频繁1项集集合L1,然后用L1找到频繁2项集集合L2,接着用L2找L3,直到找不到频繁k项集,找每个Lk需要一次数据库扫描。在本文中,特征挖掘模块定义最小支持度为0.6 %,只要是在评论句子集中出现的次数大于等于3次,都提取出来作为候选特征集,最终经实验调优为6 %,选出了23个频繁特征集。

2.2 情感词典匹配技术

2.2.1 构建酒店领域情感词典

本文构建的酒店领域情感词典包括:基础情感词典、酒店领域情感词典、网络情感术语词典、否定词典和程度副词词典。

基础情感词典由正面基础情感词典和负面基础情感词典组成。将HowNet中的正面情感词、评价词和中文情感词汇本体库中极性为“1”的词合并去重,并去掉情感倾向不显著的词条组成正面基础情感词典;将HowNet中的负面情感词、评价词和中文情感词汇本体库中极性为“2”的词合并去重,并去掉情感倾向不显著的词条组成负面基础情感词典。最终形成的基础情感词典含5 821个正面情感词,10 186个负面情感词。

构建酒店领域专用情感词典采用了Turney等的点互信息法,思想是依据目标词和基准词间的点互信息,确立两词关联,预测目标词的情感分。采用SO—PMI算法,计算目标词与基准词的正负面点互信息之差,差值大于0 为正面情感词, 反之为负面情感词。其中,Pset和Nset分别是正面和负面基准词的集合,公式如下

(1)

该实验的基准词选取方法如下:从携程网上采集了30万条评论数据,初始评论文本经预处理,提取形容词、副词为候选词,遍历基础情感词典库做对比,去掉和基础情感词典库重复的词,按词频由大到小排序。依据前30个形容词和副词的极性,选择5个正面基准词,5个负面基准词。共得到87个正面情感词, 134 个负面情感词的酒店领域专用情感词典。

网络术语情感词典:网络专用情感术语是网络中出现的风靡一时的词语,不能被传统的基础情感词典正确的识别,但是却被广泛使用。本实验以搜狗互联网词库(SogouW)的数据为基础并人工添加一些近期广泛使用的网络情感词汇来构造网络术语情感词典。否定词典由人工收集整理的42个否定词构成。程度副词表达了情感的强烈程度,利用HowNet收集的程度级别词语,并借鉴蔺璜的方法构建程度副词词典。

2.2.2 情感词典匹配算法设计

对构建好的酒店领域情感词典词语分别赋予强度值。表1为酒店领域情感词典词语及其相应强度值示例。

服务于应用型人才培养目标,大学物理课程需要在各个环节进行改革,这项工作一直在进行中,同时也取得了一些成效。应该认识到改革是一个动态的、与时俱进的过程,有利于教学质量提高、有利于学生创新能力提升的方法和措施都是物理课程改革应该尝试的。

3 仿真验证

3.1 实验内容

本实验主要有两部分内容:构建情感词典和特征挖掘。

1)构建情感词典:在携程网上爬取了重庆和西安的酒店评论共30万条,主要提取了评论内容、用户信息、用户评分、用户出游类型和用户出游时间等信息,将这些数据用由中国科学院计算机所编写的中文分词工具ICTCLAS进行分词和词性标注,构建酒店领域情感词典。

表1 酒店领域情感词典及其强度值示例

2)特征挖掘:选择了重庆雾都宾馆由商务出差、情侣出游、家庭亲子、朋友出游、独自出行5种出游类型用户评价且评价内容丰富的数据各100条。对500条评价数据进行特征挖掘,挖掘出该宾馆的23项频繁特征项集,并根据频繁特征项识别出观点句子并分类。最后分别对这5种不同出游类型的用户评论进行分析,得到每种出游类型的人关注的酒店特征和相应的评价,并统计出结果。

3.2 实验结果与分析

对重庆雾都宾馆500条评论数据进行挖掘得到的酒店频繁特征项集如图2所示。图中不仅可以看出用户对酒店地理位置、服务、房间、交通等一般特征比较关注,还可以看出用户对该酒店提供的浴缸、衣帽间等特有服务也很有兴趣。该酒店管理者可以通过这些评论继续改进自己的特色服务,用户也可能因这些特色服务而被吸引消费。

图2 酒店频繁特征项集Fig 2 Frequent features item sets of hotel

图3为挖掘重庆雾都宾馆500条评论数据得到的用户最关注的酒店10个特征和满意度。由图可知,用户最关注该酒店的房间、位置、服务、早餐等,对位置、安静和交通非常满意,对服务满意度比较低,酒店应该针对这些满意度低的方面做出相应的改善来提高酒店的核心竞争力。

图3 用户最关注的酒店十大特征和满意度Fig 3 Ten features of hotel that most users concerned andsatisfaction results

图4为商务出差、情侣出游等五种不同出游类型的人最关注的酒店五大特征和满意度。由图可知,商务出差最关注服务质量但是对服务不满意;情侣出游对安静比较关注且非常满意等。酒店管理者可以根据不同出游类型的客户评论做出相应的改善,对客户比较满意的特色服务大力推广,客户也可以根据相应的出游类型评论来选择适合自己的酒店。

图4 五种不同出游类型人最关注的酒店五大特征及其满意度Fig 4 Five features of hotel that five different kinds of travellers most concerned together with degree of satisfaction

4 结 论

本文在对重庆和西安30万条酒店评论挖掘的基础上,构建了酒店领域情感词典。以重庆雾都宾馆的评论数据为例,挖掘出用户最关注的酒店十大特征及满意度结果,进一步挖掘出商务出差等五种不同出游类型人最关注的酒店五大特征及满意度结果。这些结果表明细粒度情感分析具有巨大价值:一方面,酒店管理者不仅可以了解用户对酒店具体特征的满意度,还可以了解不同类型用户对酒店的需求,更能有针对性地改善服务;另一方面,帮助用户了解酒店各个特征优劣,从而帮助用户更加明智的做出决策。

[1] Turney P D,Littman M L.Measuring praise and criticism:Infe-rence of semantic orientation from association[J].ACM Transactions on Information Systems(TOIS),2003,21(4):315-346.

[2] Pang B,Lee L,Vaithyanathan S.Thumbs up:Sentiment classification using machine learning techniques[C]∥Proceedings of Association for Computational Linguistics Conference on Empirical Methods in Natural Language Processing,ACL’02,2002:79-86.

[3] Kobayashi N,Inui K,Matsumoto Y,et al.Collecting evaluative expressions for opinion extraction[M]∥Berlin Heidelberg:Springer 2005:596-605.

[4] Marrese-Taylor E,Velásquez J D,Bravo-Marquez F.A novel deterministic approach for aspect-based opinion mining in tourism products reviews[J].Expert Systems with Applications,2014,41(17):7764-7775.

[5] 李 杰,周 萍.语音情感识别中特征参数的研究进展[J].传感器与微系统,2012,31(2):4-7.

[6] Kanayama H,Nasukawa T.Fully automatic lexicon expansion for domain-oriented sentiment analysis[C]∥Proceedings of the 2006 Conference on Empirical Methods in Natural Language Proces-sing,Association for Computational Linguistics,2006:355-363.

[7] Hu M,Liu B.Mining and summarizing customer reviews[C]∥Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining,ACM,2004:168-177.

Research on hotel reviews based on fine-grained sentiment analysis

LI Ming1,2, WU Bo2, SONG Yang3, ZHU Meng-yao1, XU Zhi-guang2, ZHANG Hong-jun2

(1.School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China; 2.Shanghai Advanced Research Institute,Chinese Academy of Sciences,Shanghai 201210,China; 3.Xi’an Space Star Technology Group Co Ltd,Xi’an 710061,China)

Fine-grained mining of hotel online reviews are of great importance.Specific feature and emotional attributes of hotel online reviews can be taken as research targets,using Apriori algorithm and semantic lexicon matching algorithm,online reviews data of Chongqing Wu Du Hotel are mined,ten features that most users concerned and satisfaction results of the hotel can be inferred and five features of the hotel that five different kinds of travellers such as bussiness man most concerned together with corresponding degree of satisfaction results can also be mined in further exploration.This method can be applied in other fields.

hotel online reviews; feature mining; sentiment analysis; fine-grained; semantic lexicon matching

10.13873/J.1000—9787(2016)12—0041—03

2016—03—02

TP 391

A

1000—9787(2016)12—0041—03

李 鸣(1990-),女,湖北随州人,硕士,研究方向为酒店在线评论数据的情感倾向分析。

猜你喜欢
项集出游词典
米兰·昆德拉的A-Z词典(节选)
米沃什词典
未来出游大作战
不确定数据的约束频繁闭项集挖掘算法
假期带娃出游防走失
出游季你都“妆”对了吗
漫画词典
大卫出游
《胡言词典》(合集版)刊行
一种新的改进Apriori算法*