覃国蓉,叶志成,庄槟豪,蔡哲聪
(深圳信息职业技术学院软件学院,广东 深圳 518172))
旅游网络评论情感分析方法研究及系统实现
覃国蓉,叶志成,庄槟豪,蔡哲聪
(深圳信息职业技术学院软件学院,广东 深圳 518172))
本文针对旅游领域,展开网络评论情感分析方法研究并为航空公司、酒店用户实现了一个实用的旅游网络评论监控系统。设计了简捷方便的情感分析方法,基于情感词典对旅游网络评论进行情感分析,针对旅游领域优化分词词典和情感词典,以获得较高的准确率。通过旅游网络评论监控系统,企业可实时掌握用户对服务的评价,及时处理负面评论,避免造成不可挽回的影响。
旅游网络评论;情感分析;情感词典;分词词典;网络评论监控
以微博为代表的自媒体时代,信息传播异常迅猛。如果对于网络上的意见类诉求不及时响应,往往会对企业形象造成不可挽回的负面影响。所以,在靠口碑取胜的领域(如旅游行业的航空公司、酒店等)越来越重视网络舆论的作用。依靠人工监控网络舆情,显然费时费力而且成效又不高。因此采用计算机来自动地分析网络评论表达的情感,即对网络评论进行情感分析成为目前学术界研究的一个热点。
文本情感分析任务包括对网络文本进行主客观分类、对主观性文本情感极性和情感极性强度分析。针对文本情感分析,人们提出了很多算法,但目前还没有哪一种能够完美地解决文本情感倾向识别这一问题,也还没有哪个系统能够在情感分析判断中具有较高的准确率[1]。为了寻求突破,应该进一步细分具体问题及其应用领域,展开有针对性、更简捷方便的识别方法的研究。因为本研究针对旅游领域,所以具有重要的理论研究意义和应用价值。
按照文本的颗粒度,文本情感分析可以划分为针对文本中的词、句子、篇章三个级别的识别与分析。文献[1]以文本颗粒度为视角,从情感词抽取、语料库和情感词典构建、评价对象与意见持有者分析、篇章级情感分析、实际应用五个方面对文本情感分析文献进行了梳理,并做出必要评述。可见现有的文本情感分析方法没有充分利用自然语言处理的研究成果以及现有语言工具和相关资源,也大多没有细分具体问题及其应用领域。
文献[2]针对中文文本情感分析的研究现状与进展进行总结。现有中文文本情感分析研究,存在以下问题(1)词语的情感倾向判别只是局限在形容词,实际上一些名词和动词也具有情感倾向,而且应该结合具体的语境和领域来判别词语的情感倾向;(2)针对语句和篇章的情感分析还比较粗粒度,应该更精确地更细粒度地对某一个具体的评价对象进行分析。
文献[3]首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语。而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别。该方法考虑到了领域特性,但是还是没有针对特定领域(如旅游),所以文本情感分类的准确率还有较大的提升空间。
文献[4]则针对中文微博情感分析的研究进行综述,从微博网站数据构成的角度出发,对情感分析做了延伸分析。但是现有中文微博情感分析研究没有针对网络语言的过滤和情感挖掘重点开发相关的词典或语料库,也没有针对不同主题对微博做特定的情感分析研究。
目前关于旅游领域网络评论情感分析的研究还比较缺乏,主要是针对旅游目的地的评论研究(文献[5]和在知网上唯一找到文献[6]),它们都没有涉及航空公司、酒店这些旅游服务行业。
本文受文献[1-4]的启发,针对旅游领域,特别是航空公司、酒店等网络评论情感分析需求迫切的旅游服务领域,展开有针对性的研究,设计了基于知识工程(旅游网络评论领域知识)的旅游网络评论情感分析方法,并且实现了一个实用的系统,可以实时监控热门微博(如新浪)、人气论坛(如天涯的旅游板块)的有关旅游的评论,自动进行分析,及时把负面评论反馈给航空公司、酒店等用户。
2.1 基于旅游网络评论领域知识的情感分析方法
基于旅游网络评论领域知识的情感分析方法,就是针对旅游网络评论建立情感词典,基于情感词典进行情感分析,并且在情感分析过程中,充分利用语言本身的特点(否定词、程度副词和连接词),以提高情感分析的准确率。
基于情感词典的情感分析方法对于通用的文本情感分析,具有实现简单、执行效率高但是由于含有较多的歧义词导致准确率低的特点。考虑到如果针对特定领域对情感词典进行优化和完善,基于情感词典的情感分析方法在保证性能的基础上可以获得比较理想的准确率,所以我们选择基于情感词典的情感分析方法。
2.1.1 旅游网络评论情感词典的建立
由于本算法准确率依赖于情感词典,所以情感词典的完备性和准确性是本算法成功的关键。
为了获得理想的情感字典,我们在权威的5大中文情感词典——知网的情感词典、台湾大学整理的中文情感词典NTUSD、《学生褒贬义词典》、《褒义词典》、《贬义词典》)基础上整合了一个新的情感词典,去除重复的情感词;在这个新的情感词典的基础上,基于北京大学综合型语言知识库CLKB(旅游领域部分)和现代汉语口语标注语料库CASIA-CLASSIL,加上了旅游领域情感词,并针对旅游领域尽量进行消歧处理;最后,我们还在情感词典中加上网络流行词语,构建了超过37000条情感词的字典。
其中, CLKB是目前国际上规模最大而且获得广泛认可的汉语语言知识资源,涵盖了词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域,有利地支持了中文信息处理的理论研究和应用技术开发。CLKB已产生了巨大的学术影响,并获得了很好的社会效益和一定的经济效益,签约用户遍布美、日、德、法、新加坡、中国内地、台湾、香港等10多个国家和地区,免费用户数以万计[7]。
CASIA-CLASSIL语料是从15000多个现场录音中选取的约1000段对话,限定为旅游信息咨询领域,包括以下5个子领域:(1)旅馆预定;(2)电话订餐;(3)机场信息资讯;(4)旅行社服务;(5)搭乘出租车。每一段对话都被转录成了文本,并进行了详细标注。该标注规范涵盖了语音、语义、语用、主题及情感等多方面的标注信息[8]。
图1 建立旅游网络评论情感词典Fig.1 The establishment of the emotional dictionary of the tourism network Review
2.1.2 旅游网络评论情感分析
基于旅游网络评论情感词典,我们按照如下步骤对旅游网络评论进行情感分析(见图2):
(1)读取一条经过预处理的旅游网络评论;
(2)以中英文标点符号(.。,,??!!)作为分句标识对评论进行分句;
(3)对评论的每个分句计算情感值,具体见2.1.3 ;
(4)累加每个分句的情感值作为这条评论的情感值。如果情感值大于0,则表示该评论具有积极情感倾向(正面评论),小于0则具有消极情感倾向(负面评论),否则为中性评论。
图2 旅游网络评论情感分析过程Fig.2 The process of emotion analysis of travel network review
2.1.3 分句情感值计算
图3 分句情感值计算Fig.3 The calculation of the sub-clause emotional value
如图3,分句的情感值计算首先是对分句做分词处理,然后根据分句中是否含有情感词典中的情感词做不同处理:
(1)如果含有情感词,检查分句中情感词前面是否含有否定词,由于否定词会使情感词的极性发生改变,所以需要针对否定词进行处理;检查分句中情感词前面是否有程度副词,由于程度副词会使情感词的情感强度发生变化,所以需要针对副词进行处理。同样反问句和惊叹号也会对情感极性和情感强度产生影响,也需要做相应处理。具体见2.1.4。
图4 含有情感词的分句情感值计算Fig.4 The calculation of emotional value of the sub-clause with emotion words
(2)如果不含有情感词,则检查分句首词是否是连接词。如果是连接词,则根据连接词在前后2句中的的作用分为:平行连接词、转折连接词和递进连接词的三种不同的连接词(见表1实例),分别作做不同处理:平行连接词,则情感值与上一分句相同;转折连接词,则情感值与上一句相反,即乘以-1;递进连接词,则情感值是上一句的1.5倍。
表1 连接词实例Tab.1 The instance of conjunction
2.1.4 含有情感词的分句情感值计算
否定词处理。如果情感词有否定词修饰将引起情感极性发生逆转,则分句的情感值将乘以-1。如果有多个否定词修饰,则需要根据否定词个数进行判断,如果是奇数个,则极性改变,偶数个则情感极性不发生变化。表2为常见否定词。
Tab.2 The instance of Common negative words表2 常见否定词
程度副词处理。如果情感词有程度副词修饰,将引起情感强度发生变化。我们采用知网提供的程度副词,按蔺璜提出的四个等级[9]划分为极高、高、中、低,分别赋予2.0、1.75、1.0、0.5的权值。如表3所示。
表3 程度副词权值划分Tab.3 The weight of degree adverb
感叹句处理。感叹句加强了句子的情感强度,对感叹句的处理就是整个句子情感强度加倍,即情感值乘以2。识别感叹句就是找出句尾的惊叹号,包括中文符号?和英文符号?。
反问句处理。出现反问词的句子为反问句。反问句是用疑问句的形式表达相反的观点,所以对于反问句的处理就是将整个句子的情感值乘以-1。需要注意,反问句的处理与否定词处理是不同的:否定词是将其修饰的情感词的极性逆转,而反问句是将整个句子的情感极性逆转。识别反问句的关键是找到句子中是否有反问词,表4列出了常用的反问词。
表4 常见反问词Tab.4 The instance of common interrogative words
2.2 旅游网络评论情感分析系统实现
2.2.1 系统架构
基于以上研究,我们实现了一个旅游网络评论情感分析系统,该系统提供以下功能:
(1)网络评论自动抓取功能:抓取热门微博(如新浪)和知名网站(如天涯论坛的旅游板块)关于民航、酒店等旅游行业网络评论;
(2)网络评论情感分析功能:对评论进行情感分析,判断情感倾向(正面或负面)及极性(强弱程度);
(3)负面评论的预警功能:结合网络评论的转发数、阅读数等指标确定评论的重要等级,向用户推送适当的预警消息。
该系统架构如图5所示。
图5 旅游网络评论情感分析系统架构Fig.5 The architecture of the emotion analysis system of tourism network review
用户管理模块对用户信息进行管理,其实现没有太多难度。情感分析是系统的核心模块,除了分词部分,已经在3.1节详细说明,下面主要介绍分词、网络爬虫和差评预警部分。
2.2.2 分词
我们基于开源的ansj分词系统实现分词功能。同情感词典一样,对该分词系统的基础词库,我们基于北京大学综合型语言知识库CLKB(旅游领域部分)和现代汉语口语标注语料库CASIACLASSIL,加上了旅游领域词汇,构建了超过20000条词汇的分词词典,以提高分词系统的准确率。
2.2.3 微博爬虫和网站爬虫
微博爬虫实现对热门微博的旅游网络评论的自动抓取,网站爬虫实现对知名论坛的旅游板块的自动抓取。微博爬虫和网站爬虫均采用模拟登录的方式实现。
2.2.4 差评预警
差评预警模块提供自动预警、在线预警和预警条件设置功能。自动预警功能使得用户无须登录系统,在满足预警条件的差评发生时会在注册的邮箱、微信和QQ收到预警信息。在线预警当用户登录本系统时,将预警信息推送到用户界面,而且用户还可通过本系统主动搜索相关评论,并按严重程度显示查询结果。预警条件设置让用户可以设置预警条件,如网络评论的转发数、阅读数等。
自动预警和在线预警调用网络爬虫和情感分析模块来实现。
2.2.4 系统运行效果
我们以数据堂(网址http://www.datatang.com/ datares/go.aspx?dataid=616732)提供的用于文本情感分析的酒店评论语料(包括正面的1000条和负面的1000条)进行测试,目前该系统对正面评论的情感分析正确率达到81%,负面评论的正确率达到75%。对于比较严重的负面评论(402条语料)正确率达到100%,能够满足预警需求。
本文针对旅游领域进行网络评论情感分析研究并且实现了一个可自动监控旅游网络评论的实用系统。有以下创新点:第一,针对旅游网络评论,建立了较为权威和完备的分词词典和情感词典,提高了情感分析准确率;第二,为航空公司、酒店等网络评论情感分析需求迫切的旅游企业行业用户提供了一个自动的网络舆情监测和分析系统,填补了这方面系统的空白。
本文的情感词典、分词词典以及副词词典、否定词词典、连接词词典还需要进一步完善;情感分析只是采用了基于知识工程的方法,没有用到基于统计机器学习的方法。所以,下一步的工作将针对旅游网络评论,结合统计方法进一步提高情感分析的准确率。
[1]杨立公,朱俭,汤世平.文本情感分析综述[J].计算机应用2013,33( 6) :1574 - 1578,1607 YANG Ligong,ZHU Jian,TANG Shiping.Survey of text sentiment analysis[J].Journal of Computer Applications,2013,33( 6) :1574 - 1578,1607.(in Chinese)
[2]魏韡,向阳,陈千.中文文本情感分析综述[J].计算机应用2011,31( 12) :3321 -3323 WEI Wei,XIANG Yang,CHEN Qian.Survey on Chinese text sentiment analysis[J].Journal of Computer Applications,2011,31( 12) :3321 -3323.(in Chinese)
[3]刘玉娇,琚生根,伍少梅.基于情感字典与连词结合的中文文本情感分类[J],四川大学学报(自然科学版),2015,52(1):57-62.LIU Yu-jiao,Ju Sheng-gen,Su Chong.Classification of chinese texts sentiment based on semantic and conjunction[J].Journal of Sichuan University(Natural Science Edition),2015,52(1):57-62.(in Chinese)
[4]周胜臣,瞿文婷,石英子,施询之,孙韵辰.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164,181..Zhou Shengchen Qu Wenting Shi Yingzi Shi Xunzhi Sun Yunchen.Overview on sentment anylysis of Chinese microbologging [J].Computer Applications and Software,2013,30(3):161-164,181.(in Chinese)
[5]Ye Q,Zhang Z,Law R.Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J].Expert Systems with Applications,2009,36( 3) :6527 - 6535.
[6]郑文英.旅行目的地中文评论的情感分析研究[D].哈尔滨:哈尔滨工业大学,2010.Zheng Wenying.Sentiment analysis of travel destination reviews in Chinese[D].Harbin:Harbin Institute of Technology,2010.(in Chinese)
[7]宗庆成.统计自然语言处理[M].北京:清华大学出版社,2014.Zong Qin-cheng.Statistical natural language processing[M].Beijing:Tsinghua University press,2014(in Chinese)
[8]周可艳,宗成庆.对话行为信息在口语翻译中的应用[J].中文信息学报,2010,24(6):57-62.ZHOU Keyan,ZONG Chengqing.Apply Dialog Act Information in Spoken Language Translation[J].Journal of chinese information processing,2010,24(6):57-62.(in Chinese)
[9]蔺璜,郭姝慧.程度副词的特点范围与分类[J].山西大学学报(哲学社会科学版),2003,26(2):71-74.LIN Huang,GUO Shu- hui.On the Characteristics,Range and Classification of Adverbs of Degree[J].Journal of Shanxi University(Philosophy&Social Science),2003,26(2):71-74.(in Chinese)
Research of tourism network review sentiment analysis method and system implementation
QIN Guorong,YE Zhicheng,ZHUANG Binhao,CAI Zhecong
(School of Software,Shenzhen Institute of Information Technology,Shenzhen 518172,P.R.China)
In this paper,we study the method of sentiment analysis in the field of tourism,and realize a practical application of the tourism network review monitoring system for the aviation company and hotel users.A simple and convenient method of sentiment analysis is designed,based on the sentiment dictionary to analyze the tourism network,and to obtain a higher accuracy rate for the optimization of the tourist areas.Through the system,enterprises can real-time master user of service evaluation,timely deal with negative comment,avoid causing irreparable.
tourism network review;sentiment analysis;sentiment dictionary;word segmentation dictionary;tourism network review monitoring
TP391.1
A
1672-6332(2015)03-0057-06
【责任编辑:高潮】
2015-09-26
本课题得到深圳信息学院校级科研培育项目(编号:LG201433)和广东省教育科研“十一五规划项目(编号:2010TJK410)资助.
覃国蓉(1969-),女(汉),硕士,教授,主要研究领域为软件工程、信息安全.、自然语言处理。 E-mail:qingr@sziit.edu.cn