杨艳霞
(武汉科技大学城市学院信息工程学部 武汉 430083)
基于本体的旅游网络评论情感分析与预警系统*
杨艳霞
(武汉科技大学城市学院信息工程学部武汉430083)
摘要挖掘旅游海量评论信息,智能分析用户情感,从而改进旅游产品和服务,是旅游电子商务成功的关键。论文从旅游网络评论信息出发,研究微博情感词汇本体的构建和基于贝叶斯分类算法的情感分类,实现了一个基于本体的旅游网络评论情感分析和预警系统。系统不仅节省了大量人力和物力,而且对制定合理的旅游政策具有一定的参考价值。
关键词本体; 贝叶斯分类; 情感分析; 预警
Class NumberTP391.1
在当今信息化时代背景下,信息的传播异常迅猛。一条网络评论的产生不容忽视。由于网络评论的时效性强,对于意见类诉求若不及时响应,往往对企业形象造成负面影响。特别是在旅游领域十分重视网络舆论产生的引导效应。文本情感分析主要是进行情感极性的判断,即判断一条评论信息所表达情感是正、负或中性情感[1]。情感分析目的是从文本中挖掘用户表达的观点和情感极性,借助有监督学习或无监督学习等方法,让机器理解文本的情感倾向。有了情感分析这一工具,对网络评论的自动分析与预警成为可能。在这样的现状下,设计了这个系统,用于抓取旅游行业的网络评论并分析评论文本的情感倾向,再向用户推送适当的预警消息。
2.1本体概念及构建方法
本体也称为Ontology,本体的应用是为了构建领域模型。例如,在知识工程中,一个本体提供了关于术语概念和关系的词汇集,通过该词汇集可以对一个领域进行建模。在语义Web中,本体具有非常重要的地位,它是解决语义层次上Web信息共享和交换的基础。
从详细程度与领域依赖度两个方面对本体进行划分。详细程度是一个相对的、比较模糊的概念,指描述或刻画建模对象的程度。详细程度高的称作参考(reference)本体,详细程度低的称为共享(share)本体。依照领域依赖程度,可以细分为顶层本体、领域本体、任务本体和应用本体四类。顶层本体描述的是最普遍的概念及概念之间的关系,如空间、时间、事件、行为等,与具体的应用无关,其他种类的本体都是该类本体的特例;领域本体描述的是某个特定领域(如医药、地理等)中的概念及概念之间的关系;任务本体描述的是特定任务或行为中的概念及概念之间的关系;应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。
构建情感词汇本体是为了更充分地表达情感词汇之间所蕴含的语义信息,如词汇的情感倾向性以及词汇间的相似、递进和转折关系等,方便情感词的组织和共享,从而为微博话题的倾向性分析提供有效的分析依据[2]。
2.2微博情感词汇本体构建
中文微博作为互联网的产品,其文本信息形式多元化,用于表达倾向性的词语在不断变化,因此核心本体并不需要一次性构建完成。所以,在这个阶段只需要收集能够表达人们意见的比较重要的核心概念和关系,建立基础情感词本体。本文主要抽取HowNet公布的情感分析用词集中的核心词汇作为构建本体的信息来源。
2.2.1情感词汇知识的收集与分析
基础情感词汇本体中的词汇选自HowNet中已经标注过的情感分析用词语集,该词汇集所包含的词汇种类(中文)和数量以及本体中选用的情感词汇的数量如表1所示。
表1 HowNet情感分析用词数量及本体用词数量
否定词、程度副词以及表示转折和递进的关系连词会对主观句的倾向性产生影响,因此,本文又建立否定词、程度副词和连词集。根据知网中发布的否定词、程度副词和连词词语集,共收录“没,没有,不,不是”等18个否定副词,和188个程度副词,40个连词,具体如表2所示[3]。
表2 部分否定词、程度副词和连词集
2.2.2情感词汇本体的形式化表示
情感词汇本体构建完成后,本文使用OWL描述语言对情感词汇本体进行形式化描述,也就是用OWL语言中定义的元本体对提取出的概念以及属性关系进行形式化描述,最重要的是描述类、子类、属性和它们各自具有的特性。本论文利用protege工具构建本体,完成后的本体以OWL为后缀的OWL文件格式保存。
概念类的表示在protege中有两种基本概念:整体概念(whole concept)和关系概念(relational concept)。整体概念的编辑界面如图1所示。
图1 Protege整体概念编辑界面
利用protege工具构建情感词汇本体的重要类及其属性的界面图如图2。
图2 Protege构建类的界面图
网络情感词需要长时间的关注和搜集,现今还没有现成可用的情感词典,因此通过社交网络、博客、BBS、评论、微博,将收集并标注具有感情色彩的词语加入情感词汇本体之中是必要的补充。
2.3语料库的组成
本文主要对旅游网络评论信息进行分类,使用八爪鱼采集器抓取的旅游网络评论信息,其采集信息如图3所示。
图3 采集微博信息(训练集)
3.1系统框架
图4 系统框架示意图
3.2各模块的实现
3.2.1旅游评论数据爬取
旅游评论信息的采集是指从旅游网站中抽取相应的评论信息,是旅游评论情感文本分析的基础。其中评论信息的采集使用的是网络爬虫的工具来获取的。
3.2.2文本预处理
文本预处理过程是整个系统关键的一步,由于机器无法自动判断整个文本的类别属性,只有人为将中文文本数据处理为机器可以识别判断的数据,才能更好地处理数据[4]。其实现过程如图5所示。
图5 微博文本预处理流程图
第一步:准备阶段,将抓取好的微博数据为后面文本预处理做准备。
第二步:由于抓取的评论信息有很多没有实际意义,为了避免影响文本分类结果,因此需要处理文本,过滤不必要的信息,没必要处理,因此直接过滤掉。
第三步:停用词过滤,由于文本中可能会存在大量的对于文本分类没有影响的内容。
3.2.3中文分词实现
在中文文本中,词是构建文本信息的基本单位,需要对文本进行预处理就是对文本进行分词处理,分词的结果将会直接影响文本分类的结果。本论文主要借助于非常成熟的分词工具,Lucene分词,其作为开源项目,方便用户直接引用[5]。
严格意义上来说,Lucene并不是一个单纯的分词系统,它只是提供了分词功能IKAnalyzer这样一个接口。通过IKAnalyzer接口,将微博信息进行切片处理,得到一个一个词或字,并有此行标注起来。因为建立搜索引擎的时候,必须要用到关键字,而关键字就是通过分词来获得[6]。
图6 Lucene分词流程图
3.2.4文本分类实现
本文使用贝叶斯算法来实现文本分类,判读文章关键词属于某一类的概率,然后通过比较不同类别的概率,出现在最大概率的文本就直接归类为该类,朴素贝叶斯算法的文本分类[7~10],其具体实现过程如图7所示。
图7 贝叶斯分类器流程图
贝叶斯算法的实现过程包括以下步骤:
第一步:返回Lucene中分词系统处理的文本信息,包括分词结果,关键词提取的结果。
第二步:对于返回的结果,通过贝叶斯算法来计算关键词在训练语库中的概率值,通过排序来找出概率最大的值。
第三步:对于排序的结果,按照一定的分类规则,即按照概率最大的就将文本归类为那一类,来最终获得分类结果。
3.2.5信息负面评论的预警
统计负面信息条数,计算负面信息的条数占信息总条数比例,如果该比例达到阈值(自定义),则向用户推送适当的预警信息。
针对旅游评论信息文本做情感分析,首先要分析中文情感词汇本体,理解本体的构建。然后网络爬虫收集旅游网站的评论信息,通过朴素贝叶斯算法进行计算、停用词进行过滤以及Lucene分词进行分类完成对测试文本的情感倾向进行统计,其中包含正向、负向和中性情感。最后通过统计各种评论者所产生的情感倾向的百分比来实现对用户推送适当的预警功能。本文对旅游评论情感分析做出了一些初步的向用户推送预警的功能,有一定的参考价值。
参 考 文 献
[1] 王晓东,刘倩,陶县俊.情感Ontology构建与文本倾向性分析[J].计算机工程与应用,2010,46(30):117-120.
WANG Xiaodong, LIU Qian, TAO Xianjun. Sentiment Ontology construction and text orientation analysis[J]. Computer Engineering and Applications,2010,46(30):117-120.
[2] 刘冬梅.html文本自动分类技术的研究与工具的实现[D].呼和浩特:内蒙古大学,2006.
LIU Dongmei. Automatic Classification research on Html Document And Implentation of The Toll[D]. Hohhot: Inner Mongolia University,2006.
[3] 王晓东,王娟,张征.基于情感词汇本体的主观性句子倾向性计算[J].计算机应用,2012,32(6):1678-1681,1684.
WANG Xiaodong, WANG Juan, ZHANG Zheng. Computation on orientation for subjective sentence based on sentiment words ontology[J]. Journal of Computer Applications,2012,32(6):1678-1681,1684.
[4] 任丽芸.搜索引擎中文分词技术研究[D].重庆:重庆理工大学,2011.
REN Linwen. Research on Chinese Word Segmentation of Search Engine[D]. Chongqing: Chongqing University of Technology,2011.
[5] 管瑞霞,陆蓓.TFLD:一种中文文本关键词自动提取方法[J].机电工程,2010,27(9):123-126.
GUAN Ruixia, LU Bei. TFID: a novel Phrase_extraction method for Chinese text[J]. Journal of Mechanical & Electrical Engineering,2010,27(9):123-126.
[6] 郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196.
ZHENG Jiaheng, LU Jiaoli. Study of An Improved Keywords Distillation Method[J]. Computer Engineering,2005,31(18):194-196.
[7] 管瑞霞.基于基因表达式编程的中文文本关键词提取算法研究[D].杭州:杭州电子科技大学,2009.
GUAN Ruixia. Research of Keywords Extraction Algorithm for Chinese Text Based on Gene Expression Programming[D]. Hangzhou: Hangzhou Dianzi University,2009.
[8] 邹永斌,陈兴蜀,王文贤.基于贝叶斯分类器的主题爬虫研究[J].计算机应用研究,2009,9(26):3418-3420,3439.
ZOU Yongbin, CHEN Xingshu, WANG Wenxian. Research on focused crawler based on Bayes classifier[J]. Application Research of Computers,2009,9(26):3418-3420,3439.
[9] 条件概率和贝叶斯定理.中国开放教育资源联合体[EB/OL] [2013-01-7]. http://www.core.org.cn/NR/rdonlyres/Civil-and-Environmental-Engineering/1-017Computing-and-Data-Analysis-for-Environmental-ApplicationsFall2003/62A96B91-D71B-4734-80E8-E5763316BFA9/0/class03_6.pdf.
[10] 李勇.中文网页分类研究综述[J].现代计算机(专业版),2012(15):3-7.
LI Yong. Chinese web page classification research overview[J]. Modern Computer,2012(15):3-7.
收稿日期:2015年10月8日,修回日期:2015年11月21日
基金项目:湖北省教育厅科学技术研究计划指导性项目:基于Ontology的微博话题识别及倾向性研究(编号:B2015360)资助。
作者简介:杨艳霞,女,硕士,讲师,研究方向:机器学习与智能计算。
中图分类号TP391.1
DOI:10.3969/j.issn.1672-9722.2016.04.020
Tourism Network Comments Sentiment Analysis and Pre-warning System Based on Ontology
YANG Yanxia
(Department of Information Engineering, Wuhan University of Science and Technology City College, Wuhan430083)
AbstractPigging tourism information and opinion, analyzing intelligently user emotion, to improve tourism products and services are the key to the success of tourism e-commerce. This paper embarks from the tourism network review information, how to build the microblogging emotional vocabulary ontology and how to classify emotion based on Naive Bayes classification algorithm are researched, a tourism network comments sentiment analysis and early warning system is implemented based on ontology. It not only saves a large amount of manpower and material resources, but also has certain reference value to establish reasonable tourism policy.
Key Wordsontology, Naive Bayes classifier, sentiment analysis, pre-warning