◎万英亮
以网络评论文本为素材,使用网络爬虫获取网络评论数据,利用长短期记忆网络(LSTM)建立三分类的情感分析模型,采用文本关联性分析和依存语法分析对评论中的核心词与语法进行研究,对厦门的整体形象、吸引要素、负面评价等多个方面进行分析。结果显示:整体来看游客对厦门的印象总体倾向于积极方面,负面感知很少,游客对厦门的感知比较偏向于自然风景与美食。但吸引要素中,历史人文景点相对较少提及,作为一座拥有悠久文明的城市,厦门为实现成为文化、人文、文艺之城仍需努力。
自1975 年Hunt 首先提出旅游目的地形象,有关目的地形象的研究就随着科学技术的发展而不断深入。旅游目的地形象是指旅游者对于目的地的感知之和,学术界普遍将其分为认知形象、情感形象和总体形象三部分。
随着硬件能力的提升以及数据量的增长,利用网络文本数据和数据分析工具来对旅游目的地形象进行深入分析成为可能。同时,也为管理者制定优化目的地形象的方案提供了参考依据。
使用网络评论文本进行情感分析能够对社会舆情进行预测,这是文本情感分析技术受到重视的原因。人工神经网络在文本领域的广泛应用,为文本情感分析的突破提供了可能。2011 年,哈工大推出了中文语言技术平台(LTP),因其优秀的中文文本处理能力,而使它受到中文自然语言处理研究者的欢迎。
厦门历史悠久、海天一色,素有“海上花园”的美称,荣获“联合国人居奖”。由于知名度和关注度较高,有关厦门的旅游评价容易抓取,因此选择厦门为研究对象,利用Python 爬取数据,并将原始数据处理后进行分词;通过LSTM 进行情感分类;计算网络评价中关键词的相关性;使用LTP 进行依存语法分析,进而对厦门的总体形象、积极形象、消极形象以及影响因素进行分析,以期确定厦门在游客心中的形象,为厦门旅游的可持续发展提供帮助。
1.分词方法。任何文本都需要经过断词处理方可进行分析,但中文断词相较于英文断词显得困难许多,因为中文有两种特色,其一,词间不用空格分隔、其二,一字可以位于词首词中或词末,也可以单字成词,这两种特色使得断词结果产生歧义,且很难保证任一结果百分之百准确。
本文使用jieba 分词处理中文分词问题。在分词前,jieba 分词载入词典至一前缀树中,接着对每一语句分词时,利用词典生成的前缀树生成一有向无环图,该有向无环图的每一节点代表语句的长度位置、每一条边代表jieba 分词查找前缀树所得可能存在于句中的词语,而每一条完整的路径代表可能的分词方案。
2.关联性分析。对文本关键词关联性的分析是挖掘文本信息的一种重要技术。本文对核心关键词相关性进行计算过程中使用了关联规则,它是形如的逻辑表达式,和为不相交的集合。关联规则用支持度和置信度来度量关联的强度,支持度确定规则可以用于给定数据集的频繁程度,而置信度确定在包含的事务中出现的频繁程度。支持度和置信度:
3.依存句法分析。利用分析句中单位间依存关系来确定其句法结构是依存语法分析的核心思想。依存句法分析的依存关系有五条公理,具体如下:
(1)句子中仅含一个独立成分。
(2)句子中的其它成分都依存于某一成分,每个词都会有入口。
(3)句子中各成分不能同时依存于两个及以上的其他成分,即每个单成分不会有两个入口。
(4)如果成分依存于成分,在句中位置位于和之间,则或直接依存于,或直接依存于和间的某一个成分,这对成分的具体范围进行约束,避免了交叉。
(5)中心成分(核心动词)的左右两面成分相互的不产生依存关系。
4.长短期记忆网络。长短期记忆网络在循环神经网络(RNN)的链式结构中加入LSTM 单元,通过不同的门限控制,可以加强模型的记忆能力,解决训练过程中梯度消失的问题。LSTM 广泛运用于处理序列信息,在文本分类领域有较好的表现。
本研究以厦门为例,使用Python 对同程网进行评价数据爬取。在爬取过程中将重复、无意义以及包含广告的评价删去。共搜集了2014 年1 月1 日至2016 年7 月10日的4010 条游客点评。
1.评论数据预处理。在去除原始文本数据中无意义词和英文字符之后,使用Python 环境下的jieba 库对文本数据分词进行处理。将处理后的网络评价数据用Python 环境下的wordcloud 库进行处理,得到了游客对厦门评价的高频词词云图。
图1 厦门网评词云
词云中词的形状大小表明了词语在网络评价出现的频率高低。
2.评论数据LSTM 情感分类。将游客对厦门的评论文本按照情感倾向性进行分类,根本上仍属于文本分类问题,本文将主观性的网络评论文本分为积极、中性、负面三种情感倾向。将酒店、旅游以及电影点评网站收集积极到的积极、中性、负面评论各15000 条作为LSTM 情感分类的训练集,将原始数据作为训练集通过Python 环境下的gensim 库进行词向量化后经LSTM 迭代20 轮。
使用训练好的模型对测试集文本数据进行情感分类的精度达到0.8742,分类效果很好,表明适合用于对文本情感倾向性的分析。将分类数据同真实得分进行比较,可知使用LSTM 进行网评情感分类结果与真实结果基本接近,并且绝大部分游客对厦门持有积极态度,只有少数游客对于厦门存在一定的负面情绪。
3.评论数据关键词关联性分析。对网评数据分词结果的频率前30 个关键词进行建模,得到关联规则结果,显示“鼓浪屿”支持度仅次于最高的“厦门”,被确认为是次核心词,说明“鼓浪屿”最深受来到厦门游客的喜爱。
在游客对于“鼓浪屿”、“厦门大学”等标志性旅游景点游玩后很有感触说明网友,且“喜欢”常出现在“厦门”相关的评论中,说明游客对厦门给出的评价主要是正面的。
本文使用依存句法分析对游客积极感知因素进行探索。依存句法分析结果显示了语句中元素的具体结构,以“厦门风景很好”短句为例:
图2 依存句法分析示例
如图2 所示,该短句中存在3 组相互依存关系,每组依存关系都有一个核心词与一个受支配词组成,图3 中折线从核心词指向受配词。如“风景”和“好”为主谓关系(SBV),,受支配词为“风景”,核心词为“好”,短句中的核心词(HED)为“棒”。通过依存句法分析从游客评论数据中提取厦门特征与情感态度组合,分别绘制出厦门特征、情感词云图如下图所示。
图3 依存句法提取厦门特征词云
图4 依存句法提取情感词云
由图3 可知。特征词主要有:“厦门”、“鼓浪屿”、“厦门大学”、“曾厝垵”、“中山路”、“海鲜”、“环岛路”、“海滩”、“芒果”、“小店”。对特征词进一步归类,可以发现在游客看来,自然风光是厦门最突出的特征。可以说绝大多数的游客就是为了欣赏海岛风景而来到厦门的。其次是美食类的词语:芒果、海鲜,这充分说明饮食是厦门重要的吸引要素。而胡里山炮台、曾厝垵 、南普陀寺、梵天寺等人文历史景点无论从词汇数量还是频率上都较低。
从图4 可以看出,游客对厦门的印象以“好吃”、“喜欢”、“清新”为主。游客对于厦门的第一感觉用“好吃”这样的词语来形容。可见美食是厦门一个明显的特征。厦门的特色美食给游客留下的深刻的影响,尤其是经营了数十年的厦门老字号总让游客们流连忘返。“清新”表达了游客对厦门空气质量的评价,作为环海城市,徐徐海风是厦门俘获游客心灵的法宝。
本文对游客的负面评论进行概念化、逐一登录并提炼,经过三级编码过程,最终将这些负面评论凝结为5 个核心类属、16个二级子类。5 个核心类属分别为旅游体验、旅游设施、旅游安全、旅游服务与旅游环境。
可以得知,在5 个核心类属当中,负面评价主要集中在旅游体验类属上(71。23%),排在首位。游客普遍认为物品价格虚高、商业化严重。除此之外,也有游客提出太多的小店商品相似,十分乏味。另外就是游客太多、环境嘈杂,降低了旅游体验质量。旅游环境是排名第二的消极感知因素。其中交通问题最为突出,厦门风景优美,但部分景点规划不佳,道路狭窄,加之游客众多,时常造成寸步难行的交通环境。此外餐饮企业油污排出;旅游安全方面如小偷很多,要留意自己的随声物品;旅游服务方面如店员态度冷淡等负面评论也有出现。
随着大数据时代的到来,如何从非结构化的网络评论数据中挖掘出游客的观点以及隐含的语境情感信息,绘制出旅游者角度的旅游目的地形象是新环境下旅游工作者要面临的挑战。
本文通过构建LSTM 三分类的情感分析模型,对文本数据进行文本关联性分析以及依存句法分析,对厦门的认知形象、情感形象、整体形象、吸引要素、负面评价及原因进行探究,可知从认知形象构成要素来看,特色景点和美食为突出的要素,包括鼓浪屿、厦门大学等标志景点;芒果、沙茶面等地方美食。而历史人文景点,如胡里山炮台、曾厝垵、却较少被游客提及。从形象情感态度来看,游客普遍认为厦门“不错”、“好吃”、“清新”。说明游客对厦门总体评价比较积极,满意度较高。游客对厦门的负面旅游体验主要归类为旅游体验和旅游环境两大方面,其中的商品因素最为突出,游客认为厦门商品价格过贵、道路狭窄、环境嘈杂等。作为一座拥有悠久文明的城市,厦门需要加大对历史人文景点的重视和开发,并且对游客的负面评价做出及时反馈,这有利于厦门旅游产业的健康和可持续发展。