隋 洁
(宣城职业技术学院,安徽 宣城 242000)
随着旅游行业的互联网程度加深,游客在旅游过程中产生的数据也逐渐完整,并且数据规模庞大,这些有利条件的出现,为大数据技术应用到该领域打下基础[1]。另一方面,游客评价被普遍看作影响旅游行业发展的重要因素之一,一个景点的发展前景与其在互联网上的评价状态息息相关[2-3]。因此,能否更加精准、高效地从游客对旅游景观评论中提取有建设性的反馈信息,对于景区的长期发展具有重要意义[4]。国内专家学者针对该问题,提出了多种解决方案,但其中多数研究使用的数据处理系统对评价文本的量化处理效果不够理想,且运算较为缓慢,因此该研究选择结合SD法(全称Semantic Differential,即语义差异法)与情感分析等大数据技术,构建景观评价数据的分析模型。
该研究设计的基于多种大数据技术的园林景观评价模型,主要计算步骤有,数据收集与清洗、自然语言分词与标注、词频统计、情感量化评分等等。模型计算流程见图1。
观察图1可知,景观的评价指标构建步骤在整个模型中属于前期工作,并且相对独立,因此该步骤的具体构建将在1.1节完成,剩余步骤设计在1.2节完成。
该节在大量收集整理相关文献的基础上,参考自然语言情感分析、园林学的景观空间等理论,以消费者对景观的评论为原始数据,构建出园林景观评价指标体系。SD法是一种心理测定的方法,其通过语言信息来反推语言使用者的心理状态,从而获得语言提供者关于研究对象的感受定量数据[5-7]。在SD法计算步骤中,首先需要收集与研究对象高相关性的向荣词对,再根据评价数据进行归纳缩减。收集向荣词对时,需考虑以下筛选条件[8]。首先,无法或者很难找到反义词的形容词应剔除,以免出现失真片面的评价。其次,在中心点两翼难以形成对称的形容词也应去掉,以确保评价量化数据的可展示性。最后,旅游者不常用的形容词也需剔除。从相关文献中收集整理出的形容词中去掉语义表达重复、模糊,或符合上述三条件的形容词,留下131组形容词对。按照形容词对描述对象,将其划分为景观管理、景观内涵、景观生态、景观感知、景观形象、景观空间六类。考虑到部分词对在评价数据中出现频率较低,对131组词对按其在园林景观评价数据中出现频率进行排序,取出最常见、最具代表性的26组形容词构成景观评价指标体系,见表1.
表1 景观评价指标体系信息
如表1所示,表中第二列为指标类别的解释,各项景观评价指标的词对内形容词顺序与后续SD评分图中展示的内容一致。
该研究设计的语义分析模型所需原始数据形式为,单个用户对单个景观的评价文本。初步选定美团、途牛、携程、去哪儿、马蜂窝等包含旅游数据的平台作为景观评价数据来源。分析发现,美团平台数据主要属于电商与外卖领域,途牛与马蜂窝平台的数据主要属于旅游攻略类型,而同程平台数据规模较小。考虑到数据清洗方便程度与景观评论数据规模,最后决定选择携程和去哪儿两大平台作为评价数据来源。
确定数据来源后,使用Python爬虫技术收集评价数据,并应用Python程序语言、SPSS软件、Excel软件辅助处理评价数据。下面设计数据清洗环节,爬虫收集到的数据,由于网页布局多变、数据来源不同、网络状况改变、评论方式自由度高等原因,会混杂多种脏数据和无效数据。所以,为保证模型计算结果的有效性与计算效率,在开始计算数据前,需要先对原始评论文本进行数据清洗,数据清洗的代码较为繁杂,不做展示。数据清洗原则如下,首先,字数过少的评价大多数属于无效评价,若对其进行筛选,计算较为复杂,且计算价值不大,考虑到该研究收集的原始数据规模足够大,因此直接去掉少于6字符的评价数据,比如“感觉还行”、“一般般吧”这种评价。然后,去掉连续重复字符数大于4个的评论,如“好好好好”。最后,表达含义特别相似的评论也应删除。
完成数据清洗后,即开始数据处理与建模过程,一方面需要从文献中提取出评论数据的评价指标,其形式为一对含义相反的形容词对,采用jieba分词功能,将文献与评论数据中的语句分词并标注词性。jieba分词是Python语言中的一个用于中文分词的接口。其先使用前缀词典对待分词文本进行词图扫描,以生成各语句中所有汉字组成的各种无环有向图(简称DAG)。然后根据词典寻找DAG中的最短路径,并按照最短路径对句子进行分词,不存在于词典中的词,则使用隐马尔科夫模型发现。分词并标注步骤完成后,应用counter函数统计全部数据中各词的出现频率。再使用stopwords列表功能,删除包括代词、介词、连词等所有的停用词。按照文献剩余形容词在评论数据中的出现频率选出数量合适的形容词对,即1.1节最终取出的26组形容词对。
另一方面,选出总评价数据大于1000条的景点,为每个景点创建一个文档,将每个评价数据存入相应的景点文档之中,并对所有数据使用snowNLP中的sentiment()函数进行情感分析。在大数据技术中,主要使用jieba功能库和snowNLP功能库处理情感分析任务,前者虽然计算复杂度低,计算速度较快,但对词库的依赖性较大,在待处理文本信息丰富的情况下,情感分析效果较差。而snowNLP功能库通过贝叶斯分类模型进行运算,分析结果更为准确,但其对训练语料与待处理数据之间的相关性要求较高。试验后发现,采用snowNLP功能库的处理结果准确率更高,因此选用snowNLP功能库进行情感分析。然后,为使输出的量化评论情感值数据离散程度增加,同时也为匹配SD法的七段评价尺度法,对情感值使用公式(1)进行变换处理。
Trans_senti=(senti-0.5)*3/0.5
(1)
式(1)中,senti为上一步骤输出的评论情感值,Trans_senti为变换后的评论情感值,可见,经过式(1)处理,情感值的取值范围被映射到区间[-3,3]。
然后根据26项评价指标和变换后的评论情感数值计算出各景点的SD评分数据表,计算流程见图2。
如图2所示,对于每处景点,遍历其26项评价指标,找出具有与评价词相关的关键词的所有评论,对这些评论的变换后情感值求均值,以该均值作为该景点在此项评价指标上的得分,依次计算得出各景点的SD评分数据表。最后,根据各景点SD评分数据表,可以绘制出各景点的评价曲线图,用以分析景点的特点与优缺点。
选取我国某市的景点为实例,以验证该语义分析模型的应用效果。具体来说,从携程、去哪儿平台爬取该市共543个景点的文本评价数据,共19255条。选取出其中累计评论2000条以上的三个景点作为研究对象。对这三大旅游景点的评论文本进行数据清洗,和断句处理,处理后的脱敏信息统计如表2所示。
表2 实例景点评论数据统计
将表2中列示的数据集输入语义分析模型,得到关于三大景点的SD评分数据表,由于该表规模较大,此处直接展示由它们制成的各景点评价曲线图,下面先分析S1景点,图3为其评分曲线图。
如图3所示,从景点类型来看,其属于自然风景美丽、环境较安静且有一定历史文化气息的景点。这也和从游客评论中提取的高频关键词“风景不错”、“环境安静”等一致。另一方面,S1景点的缺点也比较明显,其景观维护、性价比、安全感、卫生度、交通便利度SD评分较低,分别为-2.02,1.53,1.69,-1.42,-1.17,说明景点的管理工作有待加强,特别是景区的卫生安保工作急需改善,而且管理方可以考虑改善其交通条件,以吸引更多旅客前来游玩。再分析S2景点,图4为其评价曲线图。
如图4所示,该景点景观管理类指标、景观内涵类指标、景观空间类指标评分明显高于平均,说明其管理良好,属于景观文化内涵丰富、空间开阔雄伟的景点。但S2景点的景观生态指标,植物覆盖率、生态性以及景观形象指标中的活力度、色彩丰富度评分较低,分别为-1.86,-1.51,-2.24,-1.83,也即表明该景点绿化较少,属于人类建筑偏多的景点,而且S3景点的熟悉度与知名度指标评分也较低,分别为-1.62,-1.45,建议景点管理方可以适当增加S2景点的植被绿化,并且从该景点的历史文化内涵与空间美感等优势着手,加大对它的宣传力度,以进一步提升景点旅游收入。最后分析S3景点,图5为其评价曲线图
观察图5可知,S3景点的景观管理与景观生态类指标卫生度、安全感、性价比、景观维护、植物覆盖率、生态性的SD评分明显高于平均,分别为1.15,1.16,1.24,1.46,1.68,1.95,景观内涵与景观空间类指标历史感、文化性、形体感、体积感、层次感、空间感的SD评分则明显低于样本平均值,分别为-1.92,-2.13,-1.42,-1.50,-1.28,-1.31,说明其管理良好,属于自然风景美丽,较为小巧的特色景点类型。另一方面,其交通便利度、趣味性指标评分较低,分别为-2.08,-2.57,说明该景点交通条件有待改进,景区娱乐设施也较为不足。
为更精准地获取游客对园林景观的反馈信息,该研究应用分词、情感分析等大数据处理技术构建出景观评论数据的语义分析模型。为验证该模型的分析效果,选取国内某市景点为实例,从旅游网站获得游客评价文本数据,输入该模型。分析结果显示,S1景点景观维护、性价比、安全感、卫生度、交通便利度SD评分较低,分别为-2.02,1.53,1.69,-1.42,-1.17,说明景点的管理工作有待加强。S2景点的植物覆盖率、生态性、活力度、色彩丰富度、熟悉度、知名度较低,分别为-1.86,-1.51,-2.24,-1.83,-1.62,-1.45,表明该景点绿化较少,属于人类建筑偏多的景点,而且知名度较低。S3景点交通便利度、趣味性指标评分较低,分别为-2.08,-2.57,说明该景点交通条件有待改进,景区娱乐设施也较为不足。研究结果表明,该模型能有效提取出游客对园林景观的反馈信息。