大数据旅游研究和应用中的几个问题

2017-09-13 16:25杨旸刘法建
旅游学刊 2017年9期
关键词:代表性数据源样本

杨旸+刘法建

科学研究的发展往往始于技术的进步。近年来,在信息科学、网络技术的进步和融合的推动下,获取便捷、类型多样的大数据开始为众多研究领域所关注。大数据也成为国内外旅游学界和业界的热门话题,尤其在旅游流、旅游体验等对数据精度、规模、结构要求日益严苛的领域,大数据使得一些原本数据搜集复杂或者可操作性低的研究课题可以得到实施。然而,随着研究领域、数据来源的不断拓展,一些大数据应用的问题也随之而来。

一、 虚假评论数据

作为最具代表性的旅游大数据来源,在线顾 客评论在已有的旅游大数据研究中占有重要的 地位。此类研究,往往基于在线评论能客观反映 旅游服务设施接待水平和游客体验的前提下展开分析。但事实上,一些点评网站并不能识别评论 者是否购买过该项服务(如TripAdvisor),这导致了大量虚假评论的滋生,势必会影响到分析结果的 有效性和科学性。目前,在国际顶级的商学期刊上,已有使用机器学习和人工智能方法来筛选和 过滤虚假在线评论的研究成果发表。因此,相关旅游研究在使用在线评论数据时,也要特别注意可能存在的虚假评论,并且基于研究情境考虑使用合适的方法筛选出可能的虚假评论,提高数据本身的可信度。

二、 不同大数据源之间的交互验证

对于同一个研究目的/研究问题,不同的数据源可能提供来自不同侧面的重要信息。这些数据本身或多或少会存在系统性及非系统性误差,使用时就需要对数据源进行交互验证(triangulation),以确定这些误差可能的来源,并为后续数据汇总过程中的误差控制提供思路。例如,在使用酒店在线评论数据时,很多研究者会从不同的酒店评论平台采集数据。但由于不同的平台可能是面向不同层次、不同类型的住客群体,这些评论数据存在系统差异。研究过程中首先就需要对这些平台数据进行交互验证,这不仅有助于降低误差,提高评论数据综合后的结果可信度,而且可以了解不同样本群体的特性差异,增强对结果的理解和解释。

三、 数据样本的代表性

在传统的数据采集中,样本的代表性(representativeness)是统计推断是否稳健和有效的重要前提。在社会统计和商业调查中,面对不具代表性的数据样本,再强大的统计模型也很难得出准确的、可以推广的分析结论。因此,科学、有效的抽样调查方法在传统数据获取中被普遍重视。在大数据时代,尤其是在大数据的旅游业应用中,如何确保样本和数据的有效性、代表性也是业界和学界重点关心的问题。实际上,很多大数据源产生的数据,并不能有效的代表完整的研究目标群体。最明显的例子就是从互联网获得的大数据中,中老年群体的样本比例严重不足。传统统计学中可使用的权重调整方法这时也较难使用,因为此类大数据样本中个体属性,尤其是社会人口属性特征往往缺失,使得权重的估计也变得难以操作。此外,计量经济学中常见的样本选择偏差(sample selection bias)也会导致样本的代表性问题。一个常见的例子就是不满意的酒店住客可能倾向于在评论网站上留下详细的评论。如果这种样本选择偏差不得以修正,就容易过度放大负面信息,得出与事实出入很大的结果。

四、 游客样本的甄别

除一些旅游业专用大数据源外,旅游研究中还会使用到一些综合性的、非定制的大数据源,比如微博数据、汽车GPS轨迹数据和手机信令数据。这时,首先需要解决如何甄别有效游客样本的问题。一般常用的方法是建立统计模型对数据中的时空信息进行数据挖掘,识别出游客群体。由于建立统计模型需要识别诸多参数,这可以通过小规模的实地调查来获得,从而有效提升游客样本的甄别准确率。当然,由于不同地方的景点规模、目的地空间尺度、空间结构、交通设施水平的差异,不同地区的实地调查结果不能盲目推广。

五、 研究方法“旧瓶装新酒”

许多标称“大数据应用”的旅游研究文章,使用的仍是传统和基础的统计和数据发掘方法。严格意义上说,难以纳入“大数据”研究的范畴。因为它们并没有涉及到“大数据革命”的核心之一:对于海量实时数据处理方法的革新。很多情况下,这些大数据旅游实证文章,仅仅是从大数据源中獲得常规数据,增加的只是数据量,并没有带来创新性的,突破性的研究方法,未能实现研究思路和研究框架上的质变。

综上所述,在旅游的大数据研究和应用中,不应该盲目迷信和崇拜大数据源获得的数据。大数据与生俱来的诸多弊端,需要使用者在数据的获取、处理和分析过程中时刻注意和警惕。首先,研究人员和从业人士不能简单地把大数据分析看成一个“黑箱”,不假思索、教条式地使用统计或者人工智能的方法分析数据。而应把一部分注意力放在保证数据的质量上,增加针对性的数据清理和调试,以确保数据的有效性和科学性。其次,在大数据的应用领域,不同大数据源信息的融合越来越被重视。这种信息的汇总、融合可以提高数据的精度,提升结果的可靠性。最后,对于学界而言,大数据的兴起与流行并未给传统的旅游研究范式带来根本性的改变。作为社会科学的分支,旅游研究的 “问题导向”(research question)和“理论建构”并重的属性依然关键,其学术研究的价值在很大程度上仍取决于研究问题的水平和质量。endprint

猜你喜欢
代表性数据源样本
国家级非遗项目代表性传承人简介
漳州市非物质文化遗产代表性项目代表性传承人名录
闽台地区代表性道地药材
推动医改的“直销样本”
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
非遗代表性传承人
——勉冲·罗布斯达
村企共赢的样本
基于真值发现的冲突数据源质量评价算法
分布式异构数据源标准化查询设计与实现