去芜存菁:小议社交媒体分析学中的数据质量问题

2017-10-21 20:09向征于思
旅游学刊 2017年10期
关键词:社交旅游分析

向征+于思

近十余年来,社交媒体的发展日新月异,并通过不同的渠道,以不同的形式,为我们认识、分析和解决众多社会经济问题提供了海量、丰富的数据,社交媒体分析学(social media analytics)由此应运而生。社交媒体分析学主要通过采集各种类型的社交媒体数据,使用文本分析、数据挖掘、机器学习及计量统计等方法,来发现、描述并解释基于传统数据和方法不易发现和认识的规律。社交媒体分析学在各个领域取得了长足的进展,旅游管理也不例外。近年来使用社交媒体数据的研究纷纷涌现,涵盖旅游及酒店业各领域,涉及游客满意度、旅游目的地形象、酒店收入业绩分析等问题,不一而足。其研究对象、数据使用和分析方法可谓千姿百态,为旅游管理提供了前所未有的想象空间。

与实验法、问卷调查法等传统研究方法相比,社交媒体分析学的数据来源和构成不是由研究者预先设计而生成的,而是使用现成的二手数据。用Agarwal和Dhar的话来说,社交媒体数据总是“不完美的”。形象地说,社交媒體分析学在方法论上是一个吹糠见米的过程,即通过不完美的数据找到尽可能接近现实的答案。目前,社交媒体分析学尚处在初级阶段,近年来,Ruths、Pfeffer和Tufekci等社会科学领域的研究人员对这种以数据为基础的新研究范式提出了越来越多的批评,特别是对数据来源及数据本身的可靠性和合法性存有质疑。鉴于此,本文旨在介绍社交媒体作为研究数据的一些常见的质量问题,并针对性地探讨旅游社交媒体研究中存在的潜在问题和挑战。

社交媒体数据质量的不完美是指什么?所谓完美和不完美,对研究者来说是一个相对的概念。如果研究的目的是为了认识社交媒体本身的基本特征和规律,则社交媒体数据的不完美和造成这些不完美的原因正好为这些问题的探讨提供了“完美的”观察。但是,如果研究的目的是为了认识或发现数据中能够代表特定人群的基本特征和规律,则不完美的数据会对研究的合法性造成影响。比如,用“谷歌趋势”的数据预测人群中流感爆发的不准确,就是由于过高估计数据中非相关的搜索关键词导致的。

那么,社交媒体数据质量的不完美是什么原因造成的呢?表现在哪些方面?要认识这个问题,必须理解社交媒体作为信息平台的本质。

首先,尽管几乎所有的社交媒体都能为消费者提供值得信赖、可以共享的社会知识,然而每个社交媒体平台本身都是反映不同社会、文化和经济价值取向的复杂技术系统,从形式和内容上讲可谓千姿百态。例如,作为微博平台,Twitter在信息的生成传播和虚拟社交网络的动态演变上有其独有特征;在旅游在线平台中,TripAdvisor属于开放式的网站,而Expedia只对在该网站有购买经历的消费者开放网评功能。从这个意义上讲,不同社交媒体往往代表不同的消费者市场和特定的商业模式,其数据的代表性很大程度上取决于采集数据的平台本身的特征。因此可以说,社交媒体数据质量有潜在的平台偏见。

其次,社交媒体个人用户也是造成数据不完美的重要原因。以网评为例,最近Streitfeld在《纽约时报》的一篇文章引用了一位评论人的话,认为产品的网评和打分往往是由“处于网络底层的粉丝、仇恨者和操纵者”贡献的,因而我们不应该对它们有过高的期望。Mkono和Tribe在Journal of Travel Research的一篇文章中谈到,旅游产品在线评论网站的用户不仅仅是评论人,而且往往扮演了其他重要的角色,比如活动家、社会精英,甚至恶搞者。从这个意义上讲,参与社交媒体的人群本身就具有“选择性偏见”。Stephens-Davidowitz的研究发现,在与Facebook类似的社交网站上,人们更倾向于分享“成功、富有、有吸引力、悠闲、聪明以及快乐”的经历,但是这并不能够代表大多数人的生活经历。此外,社交媒体数据尤其是在线网评数据不可避免地存在一些错误信息,比如拼写或输入错误。因此可以说,社交媒体数据可能存在各种各样的用户偏见。

第三,除了个人用户外,社交媒体的使用者还包括以营销为主要目的的商家,因此这些数据是否都是由真正的消费者生成值得怀疑。例如,Anderson和Simester发现在某零售商网站上,很大一部分网评是由完全没有购买该产品记录的“用户”提交,因此推断这些所谓的网评其实是商家雇佣的“水军”所为。同时,这些网评往往偏于负面,在语言特征上与虚假广告类似。已有不少研究确认,某些商业利益会导致网评中参杂一定数量的垃圾信息,甚至是完全不实的信息。

由此可见,社交媒体数据是平台、个人用户和商家互动的结果。在更大范围内讲,社交媒体还受各种社会、政治、经济和文化等大环境的影响。例如,社交网络实名制的实施会对群体行为造成一定的影响。这些因素都会影响数据的真实性、可信性和代表性。笔者认为,目前旅游社交媒体分析研究中,主要存在以下数据质量相关问题:

· 数据采集自单一数据源。例如,在基于网评数据进行相关研究的文献中,TripAdvisor是首选。由于存在平台偏见的可能,这些研究发现和结论只能算是众多的待选解决方案之一,其普适性值得商榷。

· 数据抽样缺乏系统化的方法,对数据本身所代表的人群特征也缺乏足够的认识。当前工作中的数据抽样往往采用了一些经验法则,比如在选择网评数据时用字数限制作为数据质量的过滤器,而字数长度作为标准是没有可靠依据的。更有甚者,很多研究对数据根本没有运用任何基本抽样方法,只是采用所有能够使用或得到的数据。

· 对可疑数据缺乏有效的认识手段和可行的甄别方法。例如,在线评论数据中存在一些人为错误,同时还有灌水数据,甚至虚假数据,目前还没有行之有效的方法对这些可疑数据进行识别和剔除。

值得一提的是,近年来社交媒体数据质量问题已逐渐引起旅游界学者的关注。在认识社交媒体平台偏见方面,Mellinas等人发现预订网站Booking.com在显示用户打分刻度时,可能会误导用户;Xiang等人在Tourism Management的一篇文章中,对美国三个最具代表意义的旅游在线评论网站(TripAdvisor,Expedia和Yelp)进行了对比分析,发现这三个网站的酒店网评在一些重要数据特征上存在明显差异。在认识网评相关的情感和语义等重要测量指数的研究中,学者们也开始意识到数据质量问题,Park和Nicolau用Yelp的餐饮业网评数据进行分析研究,发现网评情感和用户打分存在不对称关系,这个发现在Xiang等人的研究中也得到了部分验证。在鉴别数据噪音方面,Schuckert、Liu和Law用网评中的用户总打分和分项打分之间的不一致性作为可疑网评的甄别手段。最近,Xiang等人的另一篇文章发现,当TripAdvisor在要求网评人填写旅游目的时,用户往往提供不准确的信息,形成数据噪音,由此,他们开发了一套基于高质量网评的排序算法,来有效剔除噪音。这些研究表明,在社交媒体分析学的研究中,有意识、系统化地进行数据采集、预处理和抽样,对研究结论的合法性至关重要。

认识到社交媒体平台的本质,我们就能够有意识、有针对性地认识和处理社交媒体分析过程中可能存在的数据质量问题。当然,目前这些研究仅仅是一些探索性的工作,关于旅游相关的社交媒体研究的本体论和方法论基础,仍然有很多值得深入探讨的课题。比如,利用网评和博客来认识旅游目的地形象似乎正在成为一个趋势,但是,究竟什么样的数据能够用来描述目的地形象,这也是个合法性的问题。

吹糠见米,去芜存菁。笔者认为,对社交媒体数据质量的研究,不仅能够给旅游管理提供可靠的方法论基础,而且在假信息、假新闻泛滥的今天,更具有迫切的现实意义。

(第一作者系美国弗吉尼亚理工大学酒店和旅游管理系副教授,博士生导师,北京联合大学客座教授;第二作者系北京联合大学副教授,通讯作者;收稿日期:2017-08-11)endprint

猜你喜欢
社交旅游分析
社交之城
社交牛人症该怎么治
隐蔽失效适航要求符合性验证分析
社交距离
电力系统不平衡分析
你回避社交,真不是因为内向
旅游
电力系统及其自动化发展趋势分析
出国旅游的42个表达
户外旅游十件贴身带