潘冰
一、 大数据发展阶段
在国内外,整个大数据的研究到现在已经过了炒作的阶段。Gartner咨询公司推出的技术发展周期报告认为,技术发展会经历这几个阶段:技术的触发阶段,期望的顶点,失望的壕沟和生产力的爬坡。2011年,大数据首先出现在这个曲线上,那时正是这个概念在媒体上大量炒作的阶段,正从技术的触发点急剧上升;2012年,大数据正接近期望值的顶点,是媒体和学术界炒作最火的时候,期望值最高;2013年,已经开始下降;2014年,大数据的期望处在急剧下降时期,一些相对具体的技术,像预测分析和针对地理位置的应用,正处在成熟的产生生产力的阶段。大数据这个概念,已经被细化的技术手段所替代了。
大数据的研究开始于搜索引擎的数据。2008年,《自然》杂志发表了谷歌科学家一篇关于利用谷歌关键词搜索量预测流感的文章。美国疾病控制中心对流感的预测一般是利用医院和医生报告的数据,但是病人通常先搜索相关的关键词再去看医生,这样谷歌搜索的流感可以提前两周预测出流感的爆发,而且准确率很高。但《科学》杂志在2014年发表了一篇文章,专门指出谷歌预测的不准确性。谷歌有些预测是实际病人数量的两倍;谷歌的流感预测总是多于实际流感的发生。谷歌的预测并不比美国疾病控制中心时间序列预测方法更准确。这里首先有过度拟合的问题。谷歌有成千上万的关键词,你总会找出一些拟合度高的词,但可能完全没有关系。再者,谷歌在不停地改变界面和算法。比如最近,当你键入搜索词的时候,谷歌有对最热关键词的提示,这样也导致了用户行为的变化。这样一来,历史的数据和最新关键词的数据性质已经有了改变,不具有可比性,那么,模型已经不再成立。而且谷歌从来没有说明他们自动选取的45个关键词是哪些,这些不透明的算法导致研究成果很难被复制。大数据的旗帜性项目就此寿终正寝。
二、 旅游大数据研究进展
在旅游大数据研究中,预测是个重要的方向。大尺度的预测,比如每年或每月的预测还比较精确;小尺度比如每周每天的预测不是很可靠。我们的研究发现,如果加入谷歌某些有关旅游的搜索关键词的搜索量作为外部变量,可提高美国南卡查尔斯顿酒店周入住率预测的准确性的30%;同样的,因为很大一部分的查尔斯顿的游客在去旅行之前,会去旅游局的网站查看信息,旅游局的网站的流量也是游客量的一个提前表现,那么,我们用查尔斯顿旅游局网站流量作为外部变量,加入时间序列模型,这样可以提高当地酒店周入住率预测的准确性的10%。在国内,有研究者也发现百度关键词的搜索量,加上时间序列预测方法,可提高海南省月游客量预测的准确性;黄先开等的研究发现百度关键词的搜索量可提高故宫月游客量预测的准确性的15%。
但旅游大数据也产生了很多的问题。比如,我们需要对一个城市旅游者数量的调查和统计。对一个旅游地旅游者行为的研究方法有很多种,比如拦截调查,在一些地段访谈旅游者;比如入户调查,在全国范围内随机抽样选取家庭入户调查然后询问他们出游的行为和花费;也可以用税收数据来估算;還可以用移动设备来研究旅游者的数量和行为。美国的一个公司AirSage,利用手机和塔台的交流进行定位,他们有两大手机公司Verizon和Sprint的所有数据。Verizon有1/3的市场占有率。他们每天都在手机公司服务器下载海量的数据。但是因为数据非常多,平均买一个月的查尔斯顿旅游者的数据就要几千美元,所以不可能查看一个移动设备一年之内的移动。所以我们在估算美国南卡查尔斯顿旅游者数量的时候,只能购买几个代表月的数据。这个公司是这样定义旅游者的:如果一个移动设备在一个月之内出现在查尔斯顿,但大部分晚上(>15天)出现在查尔斯顿以外的地区,就被AirSage定义为查尔斯顿的旅游者。但我们知道旅游者的传统定义,比如旅游卫星账户,是一年之内,过夜游客或者是50英里之外的非工作的访问者。
我们用各个方法对查尔斯顿的旅游者进行估计,结果得到不同的数据:入户调查说是610万;酒店税收数据说是600万;问卷调查数据500万;南卡公园休憩旅游局数据是660万;而移动数据的估算是490万。这些数据明显不包括不用美国手机的海外游客,也不包括停留时间超过15天以上的游客。和其他数据相比,我相信移动的数据是低估了。
旅游大数据显示的人口统计学特征也有不同。移动数据可以精确到每个乡,问卷只有几百个调查数据,当然不可能精确到乡和城市。移动数据反映出来的游客更多来自周边地区——美国的东南部;而问卷调查结果显示游客来自较远的地方,因为我们只选取了市中心的旅游景点进行访谈,而更邻近地区许多走亲访友的游客恐怕没有到景点游玩,就较少被访谈到。但反过来讲,这部分游客花费少,对旅游业的贡献也少,他们的意见对旅游业也不是很重要。类似的移动数据显示出来的游客收入较低,而问卷结果较高,显示大多数游客年收入在7万~10万美元之间。移动数据显示出来的平均停留时间比问卷停留时间少一天左右,因为他们对游客的定义中没有包括停留15天以上的游客。
总体来讲,数据来源方法的不同导致了结果的不一样。其实细算一下,如果包括所有的花费,总共的费用差不多。但是移动数据抓住了将近50万的游客,问卷只有700多个;移动数据每个游客的费用是3美分,而问卷是19美元;移动数据每个游客大概有9个数据点,而问卷有124个数据点,包括花费、爱好、信息源、旅行计划等;能回答的每个问题,移动数据花费是1667美元,而问卷是412美元;移动数据的误差只有1%,问卷有4%。细致比较起来,这是两种研究方法的不同。看起来移动数据占优的地方更多,但问卷调查能回答移动数据不能回答的很多问题,虽然精度较低,但每个问题的花费其实更小。
三、 大数据的优劣势和展望
总结起来,大数据的优势有:几乎是全部数据,可以没有抽样误差;数据可以细致到每个个体;多个数据源的集合会发现意想不到的关联和结论;可以达到实时反馈。大数据的劣势在于:费用较高;我们有时候不需要那么精确的数据;当我们看到的广告太针对我们的偏好、过于细分时会很可怕;大数据能回答的问题还很有限,移动大数据公司可以回答旅游者去过哪里,不能回答他们的花费情况。如果能把信用卡的数据和手机数据结合起来会十分有用,但法律和商业利益阻碍了数据的分享。很多时候研究者不知道到底是真实因果关系还是虚假相关。很多时候是变量,是虚假相关,所以预测能力并不高。
对于旅游大数据的未来,我们已经过了炒作的阶段,研究者要从相关性的证明转向精确性的计算;把旅游大数据和旅游官方统计数据、企业营销数据相结合才会有生命力。对旅游的一个简单定义就会影响研究的结果。更重要的是,需要多方数据的共享 —— 不仅是大数据革命,而且是全数据革命。把大数据和问卷数据、金融数据结合起来才更有效果。而且,我们也需要大数据产生算法的透明和重复性,这样才能使研究更进一步。
(作者系该系副教授;收稿日期:2017-06-10)endprint