王 莹,万舒晨
(1. 国家开放大学 统计学习中心,北京 100039; 2.国家统计局 a. 统计教育培训中心,b. 工业统计司,北京 100073; 3.中国人民大学 统计学院,北京 100872)
大数据时代抽样调查面临的挑战与机遇
王莹1,2a,万舒晨2b,3
(1. 国家开放大学 统计学习中心,北京 100039; 2.国家统计局 a. 统计教育培训中心,b. 工业统计司,北京 100073; 3.中国人民大学 统计学院,北京 100872)
摘要:传统抽样调查作为一门成熟的统计学分支学科,在样本统计方面发挥着重要的作用,但是在大数据时代背景下,该方法逐渐暴露出一些缺点。在分析传统抽样调查局限性和大数据自身问题的基础上,研究了大数据时代下抽样调查面临的机遇和挑战。研究表明,在某些情况下,大数据统计还无法完全替代抽样调查的独特作用,抽样调查还将在很长一段时间内发挥作用。大数据时代下,为了获得更好的数据分析效果,应将大数据和抽样调查充分结合,进而发挥它们不同的优势。
关键词:大数据;抽样调查;挑战;机遇
一、引 言
世界杯上的预测帝章鱼保罗给人们留下了深刻印象,殊不知谷歌、百度、微软等公司,利用与体育赛事相关的大数据,在赛事预测方面也取得了不错的成绩。近几年,随着Google预测冬季流感、奥巴马大选连任成功等大数据案例的不断出现,大数据应用可谓初战告捷。大数据与人们的工作生活息息相关,并且发挥着越来越重要的作用。维克托等人撰写的经典著作《大数据时代》,提出了有关大数据的三个基本观点:大数据不具有随机样本,而是全体数据;大数据不是精确性,而是混杂性;大数据不是因果关系,而是相关关系。他们认为,在大数据时代,“样本=总体”,抽样调查已经没有存在的必要[1]27-45。大数据时代下抽样调查何去何从,需要认真审视。本研究着眼于梳理大数据与抽样调查的关系;指出大数据对抽样调查而言,既是挑战也是机遇;分析了大数据时代下抽样调查的独特作用。本研究的意义在于:大数据时代下应充分结合大数据和抽样调查的优点,有效推进数据分析方法的研究,提高数据分析结果的质量。
二、传统抽样调查的局限性
由于传统的抽样调查是在数据采集和数据处理能力受到限制的条件下建立和逐渐发展起来的,因而传统抽样调查在大数据时代下必然存在一些不足。朱建平和蒋萍等学者已对抽样调查自身的缺点进行了相关分析[2-3]。对此,本文对传统抽样调查自身存在的局限性进行了归纳整理。
1.抽样框变动问题。抽样框的质量是影响抽样调查成功与否的关键因素。如果抽样框质量低下,会直接导致样本代表性不足,从而导致总体推算结果精度不够。在现实调查中,往往存在抽样框变动频繁、变动率较大的问题。比如小微企业抽样调查就面临企业新增和消亡变动频繁的问题;又如居民收入抽样调查中的人口流动问题,也经常出现户主更换或房屋空置的情况。这些情况导致企业抽样总体与目标总体出现了较大的差异。
2.多层次抽样推断问题。从当前中国统计调查工作的现实来看, 在中国开展调查尤其是抽样调查,如何满足各级政府管理的需要是一个必须直面的问题。然而,当今政府统计中大多执行以省为总体的抽样方案,落在市、县的省级样本往往有限甚至没有获得省级样本,这显然无法满足市、县级政府及时了解掌握管辖区域社会经济发展状况的需要。从某种意义上说,多层次抽样推断的要求与抽样调查的初衷背道而驰,并不符合节约调查成本的要求,抽样调查的优势及高效率无法体现。
3.调查目的固定问题。传统抽样调查中,调查目的一般需要事先固定,存在一定的局限性。然而,一旦调查实施中关注的重点有所变化,现有的抽样调查设计就无法有效满足新的调查目的或者对新调查目的调查精度达不到设计要求。为此,往往需要重新设计调查目的,增加调查成本,降低抽样调查的效率。
4.调查周期过长问题。进行一次传统抽样调查,需要包含确定调查目的、明确调查总体范围、收集抽样框资料、制定调查内容及表式、设计抽样方法及总体推断方法、确定抽样精度、培训调查员、数据采集分析、形成调查结果等流程。比如收集抽样框资料的过程,往往需要借助普查或相关行政记录数据,对时间要求较长,再如抽样方法的确定,也需要一定的研究测算时间。因此开展抽样调查往往周期过长,时效性较差。
5.多目标调查问题。实际调查中,为反映调查总体的全貌,往往需要了解核心抽样指标以外的其他重要指标。然而,传统的抽样调查方法一般仅仅为了反映核心指标的情况,难以反映与核心指标相关性较弱的指标情况,对多目标调查的抽样精度较差。采取多目标抽样调查时,往往需要较大样本量,调查效率不高。
三、大数据自身的一些问题
大数据时代的到来,最直接的影响就是数据收集能力发生了质的飞跃,海量数据源源不断产生,对抽样调查方式提出了挑战。本文经过综合对比分析,认为大数据时代数据的收集和处理存在一些问题,现归纳如下。
1.大数据关注相关关系忽略因果关系的问题。《大数据时代》一书中对于数据关系的基本观点是:不是因果关系,而是相关关系;知道是什么就够了,没必要知道为什么;在大数据时代,不必非得知道现象背后的原因,而是要让数据自己发声。让数据自己发声的观念本身没有错,这也是研究数据的较高目标,但是如果因此得出结论重视相关关系而忽略因果关系,这就存在一定的问题,往往违背了科学性。
大数据关注相关关系的例子不胜枚举。比如,沃尔玛公司会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客购买从而增加销量。再如,美国折扣零售商(Target)通过查看签署婴儿礼物登记簿的女性的消费记录,发现这些女性会在怀孕约第3个月时购买许多无香乳液,几个月后会购买镁、钙、锌等营养品,从而能够在客户孕期的每个阶段寄送相应的优惠券。这两个例子都是大数据中比较成功的案例,但不能就此认定,这是大数据关注相关关系忽略因果关系的功劳。飓风来了,人们需要手电筒预防停电,这具有比较明确的因果关系。那么飓风来临,人们可能也是需要比较方便的食物如蛋挞以抵抗飓风带来的不便,这可能存在一定的因果关系。同样,给孕妇寄送优惠券可能也存在一定的因果关系:因为怀孕了,所以选择更为健康的不含香精的天然乳液,需要补充更多营养品来确保孕妇和宝宝的健康。因此,两个案例背后的因果关系可能都是存在的,只是大数据不愿意或者说来不及去关注,仅通过表层的相关关系就得出了结论。如果仅仅通过相关关系分析,分析结果往往是相当脆弱的,得出的结论可能会出现较大的偏差。例如,谷歌对于流感的预测在前期成功后对于近期一次流感爆发的趋势预测结果,比实际情况要夸大了几乎一倍。
2.大数据放松数据质量的问题。大数据的目的是获得大量的数据来发掘在小数据时代无法得到的结果。但是,大数据的数据规模实在太大,不得不放松对于数据精确性的要求,降低数据的容错标准。因而,客观条件决定了大数据允许不精确性,接受混杂性,容许将一些错误的数据参杂到数据集中。然而,这不是大数据可以放松数据质量、降低数据精度要求的借口。可以说大数据的这点初衷是好的,但出现错误的可能性也很大,往往可能造成得不偿失的结果。比如,假设全国小微企业的主营业务收入利润率为5%,但是如果通过大数据,根据企业的相关业务经营活动记录(可能参杂大量的错误数据)得出错误的利润率为12%。试想,以此结果制定相应的小微企业政策,就会出现很大的问题:小微企业的盈利能力都这么强了,还需要出台相关扶持小微企业的政策吗?小微企业可能由于这个错误的大数据分析结果,错过被扶持发展的良好机会。
笔者认为,造成大数据出现数据质量低下的问题可能有以下几方面的原因。
第一,大数据收集的无效信息过多。有学者指出,大数据是由90%的无效信息和10%的有效信息构成的。虽然此说法不一定非常准确,但指出了大数据的不足。大数据收集的无效信息过多,大量的无效信息往往与有效信息混杂,对研究者的统计推断产生严重干扰。因此,如何鉴别和测量大数据中无效信息的影响,有效净化大数据,是摆在深化大数据研究和应用面前需要克服的重要问题。第二,大数据收集数据的准确度不够。大数据收集数据的过程,与建立在对问题的真实状况进行有效了解基础上的抽样调查方式完全不同。大数据收集的主要途径是通过互联网中的关键词搜索量来进行相关统计分析。但是在数据的实际收集过程中,研究的复杂问题并不能仅用个别关键词就能真实反映。通过互联网关键词进行搜索所获取的大数据信息,往往不能代表所研究问题的全貌,甚至是大相径庭。某种程度上说,这仅仅是所要研究问题的一些相关的辅助信息,并不直接反映真实总体的确切信息。因而,在利用大数据进行分析时,数据收集的准确度就变得非常重要。大数据分析非常强调效率,这往往导致准确度不够,因而如何平衡效率和准确度这两者之间的关系,是大数据分析中非常棘手的一个问题。
3.大数据的高维问题。大数据自身具有两个特征:大维度数据集和数据稀疏性,这也是高维数据的特质。描述某一现象的多变量数据,即为高维数据。随着数据维度的提高,大数据提供事物现象的相关信息更加丰富,但是高维数据的处理方法非常困难,可能造成“维度灾难”。大数据的高维度问题,可以解释为决策因素随着数据的样本单位数n呈现出更高量级引起的解的不确定性与经典统计推断失效的问题。在传统的经典统计中,样本单位数n远大于数据的维度p,而大数据分析中,数据的维度p,往往远大于样本单位数n。在大数据的高维度研究中,稀疏性是研究的热点问题。何为数据稀疏性?简单来说,就是数据尽管变量很多,很多都是0。比如,国家安全非常重要,从而对南海的监控范围很大,但是如果关注的是南海上的舰队,那只是监控范围中很小的一部分,其他部分用数值表示就是0。
四、大数据时代下的抽样调查
一些学者对大数据时代下的统计学方法进行了相关讨论[4-7]。虽然大数据发展到目前阶段还存在一些有待解决的问题,但笔者认为对传统的抽样调查方式而言,这既是挑战也是机遇。
(一)大数据对抽样调查提出挑战
第一,对《大数据时代》中强调的“样本=总体”的观点存在争议,事实上不可能完全利用存在无效信息的全部大数据进行分析,因此抽样调查仍然大有可为。抽样调查强调的是“窥一斑而知全豹”,从充分均匀的单位中选取一部分,就能有效推断总体的情况。但是在大数据时代,面对源源不断的数据流,如何科学地从中选取合适的样本入样,从而保证抽样调查样本的精度和统计分析的目的,这是大数据时代下抽样调查面临的最大问题。
第二,大数据是动态实时变化的,因而统计调查分析的目的可能也随之不断发生变动。在前期获得部分样本的情况下,需要研究根据已知的样本逐步调整调查的项目,从而获取感兴趣的抽样对象,使得这些“热门”样本数据能够适时入样。耿直指出,建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率,从而准确地实时保证样本对总体的代表性和推断的准确性[8]。另外,在大数据时代不应拘泥于概率抽样,可以尝试引入非概率抽样。比如针对大数据的动态变化,可以适时引入新种子,采用“滚雪球”抽样方法不断扩大样本认知的广度和深度。当然,也可以采用类似于“滚雪球”法的适应性抽样方法[9],尝试动态调整初次样本的入样规则和样本外推的判断准则,更好地适应大数据的特点。
第三,面对大数据动态变化的特点,传统抽样方法可能导致抽取样本的偏态。比如,针对新出现的热门案例是不常见案例的情况,如果运用传统抽样方法,可能导致案例样本单位入样的数量过少而抽取了过多的非案例样本。对此,需探索“基于事件”的抽样方法,重点关注总体中较难获取的数据部分。
(二)大数据时代下的抽样调查充满机遇
1.大数据拓宽了抽样调查数据采集的渠道。大数据时代,数据采集不再局限于常规模式,许多数据获取的渠道大大扩展,一些传统概念中无法获取数据的渠道在大数据时代均有可能进行有效的数据提取。首先,互联网和手机移动端是大数据时代下数据采集不可忽略的重要渠道;其次,数字化的行政商业记录也成为数据采集的有效渠道;最后,现场数据采集的调查模式可能逐步将被超市收银系统、银行转账和支付记录、网络支付账户等渠道取代。大数据为抽样调查数据采集提供了很大的便利,能够降低调查成本,缩短调查时间。
2.大数据为抽样框的及时更新维护提供了便利条件。抽样调查在传统条件限制下,面临的最大问题是抽样框不完善的问题,传统的抽样框更新和维护方法存在成本高、时效性差等缺点。大数据时代下抽样框的更新维护,实质就是将实时变化的大数据信息进行有效地采集和整合,转化为抽样框更新维护时可以有效利用的数据信息的方法。傅德印等学者提出利用异源异构互联网作为数据源,作为对抽样框更新维护的一种补充方法[10]。
3.抽样调查可作为弥补大数据因果关系分析的有效手段。基于一些主客观条件,大数据仅重视相关关系而忽略因果关系。因果关系有别于一般的相关关系,它是提供更多数据信息的一种特殊相关关系。在大数据缺乏因果关系分析的条件下,可考虑将抽样调查作为数据挖掘、探测数据因果关系的方法工具,从混杂的大数据中探寻规律和关系,选取具有代表性的样本对大数据进行深入分析,能够在相关分析的基础上较好地分析大数据的因果关系,深度研究事物之间联系的本质原因,从而做到“知其然也知其所以然”。
4.抽样调查可作为大数据分析的对照基础与验证依据。对于从混杂大数据中得到的结论,抽样调查可作为大数据分析结果的对照和验证工具。在研究数据质量、判断数据结果可靠程度、探讨数据之间的关系、分析数据类型、进行数据降维和选择数据的分析模式等方面,抽样调查效果非常明显[11]。抽样调查可以有效验证大数据推断结论的可靠程度,从而及时发现问题、分析问题并解决问题,避免大数据可能出现的错误推断结论所造成的不利影响。
五、结 论
大数据时代来临,大量数据信息源源不断,“样本=总体”的概念对传统抽样调查提出了严峻的挑战。本文在分析传统抽样调查局限性和大数据自身问题的基础上,详细分析了大数据时代下抽样调查面临的挑战和机遇,说明大数据时代不再需要抽样调查的观点过于片面,大数据无法替代抽样调查的独特作用,抽样调查仍然可以大有所为。大数据有大数据的优势,小数据的抽样调查也有其独特的优点,在大数据时代两者缺一不可,应该将大数据分析与抽样调查分析相结合,从而能够取得更加令人满意的结果。
参考文献:
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代——生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州: 浙江人民出版社,2013.
[2]朱建平,章贵军,刘晓葳. 大数据时代下数据分析理念的辨析[J]. 统计研究,2014,31(2).
[3]蒋萍,马雪娇. 大数据背景下中国时间利用调查方案的改革与完善——基于中、日、美时间利用调查方案的比较[J]. 统计研究,2014,31(8).
[4]邱东. 大数据时代对统计学的挑战[J]. 统计研究,2014,31(1).
[5]李金昌. 大数据与统计新思维[J]. 统计研究,2014,31(1).
[6]李金昌. 从政治算术到大数据分析[J]. 统计研究,2014,31(11).
[7]戴明锋,刘展. 大数据理解误区解读[J]. 中国卫生信息管理杂志,2015,12(1).
[8]耿直. 大数据时代统计学面临的机遇与挑战[J]. 统计研究,2014,31(1).
[9]Thompson S K. Adaptive Cluster Sampling [J]. Journal of the American Statistical Association,1990,85(412).
[10]傅德印,黄恒君,陶然. 大数据视角下名录库更新维护——基于互联网异源异构数据整合的探讨[J]. 统计研究,2015(1).
[11]刘军华.大数据视野下统计数据质量演变的信息回归、分布与趋势[J].统计与信息论坛,2015(9).
(责任编辑:李勤)
Challenges and Opportunities of Sampling Survey in the Age of Big Data
WANG Ying1,2a, WAN Shu-chen2b,3
(1.Statistical Learning Center, Open University of China, Beijing 100039, China;a.Statistical Education and Training Center, b.Department of Industrial Statistics,2.National Bureau of Statistics of China,Beijing 100073, China;3.School of Statistics, Renmin University of China, Beijing 100872, China;
Abstract:As a mature sub-discipline of statistics, sampling survey has always been playing important roles in sampling statistics. Yet, under the background of big data, it has gradually revealed some drawbacks. This paper analyses the disadvantages of sampling survey and big data, and makes detailed analysis to the challenges and opportunities of sampling survey in the age of big data. Researches indicate that under certain circumstances, the special roles of sampling survey can't be fully replaced by big data, and sampling survey will be used for a long time to come. Despite that, in the age of big data, big data shall be fully combined with sampling survey to get better effects of data analysis and give full play to their different advantages.
Key words:big data; sampling survey; challenges; opportunities
收稿日期:2015-11-18
作者简介:王莹,女,北京人,硕士,讲师,研究方向:统计分析与统计教育;
中图分类号:C811∶C829. 2
文献标志码:A
文章编号:1007-3116(2016)06-0033-04
万舒晨,男,江苏扬州人,博士生,高级统计师,研究方向:抽样调查理论与方法,大数据分析。
【统计理论与方法】