闫荣国,刘天信
(西安文理学院 区域教育发展研究中心,西安 710065)
【经济学研究】
大数据时代统计变革与应对之策探析
闫荣国,刘天信
(西安文理学院 区域教育发展研究中心,西安 710065)
大数据时代的来临,促使数据存在方式、搜集思路与分析方式正在发生着深刻变化,也给统计学发展带来了重大挑战。为此,需要着力推进统计理论创新,切实提高统计后备人才的培养质量,推动统计学进入新阶段。
大数据;统计变革;理论创新
随着互联网、物联网、无线传感器、移动服务与云计算的快速发展,全球数据量呈现爆炸式增长趋势,当今世界进入了“大数据时代”。一方面人们在主动获取数据,特别是“经济、金融和人文社会科学领域的一些人通宵达旦地收集着大量观察和调查数据,他们相信这些数据会对别人有用”;[1]另一方面,人们在被动囤积各种形式的数据。与以往相比,这些数据的“来源、容量、类型、速度与量化方式”等发生了或正在发生着前所未有的变化,这使作为“获取与分析数据的方法论科学”的统计学面临着重大挑战。尽管统计学的研究对象没有变化,但是研究对象的基础变了,统计观念、思维方式以及以此为基础的统计设计、数据收集、处理、分析与发布等都要主动地或被动地发生变化。
大数据时代的到来,使人类的行为与思维方式悄然发生着变化,这就需要统计工作与统计学进行相应的变革以适应这种变化。相对于传统的统计数据分析,大数据时代的数据分析至少有三个方面的显著不同:一是处理对象不再是随机样本,而是总体数据;二是对数据混杂性分析的关注度超过对精确性分析的关注度;三是相关性分析优于因果关系分析。也就是说,大数据时代的数据分析比传统数据分析“更多、更杂、更好”。[2]这意味着统计研究对象的基础发生了变化,统计思维以及相应的统计活动的各方面、各环节也要随之改变,这样才能主动适应、有所作为。
人类测量、记录与分析世界的渴望是统计发展的核心动力,也是大数据发展的核心动力。而人类从事统计活动的目的,是通过数据分析去揭示事物的本来面目,核心是“以数据背后的数据去还原事物的真相,以达到求真的目的”。[3]传统统计囿于各种条件,往往根据有限的样本数据达到这一目的,而大数据时代则利用“大数据”去实现此目的,这个阶段数据的存在方式、数据的收集、整理与分析方法,与传统统计阶段相比,已有明显不同。
(一)数据存在方式有变化
一是数据承担者身份由可识别变得很难追溯。传统统计的数据承担者,是根据特定目的确定的个体,可方便地识别其身份特征,通常在获取数据后可核对个体的身份信息。而大数据来自于现代信息技术支撑的网络上一切可记录的信号,它随着相应活动的进行而产生,数据承担者的身份一般很难识别与追溯。
二是数据类型除结构化数据外,还有半结构化、非结构化及异构数据。传统统计处理的结构化数据有固定的格式、标准、存储容量与范围,有不同的测度层次和相应的运算类型,可以由关系型数据库存储与管理,不同的信息系统使用相同的数据识别方式和统一的数据分类标准,相互间可数据共享。现阶段,由一切可记录、可存储、多样化、无标准的电子信息组成的非结构化或异构数据,难以使用现有常规变量、统计指标与统计图表来体现,也难以由关系型数据库存储与管理。不同信息系统的数据分类标准与识别方式区别很大,更不用说数据了。
(二)数据搜集思路有变化
传统统计的数据收集思路可表述为:先根据统计研究目的确定总体及构成单位,然后依据总体与个体的不同特征,设计统计调查方案,向足够多的个体单位收集基础数据,往往投入大而得到的信息量有限,获得50个及以上样本点信息就成为大样本了。它解决的问题是对研究对象一无所知,到获得一定量的样本数据,被形象地归结为“无中生有”,[4]由少到多,数据量的边界是数据推断精度与数据收集费用支出之间的均衡点,这是传统统计活动的重心和难点。其基本理论依据是大量观察法——对足够多的个体进行调查,以确保有足够的信息消除或削弱个体偶然性对总体数量特征的影响。这里的“大”是足够多的意思,度量单位是样本点个数,其超过50或30就意味着“大”。
大数据下数据收集思路可表述为:在数据搜集之前,已拥有了超量的、种类繁多的、不同来源的大数据集。需要做的是:面对大量数据,如何甄别数据的真伪?如何确定数据的时间节点?如何提炼出符合研究目的的有用数据?或者说如何把大数据集中的垃圾数据、无用数据以及虚假数据过滤掉?即“从已有数据集中识别、整理、提炼、汲取和存储有用数据的过程。”[3]这一过程的重心与难点是有选择地删除无用数据,获得有用数据,即“有中生用”。[4]大数据的“大”是数据容量大,类型不限量,数据量的边界取决于数据来源与存储容量,与样本容量无关。大数据的“大”,是全体的意思,其计量单位是字节(B)。近30年来,人类使用的数据(库)容量从KB级迅速跨越MB、GB级,到达TB级甚至PB级。
(三)数据分析方式有变化
大数据下的数据分析,是从剔除噪声的大容量数据中,利用现代信息技术与工具和适当的统计分析方法汲取有用信息。与传统统计数据分析方式不同,大数据下的数据分析具有如下特征:
第一,分析过程可归结为“定量—定性”两阶段,不再是“定性—定量—再定性”三阶段。传统的统计分析通常被归结为“定性—定量—再定性”的过程,即对分析对象的先验认识(定性),确定合理变量(定量开始),通过构建变量间的统计模型,得到新变量或变量间的关系型式(定量结束),来达到对研究对象更深入或更高层次的定性认识。第一个“定性”是不可或缺的阶段,因为它确定了定量分析的方向与切入点。如果它有错误或有偏差,不仅导致定量分析毫无用处,而且使“再定性”成为对“事物真相”的扭曲反映。大数据下的数据分析直接面对大量数据,从各种“定量回应”中找出反映研究对象的数量特征与关系,作为决策依据。尽管表面来看这一从“定量”到“定性”的过程,似乎只是传统统计分析过程的后半部分,但其数据处理量、处理方法可能与传统统计分析截然不同,并不比传统数据分析容易。
第二,分析思路可归结为“发现规律——归纳结论”,而不再是“提出假设——验证假设——做出决策——得到结论”。传统的统计分析思路为:先在定性分析的基础上提出研究假设,然后观察样本信息是否支持该假设,据此作出决策,进而得出结论。实质是相关命题是否有样本支持,若有样本支持,决策者总觉心中踏实一些。这种将结论建立在一定概率保证基础上的决策,永远摆脱不了“弃真”或“取伪”的“魔咒”。因此传统统计分析结论的可靠性至少取决于三个因素:样本的好坏,假设正确与否,数据处理是否得当。大数据下,可对全体数据进行分析,探索变量之间的关系,发现规律,归纳出反映事实真相的结论。这种结论不需要一定概率保证,其结论正确性与样本和假设无关,只取决于人们分析大数据的能力如何。
第三,分析的逻辑关系可归结为“总体分布—信息汲取—概率判断”,而不再是“样本分布—概率保证—推断总体”。传统的统计推断,是根据样本统计量分布,结合统计模型对总体特征做出具有一定概率保证的估计、检验和预测。而在大数据下的数据分析,分析对象不再是样本数据而是全体数据,只要对其进行计数与计量分析就可归纳出总体特征,分析结论不再与样本和保证概率大小相关,也就没有计较发生“弃真”或“取伪”错误的必要。不仅如此,还可根据总体分布计算某种情况发生概率的大小,用这个概率进行预测,对未来的把握程度更高。
第四,分析的评价标准需要重新设定,且误差分析与防范的侧重点发生了变化。传统统计分析的两个评价标准——可靠性与有效性,均与抽样有关。可靠性是指样本正确推断总体特征的概率大小,有效性是指推断总体的样本统计量的标准差大小(精确性)。在大数据下的数据分析,分析对象为总体数据,样本消失,以样本为基础的这两个评价标准显然没有存在价值。数据分析结果是否反映了事实真相,数据提供的观察值与真实值的吻合程度(误差)如何度量,这些都需要进一步研究与设定。传统统计分析中,误差由抽样误差与非抽样误差组成。非抽样误差在数据量不大的情形下可通过各种方式进行识别,并通过改进数据收集、整理等环节的工作质量加以防范与控制,它往往不是传统统计分析的关注重点,其关注重点是分析与控制抽样误差。大数据分析中,抽样误差不复存在,与传统“非抽样误差”类似的“误差”成为影响分析结果准确性的唯一决定性因素。大数据下的超量数据,加上数据结构的混杂性、来源的多样性,使这种误差的识别、控制与防范变得更为重要,也更加困难。
大数据的迅猛发展之势对统计学的挑战,绝对不能视而不见。既不可抱残守缺,忽视大数据对现有统计的影响,那样将使作为数据科学的统计学被边缘化;也不可妄自菲薄,认为传统统计方法与技术已过时,数据分析需要另起炉灶而否定现今统计学发展的积极成果。正确的态度应当是充分认识大数据对统计学的影响,着力推动统计理论与方法的创新。
(一)总体、个体及样本含义的新界定
传统统计活动中,先有总体与总体单位,后有数据,总体单位是可识别的,数据也可以事后核实。总体被界定为研究对象的全体或随机变量,个体是组成研究对象的单位或对研究对象的一次观察,而样本是对研究对象(随机变量)的有限次观察结果。大数据下,先有数据,后有总体,即无事先定义的目标总体的情况下产生了大量数据,“往往是只见‘数据’的外形而不见‘个体’真容”,[3]很难进行个体识别与数据核实。但仍需确定研究对象,即确定总体口径与识别个体身份(是否包括在总体中)。从大数据集中,根据分析目的与需要提取数据,构成有用数据集,是否为样本,这需要对大数据下的总体、个体与样本含义和样本的获得方式重新界定。
(二)不确定性的新认识
不确定性是统计学产生的基础,其表现形式是个体的差异性。统计学就是通过分析总体的不确定性来揭示真相、发现规律,认识现象不确定性背后的必然性。传统的统计分析,通过抽样获取数据,样本获取有不确定性,通过样本数据构建模型、推断总体特征均需要考虑这种样本不确定性的影响。而大数据下的数据是在一定条件下所有个体的观测结果,这时的不确定性来源是什么,表现形式是什么,对数据分析结果有什么影响,都需要重新梳理与界定。
(三)抽样调查功能的新拓展
抽样调查作为传统统计中最重要的数据收集与分析方式,其理论与应用已趋于成熟。在很多情况下运用抽样理论设计的方案能够保证数据收集与推断的可靠性与精确度。但抽样调查也有难以克服的缺陷:随机性很难实现,不适合考察子类别情况,调查结果缺乏延展性,忽略了细节考察,无法用于奇异值分析等,即随机性难保证、信息量有限、不可连续扩充、前期准备工作要求高等。在大数据下,可利用一切可以利用的、海量的、接近总体的数据,而不限于有限的样本数据。但样本数据可以作为大数据分析的对照基础与研究结论验证依据,作为数据挖掘、快速探索性分析的工具与线索。这些新功能怎样使用仍需进一步研究。
(四)数据分析中推理方法的新扩充
传统统计分析中,无论是描述性统计还是推断性统计,归纳法是最基本的统计研究方法。大数据下,“‘从数据中提取一切信息’或者‘归纳和揭示’(规律及真相)作为统计分析的目的一直没有改变”。[5]与传统样本相比,大数据集蕴含信息更丰富、更全面,不仅可概括归纳总体的一般特征,而且可分析子总体乃至个体以及一些特殊的异常的信息。传统统计分析中,这种分析尽管有需要,但信息量有限而不可能实现。还可通过已知的总体分布特征等知识与经验,运用演绎推理方法,去探索更具体、更深层次的规律与关联关系,去认识研究对象更细小的特征。如何将归纳法与演绎法综合应用,为统计思维方法与理念发展提供新方向,使人们利用大数据获得总体数据,对必然性和偶然性关系进行更全面、更深入的认识尚需进一步研究。
大数据时代的到来,对既熟悉职业岗位需要又了解大数据技术与应用的管理者和深度数据分析的统计人才的需求越来越大。有人说,“21世纪是统计学的世纪”。[6]这就要求紧密跟踪大数据统计学发展动向,不断更新统计教学课程体系和教学内容,培养与造就能胜任大数据挑战的统计人才与后备力量。
(一)构建有效的统计学课程群
统计学从诞生之日起,就是一个有广泛学科背景的交叉性与融合性的科学。“统计学只是数据科学体系中的一个组成部分或构件”,“对所应用领域而言,其应用范围越广,越是大数据,越说明其方法论性质,越说明其工具性和基础性”。[4]统计学并不是唯一的数据科学。数据科学至少有四门:“计算机科学、数理统计学、图形设计学与人机对话学”,统计学只是数据科学的一种。大数据时代的“统计学”已处于一个以计算机技术为基础和工具,以统计学为方法论,以探索和展示数据“奥秘”为目的的“学科群”中。为此,应该适应这种转变,在非统计学专业开设以统计学为核心的课程群,培养学生较高“驾驭”数据的能力。课程群应包括计算机应用基础(包括结构性数据处理和关系型数据库的知识)、概率论(统计学的学科基础)、统计学(含描述性与推断性统计)、统计学实验(Excel、SPSS、Eviews、Matlab及Mathematics等软件使用)。
(二)改革统计学教学内容与方式
剔除统计学教材中过时的内容。过去因数据存储能力与计算工具落后,个体数据难以保存,仅保存与发布使用分组后的次级数据。而对分组数据,设计了很多以加权为特征的统计计算公式,这些公式的运用在过去作为主要教学内容是必要的。现阶段,海量个体数据可以被保存下来,计算数字特征与统计分析指标只用简单式就可完成,加权类公式已用不到,应从教材中果断剔除,而加入大数据下统计分析的新进展、新技术等相关内容。
实现统计方法讲解与计算机处理的无缝对接。统计学教学内容设置应有两条主线:一是统计方法原理的介绍,二是统计方法的计算机实现,两条主线应高度融合。如统计分组,除讲清原理和注意事项外,重点应学会Excel下Frequency函数的使用;随机抽样,应学会如何利用软件得到随机数集作为样本;参数估计与假设检验应学会利用Excel获取各种分布的概率及分位数,学会利用软件制作教材中统计附表,使学生意识到电子表格比纸质表格具有“精确度高、输入变量范围广,使用灵活且方便”等众多优势。
数据创造统计,应用推动创新。统计教育为统计创新造就了一代又一代的新生力量。抽样(典型小数据)推动了经典推断统计的发展,计算机架设了统计研究从理论到实践的桥梁,互联网等技术的发展使统计进入了大数据时代。着力开展统计理论与方法创新,提高统计后备力量培养质量,才能推动统计学迈向新阶段。
[1] 耿直. 大数据时代统计学面临的机遇与挑战[J].统计研究,2014,(1):5-9.
[2] [英]舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛译. 杭州:浙江人民出版社,2013.
[3] 李金昌.大数据与统计新思维[J].统计研究,2014,(1):10-17.
[4] 邱东. 大数据时代对统计学的挑战[J].统计研究,2014,(1):16-22.
[5] [美]C. R. RAO.统计与真理[M].李竹谕,石坚译.北京:科学出版社,2004.
[6] 石方川.得大数据分析者得天下[J]. 调研世界,2015,(2):62-63.
[责任编辑 石晓博]
Analysis of Statistics Transformation and Counter-measuresduring the Age of Big Data
YAN Rong-guo,LIU Tian-xin
(RegionalEducationDevelopmentResearchCentre,Xi’anUniversity,Xi’an710065,China)
The existing way of data, data collecting and method of data analysis have greatly changed during the age of Big Data. It has brought great challenges to the development of statistics. In order to cope with the challenge, statistical theory innovation and personnel training should be improved so as to promote statistics into a new stage.
big data; statistics transformation; theoretical innovation
2015-05-30
2013年国家社科基金项目:我国通货膨胀率周期波动与动态调整机制研究(13CJY011)阶段性成果;2014年西安社科基金“文理”专项项目:现代大学制度视野下西安市属高校内部治理体系研究(14WL15)
闫荣国(1970—),男,甘肃正宁人,西安文理学院区域教育发展研究中心副教授,经济学博士,主要从事教育统计理论与实证方法、教育经济学研究。
F272.7;C32
A
1008-777X(2015)05-0072-04