张明康、张超
(无锡市统计局,江苏 无锡 214131)
大数据时代来临对政府统计影响探析
张明康、张超
(无锡市统计局,江苏 无锡 214131)
随着信息技术的发展,大数据时代已经到来。大数据不仅仅表示海量的数据,也涵盖了海量数据处理技术。大数据之于政府统计不仅是一项严峻的挑战,也是政府部门进一步改革发展的良机。怎样应对大数据、运用大数据,是值得政府统计部门仔细考虑的一个问题。
大数据;机遇;挑战;改革
国家统计局局长马建堂在会见阿根廷统计与普查局局长时指出,大数据是统计系统以外以电子形态存在的海量数据,大数据对于统计工作既是挑战也是机遇,并表示国家统计局正组织力量研究如何在统计工作中利用大数据。作为专业从事数据统计工作的政府统计部门,在大数据时代来临时,应该如何应对,是所有统计系统人员都应该认真考虑的问题。
维基百科对大数据的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据具有4V特征:Volume、Velocity、Variety、Veracity,即体量大、多样性、价值密度低、速度快。
大数据是一个体积特别大,数据类别特别多的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理;大数据中数据的种类和格式冲破了以往所限定的结构化数据范畴,囊括了半结构化和非结构化数据,包括文字、图片、视频和二维码等;大数据的真实性也非常高,因为这些数据来自于真实的社交、商业交易与设备应用等新数据源;正由于大数据数量巨大,有价值数据的密度就会显得较低,最常用的例子就是监控视频,长串视频信息中有价值数据占比很小。
目前大数据主要是由三项技术汇聚组成:一是海量数据收集技术,主要负责收集产生于个人网页、购物网站和各种设备传感器上的信息数据;二是海量数据存储技术,主要负责存储收集来的结构和非结构化数据;三是海量数据处理技术,这是大数据技术中最关键的一环,主要利用一些计算模型,从海量数据中挖掘出具有价值的信息。
相对应的,大数据处理的整个流程可以概括为三步,分别是数据采集、数据分析和数据挖掘。先是利用大型存储平台收集数据,并进行粗加工;再利用分布式数据库对平台上的数据进行简单分析和分类汇总;最后对数据进行高级别的挖掘分析,得出有价值的趋势信息或个体偏好,满足不同数据分析的需求。
数据资源已成为国家竞争的前沿,是企业创新的来源。作为一直以来站在数据收集与统计分析第一线的统计系统,更应该第一时间拥抱大数据时代的到来。大数据对于统计系统来讲,可以说是如虎添翼,再加上现在正快速发展的物联网和云计算技术平台,统计系统将会迎来一个无比灿烂的明天。
开展一项统计调查,从方案制定到方案实施,每一个环节都需要投入大量的人力物力,不仅耗时耗力,最后获取的数据还可能存在一定的偏差。但是在大数据时代下,政府统计可以直接获取企业的行政记录和商业交易信息,并把这些数据作为统计调查的对象,不但能够减少人力物力的投入,还能保证获取数据的准确性。比如统计系统现在进行消费品价格调查时,是让采价员手持PDA终端到商场实地调查,这种调查方式不仅需要大量的采价员人力投入,还需要花费大量的时间。但如果能在商场的收银终端处安装采价装置,商场直接向统计部门共享价格信息,那么统计部门就可以直接获取市场全面的消费价格情况,而不需派驻大量采价员,节省了统计开支,降低了数据获取成本。
随着互联网和物联网技术的发展,人们获取信息的便捷度越来越高,同时获取信息的种类也更加多元。在互联网和各种各样的传感器覆盖的信息化时代,高达ZB级别的数据,基本上涵盖了社会生产生活的各个方面。作为收集整理社会宏观经济信息以供政府管理部门进行政策制定的统计部门,利用大数据不仅能获取简单的社会生产生活宏观信息,也能获取微观个体的动态情况,克服了传统统计抽样调查的以偏概全弊端,以全部数据为总样本的模式进行统计调查,进而得出最准确的结论,更好的为决策者服务。
目前统计系统进行统计调查的方法是抽样调查、重点调查、典型调查和普查的方式,在定期内进行统计,进而获得反映整个社会经济运行状况的基本数据,包括GDP、人口、财政、金融、贸易和工业等数据。由于经费与人员投入限制,传统统计方法收集到的数据精确度和覆盖范围有限,不一定能真实反映实际情况。而大数据时代获取信息的自动化进程大大降低了数据出错的概率,保证了数据的真实性和准确性。大数据还将打破政府、企业与民众之间的信息孤岛状况,能够实现跨系统、跨部门的数据共享,使得社会各部门之间数据流能顺畅协同,数据获取、处理和分析的时间大幅降低,提高了工作效率。再者大数据统计利用全体数据作为统计样本进行分析,超越了传统的数据分析方法,这样极大的提高了政府统计产品的质量,增强了统计产品的科学性、精准性和预测性,对政府管理者进行决策能有更好的帮助作用。
目前统计的宏观数据仍是以历史数据为主,比如说GDP反映的是过去一段时间的生产总值,CPI反映的是过去一段时间的物价变动情况。这些指标和数据主要反映了社会经济运行状况的历史信息,无法描绘社会生产当前正在进行的变化情况。这是因为传统政府统计的数据来自于基层的层层上报,具有数据上报不及时、中间流程多和数据效用低的弊端。利用大数据能很好的改变这一现状,物联网技术实时记录和传递信息,通过存储云端的快速计算,使得数据实时产生、实时分析、实时发布,大大提高了数据信息的实时性。例如,百度搜索引擎可以自动记录并分析用户键入的搜索内容,经过处理分析得出每天的搜索关注指数,并且能根据每个用户的浏览习惯进行精准的广告内容推送。这种实时收集数据、实时分析并实时推送广告的模式是传统统计分析方法所无法比拟的。
在云计算和物联网技术越来越成熟的情况下,越来越多的数据已经可以掌握和分析,这对拥有大量数据的政府统计来讲不仅是好的发展良机,也是一项严峻的考验。
在大数据时代,各种传感器和网络设施遍布社会的各个角落,人们获取信息极其便捷,不管是社会宏观数据还是个体的微观数据,已经不需要投入大量的人力物力进行收集,数据获取变得非常容易,那么人们就会去追求更具有价值的数据信息分析,进而从数据中挖掘个体的偏好性情况,挖掘社会生产生活个体的实时动态信息。因此,大数据与传统统计在理念上具有一定的差异,电子科技大学教授周涛就指出大数据对于传统统计理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。传统统计要宏观、重统计,大数据要微观、重分析;传统统计是带着目的去抽样调查数据,大数据是从全体数据中挖掘有价值信息。这些理念的相悖,对统计系统的角色定位和功能转型是个极大的挑战。
政府统计的目的与一般企业统计和学术统计不同,政府统计主要是通过收集社会宏观经济数据,进行国民经济核算,以各种指标来反映社会生产状况,政府管理者则通过统计数据知道社会的总产出和总需求,进而制定指导经济发展的政策。但是随着市场化的进一步深入,市场的自发调节越来越多的代替了政府政策的直接干预,市场会通过价格的变化进行供求关系的调剂。在这种趋势下,统计系统也将要做出相应的变革,例如:随着物联网的快速推进,将来工业生产、社会消费、物流运输这些都可以直接从物联网中读取出来,再通过云计算手段对所得数据进行分析挖掘,不仅可以得到宏观经济情况,还可以得出微观个体的偏好状态。这将是对传统政府统计的一个很大的革新,也是对政府统计职能设计的一大挑战。
目前以电子商务、网络社交、网络游戏和在线搜索为主体的互联网经济发展飞跃,政府统计部门已经不再是海量数据的唯一拥有者,很多企业和部门都拥有大量的数据,并且也在进行对数据的挖掘分析,甚至与政府统计的某些指标相重合。例如淘宝网就推出了自己的物价指数“淘宝CPI”,它采用淘宝小类目商品的平均价格,以支付宝成交金额的比例为权重,旨在反映网络购物市场整体状况。很显然,淘宝CPI与政府统计系统发布的“居民消费价格指数”指标相类似,虽然标的不尽相同,但功能却在一定程度上有所重合。以后在大数据时代,这种情况将会越来越多,也会有更多的数据拥有者依据自己的算法和分析发布指标,由于信息采集渠道来源不一致,公布的数据也有差别,将使得数据公信力降低,实用性变差。面对这种情况,怎样维护政府统计的权威性,是政府统计部门不得不考虑的一个问题。
大数据时代通过物联网采集到的海量数据,对统计部门的数据分析能力也是一个很大的挑战。目前的统计分析主要是统计部门根据统计指标需要针对性的去收集信息,然后对数据进行简单的汇总分析,难度和门槛相对来说不是很高。但是在大数据时代,面对海量数据,统计系统除需要从海量数据中得出常规信息外,还需要从中进行深度挖掘以期得到更有价值的数据和指标,进而更好的为领导决策服务,为社会生产服务,但目前的数据分析技术和分析能力,恐怕无法满足数据分析的需要。这需要更加专业化、细分化和精确化的数据分析技能,需要有更高能力、更高知识素养的专业统计分析人员来进行数据分析挖掘工作。
目前政府统计的产品相对来说较少,主要包括社会生产总值,工业生产、旅游、商贸、人口、物价和土地等宏观数据,对微观数据统计较少。政府统计的偏重性在于宏观数据的把握,只要收集整个社会整体运行的宏观数量,不需要每个个体的运行状态,更不会注重微观个体的偏向性。因此其统计的流程就是基层上报、然后统计部门汇总数据,最后统计部门把汇总的数据作为整个社会的运行状况进行分析,以供领导决策参考。这种流程产生的统计产品具有较强的滞后性和低频性,利用这些数据进行宏观经济预测,有时候可能会存在较大的误差。而大数据时代,利用发达的信息技术,数据能够实时获取,实时分析,产品也能实时发布,使得数据使用者能实时了解社会生产生活动态,这种快捷性、针对性的优势,是目前传统统计所无法达到的。
大数据既是挑战,也是机遇,在信息化进程日益加快的情况下,政府统计系统能否在这次信息时代的变革中继续占据优势地位,很大程度上取决于统计系统自身改进的力度。
大数据对政府统计部门提出了更高的要求。统计部门要依照大数据的收集、分析和挖掘这几个步骤,进行相应的机构设置,数据收集部门负责从物联网或者其他数据库中收集数据信息,并对数据进行初步清洁处理,确保数据真实有效。然后由专门的数据分析部门利用数据分析工具对数据进行挖掘,得出有价值的数据产品。最后再由数据发布部门向社会公众发布数据,供领导参考和社会机构研究。除此之外,还要加大吸引人才的力度,引进一些具有数据分析高级技能的专业人才加入统计系统中来,充实统计队伍,提高统计系统的专业能力水平。
虽然目前互联网上已存有海量的数据,但却是隔离在不同的企业和部门当中,相互之间完全隔阂,就连政府各部门之间,也远未实现全部行政信息的共享。大数据时代必须要打破数据孤岛现象,政府应该修建足够大的数据存储服务器以容纳海量行政信息,并将历史和现有的数据通过云计算技术的辅助整理归类,并构建出官方的数据统计平台,不仅统计部门使用,其他诸如商务、财政、交通、甚至是某些企业都可以共同在此平台上存储、利用数据。美国的政府网站data.gov就是美国政府构建的一个公开数据平台,政府的各个部门都在这个数据平台上上存储更新信息,做到了信息的有效共享,增加了数据的效用性。
目前统计系统正在使用的行政记录和商品交易信息,主要是结构化的数据,对这些数据的处理和挖掘已经有了比较成熟的模型和算法。但产生于互联网和物联网的海量数据,不仅包涵了结构化数据,还包括了大量的图片、视频、二维码等多种形式的半结构化和非结构化数据,对于这些数据的处理,就需要统计系统提高数据分析挖掘的能力,以从这些海量数据中提取隐含的关系、模式和趋势等信息。统计系统应该针对大数据的特点,加强对数据的预处理,提高数据处理的智能化程度,并通过实时分析、关联分析和可视化分析,提高统计分析的时效性、趋势性和直观性,最终提升数据统计的分析水平和预警水平,进而为经济发展贡献更多力量。
政府统计要在激烈的竞争中取得统计的优势地位,就必须要完善统计产品的发布模式。这可以从两个方面着手:一是完善统计产品的种类,提高产品的针对性。大数据时代,统计部门就可以根据用户的需要而进行针对性的数据统计,以满足不同对象的统计产品需求。再一个就是丰富统计产品的发布形式。统计部门可以加强对数据的解读分析,增加统计数据发布的内容,丰富数据发布的形式,提高数据发布的频率和时效性,以期更好地满足社会各界对统计数据的多样化需求。
在大数据时代,政府统计应该重新对自己的工作职能进行新的定位,从被动的等待收集数据到主动的记录数据,再到实时的分析利用数据。不仅对各个部门的行政信息进行整合采集,还要由简单的数据收集者转变成专业的数据研究和发布机构。政府统计作为政府权力和强制统计的代表,还要发挥统计管理职能,对数据源头和民间统计加强管理,并制定相应的行业标准,以确保统计系统在大数据行业的主体地位。再者要广开数据采集渠道,灵活运用各种数据分析工具,剥离单一从事数据统计收集的职能,转向数据分析、挖掘,成为社会经济发展状况的全面数据提供者。统计系统要进一步利用及分析数据,推出更多的数据产品,努力向马建堂局长所提出的现代统计、服务统计转变。
10.3969/j.issn.1674-8905.2014.03.018
高萍萍)