潘厉
摘要:“本文是浙江调查总队联合课题《大数据时代政府统计体制改革研究》”阶段性成果。阐述了大数据的相关概念、原则,特别是大数据对政府统计发展带来的机遇和挑战以及有关方面所做的理论探索和有益尝试。通过综述,深刻认识和把握大数据时代这一发展契机并提出政府统计改革路径,为推进统计大数据化的进一步研究打下基础
在当前大数据背景下,数据已经成为最重要的一种资源,成为各个社会主体乃至国家竞争的前沿和创新的载体。根据“CNKI中国知网”,检索途径为“篇名”,来源类别为“期刊”,检索2008年以来(至2014年12月30日),检索词为“大数据”的文献有4453篇。其中,来自核心期刊有892篇。另外,增加检索词为“政府统计”的文献分别有23篇。本文重点对近5年来大数据背景下我国政府统计调查体系改革的代表性研究成果进行综述,并进行简要评述,从中得出有价值的结论,以推动政府统计制度改革的进一步深化。
一、大数据时代政府统计面临的挑战
(一)、大数据核心特征的挑战
当前,对大数据的表述虽有不同,但一个普遍的观点是,大数据与“海量数据”和“大规模数据”的概念一脉相承。如John Rauser提出“大数据指任何超过了一台计算机处理能力的数据”;Merv Adrian认为大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集管理和处理数据的能力;Grobelink.M归纳出大数据的3V特征:多样性(Variety) 、大量性(Volume)、高速性(Veloctity);Brian Hopkins在Grobelink.M的基础上加上“易变性(Variability)”的特征,即4V特征;刘念真则认为大数据除了3V特征外,还包括真实性(Veracity)和价值性(Value)在内的5V 特征。姜澍在刘念真的5V特征上再增加了灵活性(Vender),将大数据特征拓展为“6V”。
大数据的这些新特征,使大数据区别于传统的统计学方法,但大数据基于数据关系的内在本质却又决定了其与统计学的内在必然联系,专家学者们普遍认为政府统计的大数据化不可避免,但同时也面临着不小的挑战。一是大量。游士兵等认为现行统计制度以“>30”为大样本标准,面对存在多源异构、高噪声等特征的大数据资源,不足以筛除干扰信息的影响,更新大样本标准势在必行。二是多样。程开明认为传统统计学依赖于结构化数据,难以处理文本、图片、XML、HTML、各类报表、图像和音频、视频等非结构化数据。三是高速。大数据的增长速度极快,尤其是电子商务实时交互数据、传感器实时采集数据铺天盖地,大量的实时数据需要快速处理。传统的统计调查是自上而下层层布置、自下而上逐级上报,这种调查方式效率低时效差,难以适应市场经济条件下快速多变的特点。四是价值。许筱静指出:在大数据时代,需要政府统计部门删除冗余数据,筛选出对公众有用的,具备相关性的数据,以形成精准的报告公诸于众。
(二)、统计外部环境改变的挑战
随着信息技术的快速发展,特别是新兴商业模式的创新,大数据的商业化应用不断扩展,不但电信、金融等传统行业进入“数据就是业务本身”的发展阶段,而且国内不少商务企业已经在开发、挖掘和利用这些数据资源,为用户提供信息咨询服务,例如,2011年沃尔玛以3亿美元高价收购了一家专长分类社群网站Kosmix。Kosmix不仅能收集、分析网络上的大数据给企业,还能将这些资讯个人化,提供采购建议给终端消费者。而另一方面,近年来统计数据真实性和代表性频频受到社会公众的质疑。例如,有国际组织质疑我国2009年首季GDP增速与电力需求不吻合,网友热议CPI、房价、工资增速与公众感受背离,地方GDP加和总量增速远超国家数……随着物联网等网络经济的发展,使得工业生产、 运输物流、 最终消费、 服务等各种交易生成直接可用的数据。例如外贸景气指数、上证深证指数、期货指数、1号店指数等数据,在相当程度上不必再经过统计机构专门采集处理,就已能够满足宏观分析、行业研究、微观决策的需要,相比之下政府统计的权威性受到了巨大冲击。
二、大数据时代的政府统计改革的理论探索
(一)、统计思维变革
米子川认为大数据时代的统计首先要适应三个重大的思维转变,分析抽样数据向分析对象总体转变,追求精确数据向接受纷繁数据转变,探求事物因果联系向关注事物相关关系转变。彭小年基于多年的基层统计实践,提出“管理- 采集”型的统计管理理念,强化整合共享意识,改变统计机构过去“单打独斗”的封闭性思维。
(二)、统计业务流程再造
许小乐尝试改良传统统计业务流程,提出制度设计多样化、数据采集职能化、统计分析专业化、统计发布透明化,推行“联网直报”等四大工程,对接工商、质检等部门的行政记录以及企业数据跟踪体系,实现统计业务数据化,以适應数据时代要求。胡雪梅选取 Hedonic法对CPI指数数据质量变化偏差进行调整,提出运用扫描数据进行 Hedonic 质量调整的途径。朱建平等认为大数据具有流动性,会随着时间的日积月累而不断“壮大”,为了更全面、深入地了解研究对象,往往需要对数据进行整合。曾鸿等认为在大数据时代,需要将各种多媒体数据降维后利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。杨少浪以GDP核算方法改革为例,通过图形、图像、地图、动画等更为生动易懂的方式来展现数据的大小,诠释数据之间的关系和发展趋势,为人们提供易于理解、便于使用的结果。
(三)、统计信息化建设
专家学者对统计信息化建设的研究主要集中三大领域:数据采集技术创新,统计云计算和应用,数据挖掘算法。一是数据采集技术创新方面:刘震东强调对感知式统计工具的研发,通过制造多功能多用途的带有统计处理采集功能的传感器,并将之广泛地布置于社会的各个角落,社会进行统计监测,如视频监测、视觉识别、无人机、移动统计数据采集遥感车等。二是统计云计算和应用方面:潘蕾提出了统计工作中应用云技术的核心思想,即采用虚拟化的技术实现服务器整合,在满足现有应用横向扩展的同时,依托核心业务系统,打造适应未来信息化发展的“统计云”。辛金国等构建了基于云计算的网络直报系统模型,将整个系统分为数据分割、并行查询、数据建模、前台展现四大功能模块。三是数据挖掘算法方面:刘玲认为数据挖掘不但可以处理统计学中主要研究的结构型数据,还可以处理文本型、声音型、图像型,从根本上缓解大数据“大量性”、“多样化”、“低价值密度”等特征带来的数据处理压力。
三、大数据时代的政府统计改革的有益实践
(一)、国家层面:主动拥抱“大数据时代”
2006年,国家 863 计划“国家统计遥感业务系统关键技术研究与应用”面向政府统计在农业、人口、经济、投资等业务的重大需求,开展了基于以“遥感”为代表的空间信息技术在统计中应用的关键技术研究。2010年,全国统计工作会议上,国家统计局提出了四大工程建设目标。即建设一个真实完整、及时更新的统一的单位名录库,建立统一规范、方便企业填报的企业统计报表制度,建设功能完善、统一兼容的统一数据采集处理软件系统,建立统一高效的统计联网直报系统。2011年,国家统计局在部分地区试点智能手机中预装CPI数据采集系统,实现了CPI数据现场录入、审核以及上报,推动统计大数据化再上新台阶。2012年,在举行的全国统计工作会议上,国家统计局局长马建堂首次对“大数据时代”进行解读,并就政府统计部门如何应对“大数据时代”的机遇和挑战提出明确的要求。2013年,国家统计局针对大数据的探索与应用,又迈出了里程碑式的坚实一步。与阿里、百度等11家企业签署了大数据战略合作框架协议,共同在分享、开发、利用大数据方面进行合作。2014年,“三经普”首次全面推广PDA采集数据,采用手持电子终端设备和电子地图,实现普查数据的采集、报送、处理等手段的自动化、电子化。
(二)、地方层面:因地制宜开展尝试性实践
刘震东在研究总结先行地区实践经验的基础上,提出地方统计大数据化的三个典型特点:适应性服务、小平台战略和自由组合。
南通市统计局于2012年就以全市综合数据管理平台建设为突破口,依托政府的强力支持,集中财政、国税、地税等部门的业务优势,协调了48家成员单位规范项目操作,严格项目管理,探索出“以数据标准为基础,以信息共享为目标,以挖掘应用为导向”的部门信息归集运用新模式。厦门市统计局于2013年为解决目前“企业一套表”制度配套系统存在的复用程度不高、共享难度较大等问题,结合多维数据库的设计理念,提出元数据驱动的面向服务架构(SOA)“企业一套表”。温州市统计局于2013年建立了GDP联席会议制度,运用“大数据”检验地方政府统计数据及统计对象的源头数据,按季度召集30多个部门进行分析论证部门数据与GDP数据之间的关系。上海市统计局于2014年依托本地大数据资源,积极对接1号店、上海钢联等企业,正式对社会发布“1号店快速消费品价格指数”(简称“1号店指数”)。
四、总结与思考:探索大数据背景下政府统计改革路径
本文从大数据背景下政府统计面临的挑战、理论探索和现实实践三个方面回顾了近六年来我国政府统计大数据化改革研究的代表性文献,梳理出一个基本清晰的脉络:“大数据”是一把“双刃剑”,尽管对传统政府统计冲击巨大,但对于统计业务的再造、信息化建设的推进以及统计权威性的提高都有帮助。但是,对于大数据的开发运用绝非易事,开发大数据不只是政府统计部门的事情,需要国家把大数据开发挖掘问题上升为国家战略的层面,进行统一规划、制定统一标准、协调有关企业和部门通力合作、创造适宜的氛围,才能有条不紊地深入推进。
参考文献:
[1].Mckinsey Global Institute.Big Data:The next frontier for innovation,Competition and productivity. .2011
[2]Grobelink M.Big-data computing:Creating revolutionary breakthroughs in commerce,science and society[N/OL]. . 2012
[3]Agrawal D,Bernstein P,Bertino E,et al.Challenges and Opportunities with Big Data-A community white paper developed by leading researchers across the United States[R/OL]. . 2012
[4] Hopkins Brian,Evelson Boris.Expand Your Digital Horizon With Big Data. . 2011
[5]韦博成. 漫谈统计学的应用与发展(1)[J]. 数理统计与管理. 2011(01)
[6]姜澍. 大数据时代下的政府统计[J]. 调研世界,2014,04:62-64.
[7]游士兵,张佩,姚雪梅. 大数据对统计学的挑战和机遇[J]. 珞珈管理评论,2013,02:165-171.
[8]程开明,庄燕杰. 大数据背景下的统计——第十七次全国统计科学讨论会综述[J]. 统计研究,2014,01:106-112.
[9]许筱静. “大数据”现象对政府统计工作影响分析[J]. 统计科学与实践,2013,12:54-55.
[10]米子川,赵丽琴. 函数型数据分析的研究进展和技术框架[J]. 统计与信息论坛,2012,06:13-20.
[11]彭小年,倪进. “大数据和政府统计”研讨会论文观点综述[J]. 统计科学与实践,2014,02:4-6.
[12]许小乐. “大数据”与政府统计改革[J]. 调研世界,2013,05:42-45.
[13]胡雪梅. 扫描数据在CPI编制中的应用研究[D].东北财经大学,2012.
[14]杨少浪. “大数据”背景下的GDP[J]. 中国统计,2013,10:27-28.
[15]朱建平,章贵军,刘晓葳. 大数据时代下数据分析理念的辨析[J]. 统计研究,2014,02:10-19.
[16]曾鴻,丰敏轩. 大数据与统计变革[J]. 中国统计,2013,09:49-50.
[17]潘蕾,徐汀荣. 基于Web服务的SQL数据库访问中间件的设计与实现[J]. 计算机与现代化,2006,03:67-69.
[18]辛金国,龚恺. 基于云计算技术的政府统计平台设计的研究[J]. 统计科学与实践,2014,01:23-25.
[19]刘玲,肖嵘. 连续属性离散化算法SHD及其改进[J]. 计算机工程与应用,2001,09:97-99+116.