■ 范容杉
对大数据思维下政府统计工作思路的探讨
■ 范容杉
近年来,大数据迅速发展,成为新财富,价值堪比黄金和石油。在大数据时代,各种信息网络平台将会全面覆盖整个社会,不仅使数据产生爆炸性的增长,也会使海量数据实时在线可用,大数据时代的数据更加准确和高质、数据的发布更新更加实时快捷、分析应用更加多样灵活、也更加贴近公众需求。
随着大数据发展战略得到世界各国的高度重视,联合国秘书长执行办公室在2009年正式启动了“全球脉动”倡议项目,旨在推动数字数据快速收集和分析方式的创新。美国敏锐地发现了当前世界发展已经步入到了大数据时代,2013年5月,奥巴马政府更是宣布了“大数据的研究和发展计划”,提出“通过提高我们从大型复杂数字数据之中集中提取知识和观点的能力,承诺加快在科学和工程中的步伐,加强国家安全,并且改变教学研究”。
2015年8月,国务院发布了《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号,以下简称《纲要》),将大数据定义为以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合;同时,指出数据已成为国家基础性战略资源。《纲要》提出,要着力推动政府数据开放共享利用,提升政府治理能力;着力推进大数据技术研发、产业发展和人才培养,促进大数据产业健康发展;着力规范利用大数据,保障数据安全,明确了大数据的发展目标、任务、拟建设工程及具体措施。
大数据成为提升政府治理能力的新途径。大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进数据融合和资源整合,将极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策,将推动政府管理理念和社会治理模式进步,加快建设法治政府、创新政府、廉洁政府和服务型政府,逐步实现政府治理能力现代化。对海量数据科学合理的分析使用是统计工作的核心所在,本文围绕落实《纲要》,探讨大数据时代下政府统计工作的挑战和机遇,并提出政府统计新的工作思路。
当前,政府统计工作在严格遵守《统计法》要求下,按照规定的工作内容、权力范围、工作目标等开展相关工作,具体工作模式为:首先设计出统计报表,即统计指标,经国家统计局审批后,由基层单位按照报表要求填报后逐级上报汇总。也有很多领域借助信息化手段,通过网络采集传输、集中存储处理以及多途径分析,实现了一套表联网直报。
随着大数据及其技术的不断发展,其优势也不断体现,政府部门和大众对数据分析的要求和期望也逐渐提高,现行的政府统计工作模式的数据来源局限、类型单一、时效性不强和利用率不高等问题渐渐突出,主要表现在以下方面:
(一)数据收集
按照大数据思维,所有数据都存在于互联网、物联网中,不需要专人对数据进行整理和上报。同时,大数据本身从多个方面都较按统计指标上报的信息更具优势性。
1.大数据的数据集更全面
现行政府统计数据采集方式是:按设定好的统计指标,有目的、有方向地采集与某事物相关的信息,这种按既定的思路、意图设定好统计指标,属于结果导向的采集方式,实质是对有限数据集的有限特征进行提取。大数据应用的数据采集方式是开放式的,可以获取与事物相关的所有数据,意味着收集到的信息更全面、客观。
2.大数据的数据类型更多样
政府统计的数据来源主要是各级政府、企业的信息平台,只能获得符合统计报表的结构化数据,数据进入平台的方式,多数是通过人工加工和登记。大数据的来源是互联网、物联网等,数据的复杂性、数据结构的多样性远超政府、企业的信息平台,可以是网页、微博、搜索记录等任何公众数据,可以是文字、数字、照片和视频等任何格式。
(二)数据应用
随着网络技术的高速发展和计算能力的不断提升,各项社会活动,例如工业生产、生活消费等数据都趋向于实时获取,从某种程度上说,应达到可以随时根据需要形成任何行业或领域的数据分析产品(报告);并且,社会活动的数据一经产生,可以重复应用,不断挖掘其价值。
1.对政府统计数据时效性的挑战
政府统计往往需要一个过程,数据的报送需要经过一定的流程和反馈,这意味着完成报表存在着时间差,从而不得不降低政府统计工作对时效性的要求。例如,当月的月报数据,最快也只能在下月初完成汇总制表;普查数据通常在完成调查的下一年才能发布。大数据时代的到来,决定了大数据处理、使用的多种可能性,公共机构、媒体、企业及民间研究机构对数据的使用甚至超前于政府,更具有时效性。阿里巴巴集团推出的阿里指数(之前为淘宝消费物价指数,2016年3月下线,更改为阿里指数),可以基于其电商平台获取的信息,实时分析消费品行业情况,对于阿里巴巴集团电商平台的用户来讲,阿里指数较国家CPI指数的时效性、实用性更高。
2.对政府统计数据权威地位的挑战
随着大数据资源的急剧增加和数据挖掘技术的日益成熟,政府统计作为公共统计数据信息主渠道的地位面临一定的挑战。面对大数据市场,越来越多的民间非官方机构开始利用大数据技术,挖掘各种潜在的市场价值。官方统计部门不再是数据的唯一拥有者,工业生产、社会消费、物流运输的数据都可以直接从互联网、物联网中提取、挖掘、分析和使用。同时,因为政府统计数据采用的是逐级上报的管理模式,涉及到企业商业机密信息和利益等因素,导致统计数据与真实的数据存在一定差异。本文前述的淘宝消费物价指数,与官方CPI相比,在一定程度上能更加实时、客观地体现供需情况,以及消费品间的价格变化关联性等。
3.大数据能让统计分析更加微观
统计报表对行业、产品等分类的细粒度终究有限,因此,现行的统计工作只是针对能够直接对国民经济生活产生影响的数据进行分析,从宏观中了解经济运行形势,无法实现对每一种微观经济现象作出分析。而对大数据应用而言,不受分类限制,可对任何细小、微观的经济现象进行统计、分析,在其发生变化的“萌芽时期”测出微观经济领域的下一步走势,从而准确判断经济形势。
4.大数据使数据分析结果更加准确
政府统计工作流程长、环节多,各个环节均有人工对数据的整理操作,这必然带来了一定的主观性,增大了误差率,无形中降低了数据的客观性和准确性。在大数据应用中,数据实时产生、实时获取、实时分析,这些过程不再依赖于人工参与,从而大大提升了数据分析的可靠性。
5.大数据能将数据价值最大化
政府统计职能的性质,决定了政府统计数据价值的重心在于为相关政府主管部门制定决策服务,而公众和个人真正能享受到的服务并不多;同时,政府统计工作方式决定了某一统计期内的数据在使用完毕后,将不具有价值,只能作为历史资料存档。数据是一种资源,但数据又与物质性资源不一样,物质性资源不可再生,很难共享。数据则可以重复使用、不断产生新的价值。大数据资源的使用是非恶性竞争的、共享的。从另一个角度来说,大数据应用可以对历史数据进行不同维度的组合,从而不断挖掘数据新的价值;大数据的开放式特点,也决定了数据可以为政府以外的公共机构、大众和个人服务,充分发挥数据的效益。
大数据对政府统计工作形成直接挑战,但并不意味着政府统计工作将逐渐消亡。一方面,政府在各领域、行业仍然是最权威、最全面的数据拥有者;另一方面,大数据应用中的数据挖掘、分析,仍然需要运用统计学方法。因此,在大数据时代,政府统计工作需要与时俱进,进行理念创新,跟上互联网、大数据思维方式,不断提高统计效率和质量。
(一)建立适应大数据应用需要的基础设施
《纲要》提出要统筹规划大数据基础设施建设,在2018年底前建成国家政府数据统一开放平台。要实现大数据应用,首先要解决数据共享问题,政府部门应结合国家政务信息化工程建设规划,统筹考虑政务数据资源和互联网的开放数据资源,建设大数据基础平台。政府部门间应先行实现数据共享,并加强与其他社会组织、企业数据的汇聚整合和关联分析。大数据分析对计算、存储能力要求很高,有必要专门建设计算中心、数据中心等硬件系统和设施,这样才能事先自动化,得到更多真实准确完整和及时的原始数据,为后续数据搜集和数据挖掘提供保障。借助硬件条件和信息、网络技术的平台,极大降低了统计调查负担,减少了报表填报环节,缩短了数据生产时间,从而极大地提高统计工作的效能。
(二)建立灵活机动的统计工作机制
前文已分析,大数据可以使统计分析不断微观化。通过统计手段分析事物运行情况时,有时需要在多维度、多层面分析其变化趋势,甚至专题研究与另一事物的相关关系,应用大数据方法,可以灵活采用不同分析方式。需进行精准分析和监测的,可延续传统统计工作模式。先建立模型,再研究确定统计指标,然后选择数据样本对统计指标建立的模型进行测试,以确保统计指标有效反应统计调查情况。仅关注大致发展或变化趋势的,可充分利用大数据分析优势,不关注数据分析的精准性,仅关注当一事件发生的同时另一事件发生的概率,这种情况下,不需要预先进行模型分析和设立统计指标。
(三)建立运行平稳、安全高效的数据运行监控机制
充分运用大数据的多维度特点,整合不同来源的数据资源获取和利用能力,丰富统计数据渠道,利用不同来源、不同维度数据之间存在的关联度,交叉验证,实现对事物运行情况实时准确的监测、分析、预测、预警,提高决策的针对性、科学性和时效性。
(四)提供专业化的数据、技术和应用服务
数据本身不能提供信息,需要通过专业化的数据分析技术,才能从海量数据中挖掘出有价值的信息,同时,如何挖掘数据的价值还需要根据应用场景确定。在大数据应用中,数据、技术和服务是相对分离的。因此,为政府统计工作改变从数据采集到分析均由其自身完成的现状,提供了可能性,这有助于推动政府统计工作更加专业化。
1.形成大数据统计产品体系
要围绕数据采集、整理、分析、发掘、展现、应用等不同环节,形成大数据统计产品体系例如,大型通用海量数据存储与管理软件、大数据分析发掘软件、数据可视化软件等软件类产品,以及海量数据存储设备、计算分析设备等硬件类产品,与行业领域业务流程及数据应用需求深度融合的大数据解决方案等。
2.推动实行统计专业化外包服务
美国统计工作与我国现行模式不同,美国没有统一的统计机构,完全依靠专业化服务机构。例如,美国科技统计工作由美国国家科学基金会下设的科学资源研究处负责,数据收集则由不同渠道完成:美国教育部统计中心提供美国的教育大学研究与发展情况数据;美国商务部普查局开展技术创新调查并提供相关数据;国家科学基金会负责政府部门的科技活动统计;还有部分数据由各州政府提供;专利以及商业贸易等方面的数据则需通过有偿购买获得。这些数据由科学资源研究处统一进行汇编整理。所以,将来政府部门不需要成为全部数据拥有者,也不需自行开展统计调查和分析,可以市场化购买数据和统计服务,可以将统计服务工作委托社会公共机构、专业化企业。
(五)完善标准体系和法规,加强数据监管
大数据应用对统计工作是创新,需要尽快完善数据管理标准法规体系,使大数据统计管理有法可依。政府应对各类数据的产权归属保护以及数据采集、存储建立明确法律法规,确保合法使用数据。政府应设立专门数据监管机构,统一标准,对资源进行整合,维护信息安全。同时,我们在大力发展大数据新技术的同时,要注意新技术与法律法规相结合,例如,如何保护部门、个人的隐私问题,从而对大数据下的统计服务工作进行最大的保护,实现大数据下政府公共服务的正常运转。此外,要建立监督反馈机制,不断提升政府统计工作的质量。
最后,大数据的分析技术更加精确化、细分化和专业化,数据分析甚至成为一门交叉学科,对分析人员的技术和能力也提出了更高的要求,还要注重专业化人才队伍建设。
(作者单位:军工保密资格审查认证中心)