殷好好
(浙江舟山旅游与健康学院 商学系,浙江 舟山 316111)
实践领域,一般将体量庞大、类别繁多、结构繁杂、动态变换的数字集成体称作为“大数据”,以无固定规律的文本、文档、图形、图像形式出现的非结构数据以及以HTML 网页格式存在于互联网的半结构化数据构成了大数据的主要形态。大数据时代,一场海量数据及分析技术的革命席卷而来,爆发式涌现的各种形态的数据、信息通过互联网、移动互联网、物联网、车联网等传感器被搜集、汇总起来,极大地拓展了政府统计的范围。如何借助大数据提升政府统计工作质量是近年来公共管理学界新兴的热点研究问题,众多学者从政府统计管理创新的角度论析大数据的重要价值。在宏观层面上,以数据共享为主导的大数据统计生产方式,颠覆性地改变了基于抽样调查和普查的政府传统统计生产模式[1],而且变革统计数据发布方式[2]、改变自上而下的统计研究范式、形成自下而上的数据挖掘范式[3];在微观层面上,学者们详细论述了大数据在统计机构优化、统计标准化、统计工作流程各环节的有效应用问题以及政府应如何应对大数据对统计工作带来的挑战问题[4],如推进事务公开、建立大数据统计平台、加快政府统计信息化建设。
由此可见,大数据技术应用到位、操作手段得当,政府统计工作无论是内容还是形式都将获得质的飞跃。在履行“对经济社会发展情况进行统计调查、统计分析,提供统计资料和统计咨询意见,实行统计监督”[5]的职责中发挥应有的更大作用,从而极大地提高政府社会治理以及公共决策的精准度、时效性及科学性。同时还要看到,大数据提炼、挖掘、分析、应用难度大,充斥其间的冗余信息良莠不齐,其中的半结构化、非结构化数据迄今仍无良法来处理,不仅对沿习至今的政府统计工作理念、生产流程以及政府统计的体系、模式、组织结构产生巨大的冲击,而且给政府统计部门承担的法定职责的落实也带来了挑战。因此,政府统计部门必须坚持以创新为主旋律,对新的理念、新的技术、新的方法始终保持包容、开放的态度,在综合考虑、评价大数据背景下政府统计的内部条件和外部环境的基础上有的放矢地制定应对策略。
本文采用SWOT 分析法对大数据在政府统计中的应用情形展开研究,掌握其内部优劣势及外部所面临的机会和挑战,并将诸因素综合起来细加考量,有助于客观、准确、清晰地勾勒出大数据在政府统计应用中的实际情形。
1.丰富了政府统计的数据源
行政记录、电子商务企业数据和互联网搜集数据是国家统计局明确的政府统计的大数据来源,联合国统计署对此的标准则宽泛不少,具体见表1。两者比对可见,我国政府统计潜在的可资利用的大数据源还相当可观,假以时日,政府统计的数据源还将大幅度增加。
表1 政府统计大数据源分类及编码
2.提高了政府统计效能
政府统计“搜集、整理统计资料,应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料”[3]——这种数据采集方法不仅需要投入大量的人、财、物资源,也会耗费大量的时间成本。大数据只能被“发现”而不能被“生产”出来,其内部的规律、特征只能被统计人员采用建模方法、通过各种各样的“算法”去挖掘、估算与推断,不能对数据生成机制、统计口径、数据类型、数据规模进行人为控制。随着技术应用日趋成熟,数据的采集、处理、传递、整理以及分析都能集成于一个综合处理平台上,统计成本必然还会降低,数据从产生到发布的周期也将大大缩短。
3.拓展了政府统计领域
大数据是建立经济周期预警系统的重要材料,能从中分析、预判宏观经济发展态势;大数据技术可以实时统计网上价格指数,预测消费者的消费行为、动机,分析消费指数、中小企业盈利指数,有效实现价格指数的采集、计算和分析的网络化、信息化、便捷化;在工业统计方面,借助商品咨询交易网站,可以收集大宗商品的询价及交易价格数据,编制大宗商品价格指数,了解价格变化走向与波动幅度,而且这些统计指标还可以通过财会数据推算得出;在就业统计方面,借助互联网、移动手机及时获取劳动力市场的供求信息、流动及分布情况,通过搜索引擎网站搜索的频次等数据来收集招聘单位、应聘者的相关信息,根据搜索地区来分析全国就业市场供求情况。此外,利用行政登记数据开展人口普查,通过无人机、卫星遥感技术得到的大数据测算农林作物种植面积预估其产量,通过监控系统大数据测算公路交通运输量、分析经济景气程度——在统计领域大数据真可谓无远弗界。
4.提升了政府统计的层级
首先,政府统计部门不在大数据产业链范围之内,更有利于建立大数据统计质量管理体系,从机制上遏制虚报、瞒报等危害数据质量的行为。其次,政府统计部门开通地方县(市)级政府部门数据采集、传递、审核、自定义标准等功能,通过开发集数据采集、数据处理、数据传递、数据整理与分析为一体的综合统计数据处理平台,在数据的传输、贮存、处理环节,新型计算机网络处理技术能有效避免数据的逻辑性差错与技术性偏差,一定程度上弥补目前的数据处理平台功能单一的问题。最后,大数据在发布阶段,除了为党委、政府的科学决策提供基础性材料,为社会治理、公共服务提供数据服务之外,大数据能以其易读、易懂、易接受等特性,更切合公众的接受习惯,能最大程度地满足社会对政府统计数据日益增长的需求。由此可见,大数据使政府统计的内容、形式、流程发生质的变化,随着信息技术的日益成熟,使用领域的不断扩大,大数据必将在丰富政府统计内容、扩大范围、提高效率、减轻调查负担、提升政府统计服务能力等方面发挥更大的作用。
1.技术缺陷短期无法弥补
大数据体量大、来源广、样式多、生成快, OLAP 技术在处理 TB 级以上数据时往往效率低下,随着样本数的增加,数据分析精度随之递减。SPSS、SAS、STATA 等软件在存储、传输数据方面尚存明显欠缺,由于其操作的复杂性,在基层的普及、推广难度不小。目前,大数据对结构化数据的挖掘、分析已有较为完善的方法和工具,但是,更大数量的非结构化数据、半结构化数据仍然超出传统统计数据处理能力,尚不具备将其转化为计算机能识别且具有确切、明了语义的信息的能力。研究认为,以非结构化数据代表的大数据带来的技术挑战,主要体现在其数据的对象——属性矩阵的行列都具有超越常规级别的维度。这种超高维数据带来了一系列难题,比如复杂数据类型处理、噪声和缺失值、分布不平衡以及属性相关等。[6]
2.人才成为技术应用的短板
大数据的统计应用不仅涉及自然语言处理、音频信号处理和图像处理等方面专业技能,还需要模式差异识别、机器学习算法、模型推算等方面专业知识。只有具备交叉型的综合性专业知识和技能,才能熟练掌握统计数据生产流程,从纷繁复杂的数据集合中发现新的关联规则,挖掘隐藏在海量数据背后的隐性信息。一方面,大数据应用的各个阶段专业性都很强,没有经过专业训练很难胜任;另一方面,大数据和云计算的技术日益成熟,使数据公开化、社会化共享程度显著提升,人们对数据的需求层次、质量要求和公开、细化的程度将不断提高。勿庸讳言,目前政府统计从业者年龄总体偏大、知识结构陈旧,早已习惯于传统的统计生产流程,而大数据时代的统计新理念、新技术、新手段、新方法迭代而出,人才的缺乏早已成为大数据在政府统计应用上的掣肘。
3.运行模式不适应现实要求
传统的政府统计工作人员大部分时间忙于统计生产(收数),在统计分析、审核环节相对薄弱,出现了诸如产品陈旧短缺、数据质量较低、发布数据时间不够灵活、发布形式比较老套、统计数据指标体系与现实需要不匹配等问题。我国政府统计体系庞大,由于机构设置上条条块块分割明显,供给的统计数据重叠交叉,冗余的数据造成大量的无效劳动,社会需要的统计数据又供给不足甚至缺失。由于统计口径的差异,直接导致了各地、各部门之间的数据统计口径不一致、数据兼容性差、互通互融不便。从正在着力推行的“联网直报”等四大工程的运行情况来判断,统计领域“机器换人”的趋势越来越显著,这将倒逼统计部门及时厘清现有工作职能以及可能的改革路径并及时作出调整,与其事到临头被动调整还不如顺势而为,及时调整工作重心,有步骤地逐渐优化运行模式,通过体制、机制的改革来主动适应大数据时代带给政府统计的巨大冲击。
1.顶层推动效果显著
习近平总书记历来重视统计工作和统计数据质量,早在浙江工作期间,就提出了立足“求真” “求新”“求精”做好统计工作的要求,并指出“各级党委、政府要充分发挥统计部门的职能作用,切实维护统计工作的统一性和统计数据的客观性、权威性。”[7]党的十八大以来,习总书记多次作出重要批示,明确要求一定要进一步完善统计法律法规,强化监督问责和统计执法,严肃查处统计造假行为。中央先后印发了《关于深化统计管理体制改革提高统计数据真实性的意见》《统计违纪违法责任人处分处理建议办法》和《防范和惩治统计造假、弄虚作假督察工作规定》等文件,对弄虚作假的行为依纪依法进行惩处,并对进一步完善统计数据质量责任制进行了系统、全面的部署。这不仅是以习近平为核心的党中央高屋建瓴地对统计工作提出的总体要求,而且明确了政府统计的重点工作,也为当下政府统计工作改革与创新提供了根本遵循。
2.治理环境日益完善
2015 年8 月31 日国务院印发了《关于促进大数据发展的行动纲要》,从政策层面入手对综合开发利用大数据作出全面、系统的建设规划。“在互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。”习近平总书记指出,“我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略”。围绕国家大数据战略,各地、各部门加大信息系统和公共数据开放、互联的力度,充分发挥市场在资源配置中的决定性作用,大数据治理发展环境得到持续改善,大数据治理路径日益清晰,一个既有统一领导又有分级负责,既有顶层设计又有统筹协调,具备比较完备的调查体系、组织体系、指标体系的大数据管理体制已经基本建立起来。
3.发展共识已经形成
作为新一轮信息技术的革命性成果,大数据必将成为政府治理现代化的重要推动力量,此判断已在大量的应用领域也得到了广泛应验,部分实际应用成果已深入到群众的日常生活之中。大数据在智慧城市、应急管理、舆情监测、社会治理等方面的应用领域之广、使用效果之好,不仅在智能化地重新塑造着政府治理模式,大数据作为国家基础性战略资源的作用、地位、意义已也得到社会普遍认可。技术变革既可以带给政府治理手段的创新,也可能推动治理机制的创新,大数据重塑着政府的运作机制,最终也将变革政府治理范式。[8]浙江以“最多跑一次”为抓手,通过全省统一的政务信息资源共享管理平台,运用“互联网+”、大数据、云计算等现代信息技术,加快推进政府治理数字化转型,初步形成用数据决策、管理、服务的公共服务机制,有力推动了治理体系和治理能力的现代化。为了推动大数据产业融合发展、政府数据的开放共享,浙江、山东、广东、贵州、河南等十省共同发出“跨省区数据共享倡议”,合力探索大数据治理模式,通过大数据技术为实体经济的发展赋能,为大数据产业的发展打造良好的外部条件。
1.封闭环境影响统计效率
长期以来,政府组织架构的层级多,信息资源掌握在不同的政府业务部门,一定程度上存在着部门资源利益化的现象,这种管理模式和组织架构不仅加剧了数据及信息资源的彼此分割和部门垄断,阻碍了政府统计部门对数据的有效整合和综合应用,导致数据信息传递速度慢、失真风险大。在法律层面,数据共享、数据公开和数据开放等方面的法律、法规长期滞后于大数据发展的实际,阻碍了数据在部门间的互信、互认、互融、互通。在政策层面,由于对信息资源的采集、整合、开发、利用、归属等责任与权益尚未作出制度化的安排,虽然一些部门开始数据开放的尝试,但总体开放力度有限。如果没有信息的开放以及资源的共享,大数据势必成为无源之水。
2.数据多源头导致信息孤岛
以表1“政府统计大数据源分类及编码”所列举的数据为例,这些数据均来自政府统计机构外部,其中,其他政府部门、电信运营商、新闻媒体、互联网公司、电商企业、公共服务机构掌握了其中的绝大多数,他们对手中掌握的大数据进行整理、分析、处理、发布,为此还获得了可观的受众群体。政府统计部门不再是统计数据的唯一源头,不仅如此,政府统计部门还越来越依赖外部数据市场,通过各种途径、采取各种方式与之建立合作关系。大数据生产和使用的社会化,条条块块各自为政的现状,导致掌握在不同的政府部门、企事业单位中的大数据统计口径并不相同、标准设置各有侧重,数据之间很难进行有效的整合和衔接,既便统计部门有效掌握了这些数据,但是合理利用起来也需要运用各种技术手段,花费大量的人力、财力、精力。
3.落后方式影响作用发挥
传统的政府统计数据主要通过全面调查和抽样调查(采样)两种方法获得,凭经验认知对采集来的数据进行计算、分析、推理、总结,核心在于利用样本推断总体特征。在一套表软件平台上虽实现了数据采集、传输、处理、存储等环节的信息化,但在线设计、在线管理没有完全实现,所以,还不完全是真正意义上的一套表。在大数据背景下,政府统计工作的主要任务是对数据的处理、分析以及价值挖掘,这是一项标准化、技术化和专业化的工作,传统的统计数据生产方式和指标体系已不能适应现实的要求,很难想像,依靠落后的统计生产方式以及与实际不相匹配的指标体系,统计出来的数据会是精准的,而不精准的统计数据必然带来不精准的政策投放。诚然,政府统计作为党和政府制定决策的“千里眼”“顺风耳”的作用势必会大打折扣。大数据视域下政府统计SWTO 矩阵分析见表2。
表2 政府统计SWTO 矩阵分析
为了顺应大数据发展的时代趋势,充分发挥其在重大决策、政府管理、公共服务等方面的强力支撑作用,政府统计必须顺势而为,全面导入SO 策略、ST 策略、WO 策略、WT 策略,积极应对大数据所带来的机遇与挑战。
针对大数据生产主体日趋多元的趋势,政府统计部门不仅要有效整合自己掌握的结构化数据资源,而且要广开采集渠道,充分利用各种媒介途径采集数据,不断拓展数据源。统计部门要从传统的逐级报数工作思维转到网络抓数上来,基层政府统计部门的工作重心要从数据采集为主逐渐向数据审核、管理、分析、加工转变,要不断加大对原始数据的督查力度。党的十九大报告提出了“完善统计体制”的明确要求,为了提高政府统计部门的权威性,要推进政府统计机构的垂直管理,以其机构的独立性来增强政府统计的抗干扰能力。要继续推进统计业务的流程再造,为了避免职能重叠和业务交叉,要采取有效措施尽早建立包含全过程业务流程的管理系统。大数据已成为创新驱动发展战略的重要抓手,要更多地把人财物资源投入到制度完善、标准制定、协调监督等工作上来,通过不断地理念创新、机制创新、技术创新,逐渐改善政府统计的公共服务水平,为政府科学决策、行政管理提供尽可能全面、准确、翔实的数据、信息支撑。
要统一大数据技术标准、分类标准,对于那些来源不一的非结构化数据、半结构化数据要运用专业数据分析、处理技术转化成结构化数据。要加大研发投入力度,探寻数据之间的内在关系,研究数据源之间的整合和不同数据口径之间的衔接方法,善于甄别冗余信息、数据。通过机器学习、网络分析、模式识别和可视化展示等数据挖掘技术,寻找发现数据特征、相关关系和变化规律,在此基础上进行统计汇总和统计推断,衡量经济社会现象的规模、水平、速度、比例关系,预测预判变化趋势。大数据的标准与分类是数据源整合的核心,为了确保数据的效度,要从统计专业角度对数据结果进行科学性审查,从经济社会角度对数据结果进行合理性和可解释性评估,并与其他结果进行相互验证,确保统计结果真实、准确、可靠。此外,对标准化数据也要进行深入的数据分析和价值挖掘,通过云计算或者其他工具测算出影响信息、数据变量之间的内外因素。
基于大量的数据归属于企业的事实,政府统计部门加强与企业的合作也就成了题中应有之义,这包括数据交流、信息沟通、技术开放等一系列环节。一是鼓励、推动企业开放海量电子化数据库。建立政府监管、企业主导的数据合作、分享制度,在政府不擅长的一些业务领域可采用委托统计、服务外包的方式,鼓励(奖励)企业向政府提供相应的大数据收集、处理服务,将零散地存在于不同所有制企业、部门的数据收集起来。其二,很多企业都致力于寻找能有效存储、处理、分析非结构化数据的关键技术,要鼓励企业加大研发投入,积极推动数据处理方式从简单汇总向数据挖掘方向转变,并通过政府采购、专利授权等形式为我所用。其三,在目前联网直报系统的基础上,积极研究、开发企业电子化生产经营记录自动导入统计联网直报系统的技术,现阶段的重点是要解决如何把电子化财务数据导入统计数据库,并将其生成统计数据的技术和手段。要深入推进政府与企业在大数据领域的合作,在优势互补、互利双赢的基础上,推动大数据的提取、存储、分析、共享和可视化。
统计服务对象是由个体组成的。全媒体时代,一方面,随着信息技术突飞猛进的发展,公众获取信息、数据的手段更加多样,途径更加便捷;另一方面,群众对信息的需求与日俱增,对数据的需求层次、样式、质量也在不断提高。政府统计要多渠道了解群众的需求,尽可能及时地为社会各界提供更实用、有效的数据产品,并对其进行更加多样化的数据展示和解读。政府统计唯有根据服务对象的需求不断创新服务形式、调整服务内容、增加服务品种,才能不断提高在群众中的知名度、美誉度。随着我国社会主要矛盾的转化,政府统计必须随之调整工作重点,加强对人民美好生活水平以及发展中不平衡、不充分问题的动态监测,定量把握改善进程,总结推动改善的经验,了解制约改善的矛盾和问题,从而为持续提升人民美好生活水平,化解不平衡不充分问题,提供重要的决策依据。
本世纪前十年,大数据还处于基础技术成熟阶段,直到被称为大数据元年的2013 年,大数据技术才逐渐向经济、社会等各领域渗透,所以,2009 年修订的《统计法》尚未提及大数据在统计中的应用。2017 年8月1 日起施行的《中华人民共和国统计法实施条例》虽然提出了“推进互联网、大数据、云计算等现代信息技术在统计工作中的应用,满足经济社会发展需要”的总体要求,但是条款的可操作性尚显不足。大数据扩展了政府统计的内涵与外延,对政府统计来说是一次具有重大影响的变革。在修订实施细则时需要根据情况的变化适时进行调整与补充,当务之急的事情是要尽快制定数据开放法规,建立起行之有效的信息共享机制。在信息安全方面,特别需要用法律、法规明确相关各方的职责,将大数据技术与网络安全技术相融合,确保统计服务平台的稳定、安全运行。随着大数据技术的迅猛发展,应用领域的不断扩展,企业掌握的数据与信息呈不断膨胀的趋势,如果这些信息没有强有力的保障措施,会产生大量的法律纠纷问题。要将大数据的隐私安全作为信息安全的重要工作,要守土有责,在数据采集、加工、发布时紧绷数据安全这根弦。要不断完善统计标准与数据管理体系,并以构建一个具有安全性、可靠性的完善的运行良好的大数据服务平台为目标。
大数据背景下的政府统计除了需要对硬件设施进行转型升级,对统计队伍的专业知识、业务能力提出了更高的要求。对基层统计部门来说,数据搜集工作职责的逐渐弱化,导致原先在职在岗的统计人员成了富裕人员,而具有数据分析、处理技能的专业人才则贮备不足。毕竟“收数”与数据源质量评估、数据结构转换以及数据的清洗的工作性质的跨度还是相当大的。政府统计人才队伍的结构性矛盾首先必须通过加强政府统计队伍建设的办法来解决,要加强对现有人员的转岗培训,让他们能够尽快适应大数据引发的思维方式的转变、准确掌握大数据处理技术、手段、方法。其二,要不断拓展人才培养渠道。大数据具有交叉性学科的特征,要通过灵活多样的引才渠道和具有吸引力的政策措施将一批懂统计、会计、软件编程、管理分析、人工智能等方面的复合型人才引进到政府统计队伍中来。其三,大数据背景下统计人才的需求具有行业分布广、市场导向性强、专业水平高等特征,对人才培养的院校来说,有必要搭建灵活的“政、企、产、学、研”平台,相应的人才培养主体包括大数据资源方、大数据人才需求方、拥有丰富理论和专业知识技能的科研院所等多个部门。通过各方合力,尽早破解大数据在政府统计中的人才瓶颈。
本文分析了大数据在政府统计应用中的内部优、劣势,以及外部所面临的机会和挑战,从思维创新、技术创新、政企合作、服务重心调整、法制建设以及人才培养等维度提出促进大数据创新应用的对策与建议,旨在为提升大数据时代政府统计工作质量,提高政府社会治理以及公共决策的精准度、时效度及科学性提供强力支撑。