叶祥凤 黄秋亚
作者简介:叶祥凤(1969-),女,成都信息工程学院统计学院教师,教授,研究方向:调查与咨询。
黄秋亚(1990-),女,成都信息工程学院统计学专业学生。
摘要:大数据是伴随着社交网络等新技术的发展产生的数据形态,本质上是数据生产、传输和应用的社会化。政府统计改革要研究分析大数据之下有利统计条件,以此为基础进行优化统计机构设置、提高统计业务数据化及数据挖掘分析能力,完善统计数据发布渠道等改革。
关键词:大数据;政府统计;统计改革
一、研究背景与目的
大数据是商业智能化的一个新的发展阶段。这一概念早在20世纪50年代由IBM公司提出,主要指那些能帮助企业提高决策能力和运营能力的概念、方法、过程及软件的集合,其主要目标是将企业所掌握的信息转换为知识,需要录用数据仓库、联机分析处理工具盒数据挖掘等技术。大数据是一种“以数据为大”的方法论,它通过对个体行为的数据挖掘,使用关系分析、文本挖掘、社会计算、情感分析、时间线预测以及社会网络分析等方法来寻找有价值的信息,从而帮助人们更好地认识用户需求,寻找市场。
大数据时代的三个转变:一是在大数据时代,可分析更多的数据,有时候甚至可以处理与某个特别现象相关的所有数据,而不再依赖于随机采样,可以追求总体数据而不是随机样本。二是研究数据种类繁多、数据海量,以至于可以不再热衷于追求精确度,三是由前两个转变而形成的结果,即可以不再热衷于寻找因果关系。
政府统计主要由政府对社会经济发展数量与质量方面的内容(数量的多少、现象之间的数量关系、质量互变的数量界限等)进行分析研究工作。常规统计工作需通过对数据的专门收集、规范统一整理、保存数据、分析处理数据,之后还需印制、定稿、传输发布等。而大数据会对政府统计带来何种影响,本文着重就变革方向展开思考。
二、大数据对政府统计工作的影响
(一)对统计理念的冲击
一是大数据改变了数据的需求层次。传统统计技术帮助人们通过观察小部分的样本情况从而描述与推测总体情况,以更好地了解中观和宏观数据。但受统计方法和数据质量的限制,使得人们对社会的认识还不够全面和客观。而统计数据反映的是总体趋势,是无法对应到具体的个体情况的,也就难以获得更加有价值的信息。在数据采集技术进步的条件下,人们掌握的数据便是可知全局的宏观数据,可分解到中观层面、甚至微观层面。
二是大数据改变了统计实证的研究范式。大数据采用的是自下而上的数据挖掘范式,不需要预先设定研究目的或方法。以数据为先导,从大量实际产生数据中通过数据挖掘技术找到数据之间的关系并建立模型,以至于形成理论和新的认知。而传统统计的实证研究范式,是先从经济理论或社会经验出发,根据理论设定指标,最后利用统计数据进行的实证分析。
(二)大数据对统计生产流程的冲击
一是制度设计可以多样化。依据统计研究的目的和研究对象的特点,来设定统计指标、统计报表以及调查、汇总方法等制度,通过调查、访问将生产行为转化为可量化的数据是常规的统计设计。“大数据”下的制度设计需要面对的是已经存在的或通过一定手段可以获取的大量数据,并且弄清楚是通过什么方式产生的这些已经存在的相关数据,这些数据是又从哪些领域产生的,并且会对研究目的产生什么影响,进而确定采用什么样的数据来反映统计目标。大数据的抽样对象可能是某一数据库,抽样方式更加灵活,抽样效果更具针对性,不但降低了调查成本,并且也可在一定程度上免除调查过程中的人为因素干扰。
二是数据采集智能化。常规统计是通过结构化的报表和统一的计量方式将被调查对象的行为转化为可用的数据,这其中需要被调查者的参与。然而一旦调查对象不予配合,或者采用撒谎(虚报、瞒报、乱报)的方式消极配合,统计数据的质量就难以控制,会造成调查误差较大,并且矫正这些调查误差的成本将会很高。大数据信息来源于信息技术记录下的原始数据,这些数据的参与仅仅依赖于测量方法(如GPS 定位测量、超市收银管理系统、ETC 电子收费系统),而不需要调查对象长期、认真的配合,数据质量会大大提高。
三是数据分析专业化及统计发布的透明化。常规统计分析是根据统计制度设计的要求以及对研究对象的认知,对采集的结构化统计数据进行计算分析,重点描述已经发生的变化,对未来的发展情况进行统计意义上的预测。大数据分析面临的是大量存储于各处(包括“云端”)的非结构化或半结构化数据环境,从数据中分析其内在关系,寻找更多有价值的信息。大数据背景下的数据获取分析是全社会共享的,因此统计数据发布的公开透明程度会很高,没有公开详细、公允计算方法的数据将会被其他数据替代。
(三)大数据对政府统计职能的冲击
从我国经济发展与政府统计的关系上看,统计的重要性与传统的经济模式连接在一起。在各级政府管理经济的体制下,经济管理者需通过了解社会的需求、供给,规划安排未来的生产计划,实现社会總需求与总供给的平衡。统计数据为经济管理者提供了决策依据。价格信号反馈市场主体需求与供给的状况,从而在微观层面上实现资源配置。经济发展的主导力量由宏观逐渐走向了微观,统计数据的价值就发生了变化。从现已发生的变革上来看,随着物联网等网络经济的发展,使得工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据,有些方面的数据无需经过专门的统计调查采集而产生。因此,大数据背景下政府统计的地位和职能受到一定挑战。
三、大数据之下进行政府统计改革的方向
(一)流程再造
大数据是一种新型的统计理念,通过对社会工作中自然产生的大量数据,进行收集、整理、挖掘分析从而得出结论。常规统计工作是指定统计目标、设计方案、统计调查再进行归纳、整理、分析。而大数据下的统计运作流程则是:自然产生数据→数据整理→数据甄别→数据分析→得出结论→对应数据产生的意义→数据体现的统计意义。
(二)寻找可供挖掘分析的数据来源
根据国家统计局网站数据显示,淘宝网和天貓2013年的销售额占全年社会消费品零售总额的比重是7%,而2013年的社会消费品零售总额23060亿元,同比名义增长13.6%;2013年上半年,淘宝占据整个C2C市场的95.1%份额,天猫占据中国B2C网络零售市场的52.1%份额。淘宝、天猫等电商数据,是对居民消费很重要的一个数据反映。所以说,寻找政府统计的数据来源,再经过研究、比对界定,网络大数据将会更快捷高效地呈现结果,服务于各级政府部门的决策。
(三)优化统计机构设置
大数据背景要求统计机构的各项工作要走专业化道路,制度设计部门要研究数据获取来源、可信度、成本等项目,按照用户的需求设置指标;数据采集部门需要开拓更多可用的数据来源,并对数据流进行实时监测,保证数据流的通畅和清洁;数据分析部门则通过专业化的分析手段进行科学分析,而后由专业化的营销部门将数据产品传递给社会用户。只有按照统计数据生产流程设定机构,并进行网络化管理才能保证数据生产的科学性。今年推行的“联网直报”等四大工程显示,网络技术对人工的替代促进地方统计机构职能做出相应的调整,由以前的催报、加工汇总、审核等职能转化为质量控制,而其他职能均由技术实现。那么,可以预见,在大数据背景下,国家与地方统计机构关系及设置也将面临调整。
(四)推进统计业务数据化
对传统统计来说,与大数据时代的最大差距在于“数据化”。具体来讲包括调查对象行为的数据化及调查业务的数据化。需加快推进物联网进程,帮助社会形成生产、物流、交易等环节的数据化,并将这些数据通过互联网系统搜集、存储起来。如在超市收银机上加装统计采集装置,以保证每一笔交易的数据及时传送到统计数据平台,以提供给社会消费、价格调查等指标使用,加快行政数据的共享。投资、房地产、服务业统计等数据可从税务、工商、银行等部门的行政记录中获取,实现多部门数据的交叉验证,保证数据的准确与真实。住户调查方面,改变依赖调查对象记账的采集方式,如可使用住户的银行卡交易数据替代记账中的收入和支出,一些居民用电、水、气等消费记录也有助于控制数据质量。目前“联网直报”采取IP 定位控制、修改痕迹保留等方式就是这一理念的现实应用。为了保证每个采价员按照“三定原则”进行采价,可对每台采价器进行数字化定位,其采价的时间、地点、数据情况可以即时传到服务器,即可进行监测。在数据处理分析方面,我们要面对大量、复杂的行政记录、商业交易数据,从这些数据中提取隐含的关系、模式和趋势等信息和知识供统计使用,数据挖掘等现代分析技术与能力是关键。
(五)完善统计数据发布
目前政府发布的统计数据主要是为服务于党政领导的决策需求为主,以社会需求为辅。这种模式对统计而言有一定局限性,容易自我封闭。在大数据的生产模式下,生产哪些数据、调查发布哪些数据不是由“上级部门”指派或依照传统惯例,而是根据用户的真实需求来决定。在发布数据的形式上,以文字、表格的方式发布统计数据已经跟不上用户的数据需求,有必要加大创新力度,完善各种发布渠道,充分发挥数据的价值。
总之,在大数据背景之下,政府统计着力改革,将会产生数据来源更加真实可信、信息公开度高、统计成本低廉、运作流程与步骤简便等实效。(作者单位:成都信息工程学院)