对上海市行政记录的统计开发与应用研究——基于加拿大的最新进展与经验借鉴

2016-02-12 17:45:57周群艳
统计科学与实践 2016年1期
关键词:利用

周群艳

(上海市统计局,上海200003)



对上海市行政记录的统计开发与应用研究——基于加拿大的最新进展与经验借鉴

周群艳

(上海市统计局,上海200003)

摘要:政府综合统计中更多地开发和应用行政数据,已成为国际上统计改革与发展的方向之一。上海市统计局目前在这方面已开始大胆尝试,与上海市税务局的合作迈出了坚实的一步,但与加拿大等国家相比还具有相当大的差距。本文基于加拿大的最新进展与经验,为上海市统计系统如何开发和利用行政记录数据从法律框架、制度建设、工作机制和技术开发等多方面提供借鉴。

关键词:综合统计;行政数据;利用

加拿大统计局对行政数据的开发和应用已有将近100年的历史,最早可追溯至1921年,当时行政数据已被用于为早期的人口统计建立调查框架、替代部分调查问题以及评估调查数据等,在一定程度上减轻了被调查者的负担,提高了统计数据的质量。2010年以来,为更广泛更有效地使用行政数据,加拿大统计局采取了一系列措施,进一步完善了行政数据的使用机制和方法,目前统计局已有35-40%的统计数据来自行政记录。

一、加拿大统计局行政数据开发与应用的多维考察

(一)面向行政数据开发与应用的统计体制机制

加拿大统计体制是典型的集中型统计体制,全国的统计工作集中在加拿大统计局,加拿大统计局根据需要在各地区设立统计派出机构。根据国家法律规定,各级政府部门必须按照加拿大统计局的要求,向其提供各种详尽的行政记录,由统计局进行加工整理;加拿大统计局也应及时向各部门提供它们所需要的各种统计数据。同时,为协调统计局与政府部门之间的关系,以解决统计资料供需之间的矛盾,加拿大还建立了相应的联络机制:一是联邦和省各部门都设有统计联络员或联络处,负责向加拿大统计局提供行政记录,和统计局沟通有关统计工作和统计资料方面的事项;二是加拿大统计局和相关部门或组织之间建立多边统计协商会和双边协调委员会,来解决不同层次不同专业统计工作中出现的问题。

2012年,加拿大统计局将原行政数据秘书处与税收处合并成立行政数据处,为行政数据的开发和应用搭建了一个重要平台。行政数据处包括数据获取组、企业数据开发组、个人数据开发组和研发组,共有工作人员48人。总统计师授权行政数据处主任负责对行政数据的获取、内部访问和使用进行监管。其中数据获取组是加拿大统计局行政数据的接入口,负责与行政数据来源方进行联系、沟通与协调,管理双边合作协议,接收、处理和维护行政数据。

(二)开发和应用行政数据的意义及所面临的挑战

1.行政数据概念的界定

加拿大统计局将行政数据界定为:其他部门或组织出于自身目的而搜集,并为加拿大统计局根据统计法的规定在微观或汇总层面所获取的信息,不包括与加拿大经济社会无关或可公开获得的数据或信息。行政数据主要有:加拿大税务局、卫生部和警察机关等政府部门在日常行政工作中所搜集的数据;大的零售商、不动产协会和银行等私营组织的数据,加拿大统计局不参与的其他部门或组织所搜集的调查数据等。

2.行政数据在综合统计中的作用

加拿大统计局在统计工作中已越来越多地应用行政数据,一是使用某一领域的所有行政记录,将其加总形成特定变量的汇总数;二是选择性地使用某一领域的行政记录,将其进行加权汇总后获得估计值;三是使用行政数据加总数对通过抽样调查获得的推算数进行校验;四是将通过抽样调查获得的推算数与行政数据加总数进行比对,修正异常值;五是利用调查变量和行政数据变量之间的关系,模拟推算调查变量的缺失数据。

3.开发和应用行政数据的意义

一是减少被调查者的负担,部分领域已直接使用行政数据,或用它替代部分调查数据。例如,使用企业纳税申报单中的收入和支出数据替代通过调查获得的收入和支出,使用个人所得税的收入数据代替居民住户调查问卷中的收入。二是填补数据空缺。对于那些回复率低或难以接触到的被调查者的数据可以用行政数据来代替,如高流动性人群的卫生数据。三是改进统计工作的效率,通过利用行政数据获取目标群体的特征,同时对数据进行校验,可以提高统计数据的质量。四是为较小的区域提供估算值,有些部门或研究机构可能需要了解常规调查无法提供的省以下甚至更小区域的情况,行政数据可以满足他们的需求。五是为目标总体建立调查框架,利用行政数据获取目标总体的特定特征,可使抽样调查的调查框架更为有效。

4.开发和应用行政数据所面临的挑战

一是指标定义和行政数据之间的差异。例如,制造业调查中需要的是出货量数据,而行政记录只提供销售量数据,这种情况下,或者使用行政数据去模拟和推算出货量,或者将指标改为销售量以匹配行政数据。二是数据来源差异带来的问题。不同的数据来源方提供数据的媒介和方式不同、电子数据库的格式和纸质信息展示形式都不一样,将它们整合成统计上可用的同一格式和同一数据库,会带来大量的工作量。三是大量的数据处理工作。包括数据质量初步评估、行政数据审核、统计审核、数据推算、提供给其他内部项目使用等。四是要对数据进行验证,包括要掌握微观数据的识别方式、分析重要的影响因素以及识别统计异常值等。五是数据汇总和发布过程中的问题,包括数据质量和数据保密问题。

(三)行政数据开发和应用的相关技术和方法

1.选择行政数据来源的决策方法

数据的一致性和连贯性是综合统计利用行政数据需要考虑的关键问题,因此必须对行政数据的适用性进行评估以对其来源进行选择,为此加拿大统计局建立了一套标准化的决策方法。事先必须了解行政数据的存在并识别其潜在用途,然后整个过程分为四个步骤,第一步,探索阶段,先熟悉数据,与数据提供方沟通并了解元数据信息,然后决定是否对数据进行进一步评估;第二步,前期获取阶段,先访问一部分数据,对其进行评估,以决定是否需要获取和使用完整的数据;第三步,数据获取阶段,与数据提供方进行协商并获取数据,同时做好使用数据的准备工作,包括数据使用方法、程序、体系、测试和实施等。第四步,数据使用阶段,使用和评估数据,并对是否重复获取和使用进行评估。第三步和第四步循环重复进行。

2.行政数据的统计标准化方法

标准化过程包括四个方面:首先是审核,主要指对数据进行基本的核查;然后进行估算,通过估算填补数据空缺,或修正数据错误;再次是质量监控,统计局目前正在建立标准的质量指标,对所有项目进行标准化的质量控制;最后是日历化,即将其转化为自然月份的数据,该过程只针对部分指标使用。此外,全球标准化工作包括通用代码集、常见变量、指标定义以及记录联动的统一。

3.行政数据共享体系及相关技术架构

加拿大统计局建立了一套数据共享体系,不仅包括从其他部门获得行政数据、数据处理、在部门内部共享行政数据,还包括与其他部门共享行政数据。从其他部门获取行政数据,需确保相互之间签订数据共享协议,同时满足基本的带宽和存储要求,并协商确定数据传输方式(使用电子文件传输、加密的FTP、网络服务或者物理媒介),然后使用非机密非敏感性数据进行测试,最后建立命名规范和加密协议。对从外部进来的数据进行处理,需要完成解密、质量控制、格式转换等工作,将其存储在一个内部共享的文件夹,或转换为关系型数据库,保证多个内部用户同时使用的一致性和连贯性。在部门内部共享数据,需要和内部使用者之间对数据库格式达成一致,要确保掌握支持该行政数据的元数据(包括字段的定义、记录的布局),建立文件服务器或数据库服务器等物理存储基础设施(对于文件服务器而言,需要建立易管理、易使用和易理解的共享文件夹结构,同时还要考虑存储量等物理限制),对授权用户设置读写访问的权限等。向其他部门提供数据,要解决和从外部获取行政数据一样的问题,不过此时需要对数据进行加密而不是解密。整个过程的所有环节中都需要考虑安全性,数据交换过程中必须加密。

(四)行政数据在统计专业领域中的应用

行政数据在加拿大统计局得到广泛应用,比如,加拿大统计局从税务局获取的行政数据包括税务T1表(未成立法人组织的企业数据)、税务T2表(法人企业数据)、税务T3表(固定收益信托数据)、税务T4表(雇主提供的每个员工收入数据)以及GST/HST数据(商品与服务税/合并销售税数据),这些数据在国民经济核算、收入统计和企业调查一体化中得到大量应用。此外,卫生统计对相关行政数据的使用也较多。

1.行政数据在国民经济核算中的应用

收入法核算的GDP是由劳动者报酬、营业盈余、混合收入及生产税净额四部分构成,其中劳动者报酬使用税务T4表的数据计算,T4表不仅包括员工的总收入、员工就业的区域和产业分类,还包括养老金和失业保险金等员工福利信息以及每个员工所上缴的税收数据。营业盈余使用税务T2表计算,T2表提供了企业收入和支出的信息,每个企业根据区域和行业进行编码,由于该数据不能完全匹配核算所需的数据,比如在国民账户中,固定资产折旧不作为一项支出,研发和软件支出是投资而不是支出,所以必须对其进行调整。此外,为了获得准确的分省(地区)的营业盈余数据,针对跨省经营的企业,还需利用T3表进行区域调整。混合收入指个体户的收入,因员工报酬和营业盈余都包含在内,使用T1表的数据进行计算。税务T1、T2、T3和T4表以及联邦、省(地区)和地方政府的公共账户中记录了加拿大国家、省(地区)和地方三级政府的税收及补贴情况,可用于更精确地估计生产税净额。

支出法核算的GDP是由最终消费、固定资产投资、存货以及进出口四部分组成。其中居民最终消费的核算是利用销售税数据,即商品与服务税(GST)及合并销售税(HST)来估算,非营利性组织的消费支出通过它们提交给税务部门的包括收入和支出信息的税务报表来估算;固定资产投资通过政府颁发的建筑许可证的信息来估算;存货通过税务T2表提供的期初期末库存数据估算;货物的进出口通过海关的行政数据并辅之以调查获取商品交易价格的数据来估算,服务贸易的数据则由加拿大统计局通过统计调查获得。

2.行政数据在收入统计中的应用

加拿大收入统计所使用的行政数据主要是来自加拿大税务局的T1、T4、儿童财税福利金和通用儿童保育福利金档案,以及其他如出生、移民和养老金等档案。其中T1是最主要的个人收入档案,包括所有纳税申报人的收入情况,覆盖75%的加拿大人口;其中一些变量会显示出是否有配偶(伙伴)或孩子,可以用来创建家庭层面的数据。T4是那些作为家庭成员但不一定都有T1记录的人群的就业收入信息,将T4记录与加拿大统计局的企业登记记录关联起来可以获得从事行业的分类信息。加拿大统计局收入统计处在综合T1、T4和儿童福利档案等记录的基础上制作了T1FF(即增加了家庭和T1数据没有覆盖的人群的收入信息的家庭档案),包括所有纳税人及被抚养人的收入信息,覆盖了95%的加拿大人口。

加拿大的年度收入统计的详细数据主要是通过全国收入调查和T1FF档案获得。这两种数据来源各有优缺点,收入调查中因有关于人员关系的问题,所以可以创建所有生活在一起的人的家庭单元,而不只是传统的父母和孩子的家庭单元,同时还可以获得劳动力、入学和住房的信息。T1FF可以发布更细分区域如社区的数据,而收入调查受样本容量的限制,仅限于大都市区域或省级地区的数据;T1FF有较长连续时间序列的一致数据,而收入调查和住户调查过去几年在调查方法上有几次调整;T1FF包括3个加拿大北方地区和印第安原住民保留地的数据,而收入调查则没有;T1FF包括养老院、监狱、集中营等集体住宅的数据,收入调查也没有。但T1FF的缺点就是除了人口统计信息和行业信息外,没有其他可以用来对收入数据进行排序或筛选的非收入变量。加拿大国家统计局收入调查处使用社会保险号、姓名、详细地址、性别、出生日期、年龄、婚姻状况、或纳税申报表中配偶的社会保险号等信息,将收入调查和行政记录相关联,可以获得收入的结构性数据。包括个人、基本家庭、经济家庭和集体户(所有生活在一起的人)的收入情况,以及分年龄、分性别、分家庭类型、分子女个数的数据,具体的收入指标包括总收入、税后收入、就业收入及其结构、投资收入及其他类似收入、政府转移支付及按特定项目划分的结构数据、税收抵免等。

T1FF还可以生成40多个全国以及分省和大都市区的个人和家庭收入标准表格,细分区域的半定制表格以及基于600多个具体变量或用户自定义变量的定制表格。它还被用于建立特定的调查框架、校验其他收入调查数据等。加拿大收入统计处目前正在探索创建一个加强型的T1数据库,以将其与其他相关的收入行政档案如社会保险费、养老金、奖学金等档案相关联。

3.行政数据在企业调查一体化中的应用

加拿大统计局目前正在开展企业调查一体化整合项目(简称IBSP),计划到2019年将全局所进行的150项调查全部整合进IBSP,截至2015年10月已纳入70项。目前该项目所使用的唯一的行政数据是加拿大税务局提供的税务数据,包括T1、T2、T4、GST/HST(商品与服务税/合并销售税)、PD7(工资扣除账户)等信息。行政数据在企业调查中的使用主要有六个方面:一是企业名录库的更新和抽样框的维护,利用T1、T2和T4的信息对企业名录进行增加或删除,根据T1、T2的信息更新收入的数据,根据PD7更新工资和员工数量。二是辅助分层抽样,根据T1或T2信息获得收入、商品与服务税、所得税的大体分布。三是数据验证,利用T1、T2和商品与服务税信息,将所搜集的数据与其相应的税收数据记录进行对比,验证数据的准确性。四是直接取代调查记录,使用T1和T2的数据直接替代调查数据,一般而言,单一行业和经营地的企业数据吻合度较高,而多经营地企业吻合度不是很高。五是数据推算,使用T1和T2信息推算总收入和总支出,使用PD7的信息推算员工数量。六是估算,使用税务数据对总收入进行校验,以及建模估算。

(五)行政数据开发和应用的法制保障

加拿大《统计法》第13条规定;联邦统计局总统计师授权及委托相关人员,有权要求各部门、企业、团体、机构和组织提供有关文档及行政记录,以满足统计法规定相关数据的收集、完善及修正需求。相关条款进一步对具体领域行政数据获取进行了明确规定,如第24条规定,联邦统计局总统计师或其授权委托的相关人员,有权检查或获取有关单位依据所得税法或特许权税法第4部分规定,提交给联邦税务局的利润收益、审计报告、财务报表、文件及其他相关记录。经总理、联邦税务局局长审议和总督签署规定流程后,联邦税务局局长应确保联邦统计局总统计师及其授权委托人能够获取企业的利润收益、审计报告、财务报表、文档及其他相关记录。第25条规定,经总理、公共安全和应急准备部部长审议和总督签署规定流程后,公共安全和应急准备部部长应确保联邦统计局总统计师能够获取加拿大进出口统计及其运输方式等相关信息。第29条规定,当国家特赦生效后,公共安全与应急准备部部长应确保联邦统计局局长能获取相关特赦统计信息。

此外,加拿大《统计法》第32条对拒绝提供行政记录的相关责任人也做出了处罚的规定:对任何部门、企业或组织拒绝向加拿大统计局总统计师授权的相关人员提供行政记录的行政数据监管者,将处于不超过1000加元的罚款或者不超过6个月的监禁,或两者并罚。

其他法律法规也分别列有相关条款,明确允许对加拿大统计局公开信息。如联邦隐私权法、各省和地区的隐私权法、私有部门的隐私权法、所得税法、海关进出口法以及青年刑事司法法案等。但加拿大统计局对行政数据的获取权必须是在遵守国会法案的前提下,且是为了统计和研究的目的。

二、加拿大统计局开发和应用行政数据的经验总结及对上海的启示

(一)完备的法制保障是前提

目前就上海乃至国家而言,支持开放行政记录用于统计应用和数据开发的立法明显欠缺。现有的一些关于政府信息公开、信息资源开发利用和大数据发展等的规范性文件,也仅仅只是推动政府和相关机构面上数据的开放,对于行政记录向统计局的开放则尚未有相关法律法规给予保障。可借鉴加拿大的做法,从国家和地方层面尽快完善《统计法》及相关法律法规,在保证数据安全及数据所有权权益和隐私的前提下,推动各部门行政记录向统计局的开放和共享,促进全社会信息数据的整合、开发和利用。

(二)健全的体制机制是关键

为了协调加拿大统计局与政府部门之间的关系,以解决行政数据和统计资料获取之间的矛盾,加拿大建立了国家统计协商委员会、统计理事会、统计专业咨询委员会及部门之间的双边协调委员会等机制。对于行政记录的获取,在相关法律法规的保障下,加拿大统计局与税务、卫生和教育等部门均签订了数据共享与合作协议,详细列明数据共享的内容、频率、数据提供方式以及相关的安全条款来约束各自的职责和权利、义务。为提高行政数据开发和利用的效率,加拿大统计局还专门成立了行政数据处,并配备48名工作人员,使之成为专业的行政数据管理中心,负责全面的行政数据管理工作。

目前就上海而言,统计部门想要及时获取其他部门的行政记录仍然困难重重,举步维艰,数据的取得更多的是靠部门间的合作关系或部门领导之间的交情在维系,导致数据获取的渠道非常不稳定,往往由于部门领导或负责同志工作岗位发生变化,就会导致相关数据无法取得,需要再进行长期沟通才能恢复,不可避免的给统计工作带来了影响。上海市统计局可借鉴加拿大的做法,一是推动建立统计理事会和专业协商委员会等机构,形成长效机制;二是和相关部门通过签订数据共享协议,建立合作伙伴关系,使部门间的信息共享正规化、常态化。三是统计局内部逐步探索建立专门部门,统一负责全局行政数据的获取、处理、共享和维护等全面的协调与管理工作。

(三)标准化技术方法是支撑

加拿大统计局建立了一套选择和获取行政数据的标准流程和方法,以及行政数据的统计标准化方法,开发了行政数据获取、存储、加工、分析、应用、发布和共享为一体的综合数据库系统。这些标准化的流程、方法和应用系统为加拿大统计局提供了开发和应用行政数据的统一规范,确保了内部共享和使用行政数据的一致性和连贯性。

而我们目前对部门行政记录的使用没有相关的技术支撑,还处于较初级的阶段,只限于部门上交纸质或电子版的数据,相关处室将收集来的部门行政记录资料装订存档或保存在个人电脑中,在需要的时候打开电脑或查找档案,缺乏统一规范的管理,而且相关资料的使用局限于和资料有关的科室,没有发挥资料的最大效用。建议市统计局建立一个统一的数据交换和共享平台,统一行政数据获取流程和处理方法,将所有行政数据以大型数据库的形式进行保存和维护,并根据需求给全局各处室分配读写访问权限,或甚至部分数据可以对外部开放,使行政数据得到最广泛或最有效的使用。此外,也应从技术上加强数据交换和共享过程中的安全性保障。

(四)良好的统计信誉是基础

加拿大统计局在全国享有良好的声誉,深受各行政部门和社会公众的信任,其获取行政数据尊重公众意愿的做法可见一斑。加拿大统计局虽然有权获得加拿大其他政府部门的行政记录,但为了和被调查对象保持良好的关系以及处理隐私问题,加拿大统计局选择在直接通过行政数据档案来访问调查对象的收入信息时要提前告知他们并征得他们的同意。对于拒绝的那一小部分人群(拒绝率已从10%降至1%左右),统计局不会访问他们的相关行政记录,而会根据其他相关信息对这部分人的收入水平进行测算。良好的统计信誉是加拿大统计局和各行政部门建立合作伙伴关系的基础。

(责任编辑:曹家乐)

猜你喜欢
利用
利用min{a,b}的积分表示解决一类绝对值不等式
中等数学(2022年2期)2022-06-05 07:10:50
利用倒推破难点
如何利用基本不等式比较大小
利用一半进行移多补少
利用口诀算除法
利用数的分解来思考
Roommate is necessary when far away from home
利用
回收木再利用——Piet Hein Eek
工业设计(2016年5期)2016-05-04 04:00:33
低丘缓坡未利用地的开发利用探讨
河北遥感(2015年4期)2015-07-18 11:05:06