大数据与政府部门统计工作融合建库的应用研究

2020-01-06 03:41周静余浩然谢谊龚伟
重庆行政 2020年6期
关键词:统计数据政府部门数据库

周静 余浩然 谢谊 龚伟

2017年12月8日,习近平总书记在中共中央政治局第二次集体学习时强调,要“实施国家大数据战略加快建设数字中国”,领导干部要“善于获取数据、分析数据、运用数据”。为给社会、政府提供更高效专业的咨询服务,各级政府部门要审时度势、精心谋划、超前布局,主动深入了解大数据、发展大数据,谋思变革,着手研究如何克服各种数据资源的差异性,使大数据和政府部门统计数据融合发展,建立以标准化数据库为核心的、强大的统计数据库信息智库系统,推进数据资源整合和开放共享。

一、大数据与政府部门统计工作融合的必要性

大数据不仅带来了海量数据,也开启了人们利用数据的新模式,改变着人们的思维模式,更给传统政府统计部门采集、管理、分析、应用和发布数据等各方面工作带来前所未有的冲击。

(一)经济社会发展的必然需求

大数据是信息技术发展的必然产物,其发展推动了数字经济的形成与繁荣,已经成为数字经济发展的关键生产要素和社会基础性战略资源,也成为国际竞争的前沿地带。[1]要建设“数字中国”,就要发展数字经济;要推动经济发展质量变革、动力变革,就必须实施大数据发展战略。现在,不管国外还是国内,都把大数据应用的重点由市场转向政府,而政府统计部门就是大数据在政府工作应用中尚未开垦的“良田”,大数据和政府统计数据深度融合的研究应用是经济社会发展的必然趋势。

(二)政府科学决策的必然要求

大数据特征归纳为四个“V”:数量(Volume)巨大,种类(Variety)变化多,价值(Value)密度低,速度(Velocity)处理快,能对非結构数据进行海量计算和精准分析,干扰性小,有很强的应用价值,但在实践中对决策指导性等深层次分析应用相对偏少。[2]政府统计主要采用联网直报报表或者入户调查等手段,对结构化数据的上报审核汇总清晰,程序严谨,但是对于非结构化数据的收集、存储和分析处理能力非常有限。为了更全面、更快捷、更准确收集数据,更深入分析各方面信息,深度挖掘大数据价值,形成平台共用、数据融合、业务协同、上下联动的“全数据”“一盘棋”系统,利用大数据提升政府统计科学决策能力和现代化水平,大数据与政府统计数据的深度融合势在必行。

(三)人民日益增长的美好生活需要

随着数字经济的到来,手机、电脑、移动客户端等逐渐成为人们日常社交、生活学习工作中必不可少的一部分,如何更快捷、更准确、更丰富地获取所需大数据信息已经成为大众需求。所以,大数据和政府统计数据的融合应用既是人民日益增长的美好生活需要,也是政府统计部门更好服务社会、提升服务水平的重要工作之一。

二、大数据与政府部门统计数据融合建库的困难

(一)标准不统一

虽然大数据能大大地提升政府部门统计工作的信息化技术水平,但是要实现大数据和政府部门统计数据的融合还面临着一些技术难点,其中最大难点就是多源异构数据整合方法的设计研究,即缺乏对标准、规范、高效和统一的数据交换标准和数据管理标准的体系研究。在以往数据库系统建设中,不同组织、不同系统建立了种类繁多的元数据体系,统计调查元数据的术语不统一,建模方法不统一,导致在数据生产的各个流程阶段里元数据可比性差。如何建立一套科学有效、稳定易用、便于交换的元数据标准是目前数据融合的最大难题。

(二)政府部门高科技技术研发能力较弱

当前,我国互联网领域的大数据应用市场化程度较高、发展较好,但行业应用广度和深度明显不足。虽然近两年很多省市都成立了大数据局等相关机构,但技术力量薄弱。特别是在政府统计部门工作中的大数据应用还在研究探索阶段,政府部门缺乏专门的大数据研究机构和人员,尤其是科技拔尖人才少,信息技术人员超负荷工作等,严重限制了高新技术科研水平,政府高新工作生态系统亟待形成和发展。

(三)数据隐私有一定安全隐患

“数据共享和数据隐私是成反比的,数据共享开放的需求越迫切,数据隐私安全问题就越突出。”[3]为全方位观察、认知事物,最好的途径就是对海量、高质量数据资源进行分析和挖掘,而共享开放和数据跨域流通为信息建立了完整数据集。可是,如果大数据是无序流通与共享,就可能存在隐私保护和数据安全方面的重大风险。

(四)大数据研究在政府部门工作中成果转化力度较弱

由于人工智能、大数据、云计算和区块链等新技术在政府统计工作中的研究还不成熟,推广应用规模也非常有限,成果转化不明显。部分领导敢于把项目研究落到实处试点的勇气不够,敢于创新的势头不强,加上没有配备专门的高新技术研发部门和实验试点经费等,导致大数据研究在政府工作中落地实施的不多,成果转化较少。

三、大数据与政府部门统计数据融合建库的对策建议

(一)建立大数据与政府部门统计数据统一的标准体系

通过研究,我们发现只要把数据库分成多源异构资源装载的数据湖、大数据资源管理、大数据应用三部分,完成多源、多结构数据采集交换平台的设计,就能打破传统数据仓库无法包容多源数据的瓶颈,啃下多年的“硬骨头”。换言之,在描述统计需求确认、设计、开发及任务部署、采集、审核上报和数据分析及汇总过程的同时,加大描述统计数据分析及汇总、数据发布和数据存档过程,最后使用DDI标准来描述规范统计数据存档评估,利用SDMX标准指导大数据源数据识别,一一对应将统计数据与大数据源数据融合,用DDI+SDMX标准最终实现统计数据和大数据源数据识别和交换标准的统一。具体步骤如下:

首先,将多元异构原始数据导出成csv数据文件,根据文件中每列内容进入元数据编辑工具录入DataFiles对象信息,使DataFiles中variable内容和顺序与csv文件的列内容和顺序对应,达到使用DDI元数据描述统计数据的作用。

其次,将数据描述信息导出生成DDI元数据文件,将两两配对的csv数据文件和DDI元数据文件一起提交给数据仓库,经过解析识别完成数据入库。以后增加的来自外部组织的数据,只要符合DDI标准或SDMX标准也可以直接被解析识别,并将信息存储到数据仓库中。数据库接收到csv数据文件和DDI元数据文件,将其中的数据和元数据解析并存储。

再次,“通过DDI+SDMX把入库后的csv、excel等数据统一为XML载体”,[4]因为XML有良好的易读性、可扩展性与平台无关性,还有标签注解等功能,特别适合做数据研究载体。这些原始数据再按照需要形成Cube用于形成主题数据集市。

通过这样一整套完整的标准规范,上可以对接系统业务各个阶段,如数据交换、数据共享查询、数据分析、数据发布、数据归档和辅助决策等,下可以对接信息技术和系统平台,成为数据融合技术之间的传输纽带和翻译器。

(二)建设大数据与政府部门统计数据融合智库

通过建立大数据与政府部门统计数据的标准体系,虽然解决了多元异构数据融合的难题,但是融合后数据的存储和管理还需要通过建智库完成。为了更快完成大量数据的离线计算、实时查询分析、高时效性大规模并行計算的场景,采用大数据架构建立总数据库,里面包括贴源层数据库、标准层数据库、资源库和大数据应用库,用于整合、存储统计数据和大数据源数据。首先,按照DDI+SDMX标准将多源异构数据统一标准后,通过ETL工具或流式采集技术将政府部门数据和大数据等多源异构数据整合到贴源层数据库中,再利用SDMX和DDI中的元数据标准,统一数据库表结构命令规范,形成全量数据字典目录,将贴源层数据进行标准化。然后,将标准化后的数据存储在标准层数据库中,完成政府部门统计数据和大数据融合后的数据入库。

然后,按照通用统计业务模型GSBPM,利用ETL工具Kettle将标准层数据库中的数据进行重新组合,融合形成资源库。资源库分为基础库、专题库和主题库,资源库服务于现有业务系统。然后,根据数据应用要求,利用ETL工具Kettle将标准层数据库或资源库中的数据进行重新组合,融合形成应用库。应用库服务于决策支持、应用展示以及信息资源服务。资源库和应用库可利用MPP数据库Clickhouse、Hive技术满足在线数据实时计算以及离线数据批量计算等不同业务场景要求,成功构建政府部门统计数据和大数据融合统一的大数据架构。

(三)加大引进和培养高科技人才,增强高科技实力

按照《重庆市新型智慧城市建设方案(2019—2022)》精神,政府应着力构建高新工作生态系统。政府各部门应继续加大高新技术的投入和扶持,引进和培养大数据等高科技人才,建立专家咨询顾问机制,促进交流合作,突出重点亮点智能项目,助推“数字中国”“智慧重庆”。

(四)注意加强数据隐私安全保护

在研究大数据与政府部门统计数据融合时,必须要注意研究数据隐私保护的问题,要体系化、一致性全面考虑信息网络安全管理工作,制订专门的数据安全法、个人信息保护法[5]。2016年11月7日,全国人民代表大会常务委员会发布《中华人民共和国网络安全法》;2019年5月28日,国家互联网信息办公室发布《数据安全管理办法(征求意见稿)》,都明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范,保障网络安全和公民法人的合法权益。美国在2020年1月1日发布《加利福尼亚消费者隐私法案》,该法案被称为美国“最严厉、最全面的个人隐私保护法案”,大大提高了美国保护隐私的标准。这些法律法规在促进数据的合规使用、保障个人隐私和数据安全等方面都发挥了不可或缺的重要作用,未来还需与时俱进地完善。如何兼顾共享发展和隐私安全,平衡效率和风险,在保障安全的前提下加大对大数据价值的挖掘利用,是当前全世界在数据治理中面临的共同课题。

(五)加强大数据研究成果在政府工作中的转化应用

科学研究不能落地应用,就如“空中楼阁”,空有好看皮囊却无法居住,失去了“楼阁”最基本的价值。只有争取广泛的支持与合作,加强交流沟通,才能让更多有社会效益的项目研究技术落地,或者可以尝试建立政府、企业等多方参与、市场化运作的投资融资运营机制,推进政府与社会资本合作,把研究成果从“空中”落到“地面”,促进大数据成果和政府工作深度融合,必将大幅度提升政府部门的服务质量和水平,惠及民生福祉。

参考文献:

[1]耿亚东.政府致力变革的技术基础——大数据驱动下的政府治理变革研究述评[J].公共管理与政策评论,2020(04):87-96.

[2]余芳东.大数据在政府统计中的应用、瓶颈及融合路径[J].调研世界,2018(11):03-09.

[3]谢磊.大数据时代政府统计工作面临的问题及其策略研究[J].内蒙古科技与经济,2020(03):12-14.

[4]耿晴,李兵,詹伟.面向时空信息数据的大数据平台设计[J].地理空间信息,2017(10):35-39.

[5]陈鼎昌等.大数据背景下统计数据资源整合探索[J].统计科学与实践,2018(10):52-55.

责任编辑:张 波

猜你喜欢
统计数据政府部门数据库
创新视角下统计数据的提取与使用
国际统计数据
2017年居民消费统计数据资料
青海省人民政府关于第二批清理规范省政府部门行政审批中介服务事项的决定
浅谈在政府部门推行绩效文化的作用和途径
政府部门间G2G信息资源共享的演化博弈分析
统计数据
浅谈在政府部门推行绩效文化的作用和途径