刘冰
摘 要 为充分把握国家实施大数据战略,加强顶层设计和统筹管理,全面建立以省级政务云为基础、以大数据资源管理为核心、以大数据示范应用为主导、以大数据安全体系为保障的大数据总体框架,初步构建数据汇集存储、开放共享、示范应用的大数据生态体系。通过建设资源中心,加快推进省级“数字政府”建设,释放大数据红利,提升政府治理能力,助推全省数字经济发展与转型升级。
关键词 大数据资源;建设研究;大数据红利
1建设目标
充分利用云计算、大数据、人工智能等技术,打造“12345”数据资源中心框架体系。“1”平台:建设统一的数据资源中心软件平台。“2”类数据资源:汇聚形成两类数据资源,一是数据湖,从外部数据源落地到数据资源中心的统一数据存储空间;二是数据库,用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的政务数据资源,其数据来源主要来自于数据湖。“3”级互联互通:形成覆盖上联国家、下接市(州)、横向连接省级部门的三级互联互通模式。“4”大能力:数据承载能力、数据管理能力、数据服务能力、数据应用能力,构建全省数据资源的核心枢纽,推进实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。“5”项管理:实现数据标准管理、数据质量管理、数据调度管理、数据资产管理、数据安全管理[1]。
2总体设计
2.1 总体框架
资源中心体系架构为“4+3”框架形式,即基础设施层、数据支撑层、数据资源层(数据汇聚中心)、数据管理层(数据管理中心)四个横向层次为主体,标准规范、安全保障和运维保障三个纵向体系为支撑。①基础设施层。依托四川省政务云平台软硬件、网络资源等基础设施,为资源中心提供计算、存储、网络、安全等基础保障。②数据支撑层。数据支撑层包括大数据基础支撑平台(并行计算、分布式存储等)、数据集成平台(ETL、爬虫等工具)、数据共享开放平台、数据治理平台等。③数据资源层(数据汇聚中心)。数据资源的建设范围将覆盖政务数据、社会数据和互联网数据等。数据资源层重点规划建设数据湖和数据库,数据湖是以大数据存储和计算能力为支撑、融合汇聚多领域数据,形成数据资源原始库。数据库是在数据治理的基础上形成标准数据资源,构建人口库、法人库、自然资源和空间地理库、电子证照库、社会信用库等五大基础库,宏观经济、政务服务、医疗健康、生态环境等重点领域主题库以及对接共享部门建设的专题库。④数据管理层(数据管理中心)。数据管理层以数据标准管理、数据质量管理、数据资产管理、数据调度管理、数据安全管理等为一体全方位的数据管控和调度体系。
2.2 技术架构
技术架构主要从数据资源的全生命周期管理搭建平台的技术架构体系,涉及数据采集、数据治理、数据存储等不同技术层面。基于大数据支撑平台数据处理环境,无缝集成了Hadoop生态中大量工具,提供PB级海量数据存储、查询、分析和挖掘能力。具有如下关键特性:①灵活性:可以存储任意类型的数据并可以使用多种不同的处理框架对数据进行处理,如批处理、交互式SQL、文本查询、机器学习和统计分析计算;②集成化:快速建立并快速运行于一个完整的包装好的基于Apache Hadoop的系统;③安全性:方便处理和控制敏感的数据,提供多租户的运行保护机制;④可扩展:为广泛的应用提供运行设施,并随着业务成长支持灵活弹性扩展;⑤高可用:可以应对多任务高负载的应用场景,保证集群的稳定;⑥兼容性:扩充和利用现有的基础架构,保护投资;⑦开放性:受益于高速的创新,并且无须受制于专有供应商的锁定。
3建设内容
依据“4+3”总体框架形式,资源中心建设主要包括数据管理层、数据资源层、数据支撑层、基础设施层四个横向内容,以及三个纵向(标准规范、安全保障和运维保障)支撑体系。
3.1 数据管理层
数据管理层是定位数据资源的管理调度中心,其构建在
数据资源层之上,主要用来实现对数据资源的全生命周期管控。数据资源的管理包括数据标准管理、数据质量管理、数据资产管理、数据调度管理、数据安全管理等。
3.2 数据资源层
融合汇聚政务数据资源、社会数据资源和互联网数据资源,构建互联互通、共享协作的全省大数据资源中心。数据资源层主要规划建设数据湖和数据库。数据湖是一个存储政务数据、社会数据和互联网数据等多源异构原始数据的大型仓库;数据库重点建设五大基础库、主题库、专题库。
3.3 数据支撑层
(1)大数据基础支撑平台。大数据基础支撑系统定位于大数据技术组件集成环境,采用现有主流的大数据架构,无缝集成Hadoop生态中大量工具,提供PB级海量数据存储、查询、分析和挖掘能力,用以支撑未来各类政府领域、社会行业、互联网的结构化、非结构化大数据存储和计算需求。大数据基础支撑系统包含业界流行的基于开源Hadoop及其生态组件构建的核心,还需要具备很多支撑政府级业务的高级管理特性。
(2)数据集成平台。数据集成平台是实现数据采集汇聚能力的统一集成平台,平台提供前置机、部门业务备份库、库表数据传输、数据文件上报或导入、接口服务集成等多种方式的数据采集。其中前置机、部门业务备份库、库表数据传输三类情景采用ETL方式来实现。数据文件上报或导入采用文件上传功能实现。接口服务集成要集成到服务管理平台中。
(3)数据共享开放平台。数据共享开放平台是政务数据资源的交换和汇聚通道以及对外开放的载体,数据共享能够纵向实现国省市跨层级、跨地域的数据共享交换能力,横向解决业务系统之间和跨部门的数据资源共享交换;数据开放将对外提供各类数据的下载及使用。
(4)数据治理平台。数据治理平台是通过建立数据质量评估模型,定义数据检测评估规则,对汇聚的数据进行数据质量检测,形成数据质量报告,进而对具备质量改进权限的数据进行清洗加工、融合比对、数据标签、数据加密、数据脱敏、数据溯源等处理。主要包括数据质量检验检测、数据清洗转换、数据加密脱敏、数据溯源等功能模块。
3.4 基础设施层
基于四川省政务云平台软硬件、网络资源等基础設施,在政务云上建立资源中心运行所需的专享物理资源池,通过在专享资源上创建云主机的方式控制和管理专享资源,专属物理资源基础设施,为数据资源中心提供计算、存储、网络、安全等基础保障。
3.5 三个支撑体系
资源中心建设以标准规范、安全保障和运维保障三个纵向体系为支撑。
参考文献
[1] 贺剑武.基于大数据分析技术的旅游智慧平台设计[J].现代电子技术,2020,43(14):183-186.