李萍?朱春琴?魏房忠?孙毅
摘要:随着“数字政府”建设的不断推进,在政务服务、社会治理、政务运行等场景中不断深化应用,政务数据共享交换对实时性、高效性、灵活性有了更高的要求。结合传统政务数据共享交换平台的架构,分析了传统数据共享交换方式面临的短板与不足,重点对“统一数据资源目录+CDC”、实时流处理技术、API整合封装等新兴技术路线进行了研究、分析和比较,以探索新形势下实现政务数据高效共享的新方式。希望能为相关从业者提供借鉴。
关键词:高效共享交换;CDC;实时流;API整合封装
一、前言
当前,数字化转型在社会各行业如火如荼地开展。“数字政府”建设从规划到落地,由此带来了政务服务“一件事”、社会治理“一类事”、政务运行“一体事”等场景应用,政务数据共享的意愿更加强烈、需求更加灵活、时效性要求更高。传统“T+N”离线采集或交换模式往往会面临着交换链路长、实施环节多、交换效率低等问题,难以满足实时性要求。
在政务服务领域,实现政务服务事项清单标准化、政务服务精准化和政务服务便捷化[1],让企业和群众办事“少跑腿”,让数据“多跑腿”[2],加快数据汇聚共享,制定政务数据共享服务管理办法,优化一体化大数据共享交换体系[3],是现在比较迫切的需求。因此,为满足“数字政府”新形势下政务数据共享开放的需要,开展政务数据高效共享交换的研究,探索新技术实现方式,显得尤为必要。
二、政务数据共享交换的现状
(一)共享交换平台
现行政务数据共享交换平台通常主要由统一数据资源目录、数据交换系统、政务信息共享网站等系统组成,平台架构如图1所示。
(1)统一数据资源目录
统一数据资源目录是实现政务信息资源共享和业务协同的基础,是各政务部门之间信息共享的依据,统一数据资源目录通过挂接各类数据资源,以目录为纽带实现数据资源的特征描述和数据的定位获取。
(2)数据交换系统
数据交换系统作为政务信息资源交换的基础设施和通用系统,提供统一的政务数据共享交换通道,具备政务数据归集和政务数据订阅交换等功能。
(3)共享网站
共享网站作为大数据管理部门信息发布和政务信息资源服务的综合性门户,面向各政务部门业务工作人员,提供政务数据资源检索和政务数据共享申请等功能。各政务部门既是数据提供部门,也是数据使用部门。
(二)共享交换流程
政务数据共享交换流程主要包含了归集、注册、申请、共享等步骤。
(1)归集。基于数据交换系统归集各数据提供部门提供的政务数据,涉及库表、文件、API服务接口等类型资源。
(2)注册。数据提供部门在统一数据资源目录中完成目录注册、资源挂接等发布工作,形成本部门对外共享开放的数据资源目录。
(3)申请。数据使用部门通过共享网站进行数据资源的检索,针对有使用需求的数据资源发起共享申请。
(4)共享。申请流程经数据提供部门审核通过后,由数据交换系统响应本次共享请求,实现数据从数据提供部门到数据使用部门的交换。
(三)共享交换方式
政务数据共享交换通常采用“前置机库表”方式和“API服务接口”方式。
(1)“前置机库表”方式
“前置机库表”在各数据提供部门推送数据至共享交换前置库后,由大数据主管部门对数据进行汇聚整理,再对外提供共享服务。这种方式必须由数据提供部门进行大量工作配合,往往需增加人工操作、系统改造工作量大、成本高,导致数据汇聚困难,实时性不高[4]。在有新的业务需求时,数据提供部门需要配置新的推送任务,把数据从业务系统同步到共享交换前置库。
在支撑办理跨部门、跨系统事项时,如果以这种方式开展多部门、跨层级数据交换,则会凸显数据交换链路长、实施环节多、交换时效性不高等问题。继而出现数据同步不及时,办理等待时间长等问题,企业和群众办事体验比较差。
(2)“API服务接口”方式
“API服务接口”方式是指数据提供部门通过预先定义函数,制定输入、输出参数和访问协议等指定内容,对外提供数据服务的一种共享方式。由于API的输入和输出参数相对固定,当新的业务需求出现时,需要数据提供部门开发新的API,而无法复用现有API的能力进行二次开发或编排,也无法对多个API进行关联整合,实现跨部门、跨业务联合查询。
(四)共享交换工作演进
之前,政务数据共享交换的任务以完成数据批量归集、集中汇聚为主。在现阶段,政务数据共享交换的工作重点已经发生转移,一方面要求提高数据共享交换的效率,确保数据鲜活度,减少办事等待时间;另一方面要求通过数据流动促进业务协同,实现跨部门、跨地域、跨层级的业务对接。
三、政务数据高效共享技术研究
为满足政务数据高效共享的要求,在技术选型研究时,既要满足新的业务需求,提高数据共享交换效率,同时又要减少对现有平台技术架构和接入部门的影响,为此,本文提出“统一数据资源目录+CDC”、实时流处理、API整合封装等技术方案。
(一)“统一数据资源目录+CDC”技术
CDC(Change Data Capture,变化数据捕获)是在数据库级别实现数据增量抽取的解决方案,是业界成熟的实时数据变化捕获技术。CDC通过日志记录事务的开始、提交以及撤销等一系列属性,以事务为单位对扫描记录进行交叉记录,同时为每个事务建立相关的链表以更好地将日志记录整合在一起[5],完成对数据变化捕获。
CDC是对现有政务数据共享交换体系非常好的一个补充。利用它可实现实时数据共享交换,结合现有统一数据资源目录和共享网站功能,在与CDC程序之间增加了一个适配层,实现统一数据资源目录和共享网站与CDC的有机串联。适配层实现以下两个核心功能。
(1)业务衔接贯通:实现统一数据资源目录、共享网站与CDC程序的集成,为统一数据资源目录提供CDC类型的数据源,并响应共享网站的实时数据共享订阅请求,将实时数据推送到数据订阅方。
(2)数据实时打通:驱动CDC程序从数据提供部门获取实时数据,并向数据订阅部门推送,实现数据的实时共享交换。
“统一数据资源目录+CDC”的数据共享交换,首先不需要数据提供部门把数据从业务系统定期推送到共享交换前置库;同时,数据提供部门也能按现有的政务数据共享交换流程,自主控制数据共享的范围,能精确到表级或字段级,保障他们作为数据拥有者的权利。减少了数据流转环节,提升了数据共享的时效性,也会在一定程度上减少对前置机的使用;另外也可提升由于时间戳造成的数据错误或丢失问题,提高数据共享交换质量。这种方式只需对现有共享交换的技术框架和业务流程进行细微地改造,易于快速地在各级政务部门落地实施。
但此方式也存在一定的局限性,首先只适用于库表数据交换,无法对文件、API等类型数据变化进行捕获,其次要求数据提供部门提供具备读取数据库日志的访问权限。
(二)实时流处理技术
大数据时代的到来使单节点的计算模式已经不能满足数据处理的需求,分布式数据处理与存储系统(如Hadoop)逐步成为大数据平台首选的架构,但基于Hadoop架构的大数据平台主要基于静态数据文件的并行处理,虽然在海量数据吞吐、计算、存储方面有极高的效率,但是实时性较差,属高吞吐高并发,高时延的架构[6]。
为满足业务场景实时性要求,在数据采集、数据传送、数据处理和数据加载等环节中,需根据场景特点,应用不同的流数据处理技术,以实现高速实时的流式数据处理分析。提高数据共享交换效率进行研究。
(1)数据采集
通过实时流组件,对数据量大、实时性高的数据进行归集,可提升数据归集效率。对于日志类数据,使用Flume(高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统)进行实时采集;对于数据库类数据则使用CDC等数据库事务日志解析工具实时捕获数据的变化。
(2)数据传送
将采集的数据写入Kafka(高吞吐量的分布式发布订阅消息系统)中,利用Kafka的低延迟、高吞吐特性,下游消费者可以实时、高速地读取Kafka中的消息,减少延迟。
(3)数据处理
Flink(分布式流数据流引擎)从Kafka中读取到数据,可以利用强大的流处理能力对数据进行实时计算,同时实现对数据的轻度治理,如字段填充、数据清洗、数据转换等。
(4)数据加载
根据数据特点及业务需求,将数据存放到合适的组件,提升数据应用效率。如全量数据可存放在HBase(分布式的、面向列的数据库),快速高并发访问的热点数据可存放在Redis(基于内存亦可持久化的日志型、Key-Value数据库)。
实时流处理技术适用于数据量大、时效要求高的业务,在部署时需要考虑结合业务特点选取相应的组件,配备相应的软硬件资源,满足实时流处理分析效率。
(三)API整合封装技术
API(Application Programming Interface,应用程序接口)整合封装是指对各数据提供部门提供的一个或多个API服务接口进行二次图形化编排开发,并对每个API服务接口的返回结果做一定的数据处理,比如过滤、关联和合并等,最终整合成一个全新结果返回给前端。API整合封装技术能提升API服务接口复用性,并提供图形化拖拉拽的“零代码”操作界面,降低对开发人员的技术要求,同时提高开发效率。
API整合封装技术,通过三个步骤来实现对API服务接口进行封装:
(1)首先是数据源采集,通过API整合封装技术提供的数据库、API等多种数据源的适配器,采集各类源数据,封装转换为应用模型;
(2)其次是模型关系和图谱构建,根据应用模型间的关系,构建模型图谱;
(3)最后是场景化构建,根据业务需求,在模型图谱中选择适合的模型,通过图形界面拖拉拽方式,进行场景化构建。
例如,在构建“人才安居房资格核实”的业务场景中,条件为人员年龄在40岁以下、学历本科以上、社保交纳年限在5年以上,之前需要分别查询人员基本信息、学历信息、社保信息三个API服务接口,并对返回数据分别进行核实。利用API整合封装技术,对这三个API服务接口进行源数据采集,并通过身份证号码进行关联,配置对应的条件,设定输入和输出参数,最终实现以一个API服务接口满足新增业务的需求。
API整合封装技术通过图形化编排,能减少开发工作量,提升现有API服务接口复用率和共享效率。但此技术有一定的限制,在对多个API服务接口进行编排时,API服务接口间要有关联的关系,并且对API服务接口的参数格式也有一定要求。
四、结语
优化政务数据共享交换平台技术架构,促进政务数据高效共享交换,可加快数据在各级部门间横向和纵向流动,提升发挥数据在政务服务、社会治理、政务运行等场景中的作用,帮助各级政府建立起协同高效的数字政务运转体系,全面激活数据要素潜能,推动“数字政府”建设迈上新台阶。
参考文献
[1]国办函〔2016〕108号,《国务院办公厅关于印发“互联网+政务服务”技术体系建设指南的通知》
[2]国办发〔2018〕45号,《国务院办公厅关于印发进一步深化“互联网+政务服务”推进政务服务“一网、一门、一次”改革实施方案的通知》
[3]2020年江苏省深化“放管服”改革工作要点[EB/OL].
[4]吴应良,肖炯恩.电子政务治理理论框架下的政务数据共享创新研究[J].电子政务,2018(10):51-59.
[5]曾远柔,方鹏.以数据库日志为基础的变化数据捕获分析[J].中国高新区,2017(23):192.
[6]朱奕健,张正卿.基于通信运营商数据的大数据实时流处理系统[J].中国新通信,2016(3):100-103.
作者单位:江苏省大数据管理中心