检察数据中台的思考和构建

2024-05-07 00:27尚珂全李俊罗昊炜
中国新通信 2024年3期
关键词:数据治理数据仓库

尚珂全?李俊?罗昊炜

摘要:数字化转型凸显了数据中台的价值。为服务数字检察,从数据中发现检察监督线索,有效支撑“个案办理-类案监督-系统治理”,拟建设数据中台以支撑检察业务相关数据的汇聚、治理和应用。本文探讨了检察特色数据中台构建路线及其架构设计,并结合“先伤后保”保险诈骗这一典型案例,详细阐述了数据中台支撑的检察业务的服务流程。

关键词:数字检察;数据中台;数据治理;数据仓库

一、引言

在大数据时代,无论是线上虚拟社区,还是线下支付场景,数据分布无处不在,随着物联网的推广和普及,信息会以难以想象的速率在更快速地膨胀。

最早发现数据使用价值的是广告领域。在美国,沃尔玛精明的专业销售人员利用计算机采集、分析用户的注册信息、购买行为、购买地点、购买频率等数据,为用户进行消费行为画像,从而将用户喜好的商品广告精准地送到用户最容易触达的地方。后来,随着IBM、甲骨文等计算机公司的崛起,存储成本的降低和数据工具的多样化,使得数据的商业化价值被大中型企业所触及、挖掘,并用于流水线自动化、企业决策等多方面[1]。

当前,数据已成为政府、企业的核心资产,并被视为一种基础能力,数据的质量和规模一定程度决定了政府的执政能力、企业的管理能力甚至是盈利能力[2]。在今年年初的政府机构改革中,国家数据局正式成立,这表明国家对实施数据发展战略的决心,并进一步证明了国家对数据作为新的生产要素和资源属性的深刻认识。

相应的,随着大数据时代不断深入,数据中台已成为政府部门、大中型企业建设的重要方向。即使对数据中台有较大的需求,但在面对具体应用场景时,则又面临不知道如何建设,不知道哪些功能可用、哪些不可用等一系列問题。

根据最高人民检察院“数字检察”工作的部署,各地要根据实际情况建设数据中台,用以支撑“数字检察”对数据服务的高要求。数据中台的建设应依托检察业务,遵循“业务主导、数据整合、技术支撑、重在应用”的原则。检察系统的数据中台应以提供具有检察特色的数据服务为目标,为检察大数据法律监督和业务办案全流程提供支持。

二、背景

(一)数据中台发展历程

1991年,Bill Inmon提出数据仓库的概念,这一概念被视为大数据的雏形阶段。Bill Inmon在其著作《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。面向主题、集成、时间相关、不可修改成了数据仓库的四要素。

数据仓库的下一阶段是数据湖(Data Lake),这一概念最早是在2011年由CITO Research的CTO和作家Dan Woods共同提出的。数据湖被定义为以原始格式存储数据的存储库或系统,它按照原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据、半结构化数据、非结构化数据和二进制数据。

随着大数据技术的不断完善,成熟的数据湖体系已经非常接近于数据中台的概念,它同样具备了大数据存储、处理、分析和机器学习等能力。亚马逊是最早建设数据湖体系的公司,也是国外建设最完善数据湖体系的公司。

大数据的成熟阶段就是数据中台阶段。严格地说,数据中台是一个相对“中国特色”的概念,属于对完备大数据湖体系的本地化和扩充。数据中台的发展历程如图1所示。

(二)数据中台概念

数据中台的概念最早由阿里巴巴提出:“数据中台是数据+技术+产品+组织”,是企业开展新型运营的一个中枢系统。具象地说,它是一套解决方案,而从抽象的角度看,它是一种新型的运营理念。可以看出,数据中台在数据湖的基础上扩展了组织和管理层面的体系,将大数据从由产品堆叠的解决方案上升到“业务+数据”全过程管理的机制。

通俗意义上的数据中台是指通过数据技术,对海量数据进行采集、计算、存储和加工,输出标准数据后进行存储,形成大数据资产层,结合数据模型、算法服务、数据产品、数据管理,为需求应用提供数据服务的一套体系[3]。

数据中台旨在提升数据的使用效率,其核心在于基于海量数据提升整体运行效率,促进政企单位更好地利用数据,更快地让数据产生价值[4]。

数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过资源打包整合,再通过接口进行开放,提供“一站式”数据服务。按照功能模块划分,数据中台通常包括两个部分:数据仓库和数据应用。

1.数据仓库

数据仓库有一套标准的数据资源体系,分为三层:贴源层、基础层和主题层。贴源层主要负责从各个信息系统汇集数据;基础层负责对汇集的数据进行清洗和加工,形成符合业务形态的数据资源模型;主题层根据业务需求导向,将数据组织为具体业务场景所需要的数据结构,深化数据服务价值,全面实现纯数据到业务服务的转换,实现数据融通。

2.数据应用

根据所面向的实体业务的特点,数据应用提供诸如数据建模、数据统计分析、数据地图、定制化数据产品等服务,这一部分的主要目标是帮助业务解决具体问题,通过数据驱动的方式提升业务产品的质量和效果。

(三)检察特色数据中台

检察大数据法律监督,是检察机关利用大数据分析和挖掘技术构建监督模型,实现从单个案件到类案办理,实现办理一案、治理一片,进而促进社会矛盾的溯源治理,是检察机关的一种履职创新方式。显然,数据应用是大数据法律监督的核心,而这需要依赖于检察特色数据中台的构建。

纵览数据中台的概念及其发展历史,可以得出一个结论:数据中台没有建造的通用公式,要在抽象业务特点的基础上进行深度结合,才能发挥好数据中台的核心价值。

围绕“数据”价值,数据中台的重点在于夯实数据基座,沉淀内外部数据资源,探索数据在检察办案尤其是类案办理方面的应用,从而深入挖掘数据价值,为溯源治理提供服务。全面支撑检察业务应用,需要在实现路径上满足以下需求[5]:

1.数据汇聚需求

基于检察机关核心办案业务系统“检察业务应用系统”,汇聚检察机关内部数据(存量数据和增量数据)。引入业务应用(例如当前比较迫切的“大数据法律监督模型”业务应用)必需的外部数据,包括但不限于政法协同数据、城市大数据中心共享的委办局政务数据、互联网数据等,形成数字检察数据湖。

2.数据治理需求

数据治理针对汇聚之后的数据开展清洗、融合、服务、共享等数据治理全生命周期管理,保障沉淀的检务数据的完整性、准确性以及唯一性。通过数据资源编目、数据标准管理、元数据管理、数据质量管理和数据治理工具等能力以及过程中建立起来的数据地图和数据血缘关系结构,完成以四大检察十大业务为核心的检察大数据仓库建设,从“人、案、物、组织”等维度为业务系统提供数据应用支持。数据治理,建立完备的数据处理能力服务支撑是核心。

能力支撑服务:数据能力服务主要提供数据智能分析的能力服务,例如:自然语言处理(NLP)能力、语音识别能力(OCR)文书要素提取能力、案件知识图谱构建能力等。

数据治理服务:围绕全流程在线办理体系的建设需求,依托数据汇聚和治理基础平台提供的基础工具和能力,提供数据采集、数据清洗、数据加工、数据资产编目、数据智能分析和数据标签等数据治理实施服务。

数据标签化服务:数据治理需求中,比较重要的基础需求包括数据业务标签化。数据业务标签化是指将数据面向检察办案业务进行标签化,围绕“人、物、案、组织、知识”等主题建立通用标签和围绕“四大检察”全量业务建立数据标签,通过标签,多角度、多层次地以检察办案业务的视角管理海量的数据并梳理数据之间的关系。

数据治理过程的产出是形成贴近业务的数据主题层。在数据主题层上,根据服务业务场景和统计分析场景的不同再拆分为主题库和专题库。

3.数据应用需求

随着数据资源的不断积累,以及检察业务人员对利用大数据办案的认识逐渐提高,当前全国检察机关的重要数据应用需求之一就是“大数据法律监督”。在最高检的统一规划下,全国各地正大力推进大数据法律监督工作,并提升相应的技术支撑手段。大数据法律监督顾名思义,就是利用大数据技术辅助检察机关履行法律监督职责,大数据技术是基础手段,法律监督是业务目的。在大数据法律监督需求中,需要建立一个“业务建模平台”,该平台主要面向不懂技术的一线办案检察官,通过图形化的操作方式,可以降低使用建模工具的专业要求和使用难度,使检察官经过简单培训后即可上手操作[6]。

三、检察数据中台架构

(一)外部资源

放眼外部环境,数字中国的建设规划在2019被纳入十四五规划,数字检察需要融合并借力这个大背景的优势。城市大数据中心集中优势资源,按照“集约高效、共享开放、安全可靠、按需服务”的原则,建立了覆盖全市的电子政务云,实现了市委办局基础设施共建共用、信息系统整体部署、数据资源汇聚共享、业务应用有效协同。

数据中台的建设应尽可能依托城市大数据中心的云上环境、设备资源和工具服务:在降低建设成本的同时,实现与其他单位的数据资源共享,并将数字检察的建设纳入数字城市整体规划中,为后续全市数据上链共享等打下牢固的基础。

(二)网络环境

依托地方的网络资源和部分本地的设备资源,检察机关已经构建了四网同步运转的信创网络环境,包括检察业务网、工作网、政务外网和互联网。检察业务网用于涉密系统的部署运营,与其他三个网络保持物理隔离;检察工作网是当前信息化项目的主要部署网络,也是内部数据产生和汇聚的地方;政务外网主要用于对接外部委办局等单位;互联网则主要面向于公众服务的信息发布、电子文书送达等。依托城市电子政务云的安全交换设备和跨网交换能力,实现了除业务网之外的逻辑互通、数据融通和安全畅通。这进一步优化了各类系统、会议和远程视频应用的性能。

尽管网络拓扑联通,但是根据数据分级分类原则,内部数据属于重要数据,涉案信息不能在政务外网上流转,更不能流入互联网环境。因此,数据中台需要采用分布式结构,以确保数据的安全性和隐私性。

(三)工具箱环境

在市委办公厅的统一规划下,城市大数据中心为市级机关免费提供了政务外网PAAS上的工具箱产品,其中包含了数据治理工具。这些工具不仅可以提供存储服务,也可以完成数据汇聚、清洗、加工、归档等一系列数据治理开发工作。

(四)架构设计

基于以上资源和环境,综合考虑需求满足度、可扩展性和经费等因素,本次全流程全息在线办案系统的数据中台采用了“两张网络,两个子平台”的组织架构,整体架构如图2所示。

1.政务外网

在政务外网,建设数据子平台,面向外部数据的汇聚、清洗、加工和编目存储。技术路线采用城市大数据中心提供的存储产品(MaxCompute)建设数据存储仓库,并利用数据汇聚和治理工具(DataWorks)构建数据治理的整套流程,最终经过治理好的外部数据通过交换平台传输到检察工作网。

2.检察工作网

在检察工作网,建设数据子平台,面向内部数据的汇聚、清洗、加工、编目存储,进而与已经治理、编目完备的外部数据共同构成大数据基座。技术路线使用RDS数据库建设底层数据仓库,自研数据治理工具用于构建数据治理、标签化、数据全息档案以及检务检索分析等能力。同时,还将使用事件感知引擎搭建业务建模平台。

3.微服务体系

整体架构采用微服务体系搭建,并在此基础上建设统一、开放、安全的API開发和管理平台。每个服务运行进程独立,服务之间采用轻量级的通信机制,实现检察机关内各应用及与其他外部单位应用之间的接口服务调用。同时,实现服务调用链分析,自动分析服务依赖的压力点、易故障点和瓶颈点,以实现业务的隔离解耦、敏捷运维。平台提供统一的访问入口,具备限流、熔断、降级、认证和授权、负载均衡等能力,具有对整个服务调用链的全链条监控和日志分析能力,支持跨部署点接口服务和路由管理。

4.数据汇聚

坚实的数据基座需要源源不断的高质量数据流入。其中,内部数据是检察业务大数据应用的基本数据;外部数据是大数据法律监督成案不可或缺的必要因素。数据汇聚的主要目标是建立丰富且高质量的检察数据仓库[7],通常称为“检察数据湖”,如图3所示。

“检察数据湖”的建设重点在于数据采集的过程。数据采集主要是将不同来源的异构数据通过ETL等方式统一采集、处理、存储。数据采集中主要考虑数据来源、数据采集方法、数据存储方式等[8]。

(1)数据来源:数据的来源丰富多样,可以根据提供数据组织单位的不同进行分类,包括内部数据与外部数据。外部数据可进一步细分为大数据中心数据、其他委办局数据以及其他途径数据。

(2)数据采集方法:提供关系型数据库数据接入,支持类型包括MySql、SqlServer、Oracle、PostgreSQL、DB2、达梦、瀚高、人大金仓、神舟通用;也支持流式数据的直接对接。提供半结构化数据接入,支持类型包括XML、JSON;提供非结构化数据接入,类型包括目录文件;提供API数据接入,支持第三方接口数据代理发布、大数据库表代理发布成API接口。

(3)数据存储方式:整个检察业务累积下来的数据(不包括视频文件),整体信息量已经累积了近2PB,包括视频文件的话可能会快速增长到10PB甚至更大。数据存取业务存在频率和实时性要求不同的场景,仅仅使用传统的关系型数据库已经无法满足建设要求,因此需要使用混合、分布式大数据存储体系来满足数据仓库的要求。

对于非结构化数据,利用OSS对象存储进行保存;对于数据量大的结构化数据,使用大数据套件如Hadoop2.0等进行降维存储;若数据量较小,则使用传统关系型数据库存储;对于数据并发量较大的场景,使用Redis等作为中间Cache;此外,使用Kafka作为数据存取调度的任务管理框架。

5.能力支撑平台

数据中台在工作网建设通用共享能力平台,用以支撑数据治理过程和上层的业务应用的各类流程,共计十种,如图4所示。

OCR语音识别、NLP自然语言处理等的AI算法应用能力的统一接入、发布,处理结构化的数据,语音、图像、视频等,将辅助全流程办案等多个检察业务系统,提高业务应用效率。实现共性通用应用能力的统一管理、统一赋能,形成标准化的通用能力输出模式,节约计算资源,提升检察的智能化水平。

能力平台结构如图4所示。能力平台的模型中心可对各类上架的能力模型进行有效的分类,并提供统一管理、统一部署、统一调度,实现从模型到应用的统一化发布、运行、共享和管理。同时,对能力模型提供一致的标准化镜像、监控、API,保证业务的一致性。对于导入的源能力模型,模型中心可提供基于能力模型底层的加速、迁移、发布等能力,提升能力模型到应用场景的性能,提升使用的效率。

能力平台可以统一管理和调度能力模型应用所需的物理资源,实现资源的最优化利用。平台将各个业务系统所需的通用原子能力统一管理、统一部署和资源统一调度,提供丰富的通用能力产品服务,市区两级检察院各应用系统可以根据实际需求按需调用。平台基于实际业务需求,让通用能力在云一边-端自由流动。

6.建模工具平台

数据建模是数据应用的必备甚至是核心功能之一,其架构如图5所示。数据建模是数据中台使用者通过直观手段使用数据,挖掘数据价值的重要模块。提供统一的数据建模能力,就要在平台内置可自动适配不同计算引擎的SQL算子,同时支持各类大数据计算引擎自定义的特性,如MapReduce、UDF等,覆盖绝大部分数据处理需求。平台应具备多模型并发能力,能够支持全市范围内检察模型的同时运行。

该平台具备离线模型智能优化能力,可以自动适配Odps、Hive、Spark、Trino多个计算引擎的SQL算子,运行时可复用历史缓存结果,剔除不必要节点,并自动识别可合并节点,从而节约计算资源,提升整体性能。在实时计算领域,平台采用低资源流式计算将实时计算常用的业务场景进行封装,提供丰富的系统算子,包括分组聚合、维表关联、空间计算等,支持动态语言编程的自定义算子,能够快速地构建实时业务链路。

7.其他支撑工具

除了以上核心模块,还需要一些底层工具来支撑和管理整套体系。

(1)日志收集工具

采用ElasticSearch+Logstash+Kibana分布式收集日志技术,收集各个应用系统的日志,实现对应用系统的操作分析和状态监控的统一处理。

(2)数据迁移工具

采用ETL工具,该工具是覆盖数据集成逻辑的设计、开发、调试、部署、运行、管理、监控各个生命周期不同阶段的集成开发工具,可实现对数据集成流程的开发和部署,也可对数据集成的运行过程进行实时监视,以及对集成流程历史数据进行分析。

(3)消息中间件

采用RabbitMQ作为消息中间件,实现跨综合平台和各部署子系统之间可靠、即时的消息(信令)传输,支持异步、同步消息通知方式,并提供缓冲限流、高峰分流、海量消息堆积处理能力。

(4)服务控制组件

采用Sentinel工具,提供轻量级的开源控制台,它提供机器发现、健康情况管理和监控、规则管理和推送的功能。通过收集Sentinel客户端发送的心跳包,判斷机器是否在线;通过Sentinel客户端暴露的监控API,定期拉取并且聚合应用监控信息,最终可以实现秒级的实时监控。

(5)负载均衡组件

采用Spring Cloud Ribbon,提供一系列完善的配置,如超时,重试等。通过Load Balancer获取服务提供的所有机器实例,Ribbon会自动基于某种规则(如轮询,随机)调用这些服务。

四、应用案例

以“先伤后保”保险诈骗模型为例,详细阐述使用本技术路线搭建的数据中台是如何打通数据链条,深挖数据价值,赋能检察业务,支撑“个案办理-类案监督-系统治理”的。

(一)模型背景

在保险范畴内,只有先参保缴费,后发生事故才能获得理赔。但上海执行着一项“先伤后保”的惠民政策:用人单位应当自用工之日起30日内为职工办理社会保险登记,如果职工刚入职就发生工伤事故,企业只要是在其入职30日内参保并缴费的,依然可以申请工伤理赔。

然而在实践中,“先伤后保”这项惠民安企的好政策却被不法分子所利用,甚至滋生出“工伤黄牛”地下产业链。通过走访调查,发现该现象绝非个案,在工伤保险领域可能存在其他骗保案件,遂以此构建业务模型作为全市大数据赋能法律监督的重点项目。

(二)模型简介

汇聚社保中心所有工伤理赔案件的参保缴费时间、受伤时间和入职时间等数据,筛选出参保缴费时间在入职时间30天内且参保缴费时间比受伤时间晚的案件,即为“先伤后保”类型的案件。然后,以这些案件为索引分析相关的单位名称、工商注册地、受伤从业人员姓名、身份证号、参保时间、缴费情况、受伤时间、事故发生地和理赔金额,当超过预警值的时候即将其视为“先伤后保”保险诈骗的潜在线索。接着,通过调取涉案企业的前科劣迹和当事人的银行流水信息进一步缩小线索核查范围,从而产出最终线索集。

(三)数据中台支撑

本案例是一个典型的利用数据中台将内外部数据结合,产生有效监督线索(挖掘数据关联价值,产生数据服务)的案例:

在政务外网上,社保中心的数据中台通过数据汇聚工具被存储到政务外网建设的数据仓库中,经过初步清洗加工,去除脏数据后,转移到工作网环境。

在工作网内,数据进入检察数据湖,并与内部相关的前科数据以及调取到的银行流水数据一同上传到建模中心。在建模中心,检察官根据数据碰撞规则搭建相应的模型,输出最终的线索,并且记录模型,实现类似案件的监督功能。

以上就是本数据中臺支撑起大数据法律监督的一个完整链条。

五、结束语

综上,本数据中台的技术路线选型及架构设计基本满足了“数字检察”的现实需要,有效支撑了“个案办理-类案监督-系统治理”,为数据的汇聚、加工和利用构建了可行的路径。同时,在安全性方面,依托城市大数据中心对政务云资源提供的专业化运维管理机制,在产品上尽可能地使用了大数据中心的授权工具,降低了建设成本,也可以从系统和管理两个方面均做到安全可靠。

参考文献

李广乾.什么是数据中台[J].中国信息界,2019(12):72-75.

张洪丹,赵艳强.数据中台在政务APP中的搭建与应用[J].互联网周刊,2021(10):50-52

刘俊良.新时代数据中台研究与设计[J].电子世界,2020(4):119-119.

[4]王晓波.基于数据中台的产业数据治理系统的设计与实现[J].电脑知识与技术,2022(18):22-28.

[5]穆义龙.浅议数据中台在公安大数据建设中的应用[J].法制与经济,2020(10):27-28.

[6]湖州市人民检察院课题组.大数据法律监督平台与技术应用相关问题[J].中国检察官,2022(23):7-10.

[7]刘三平.数据中台建设对企业数据贯通的技术研究[J].电子技术与软件工程,2021(2):189-190

[8]朱曾珍.大数据驱动的检察系统流程再造研究[D].哈尔滨:哈尔滨工业大学,2019:37-40.

猜你喜欢
数据治理数据仓库
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
运用流程化手段提升资产管理水平
大数据治理模型与治理成熟度评估研究