中通服咨询设计研究院有限公司|李道阳
为了更好地帮助监察机关对本地区所有行使公权力的公职人员依法实施监察,本文从数据流转的全生命周期出发,分析并设计了监察机关职务犯罪侦查大数据信息平台,通过底层数据共享交换平台对海量的横向外部数据及纵向内部数据进行处理及管理。
随着国家监察体制改革的深化,国家监察委员会(以下简称“监察委”)作为一个全新的政府机构逐渐走上台前。监察委主要职责是对本地区所有行使公权力的公职人员依法实施监察,拥有采取谈话、讯问、询问、查询、冻结、调取、查封、扣押、搜查、勘验检查、鉴定、留置等的权利。
受限于政策、数据及大数据分析技术,检察机关的平台建设仍处于起步阶段,依旧以传统人力统计分析为主,信息化分析为辅。但是随着涉案人员越来越狡猾、情节越来越恶劣、手段越来越隐蔽,传统的人力统计分析在有限的时间内往往无法从海量的数据和真假难辨的线索中提取到有效的信息。为了更好地执行公务、实施监察,结合当前大数据挖掘、分析技术,分析并设计一款集汇聚、处理、关联、分析和决策一体的支撑职务犯罪侦查的信息平台十分必要。
监察委获取的数据具备以下特点。
第一,来源多、数据结构复杂。当前监察委执行调查权时,根据嫌疑对象不同,牵涉到的数据往往包括公安数据、检察院数据、工商数据、民政数据、税务数据、房产数据、民航数据、住宿数据、手机话单数据、银行账单数据等数十类数据。
第二,监察数据时效跨度非常之大。
第三,监察工作的相关有效线索和有效证据通常具有很强的隐蔽性和迷惑性。
以上种种,导致了监察委的同志在办案时将面对不可想象的海量数据。
然而,监察委现有的处理数据方式较为落后,在一定程度上影响了数据分析的效率和效果。一个综合的、全面的、全数据覆盖的信息化侦查平台势在必行。
本文基于以上需求分析并设计一套适用于监察系统的大数据信息平台,实现对监察工作系统、深入的支撑。该大数据信息平台具备如下功能。
首先,实现对监察机关调查所需数据的统一采集和汇聚。由于不同委办局及相关机构有着不同的业务系统和数据格式,因而需要针对不同的数据来源提供不同的数据对接方式。
其次,在海量数据接入系统后,通过搭建统一的监察机关数据库,实现对数据的统一处理及筛选,除去冗余的、重复的、错误的数据。同时,结合监察机关办案的实际需求和现状,构建相应的专题库,实现对数据进行主题定义。
最后,结合监察机关办案的习惯及方式方法,构建相应的分析模型,形成辅助的决策专题报告。
表2 各个生命周期阶段的数据内容
表1 监察机关大数据种类及详情
本文介绍的监察机关职务犯罪侦查大数据信息平台的建设将以数据为核心进行搭建。基于数据的流转和全生命周期视角,本文提出的大数据信息平台重点旨在实现监察大数据的采集、处理、存储和分析,以实现对监察事务的数据支撑,辅助监察决策的制定。
监察机关涉及的大数据具有海量、复杂的特点,根据数据的不同形式可以分为结构化数据、半结构化数据和非结构化数据三类。具体的数据种类及包含的内容如表1所示。
监察大数据在流转的全生命周期过程中,一般经历数据采集阶段、数据交换阶段、数据存储阶段、数据分析与决策阶段,各个环节的特点如表2所示。
图1 数据传输系统功能结构
监察机关的大数据采集主要分为内部纵向数据采集和外部横向数据采集两类。其中内部数据主要是指纪检监察机关自身所存有或者在工作中生成的数据,主要包括工作填报数据、线索数据、判决文书数据以及相关基础信息数据等。由于这些数据存在一定安全性要求,因而主要在纪检监察机关内部流转。本文中举例信息平台主要通过数据传输系统实现对内部数据的纵向采集,具体设计思路如下图1所示。
基于监察机关的组织结构特点,数据传输系统主要实现三级检察院之间纵向的传输交换。数据传输系统的主要作用是针对职务犯罪侦查分析来源数据的采集整理,最终形成标准化、高质量的数据,提供给职务犯罪信息侦查和进行专题/主题分析等更进一步的应用。
此外,外部数据是指通过相关数据获取手段和外部相关机关或渠道,去获取纪检监察机关存在需求的部分相关数据。当前主要的外部数据有通话数据、银行账单数据、酒店开房数据、民航数据、铁路购票数据、民政数据、税务数据、车辆数据、房产数据等。
对于此类数据本平台主要目标是实现监察机关和外部机构或者渠道进行横向对接。平台打通了各类数据的对接借口,支持专线获取(如Socket对接、文件模式对接、中间库对接、REST对接、Webservice对接等)、定期拷贝、专网检索、互联网获取等多种数据采集方式。基于不同的数据对接要求,采取针对性的数据对接方式,将相关数据汇聚到纪检监察机关的数据库中,便于后期相关工作的开展。
本系统平台通过设计数据交换系统,完成对采集后的大数据的处理工作。数据交换系统的作用是通过监察机关职务犯罪信息资源交换与共享,实现跨部门、跨单位、跨层级的系统间数据共享,将共享信息资源进行目录化、可视化管理,以松耦合的方式提供灵活、可扩、可控的信息资源共享,支持多级分布式的交换节点部署,提供通畅的信息共享通道,以提供不同部门、单位、层级间的按需信息交换服务,提高业务协同效率和数据服务水平。
本信息平台通过提供一种成熟稳定的数据库层建设,实现对大数据的高效存储。
该架构主要分为4层进行建设。
(1)底层是分离的数据采集层,对于外部数据通过各类不同方式的数据采集平台对数据进行原始采集,并通过ETL组件将采集到的各类外部原始数据传输至数据中心层。
(2)数据中心层的数据来源主要由外部数据和内部数据组成。这两类数据的来源不同,其数据格式呈多样化。本文通过统一融合数据仓储(UDS)将数据进行初步的处理。统一融合数据仓储对数据进行处理后,数据将被分为主数据和融合数据两类。其中,主数据以被分析对象为主体,融合数据即将各个来源不同的各类数据进行数据格式统一并提取其相应的共性。在完成数据统一融合的操作后,被整理后的数据通过ETL传输至企业级数据仓库(EDW),在EDW中就将结合实际工作和侦查办案需求,形成相应的分析专题。基于这些专题,将UDS中相关的所需数据进行提取并进行关联分析,形成相关新的整合后的分析数据(比如话单数据+民航数据+住宿数据=行程轨迹数据)并存在于各个专题库之中,以便于后期大数据专题分析使用。
在数据中心层中,还有一个很重要的组成“数据共享交换平台”,该平台是数据中心层中的数据与内部或外部业务系统的惟一共享交换通道,它可以根据不同的需求将原始的内外部数据、初步处理过的主数据融合数据或者深层数据关联处理过的分析数据和外部系统进行交互,同时也可以将外部系统的相关业务数据交互至数据中心层中进行处理。
(3)数据逻辑层主要是根据业务方面大数据分析建模的需求,提取相应的各类数据进行数据挖掘多维建模分析,形成核心业务的分析模块。
(4)应用展现层主要是将相关的业务分析模块形成专门的应用供操作者使用,并提供相关的友好交互页面。
大数据分析平台主要利用大数据技术对检务数据进行采集、存储、处理、分析、输出等处理,并且支撑相应的专题分析及大数据建模。大数据分析工具包括数据融合、数据存储、分析计算、和数据服务应用,同时受安全控制与管理配置机制控制与调度。
本文研究的监察机关职务犯罪侦查大数据信息平台创新性从大数据流转的全生命周期出发,设计了一套全面支撑监察大数据采集、处理、存储及分析的系统。该大数据信息平台的应用,将辅助监察机关实现海量数据的高效获取、调取及基于数据分析形成的关联分析及分析结果的呈现,从而提升了监察机关的工作效果。
本文重点从监察机关对监察大数据的应用需求出发,以监察机关涉及的海量、复杂数据为重点研究对象,分析并设计了职务犯罪侦查大数据信息平台。本文通过对监察机关涉及数据的分类及各类数据获取方式及特征的研究,基于对数据流转的全生命周期中各阶段的处理,重点介绍了监察大数据采集阶段、处理阶段、存储阶段及分析阶段的系统设计思路。