李亚洲 陈 坚
为提升政府治理能力及国家竞争力,我国于2015年首次将大数据发展列入国家战略,并于2016年发布《关于促进和规范健康医疗大数据应用发展的指导意见》和《大数据产业发展规划(2016-2020年)》等相关指导性文件。为积极推进公安大数据的建设,公安部也于2017年印发《关于深入开展“大数据+网上督查”工作的意见》,并在2018年年初成立全国公安大数据领导小组,以大力实施公安大数据战略,确保信息化建设能够取得重大进展,确保维护国家安全和社会稳定。
随着公安信息化建设迅猛发展,公安机关现已有数百种PB 级的大规模数据资源,数据量呈指数级增长,数据结构和存储方式日益多样。不断增多的信息数据已经成为公安机关仅次于警力资源、装备资源之后的新一类核心资源。在公安大数据治理方面,由于各个警种部门的数据标准不统一,因而无法形成统一的格式,给数据治理带来了一定的困难①朱维和、魏锋、高晓岚:《公安大数据治理技术研究》,《警察技术》2018年第6 期。。为此,警务大数据的有效治理将有利于促进公安大数据资产的价值变现②潘敏男:《公安数据间关联关系的可视化研究与应用》,东华大学2018年硕士学位论文。。
当前,公安机关警务大数据建设面临的主要问题有以下几个方面:一是数据壁垒导致“信息孤岛”的出现。由于数据不能充分共享、业务流程不能流畅衔接,各警种部门无法实现自身数据资源和业务接口的对外开放和数据共享,从而形成“单向信息孤岛”①张敏:《在治安防控场景下大数据应用方法分析》,《中国安全防范技术与应用》2018年第6 期。。二是信息资源的数据融合不充分、信息接入不明确。三是数据难以应用。公安机关在警务实战中积累了海量数据,但如何管理、有效应用这些数据,却还未建立相关的警务数据知识图谱,数据与知识之间的转换困难、数据挖掘工具和手段的缺失使得数据的深层价值难以体现②王战红:《铁路公安大数据建设及分析应用研究》,《铁道警察学院学报》2016年第3 期。。
从使用零散的数据变为使用统一的主数据的过程即为数据治理。从无组织的流程治理到覆盖全业务范围的综合数据治理、把数据从混乱状态处理成井井有条的过程均可称之为数据治理。
传统的公安数据治理战略包括业务发展目标、IT 规划等相关规划。基于发展战略和规划的指导,传统的数据治理通过一系列流程的建设和执行得以落实。
在大数据时代,数据治理面临巨大挑战:第一个方面是数据不可知,用户对于数据和业务的关系未知,数据资产较为模糊;第二个方面是数据不可控,由于数据处理没有形成一致的标准导致数据难以统一;第三个方面是数据不可取,当应用系统需要大数据的时候,如何快速地实现数据获得仍有待解决;第四个方面是数据不可联,在讨论人工智能和机器学习之余,如何把业务人员头脑中的知识和现有的数据关联在一起还未得到解决。
图1 大数据时代数据治理面临的挑战
大数据是通过协调多个不同部门的模型融合来制定数据优化的相关策略,大数据也是广义信息治理的一部分。随着大数据成为专家学者研究的热点话题,大数据的特征描述也呈现出多样化趋势。其中,以IBM 的“5V”模型描述大数据的特征较为常见,其在面对大数据兴起带来挑战的同时,努力促进大数据治理的发展和变革③Ibrahim Alhassan, David Sammon, Mary Daly, “Data governance activities: a comparison between scientific and practice-oriented literature”, Journal of Enterprise Information Management, 2018, Vol.31, No.2, pp.22-25.。
科学数据治理体系即网安大数据科学数据治理体系,是通过离线计算技术、流式计算技术、机器学习技术的应用,构建起的包括数据资产管理、数据资源目录、数据勘探、数据分级分类、数据血缘关系、数据质量管理、数据运维管理、智能化治理在内的数据治理体系。①DAMA International, The DAMA Guide to the Data Management Body of Knowledge, New York: Technics Publications, 2009, p.37.
图2 科学的数据治理体系
科学数据治理体系具有明显的实战优势,它是提升公安数据整体质量,规范公安数据管理,实现数据可持续应用的基础,是公安实现大数据战略转型的关键步骤和核心工作。②徐雅倩、王刚:《数据治理研究:进程与争鸣》,《电子政务》2018年第8 期。
图3 科学的数据治理实战优势
在实际工作中,科学数据治理体系能够帮助公安机关综合分析关于人、物、事件、时间等海量高价值数据资源,挖掘数据中存在的深层次关联线索,既大大提高了网络案件的破案效率,解决了人、事、物、组织关联中断的问题,同时也为刑侦、经侦等部门提供了重要的信息来源和破案手段。在警务应用中对于维护社会大局稳定、预防和打击犯罪、辅助指挥决策等发挥了重要作用。
在治安工作方面,以大数据部门建设的“一人一档”系统为例,该系统应用数据治理技术,充分挖掘数据价值,提供了一键式快速分析目标对象的服务,以智能化处理技术辅助提升了人工研判效率。
在刑侦工作方面,科学的数据治理体系将突破性地改变公安机关的侦查格局,将先进的侦查手段、思路以模型化的方式进行呈现。科学的数据治理可在今后的应用中发挥拓展数据思维、优化侦查思路的重要作用。
在经侦工作方面,由于经侦案件存在数据量大、数据噪声多等问题,难以依靠传统手段进行破案,因此迫切需要展开数据治理工作,由此分别从微观、中观、宏观的数据层面研究经济犯罪,打破传统的点对点个案侦破模式,挖掘各类经侦案件中的DNA,实现经侦工作的数据化实战与信息化建设。
在交管工作方面,依赖科学完善的数据治理体系进行交通数据治理和分析,可以有效缓解城市拥堵现象并减少事故发生量。例如,可通过搭建智能交通模式识别系统,为在道路可承受的前提下确定是否增加“吞吐量”提供智能指导。①沈妍:《大数据网络中数据分类优化识别分析》,《技术与市场》2019年第6 期。
公安大数据治理和科信大数据治理相似但不完全相同。在技术层面上,公安大数据治理和科信大数据治理没有明显差别,公安大数据也需要接入更多、更广泛的数据资源,采用相同的数据治理标准进行统一的数据汇集和处理,并通过分权、分域策略实现各业务部门的数据统一和数据共享②P.PINKLER, “Indicators are the Essence of Scientometrics and Bibliometrics”, Scientometrics, 2010, Vol.85, No.3, pp.61-66.。但是,二者所承载的业务平台存在着细微的差异:虽然科信业务与技侦、刑侦、经侦等部门的业务目标相同,但通过整合包括公安系统的业务数据、工作数据、人员数据等全资源数据,提供的业务范围还应涉及到人员管理、资源管理、资源协调和工作调度等方面的问题,需要在业务功能的层面上针对不同部门的业务需求来制定不同的功能策略。
图4 公安大数据治理体系
公安大数据治理平台应以公安机关现有内部资源为主干,综合社会资源以及科信、技侦等业务资源,通过体系性地对数据全生命周期的获取、处理、使用进行规整,形成全面、分层的信息资源存储,对智慧公安平台上的业务以及云外用户形成全面的数据支撑。③朱琳、金耀辉:《全局数据:大数据时代的数据治理》,《复旦公共行政评论》2017年第1 期。
一要实现数据概况清晰化。经过多年的信息系统建设,治安、刑侦、经侦、禁毒、网安等各条线上建设了上百套系统,汇聚了公安类、社会类、网络类等数十种数据资源。因此,需要治理的数据资源应包含公安系统能获取到的所有数据资源。
二要实现数据关联全面化。科学数据治理体系为数据的关联、数据的冲突检测、数据的缓存、数据的读入优化等提供了质的提升,具体包括数据的完整性检测、数据的规范性检测、数据的一致性检测、准确性检测、关联性检测等,从而可有效消除公安数据行业中数据孤立等问题。
三要实现数据存储标准化。公安大数据治理建设的重点在于对汇集库、综查库的数据进行标准化治理,对数据的质量、运营、安全等按照数据资产管理的理念进行管理,使数据“可控制、可量化、可变现”。
四要实现业务分析智能化。在数据关联全面化、数据存储标准化的基础上,科学的数据治理体系能够帮助公安机关合理使用不断积累的信息数据库。从海量信息的背后挖掘出潜在的价值,以此来提升公安机关的实战分析能力。
科学的数据治理体系需要各个行业的共同努力。至目前为止,现有的研究还没有就大数据治理核心要素的理解达成共识;在管理流程设计、组织信息治理规划等方面,不同的研究者结合自身理解及大数据的特征给出了不同的定义;就大数据治理研究的关联性、完整性和一致性来说,尚有不足。公安机关的数据治理也面临着诸多困难,建立良好的公安数据应用环境仍需进一步探索。由于“信息孤岛”普遍的存在,公安机关迫切需要对各层级所拥有的数据进行合理有效地清理、整合和优化。同时,对于跨部门、跨领域的数据资源采集、交换和共享,公安机关应建立合理的机制以提高实际应用中的数据分析效率,从而不断提升自身的数据治理能力。
面对数据资源的爆炸式增长,公安机关大数据治理的核心是“疏”。科学的数据治理体系可以减少数据库中的错误,使数据清晰、标准、准确,并能够将数据的可用性、完整性、安全性等综合起来进行全面管理。公安机关要通过科学的数据治理,将数据中包含着的人、事、物、组织和案件等丰富的信息利用起来,挖掘出海量数据背后的隐藏线索。未来,还要不断改进相应的制度设计,完善技术设施,以促进数据治理体系的优化。