陈晗婧
(福建警察学院,福建福州,350007)
世界正面临着百年未有之大变局,我国正在推进治理体系与治理能力的现代化以应对各类不确定的风险与挑战。我们正在走进一个通过科学研究支撑善治的时代。刑事司法领域是国家治理体系当中社会安全领域的重要构成部分。刑事司法领域的科学决策与实施离不开数据的支撑。当循数管理、循证决策融入国家治理体系的同时,主动警务、智能警务的理念与实务也已在我国的政法工作领域形成星火燎原之势。在这如火如荼的发展背后,我们有必要理性地反思刑事司法数据开发利用的技术路径与未来走向。发达国家的刑事司法数据分析经历了一个较长时间的发展,主动地观察、了解这些国家对刑事司法数据的使用已经发展到什么程度、存在哪些问题,进而反观自身、明确发展方向,有助于我国对刑事司法数据开发应用,进而健全政法工作领域决策机制,加强决策的调查研究、科学论证、风险评估。
国外一些国家在刑事司法数据开发与分析技术方面的发展历史较久,数据驱动理念和精细技术相对普及。
犯罪数据分析作为一个学科的历史起源于现代大都市警察的发源地英国,出现在19世纪早期,1844年英国的侦查局已经开始收集、校对和分析警务信息。[1]而美国的犯罪数据分析最早出现在20世纪初,美国著名的警察改革家奥古斯特·涡孟(August Vollmer)鼓励使用标针地图,根据犯罪量来形成巡逻区域。这时期的犯罪分析主要依靠观察和对于犯罪事件的记录。此后一个多世纪里美国的犯罪数据分析技术伴随着犯罪率的飙升而蓬勃发展。今天美国的犯罪数据分析已经成为犯罪预防、社区警务工作的常规组成部分。虽然美国的社会治安现状难以获得世人称道,但其对犯罪数据的分析与应用继承了“数据治国”的理念、秉持科学严谨的态度,对世界上许多国家的刑事司法数据分析发挥影响。
在犯罪数据分析技术中崛起了一支异军——犯罪制图,它起源于19世纪的欧洲。欧洲的制图犯罪学派的学者调查到一定区域内存在不同的犯罪层次,以及这些层次与社会因素之间存在的关系,根据这些因素绘制出犯罪地图与犯罪变量关系图。美国的犯罪制图稍晚于欧洲,第一次大规模的犯罪空间分析出现在20世纪20年代。30年代芝加哥的城市社会学家将成人犯罪、青少年犯罪与社会解组、贫困联系起来手工绘制地图,他们发现9000多个行为不良者集中在芝加哥的特定区域。到了20世纪80年代早期地理信息系统更易于使用,美国许多警察局在每天的工作中开始犯罪制图工作。20世纪90年代初期计算机技术和警察数据系统取得巨大进步,电子化的犯罪地图让警察与研究者的工作更加便捷。1993年伊利诺伊州刑事司法信息部与芝加哥的洛约拉大学社会学系联合组建了计算机犯罪地图工作室,其中许多人成为了今天这个领域的首席研究者与分析员。这个工作室是美国首批联合实务界与研究者合作开展犯罪制图的工作室之一。1994年纽约市警察局开创了Compstat犯罪分析系统,其后在其他警察局推广开来,其创新之处在于警察局的每周会议上使用犯罪制图软件与分析来介绍辖区的犯罪模式与犯罪案件特点。
在城市犯罪问题研究领域芝加哥城市社会学家曾享誉世界,被犯罪学界与社会学界称为芝加哥学派。芝加哥学派在使用定量方法研究犯罪问题方面走在前沿,其成果对刑事司法领域的数据分析与应用影响深远。20世纪20年代芝加哥学派开创了“精算司法”(Actuarial Justice)的先河,他们着手计算假释犯的再犯风险评估,此后假释犯罪风险评估机制走向常规化。预测假释犯再犯的工具LSI-R是在输入假释犯一系列自变量的基础上,包括:犯罪史、教育程度、就业、经济状况、家庭或婚姻状况、住房、嗜好、朋友、酒精与毒品使用状况等信息,计算其再犯的风险值,这个计算工具显著不同于传统判断式的司法实践,影响了美国刑事司法的其它工作走向定量化。[2]虽然许多学者认为这种精算司法过度依靠计算,工具的合法性也受到置疑,但不影响美国刑事司法界普及数据驱动工作模式。
进入21世纪之后,随着数据量爆炸式地增长,大数据技术开始在商业、金融、健康甚至总统竞选等领域施展拳脚,同时数据的外延与内涵得到极大地扩张,不再局限于结构化的统计数据。2010年美国警务大数据主要运用在三大领域:犯罪预测、规模化监控和DNA数据库。预测警务主要应用于两个方面:一是基于历史犯罪数据的分析,进行可能的犯罪区域与人群的预测,从而帮助对有限的警力资源进行优化配置;另一是运用算法于社交媒体中社会关系的计算,帮助警察可视化个体之间的关联,以确认犯罪行为人在社会关系网络中的位置。[3]对社交媒体中的社会关系计算方法是借鉴于美国军方对境外叛乱组织分析的应用,并非首创,只是延伸了技术的应用场景。预测警务的研究与应用一直在不断升级,从以预测财产案件的地点为目标的1.0时代,进化到以预测暴力案件的地点为目标的2.0时代,再进化到以预测犯罪人为目标的3.0时代。在3.0时代,可以基于过去的犯罪行为、当前的社会联系和犯罪倾向相关因素,发展预测个体形象的能力。根据社会网络理论将人员社会关系、地址、电话号码、其他数据之间的关联进行制图,实现识别、寻找目标和追踪具有高犯罪风险的个体。[2]公共监控一直是警方的重要工具,它将数据的外延扩展到了图像等非结构化的数据形式,信息量倍增。纽约市警察局与微软公司合作研发DAS系统,用于不断地收集和分析纽约市内3000多个公共监控探头、200多个自动车牌阅读器、2000多个辐射传感器以及警察局数据库传输来的信息。在2013年4月的波士顿马拉松恐怖爆炸事件后,纽约市警察局加大了对DAS的使用。
数据已经成为人类生活中的一种重要资源,它将带来不可估量的价值与权力。如何保证数据拥有者合法合理地收集、使用数据资源,避免对公民权利的侵犯,一直是广泛关注的话题,也正是这种警惕限制了先行国家警务大数据技术应用的速度与方向。除了反恐等特殊应用领域,他们谨慎地推进工作中大数据分析应用,比如犯罪预测与警力配置、巡逻路线规划、社区犯罪预防策略制定等不会引发激烈的合宪性争议的领域。
一切数据应用的工作都必须以优良的数据资源作为前提。刑事司法数据常常因涉及个人信息而难以公开。所以首先必须建立完善的、设计精细的公开数据采集系统,包括数据收集、数据存储与管理。数据的收集除了准确、全面,数据的颗粒度也至关重要,它影响数据可开发利用的程度,粗放的数据利用价值不高。在数据的存储与管理当中数据质量检修工作能反映一个国家或地区对数据存储与管理的严谨性。
通常能长期存在的公共数据资源不是由政府下属机构负责建立,就是政府资助社会研究机构建立。比如美国比较权威的刑事司法数据资源当数司法部推出的统一犯罪报告(简称UCR),以及随后推出的以事件为分析单位的报告系统(简称NIBRS),还有弥补犯罪黑数问题的全国被害人调查(简称NCVS)、全国毒品使用和健康调查(简称NSDUH)等自我报告形式的数据。此外大学刑事司法研究机构或院系也以独立方式或受资助的方式建立数据资源。比如纽约大学阿尔巴尼分校辛德兰刑事司法研究中心公开了综合性的刑事司法数据汇编,从1972年开始整理并公布上千个刑事司法数据集,涵盖公众对犯罪的看法、刑事司法机构的特征、各州如何执行死刑的统计表等。目前比较有影响力的还有刑事司法数据国家档案(简称NACJD),它是美国司法部司法统计局与密歇根大学创立的“政治和社会研究校际联盟”(简称ICPSR)合作的产物。ICPSR是一个由750多家大学、基金和政府机构、非营利组织等机构组成的国际性联盟,为社会科学研究界提供数据访问、制定策略和分析方法培训的服务。使用者可以通过申请或直接从相关网站获取它们的数据。我国的北京大学、浙江大学等高校也是其联盟成员。
数据越精细越有价值。UCR的数据属于汇总数据,只能在现成的项目信息基础上做历时比较、地域间比较,由于缺乏具体案件信息难以实现解释研究与预测,而NIBRS的数据则可以用做解释性、预测性研究。NIBRS的数据是汇总全美各地执法机构报送的去除个人信息后的案件详细信息,包括:受害者和犯罪人的年龄、性别和种族,受害人与犯罪人之间的关系,所使用的武器,案件发生的地点,周边的环境。从UCR到NIBRS的转化,可以看出数据的采集走向精细化,对于数据使用者来说,这是一个巨大的进步,有利于推动刑事司法研究的精深。科学研究发现依赖于数据的精细度。精细的基础数据虽然不能立刻且直接地发挥作用,但是从长远来看,它可以为后续的探索研究奠定重要基础,进而转化为科学决策的支撑。
每一个数据资源都有其特点,需要介绍清楚该数据的采集方法与过程,以及优点与弱点,才能让使用者清楚明了如何更好地发挥此数据的作用。例如全美被害人调查NCVS不能覆盖所有类型的犯罪,无受害人的案件、受害人回忆困难的情形都影响从被害人方面收集的数据的完整性。
所有数据都需要克服偏差问题,以免带来错误预判。比如美国一些地方的警务预测系统是建立在有瑕疵的数据、种族偏见、甚至非法的实务操作之上,美国学界谓之“肮脏的警务”(Dirty Policing)。肮脏的警务产生了不真实的、系统性偏差的数据,在数据挖掘研究领域谓之“不净的数据”(Dirty Data)。巴尔迪摩、纽约等地都出现过警务数据造假。不净的警务数据造成“偏差进,偏差出”的预测结果。在纽约市警察局和巴尔迪摩市警察局推广预测系统的Azavea公司,其系统常常把警力派往过度犯罪标签化的社区。芝加哥警察局采用的Strategic Subject List的评分结果显示56%的30岁以下的黑人男性成为高风险人群,使得警察执法中带有种族偏见,进而使黑人社区被过度监管。由于政府给予执法机构过度的信赖,警务数据常游离于政府机构的监管之外,而警察局自身又缺乏动力与需求进行自我监控与改革。[4]
1.数据的公开及效用
数据信息的开放为研究研发与公共监督敞开大门。国家制定开放数据的法律规定可以推动科学研究与技术应用的繁荣。例如美国在1968年《Omnibus犯罪控制和安全街区法案》里规定了各地警察局必须通过一定的渠道公开关乎公共安全状况与司法运行的数据。2018年12月美众议院投票决定启动《开放政府数据法案》,制定了两大基本原则:首先,政府信息应以机器可读的格式,默认向公众开放,且此类公开物不会损害隐私或安全;其次,联邦机构在制定公共政策时,应循证使用这些数据。
刑事司法数据的社会共享为研究研发工作创造了条件。研究院所、大学以及提供企业都有机会参与到公共安全产品的研究研发中。Motorola、IBM、微软、Lexis-Nexis、Socrata等企业都参与过美国地方警察局公共安全数据的开发利用与决策服务的产品研发。比如:IBM公司与南科罗里那查尔斯顿警察局、田纳西州孟菲斯警察局合作解决持枪抢劫犯罪预测。
数据开放除了可以让社会为警察部门提供智力与技术支持,实现警务工作与决策的科学化、智能化,还可以用于应对诉讼。美国警察经常遭遇种族歧视的起诉。美国在2008年成立了“警务公正中心”(Center for Policing Equity),致力于建设追踪全国警察拦截行为的数据库,通过公开的大数据监督警察拦截执法中的种族歧视行为。[5]
2.数据安全使用的规定
公共数据涉及到国家安全、商业机密、个人隐私等问题。各国政府对刑事司法领域的数据都不同程度地谨慎,通过立法形式保障安全与人民的权益。
数据库提供方也设置了自己的数据安全及隐私保护的规则,由数据采集者、存储者、使用者共同遵守。以前述的NACJD数据为例,它设置了数据隐私保护的规则,数据调查人员必须在提交数据之前确认数据中是否包含了能够被个人或机构识别出受调查者身份的信息。可识别的信息分为可直接识别与可间接识别的信息。可直接识别的信息有:姓名、地址(包括邮编)、电话号码(包括地区号码)、社会保障号、其它的如车牌号、警号、犯人编号等可以关联到受访者的数字。可间接识别的信息包括:地理位置信息、工作单位、就读学校、具体职业、成长的地方、出生死亡结婚离婚等日期、具体的收入等可以间接地查询到受访者的信息。但间接可识别信息的确认取决了数据内容和研究对象的属性,需要根据具体情形判断。在存储数据方面,NACJD规定所有可以直接识别研究对象的字段在存储之前需要删除,像花名册一类的数据不能存储。对于可间接识别的信息,如果需要用于生成创新的研究发现或者如果删除会明显地降低数据的价值,可保留在研究数据里。NACJD规定公开数据之前还必须进行保密性评估。
刑事司法数据作为公共资源,多数存储于政府机构。政府通过法律、规则、制度、项目等促进政府机构与社会对数据的安全、有效使用。美国联邦政府从1995年到2002年,投入超过5300万美元的资金用于警察机构采用犯罪制图技术与雇用人员。司法部下设司法项目办公室主要是为州和地方的刑事司法机构提供资助、训练和技术援助,提升各地预防和减少犯罪、援助受害人、增强法律规制的能力。目前其下设司法统计局、司法研究所等6个项目办公室。在项目运作过程当中遵循“诊断、实施、评估”三步骤,确认导致犯罪的因素并制定策略和方案,促进寻找有效的措施提升公共安全。司法研究所开设了一个名为CrimeSolutions的网站,公布所资助的研究项目以及对实务产生效果的评估结果。司法项目办公室所资助项目的实务效果经过元分析,在网站上公布何因素起作用、何因素没有起作用、何因素是有潜力的等信息。每一个项目经由两名有资格的评审人员使用评分工具进行评审。其它地方刑事司法机构可以在前车之鉴的基础上,根据各自情况选择改革措施,以此形式实现了数据驱动刑事司法工作的目标。
刑事司法机构奉行实用主义。Ian Palmer等研究者在英国进行循证警务的应用情况研究,发现一线警员认为处置紧急的事务更为重要,经验与处置街头情况的技巧更实用。只有高级警官才看到基于证据的警务实践研究的重要性与应用前景。[6]同样Timothy C. O'Shea等研究者通过问卷调查发现大多数的美国警察局主要关注于战术性(tactical)应用与简单的战略性(strategic)功能。战略性分析是支持行政管理的、长期的规划,而战术性分析是支持短期的日常实务。[7]处于越基层的人员、越小规模的单位越难接受战略性的数据利用。因此地方机构对数据的应用最先从战术性分析开始。20世纪70年代纽约市警察局总部已经设置了正式的犯罪分析单元。犯罪分析员通常是文职警察。最初犯罪分析员只作一些简单的频数统计,随后发展到高级统计分析。犯罪分析单元的作用在于评价犯罪的性质和分布,为有效地分配资源、部署警力服务;识别嫌疑人之间的关系,辅助案件调查;识别出滋生犯罪的外部条件,制定出预防措施。无论是行政管理部门还是案件调查部门,以及巡逻部门都需要犯罪分析的支持。
1990年犯罪分析国际联合会(简称IACA)在美国成立,这是一个自愿参与的非营利组织,吸收世界各国的会员。会员主要来自犯罪分析员、情报分析员、各种级别的警察、教育工作者和大学生。IACA成立的宗旨是帮助犯罪分析员提高技能,加强联络,帮助执法机构更好地应用犯罪分析,推广执行与技术的标准。它建立了分析员资格认证项目,确立起考核流程,实现对专业能力的评判,提供给用人单位对专业工作能力的衡量标准。IACA设立一年两次在线资格考试,规定每隔5年需要更新资格,接受再教育培训获得再次资格认证。[8]在资格认证中推广犯罪分析过程标准化,包括:确定方向,收集数据,评价数据质量,校对数据,计算机辅助分析,分析结果,宣传结果。对分析结果也进行了标准化,主要以假设、结论和建议为载体,涉及内容、格式、报告、数据源的属性、分析反馈和结果评价、展示、法律问题等方面的要求。[1]建立起一套完整的从业资格管理体系,使犯罪分析从业者成为一个职业群体。
在数据驱动导向下,管理层人员也需要具备数据素养。以纽约市警察局的Compstat工作机制为例,警察局两周一次的Compstat犯罪控制策略会议上,每个辖区的负责人在警察局高层管理者面前展示与报告可视化的辖区犯罪问题,以及他们采取的应对措施。犯罪分析员收集数据、分析与制图,帮助辖区负责人辨识潜在的犯罪因素。警察局管理层也使用这些数据信息来检测各辖区打击犯罪的工作情况。[9]这种工作模式不仅对犯罪分析员提出专业要求,也需要辖区负责人能够看懂数据并解释数据,而警察局的管理层更需要能够看懂数据并展开质询与评价。实际上对各级的管理人员都提出了不同程度的数据素养要求。
刑事司法数据分析逐渐从单一学科性走向跨学科性。早期的犯罪数据分析或犯罪制图只单纯地进行统计分析,随着数据的内涵与外延的扩展,时至今日的大数据技术展现出很强的跨学科的特征。研究人员常常来自不同专业背景,需要犯罪学、制图学、统计学、计算机、管理学等多个专业领域的知识。高等教育的通识教育理念、包容开放的专业视野、交叉学科研究的繁荣为跨学科的刑事司法数据分析研究奠定优良基础,很容易孕育出跨学科的研究成果。纽约市警察局的CompStat系统、圣塔克鲁兹警察局的犯罪“余震”模型等创新技术都是跨界联合的产物。刑事司法数据分析必然需要具备跨学科视角的人才。大学承担着人才培养与输送的使命。因此IACA提出在大学设置犯罪分析相关课程。
近几年国际上兴起转化犯罪学和循证警务响应了刑事司法研究成果转化成有效实务的社会需求。这类的应用研究不仅繁荣科学研究,还为刑事司法部门遇到的难题提供解决方案。研究界与实务界存在优势互补,实务界有数据与生动的试验与验证场景,这是研究界所没有的;研究界有探索能力与研发人员,这正是实务界所欠缺的。在政府的牵线搭桥与资助下,研究界开始积极投身于应用性的刑事司法问题研究。像英国内政部警务学院、美国司法部项目办公室等都是起到推动研究界与刑事司法实务界合作的机构。
邓小平同志在改革开放之初说过“任何一个民族,一个国家,都要学习别的民族,别的国家的长处,学习人家的先进科学技术。我们不仅因为今天科学技术落后,需要努力向外国学习,即使我们的科学技术赶上了世界先进水平,也还要学习人家的长处。”近年来我国在大数据、人工智能领域取得了高速发展,并且相关新技术快速应用于各行各业工作场景。刑事司法领域由于工作特殊性与保密性,在数据的开发应用路上走得较为谨慎,但各单位也探索出不少与部门需求相融合的创新技术。2021年6月十三届全国人大常委会第二十九次会议表决通过《中华人民共和国数据安全法》,该法于2021年9月1日起施行。我国在数据安全领域也将逐渐走上法治化、规范化的轨道。在刑事司法数据开发应用领域,我们仍然存在着许多有待解决的问题,需要不断寻找符合我国国情和社会发展需求的技术与机制。结合域外的相关发展经验,我们可以在若干方面进行探讨和反思。
留意域外刑事司法数据开发应用发展的细节,可以从研究范式的根源上感受到差异。时至今日西方先行国家仍非常重视社会调查数据的收集与分析技术。IACA为犯罪分析员制定了必备技能项目清单包括:犯罪分析基础知识、时间分析、描述性统计、推论统计、人口学分析、解释犯罪数据、空间分析、调查性/情报分析制图、阅读理解、撰写解释性的材料、有效地展示数据、文字处理技能、制作电子数据表、互联网/内网使用技能、应用性犯罪分析研究方法等。哈尔滨工业大学米加宁教授等人将哲学思辨和定性研究称为社会科学研究第一范式,将基于实证主义传统形成的定量研究称为第二范式,将基于仿真研究称为第三范式,基于数据科学的大数据研究称为第四范式。[10]从上述清单内容上来看,域外先行国家对刑事司法数据的分析仍主要处于社会科学研究第二范式和第三范式阶段。他们囿于国内对于民权保护的纠结,在大数据技术的发展方面受到了数据可获得性的制肘。因此他们更注重培养刑事司法部门从业人员,无论是管理层还是专职分析人员的数据素养与执业能力,向刑事司法从业群体普及数据驱动的理念,采用诊断问题、实施干预措施、评估干预效果的工作步骤,通过采集与分析工作数据来支撑决策的制定与执行。而我国则是利用目前的有利环境联合研发企业与机构的技术优势,大量地发掘刑事司法领域图像、视频等无结构化数据,对许多实务难题尝试从技术路径创造性地解决。近几年各地政法单位联合企业研发新技术的案例层出不穷。可以说我国的刑事司法数据分析直接跃入社会科学研究的第四范式,实现跨越式发展。
随着今天数据科学及人工智能技术进入社会科学研究领域,对于不少社科出身的学者来说,一些运算过程如同“黑箱”,可得到结果却难知晓过程。比如深度学习和人类使用知识的形式差距太大,普通人无法理解。技术推广公司极少完全公开他们的操作,如哪些数据、哪些可靠的措施应用于解决潜在的不准确、有偏的实务行为。而我们的实务工作人员并未经历充分的第二范式研究理念的熏陶,存在过度依赖技术且不求甚解、散失判断力的风险。并且并非任何一个目标领域都可以在目前条件下轻易收集到符合要求的大数据,一些技术所采用的大数据未必能保证测量效度,其分析是有偏计算。因此不能完全抛弃作为第二范式的实证主义定量研究,它在今天的应用性研究中依然能发挥价值,能为更先进技术研发奠定基础、阐明理论、指明方向。
我国的公检法司以及政法委系统里几乎没有专司数据采集与应用的机构。即便一些地方基于改革创新而设立了独特的内设机构、培训了数据分析师,也仅是个例。通常公安机关的情报指挥或合成作战单位、检察院与法院的研究室或办公室等内设机构兼职承担数据采集与分析职能。近年来,国家各部委开始向社会公开招标研究项目,旨在借助社会研究力量和智库作用,解决其难点问题。但在系统性的数据管理、项目研究结果的应用与评估反馈、有效研究结果向决策层面与社会层面的扩散与传播等方面基本上各自为政。我国目前各类研究项目名目繁多,项目在研究团队提交报告通过结题后便戛然而止,并未激发出研究转化应用的功能,这与缺乏专门的职能机构承担管理、未形成专业的管理机制与流程不无关系。
扩散传播的研究结果、在实务场景下得以应用与检验并反馈结果,将增大研究的社会价值。我国的刑事司法数据基于保密性极少分享,研究成果也极少见诸于公开的学术研讨场合,外界无从参与诊断问题、评价适用效果。如果政法系统内设置专门的机构来实现各自领域数据的管理和开发应用,在确保数据安全的前提下,建立机制推动特定范围内的数据与研究结果分享与交流,对我国政法领域工作的科学化将发挥积极的作用。
最高人民法院1985年颁布的《关于人民法院司法统计工作的若干规定》:司法统计报表是国家的机密和绝密资料,要注意保密,不得泄露和遗失。司法机关对于我国犯罪情况是了解的,但不对外公开,使得社会公众及科研工作者难以获取这些数据,从而难以全面了解我国犯罪的真实情况,也就难以提出有效的犯罪治理策略。[11]我国尚未有专门的司法统计局专司对社会治安、犯罪、刑罚处遇等情况统计。我国的犯罪统计和犯罪测量工作相当薄弱,没有很好地建立起系统、成熟的犯罪统计和犯罪测量指标体系。官方的犯罪统计指标体系过于粗略,非官方的犯罪测量活动也因为经费和人员等问题没有发展起来。[12]在公检法司政法系统有着各自系统的指标体系,各部门的数据管理工作需要进行流程再造,建立可以用于科学研究的数据建构与维护体系,包括采集、存储、检修、传播等工作以及贯穿始终的数据安全机制。
我们目前工作中数据采集指标体系通常较简单,对事件、人和环境的描述信息非常少,很多统计数据无法用于研究,缺乏以个案为分析单位的指标体系。大量的数据是以无结构的形式存储于视频、音频、图片、文书等载体里面,将其转化成可供统计分析的形式需要新技术。德国犯罪学家厄廷根说:“官方的司法统计是不可靠的。为了提高可靠性需要设计者构思智慧的方式。”[13]智慧的采集流程要求变革定期层层上报数据的传统形式,结合自然语言处理技术,提取数据载体中的指标内容,既不加重下级统计负担,又能高效完成数据采集任务。在完善的数据建构机制的基础上,建立起各个专项领域的数据库以备使用。数据存储之前需要进行清理、整理,再以一定的形式存储起来,并且定期进行数据的检查修正。各数据持有单位视情况以网页、报告等形式传播数据。在传播时还应告知使用者数据的采集方法、变量解释、优缺点与有效范围等使用者须知的事项。
由于数据是源源不断地收集积累,以上构想的工作便是周而复始地开展,因而需要有一支专职的队伍从事这些工作。目前在我国的政法系统里未形成数据分析职业群体,更未形成定期培训提升技能、开展交流的执业制度。刑事司法数据分析人才是一种复合型人才,在培养上需打破学科壁垒,不仅需要掌握计算机、统计学还需要犯罪学、写作等知识,才能培养出专业的数据分析人才。这正与我国教育部当前提出的新型学科理念相契合。由于刑事司法数据的保密性,比较适合在公安政法高等院校培育培训刑事司法数据分析人才,向实务部门输送人才组成专业队伍。在此基础上健全执业资格认证、专业资格晋升和再教育制度,以实现这支队伍素质的专业化和职业化。
国内外的实务部门都有重视战术性应用、轻战略性应用的倾向。我国目前发展较快的正是与案件侦破、精准打击、交通管理、危险预警等领域的大数据技术。主动警务、智能警务等名词也正是致力于主动打击和预防犯罪、服务群众所衍生出的具体问题的解决方案。对于宏观描述、科学决策的战略性应用成果相对不引人注目,而这一领域的应用群体主要是管理层人员。数据收集和数据分析成为基层警务部门的一种文化,代表着基层警务部门一种管理哲学的改变。[14]我国近年来如火如荼的大数据技术应用于政法系统并不意味着从领导层到基层人员都已树立起循数管理的理念、提升了数据素养,实质上许多人只是功利性地应用大数据技术,在乎的是其效率与结果,并不真正了解数据背后的涵义。许多管理人员认为只要相关技术人员了解数据即可,无需亲自学习。数据驱动、数据诊断的管理哲学并未深入人心,融入决策。社会安全治理与决策关键在于管理人员,科学决策区别于经验决策就在于其对数据的理解与重视。所以需要提升管理层的数据素养,能看懂数据、以数据辅助决策,方能实现科学决策。
我国正处于一个机遇与挑战并存的历史时期,各个领域进入全面深化改革的关键阶段。提高社会治理整体水平,建构立体化社会治安防控体系,需要建立起数据开发与应用的完整体系,构筑预测、预警、预防的科学化工作机制。与先行国家相比,我们拥有着强大的执行能力,完全有可能在短期内通过国家力量的推动实现刑事司法领域数据的充分开发应用,提升政法工作科学化、信息化水平,增强社会风险防控能力,建设更高水平的平安中国。