曹智猛,陈刚
(中国人民公安大学 北京 100038)
自大数据侦查的概念诞生以来,众多学者对其进行了大量的研究。王燃博士在其专著中详尽地论述了大数据侦查的模式、思维和方法;程雷教授在《大数据侦查的法律控制》一文中提出应在侦查控制和数据控制的双重路径下对大数据侦查进行法律规制;还有诸多研究者围绕着大数据侦查的实现条件、配套机制以及具体犯罪侦查中的运用展开讨论,为后人的学习研究提供了丰硕的材料。但是,大数据侦查并非一种侦查方法,而是一个充实、复杂的体系。一个不可忽视的研究是,我们应明确其实际发展现状、深入分析其发展制约因素,从更为宏观的视角为大数据侦查的发展规划路径。
作为大数据时代的产物,大数据侦查推动了犯罪侦查由警力密集型劳动向数据密集型、科技密集型的转变。与传统侦查和信息化侦查相比,大数据侦查呈现以下本质特征:
早在2008 年,大数据这一概念尚未出现之时,郝宏奎教授便在《论虚拟侦查》一文中提出了虚拟侦查并论证了其与实体侦查相互间的区别与联系。大数据时代的到来赋予了虚拟侦查全新的面貌:“万物皆可数据化”成为事实——人的一言一行都能被数据定格下来,搭建出一个与现实空间相平行、相对应的镜像虚拟数据空间,每个人、每件事都能在数据空间找到其映射,从而很多与犯罪行为相关的线索和信息得以显现。正是这样一个数据空间,承载着大数据侦查实践活动。
大数据侦查首先需要满足数据量够“大”的条件。侦查中每个环节对于海量数据的处理是不可能仅靠侦查人员的人工工作完成的,无论是数据采集、数据清洗还是数据分析都需要依托相关智能化、专业化的大数据技术。侦查手段的智能化转型,不仅提升了侦查工作的精准度和效率,也变革了传统侦查中依托人力劳动、人海战术的粗放模式,推动了侦查效能的释放。
相关性是大数据思维特征的精髓所在。通过海量计算,大数据侦查能探寻各要素之间的相关关系,为侦查提供有价值的线索及新的思维视角。此外,大数据的相关性让犯罪预测更具提客观性、科学性,犯罪预测由以往的主观经验式分析转变为现在的科学数据化分析,并出现了越来越多的自动化、智能化大数据犯罪预测工具[1]。
任何事物都是逐步发展起来的,刑事侦查亦经历了传统侦查、业务信息驱动侦查、数据驱动侦查的历程,各阶段更迭存在交叉之处。学界对于目前处于大数据侦查或信息化侦查阶段存有不同看法。单从数据的特质来看,目前在侦查中涉及到的数据已初步具备了齐全性、动态性和异构性,且能够通过对元数据的智能化挖掘刻画出详尽的犯罪关系网络并在犯罪预测中加以应用,这是信息化侦查所不能企及的深度。因此现阶段的数据驱动型侦查属于大数据侦查的范畴。笔者认为,我们目前处于大数据侦查的初级阶段,其阶段性特征如下:
数据应用范式的形成是大数据侦查实践趋于成熟的必要条件。目前尚未形成数据应用范式的原因主要在于数据质量阻碍和数据应用局限两个方面:
1.数据质量阻碍。在质量方面,内外数据皆存在瑕疵。首先,内部数据实时性较差。为了支撑数据量,在警务大数据建设初期将各执法勤务部门在以往工作中收集的数据简单堆叠,更新不及时、鲜活度低下。其次,外部数据难以直接利用。辐射到社会生活方方面面的外部数据类型繁多、标准不统一、制式不尽相同,甚至有错误数据,侦查机关在办案过程中数据整合难度高、数据治理工作量巨大。基础数据存在质量瑕疵,必然会影响大数据侦查的效率和精准度。
2.数据应用局限。在应用方面,大部分半结构化、非结构化数据在侦查领域尚未得以应用或应用不充分。一是半结构化、非结构化数据其本身的特点决定的。相比于结构化数据,非结构化数据的格式繁多、品质参差不齐,且能与半结构化数据交叉融合①,分析处理的难度和工作量更大。二是技术的原因,由于欠缺半结构化、非结构化数据的智能化挖掘分析技术,往往需要通过人工或图像处理技术将之转化为结构化数据再加以使用。随着信息技术对生产、生活的渗透,半结构化、非结构化数据的体量及占比会持续上升,其侦查价值不容小觑,大数据侦查的发展还须充分应用半结构化、非结构化数据。
大数据侦查在控制和打击犯罪中初露锋芒,但是作为一套体系其结构要素尚未培育成熟,发展不均衡的现象依然突出,不利于大数据侦查整体性效能的发挥。
1.数据基础失衡。(1)经济差异下的地域性数据基础失衡。社会经济与科技是相互促进的正相关关系,依赖科技驱动的大数据侦查往往随着经济的地域性差异形成发展不均衡的样态。首先是地区间的不均衡,主要表现为东部强西部弱。东部地区多省市大数据发展指数普遍较高[2]。以北京、长江三角地区和珠江三角地区为例,这些地区经济高速发展、流动人口较多,其侦查机关在大数据侦查领域发展较快,无论数据来源还是技术支撑均处全国领先地位。其次是城乡间的不均衡。现阶段我国农村人口大量外流、视频监控等智能安防设备覆盖率较低,在数据体量上难以满足大数据侦查的需求。虽然随着“雪亮工程”的推进该现象正在逐渐改善,但相较于城市仍有较大差距。(2)体制原因下的结构性数据基础失衡。由于我国“统一领导、分级管理、条块结合、以块为主”的公安工作体制,在大数据侦查的建设初期,各省市公安机关如火如荼各自开展。这种各地分别建设的发展模式有利于行业领先者之间智慧成果的交流与融合,能促进良性竞争;但其不可避免会产生“马太效应”②:领先地区愈发精进,落后地区则与之相去悬殊,导致目前大数据侦查在我国各地的发展良莠不齐,而且会进一步加剧侦查资源的地方保护主义现象。
2.研究基础薄弱。从研究主题来看,大数据侦查的研究主题相对集中为大数据侦查的理论、思维、模式以及公民个人隐私权方面。从研究成果来看,关于大数据侦查如何在某类案件中运用的研究居多——大数据侦查更多地体现为“术”,其体系性研究较为薄弱。从研究群体来看,大数据侦查的研究群体呈现较为单一,大多为公安和政法院校的师生,缺少来自以信息技术为学科背景的学术组成。“倘若只有侦查学研究背景的学术群体呼吁并投身于大数据侦查研究,那么研究将始终闭塞于单一学科领域而缺乏发展活力,唯有多学科交叉、科学技术推进才可能赋予大数据侦查研究鲜活的生命力。”[3]从与实践的关系来看,当下的研究难有现实性突破和实践意义,难以被实务部门转化和运用。换言之,实践支撑不足也是研究基础薄弱的恶果。
3.技战法发展存在结构性失衡。大数据侦查方法包括数据搜索、数据碰撞、数据挖掘、数据画像、以及犯罪网络分析等。笔者经调研发现,实务中运用最广泛、技术最成熟的方法是数据搜索和数据碰撞。在一些大数据侦查发展较滞后的地区,甚至有侦查人员认为“大数据侦查即‘数据检索+碰撞比对’”。实际上,业务信息主导的侦查模式已经诞生了数据搜索和数据碰撞的技战法,其与大数据侦查中数据搜索和数据碰撞的主要区别在于数据的体量以及完成工作的自动化程度。随着大数据时代的到来,数据挖掘、数据画像以及犯罪网络分析等技战法才得以创制,虽然已取得显著的研究以及实战成果,但在侦查实务中的运用尚未完全成熟。因此数据挖掘、数据画像等更高级的大数据侦查方法的发展和应用程度明显低于数据搜索以及数据碰撞。
大数据技术显著释放了侦查效能,极大减少了诸如摸底排队、调查访问等工作量。大数据侦查的高级形态应是集数据挖掘、人脑智慧和人工智能于一体的智慧侦查。但是现阶段大数据侦查实践存在算法支持不足、智能程度较低、运算能力欠缺等制约因素,难以满足智慧侦查的需求。
1.技术的限制。近年来,各地公安机关对人工智能影响与介入执法办案进行了大胆探索。部分走在前列的地区相继推出各种智能执法办案系统。如上海市的“206系统”,浙江省“政法机关一体化办案系统”,贵州省的“一尺办案”“数据铁笼”以及“共享平台”,江苏省苏州市的公检法司“桌子结构”[4]。此类探索多侧重于执法办案以及侦查活动的程序性监督,而非应用于侦查办案业务。原因在于程序性事务是例行的、固定的,而侦查活动复杂多变,基于目前算法的弱人工智能③无法对瞬息万变的犯罪行为精准识别并做出有效反应。智慧侦查离不开数据挖掘,数据挖掘需要算法支持。目前以Apriori算法为代表的的关联挖掘,尽管利用最小支持阈值和最小信任阈值可以帮助或减少挖掘无意义的规则,但其所获得的许多关联规则仍是无价值的[5]。算法是一种逻辑规则,改进算法意味着在保证输出结果精准的前提下寻求更高效、更精妙的问题解决路径。因此大数据侦查领域内的算法还需不断优化升级。
2.设备的制约。运算能力是影响大数据侦查效率的关键要素之一,其取决于核心硬件设备的性能。相较于其他行业,大数据侦查虽发展较晚,但是具有后起优势,其硬件设备比较先进,数据库性能普遍较高,与大数据应用兼容良好,能适应智慧侦查。例如,我国基于动态人脸识别技术和大数据分析处理技术的“天网”系统,可实现每秒比对30 亿次,1 秒钟就能将全国人口排查一遍,2秒钟便能将世界人口排查一遍④。但是大数据侦查有相当一部分工作是依托公共交通、银行等社会部门的数据开展的,其数据库建立较早,虽然内含海量历史数据,但性能滞后、算力没有多余空间。如将大数据侦查的挖掘模型挂入其中运行,轻则结果输出缓慢,重则系统崩溃。落后的硬件设备会严重影响大数据侦查的效率,更难以适应智慧侦查。
概言之,目前处于大数据侦查初级阶段。在对大数据侦查实际发展现状充分认识的基础上,进一步对其研究并分析其面临的困境才能客观准确、探索其发展路径才能有现实价值。
侦查思维是一种贯穿于侦查全过程的认识活动,其在侦查实践中起到指导作用。随着大数据侦查日趋火热,侦查思维受其影响产生变革,但逐渐涌现出了“新的僵化”思潮——唯数据论,直接导致了侦查思维与数据思维混同、大数据侦查与传统侦查断层的弊病。
1.数据思维与侦查思维定位不清。证明因果关系素来较为困难。大数据则能另辟蹊径,直接探索事物之间的相关关系。自大数据走入公众视野后,很多学者强调侦查人员应该冲破基于因果关系的传统侦查思维而注重培养大数据相关性思维并将其应用于犯罪预测,个别研究者甚至指出基于因果逻辑的侦查假设是一种主观的、片面的、耗时费力的经验主义陈旧思维。这种认识是脱离大数据侦查实际现状的跨越式发展思维误区。诚然,在商业活动中,相关性能更快地带来决策的优化以及利润的增加。但是这种相关性能否直接植入侦查思维?笔者认为需要三思。侦查思维是建立于因果逻辑基础上的“强相关关系”,在逻辑体系中可以用“推理”或“推导”来表达,如物质交换原理、同一认定原理;而数据思维更强调建立在机器计算基础上的“弱相关性”,存在“黑箱效应”,缺乏缜密的逻辑体系,经不起因果关系的推敲和司法程序的检验,至多用“推测”来形容。无论大数据侦查模式是回溯型还是预测型⑤,“好的侦查假设是刑事侦查大数据应用的逻辑核心”[6]。因此,数据思维不能混同于侦查思维。
2.大数据侦查脱离传统刑事侦查。侦查思维“新的僵化”直接导致了大数据侦查与传统侦查出现断层脱节现象。自2015年以来,各地公安机关都积极探索基于数据的大合成、大侦查机制,并在技术方面努力突破,但在实务中大数据侦查与传统侦查出现了断层:一是大数据侦查的新生力量普遍缺乏传统侦查实践的磨砺,刑事侦查的基本功不够扎实,难以盘活海量的数据资源。长此以往大数据侦查难免沦为一种机械化的流程,一旦侦查过程中遇到卡壳、难以推进,严重影响侦查效率;二是涉毒、涉黑恶、涉枪等案件中,要打击黑色链条、摧毁犯罪网络无法离开情报的支撑,而这些职业化的犯罪嫌疑人反侦查意识很强,必须凭借传统人力情报才能对案件有更加深入的认识、找到案件突破口。例如广东省中山市公安局的“缉枪神探”数据挖掘模型,通过对自然语言中敏感词汇的识别及过滤,进行频度分析,得出有价值的线索[7]。但是这些敏感词汇往往是暗语和行话,如“秃鹰”“燕尾”“母鸡”“狗粮”等混杂在普通对话中,若脱离了传统人力情报,则难以被有效识别。因此,现阶段的大数据侦查不能陷入脱离传统侦查的思维误区。
侦查资源的质量是指其准确率、可利用率、以及耦合度等属性。相比于“整合”,统筹侦查资源更是一种从根源上解决侦查资源质量问题的途径。仅凭借当前不同主题数据库“物理相加”的方式,无法形成规模化、一体化的数据库集成,也不能从根本上改善资源的质量。如果不能将所有的数据挖掘、分析等工作平滑地集成到统一数据处理中心,现有的各个实战应用系统不能紧密耦合成为一个无缝的统一构架[8],大数据侦查将受资源质量牵制而滞于初级阶段,无法进阶。
1.内部困境。从横向来看,公安机关内部各自为政的现象不仅存在于地区间,也发生在部门间。刑侦、情报、网安、技侦等部门分别建设各自业务主题的大数据平台,相互间资源割裂或互通程度低。各平台由不同的竞标企业开发,系统接口不一,数据规格不同,导致在平台整合、数据共享上困难重重,存在资源浪费和重复劳动的现象[9]。因此,实务中基于数据资源共享的内部侦查协作往往依靠侦查人员的个人人际关系,以非正式、非官方的形式进行。虽然部分省地区已开始探索全警种范围的数据库以及网上作战平台,但在建设的过程中存在建设主体与应用主体脱节的现象:科信部门对于具体业务所需了解不够深入,单纯地汇总各数据源,侦查资源仅实现了简单叠加,无法起到“1+1>2”的效果;而办案部门在具体实战中不知有哪些数据能够应用以及如何应用。从纵向来看,受制度影响,侦查机关的数据资源权限大都呈倒金字塔状,即数据权限与行政级别成正比关系,基层一线办案部门的“数据获得感”较差,与实战需求有明显冲突。由此可以看出,内部困境的成因更多地体现为结构性布局问题,大数据侦查的发展不仅需要技术上的支持和突破,而且也将对现行侦查工作机制形成较大的冲击[10]。
2.外部困境。根据笔者调研发现,大数据侦查中的社会面数据存在获取不畅等情况。在个案侦查中,虽然能以调取证据的方式从外部获取数据,但办理手续繁琐、等待耗时长的弊病难免延误战机;调取数据不充分、社会主体配合积极性不高的问题导致难以深挖相关线索。由于法律依据缺位、出于私利考虑等因素,社会部门以及企业不敢或不愿为侦查机关开放数据。实务中,侦查机关以“借取”“购买”或“交换”等方式,拷贝或接口其他行业数据,取证行为的合法性经不起推敲。由于缺乏高效、合法的社会数据获取途径,很多触网类犯罪难以实现真正意义上的大数据侦查。同时,地缘差异会导致不同地区侦查机关在统筹外部数据资源时难度不尽相同,如阿里巴巴集团、腾讯集团能与其当地公安机关建立良好的数据共享合作关系。
警务服务外包是目前各地公安机关大数据侦查建设中的普遍现象。在实务中,大数据侦查活动大多是由侦查人员提出具体需求,再由合作企业技术人员开发大数据应用或设计数据模型,继而开展侦查工作。侦查机关与社会企业是一个“甲方与乙方”的合作关系,社会企业能够发挥专业特长,帮助侦查机关补足科技短板。但长此以往,地域性的财政差距会导致企业服务质量和水平的差异,同时其他弊端也日渐显露。
1.数据安全问题。大数据侦查过于依赖社会企业,首先带来的即数据安全问题。刑事侦查是一项严谨的司法活动,社会企业的直接参与已经对侦查主体的合法性提出了挑战,且在整个过程中,企业技术人员与侦查人员接触到同样的敏感信息和数据,这必然会加剧数据泄露的风险,不符合公安工作的保密性要求。若仅仅依靠“职业道德”或“保密合同”去约束社会企业及其技术人员,是不能从根源上解决数据安全问题的,也是不负责的。此外,基于侦查体制,我国大数据警务的建设由各省、市公安机关独立开展,与各地合作的企业良莠不齐。社会企业作为经济实体,必然要承担市场环境中的风险,这些企业一旦面临资金困难或者破产停运,不仅会影响侦查机关的工作开展,数据安全更是无从保障。
2.与乙方合作效率低下。术业有专攻,社会企业的技术人员对刑事侦查一窍不通。为了保障其开发产品的实用性,侦查人员需先行向技术人员先提出需求,为使其充分领会意图还需讲解刑事侦查专业知识、描述侦查的逻辑框架。这一过程必然会消耗大量的时间,不利于侦查效率的提升。为了解决这种问题,以便于侦查人员自行开展大数据侦查工作,大部分合作企业搭建了简易建模平台,提前编写了可供选择组合的部分应用。但该方式非常机械化、工具化,依靠简单的“托拉拽”拼凑出一个数据模型。这种常规性、模式性的侦查要素提取分析很难应付瞬息万变的侦查工作。因此简易建模平台发挥的实际效用十分有限。大数据侦查工作最终依然陷入由侦查人员提需求、技术人员重新开发的怪圈。
大数据侦查思维既是大数据侦查建设的指引,也是大数据侦查的有机组成部分,二者互为因果[10]。因此,在大数据侦查初级阶段,正确的思维先导能够避免大数据侦查在发展的过程中走弯路。
1.明确大数据相关性的功能定位。大数据的相关性思维固然重要,但是犯罪侦查和司法证明素来要求严密的逻辑体系和充分的因果关系。严苛的司法程序不仅是为了查明事实,更是为了保障公民的合法权益。在大数据侦查的初级阶段,无论是法律层面还是技术层面,仅凭借大数据的相关性无法满足刑事侦查的逻辑严谨性需求。但是侦查思维是开放包容的,基于相关性的数据思维能为其提供新的参考。因此,应明确“知其然不知其所以然”这种结果主义的相关性在犯罪侦查中的功能定位,为侦查工作开辟新的视角。侦查人员可基于相关性去寻找因果关系,但并非所有的相关关系都能经受因果逻辑的检验。如果能找到因果解释,则可以此为基础进行传统的证据调查,即保证大数据侦查输出结果的可解释性以符合司法证明的逻辑性,将“推测”落地为“推导”;若无法进行因果解释,侦查人员也能以之为线索,开拓新的侦查途径,寻找更多的线索和证据。另外,相关性可以为犯罪监控、犯罪预测提供支持。很多犯罪行为不便直接观察,可以通过其在平行数据空间的相关变量加以关注。
2.协调大数据侦查与传统侦查的关系。大数据侦查之所以能够实现,是因为其载体是由现实空间通过网络映射出的平行数据空间,这实际上就是侦查学基础理论——同一认定原理的网络化、数据化版本。换言之,大数据侦查是传统刑事侦查在现代科技基础上的分支,其本质是刑事侦查,因此大数据侦查的发展离不开传统侦查的基础理论支撑。传统侦查学科凝结了古今中外刑事司法领域的哲学智慧,也是侦查人员必须具备的基本功。大数据侦查尚处初级阶段,必须坚持与传统侦查方式的融合互补,摒弃“模型包打天下”的思想。传统侦查通过信息录入的方式实现实体侦查资源向数据侦查资源的转化;大数据侦查挖掘出的犯罪情报信息“必须与实体形态的侦查资源相印证,才能作为犯罪证据使用。”[11]如前文论述,部分案件在利用大数据侦查方法挖掘犯罪链条、分析犯罪网络时离不开人力情报的支持。同理,对于部分非触网类犯罪,如果传统侦查模式能够更快更好地破案,那么大数据侦查方法就不一定是最佳选择。防止因大数据侦查的滥用而致使侦查人员过度依赖、思维僵化、丧失基本功,出现“高科技低能力”的状态。
5G 技术日趋成熟,万物互联的时代悄然来临,全社会即将掀起一场全新的数据化革命。侦查机关若能顺应时代潮流、把握契机,大数据侦查初级阶段的许多问题会迎刃而解。例如目前社会部门数据库普遍性能低下而影响大数据侦查效率的问题。5G 技术的普及必然会推动社会各部门数据库硬件设备的迭代和软件的升级,其运算能力将有质的飞跃,因此大数据侦查中建立的数据模型在挂入社会各部门数据库后不必再因其算力有限而影响运行速度,从而大大提升侦查效率。因此,5G 时代与大数据侦查初级阶段碰撞的过程中,侦查机关必须主动回应,改革创新侦查机制,才能把握先机,为大数据侦查的进一步发展培育出优渥的土壤。
1.积极推进全国统一性的大数据侦查云平台建设。云计算是一种高效、安全、便捷、低成本的分布式计算、存贮技术。在5G 技术的高传输速率的加持下云计算如虎添翼,全国性的云端警务建设势在必行。首先应促成建设全国性的公安大数据库,这是突破现阶段侦查资源质量瓶颈的基本条件。公安内部数据库作为大数据侦查的第一资源池,其地位举足轻重。实现数据的共享是大数据侦查发展的应有之义,其首要环节便是消除公安内部数据壁垒、打通侦查资源的流转通道。因此,侦查机关应统筹规划全国性、全警种的数据库的建设,积极促进现有数据资源的高质量集成,而非各地区、各部门、各警种分别投入轰轰烈烈的建设浪潮中。其次,应在云端警务的基础上开发大数据侦查平台,囊括数据分析挖掘、情报研判等应用,所有的大数据侦查活动均在此平台开展。
如图1所示,此举措最明显的优势在于能够避免大数据应用的重复开发,节约大数据侦查的经济成本、时间成本和人力成本。此外,整体化建设有利于数据规范的统一制定以及大数据侦查工作制度的完善。一方面能够从根源上消除部门间数据壁垒、填平地域性资源鸿沟,调和侦查资源质、量不统一的矛盾,实现真正意义上的资源大融合;另一方面能够将侦查人员从目前种类繁多的数据库、数据挖掘应用、网上作战平台以及琐碎的数据治理工作中解放出来,释放侦查机关战斗力。
图1 一体化侦查云平台建设模型
2.优化基于云端警务的内部侦查协作机制。大数据侦查中的协作更多地表现为数据资源的共享。将稳定完善的侦查协作机制纳入统一的云端警务框架,保障大数据侦查协作行为的合法化、规范化,让大数据侦查协作在可操控、可监督的程序规范内运行,做到有法可依、责任明晰,打消侦查资源持有主体的顾虑、杜绝建立在侦查人员个人人际关系基础上的“关系协作”和“人脉侦查”等无监督、无管理、无法律依据的“三无”状态。在云端警务运行侦查内部协作机制,一方面能够在公安内网快速完成协作手续的流转,有利于节省事前审批的时间,避免延误战机;另一方面能够实现“一次协作、多个节点”的业务留痕,有利于大数据侦查的事后监督,保障大数据侦查协作的合法性并杜绝个别部门出于私利而不愿配合的现象。此外,共享理念也能够在内部侦查协作机制中得以深化和落实:共享经济与侦查协作具有相同的效用——提高资源的利用率,并使双方需求得到满足[12]。即侦查机关通过侦查信息的交流共享,各取所需,最终在满足侦查机关信息数据需要的同时提升侦查效率[13]。
3.科学管理数据权限。在大数据侦查中,数据权限充当着侦查行为许可证的角色。数据权限的科学管理有利于保障侦查行为的合法性以及数据安全。科学管理数据权限应包括以下内容:一是数据权限分类管理机制。按照大数据侦查体系,数据权限可以分为业务资源类和监督管理类。业务资源类数据权限是指能够获取侦查实战所需资源的数据权限;监督管理类权限是指通过审批、查询对大数据侦查的合法性进行把关、并为大数据侦查实战提供必需保障的数据权限。这种分类的意义在于通过对数据权限分类管理,科学合理配置数据资源的同时能够完善对大数据侦查行为的内部监督。大数据侦查实践中所谓“数据权限下沉”的呼声,指的是业务资源类数据权限根据实际业务需求分配、向大数据侦查一线实战部门靠拢,并非机械地按照行政级别由上至下呈金字塔状分布;同理,监督管理类数据权限应根据岗位职能和职位职责配置。二是数据权限动态管理机制。数据权限的管理并非一定不易,而是个动态的过程。数据权限管理部门应与公安人事部门形成联动,紧跟侦查人员岗位、职务的调整变更数据权限,防止出现“人走权限在”的数据安全隐患和“人来无权限”的工作阻碍现象;并通过系统定期监测,核查数据权限使用情况,以此为依据对侦查人员的数据权限进行调整,关停使用率不高的数据权限。三是高、低密级数据融合机制。数据的高质量融合能够极大地提升犯罪情报研判质量和侦查效率,但同时应严格遵守相关法律和公安工作纪律。大数据侦查实践中常需要技侦、网安、国保等部门的数据支撑,而这些部门的业务数据往往涉密,具有严格的法律控制和较高的启动门槛。为充分释放大数据侦查的效能,侦查机关需在现行法律框架内降低数据密级和权限对资源流通的限制。因此,高、低密级数据融合机制应以数据流单项传输的方式,由侦查人员将低密级数据以及嫌疑线索推送给涉密部门,涉密部门将低密级数据结合涉密信息二次挖掘、分析研判后的综合情报产品以及验证结果反馈给侦查部门。
图2 高、低密级数据融合机制
如图2 所示,高、低密级数据的融合发生在高密级数据池,整个封闭式数据融合的过程中高密级数据始终保持静态,流转的是情报和验证结果。对于通过大数据侦查获取的高敏感度信息管理可类比《刑事诉讼法》中对技术侦查手段的规定:涉及到国家秘密、商业秘密、个人隐私的内容需要严格保密,与案件无关的必须及时销毁。该机制的创新具有现实意义,一方面能够有效实现高、低密级数据的融合,提升侦查效能;另一方面保证了高密级数据的安全和侦查手段的合法性,能够有效防止大数据侦查手段的滥用。
4.积极沟通完善外部数据合作机制。从体量来看,相比于社会数据,公安内部数据犹如九牛一毛。我国是一个数据大国,拥有极为丰富的数据资源,且具有“集中力量办大事”的制度优势,大数据侦查的发展具备更多的便利条件[14]。随着5G时代到来,智能穿戴设备、车联网等愈发普及,数据即将面临新一波的爆发式增长。凭借目前的个案式、地缘式外部数据获取方式,大数据侦查的发展必然难以为继。因此侦查机关应主动牵头,与各社会部门、企事业单位积极沟通,广辟数据来源、疏通外部数据获取渠道,建立长效外部协作机制。应当注意的是,外部数据合作既非一味地将社会部门和企事业单位的原生数据纳入公安数据库,也不是单纯地给大数据侦查平台留有数据库接口,“物理堆叠”的方式徒增警务云服务器的压力和数据治理工作量。而是应该在合作机制构建初期与社会各部门共同参与制定数据规范,并参考智能前端设备算法,提高外部衍生数据的利用率,避免数据挖掘应用的重复开发。例如:利用云计算与边缘计算相结合的技术,将算力不强的运算置于边缘服务器,在减轻警务云的数据压力的同时能够直接利用外部侦查资源的数据挖掘产品。
大数据侦查行为过度依赖社会力量不是长久之策。社会企业科技板块的战略价值在于协助公安机关建设高质量的内部大数据人才梯队。精通犯罪侦查业务和前沿科技的复合型人才是大数据侦查实现从初级阶段进化至高级形态的中流砥柱。公安内部人才培养可从以下两个方面布局:一方面,当务之急是优化侦查人员独立开展大数据侦查活动的水平。侦查机关应选拔出在侦查破案一线磨砺过、具备扎实刑侦基本功的侦查人员,在合作企业、高校师资力量的协助下加以培训,以业务需求为目标引导侦查人员开拓、探索大数据在犯罪侦查中的应用和价值,逐步实现侦查人员独立完成大数据侦查工作、社会企业仅提供技术支持和系统维护的定位转变。另一方面,培养公安政法院校在校生是大数据侦查发展的战略层面布局。公安教育领域应尽快加强查侦查学专业建设,公安院校在侦查学二级学科下开设大数据侦查方向,以推动侦查专业结构的改革[15],积极搭建警、校、企三方合作平台,创新校内、校外双导师教学模式,深化学科的交叉融合,为广大师生研究提供更为丰富的学术资源,促进大数据侦查的进一步发展。
大数据侦查方兴未艾,位于刑事侦查的前沿模块。但其尚处于初级阶段,受经济、体制和布局的影响呈现出数据应用未形成范式、结构要素未培育成熟、科技动力不足的特征,并存在侦查思维僵化、资源统筹困难和外部依赖过高的发展瓶颈。当前研究者们和实践部门所做的一切努力都是致力于推动大数据侦查早日发展到高级形态。但是大数据侦查是一个复杂的体系,在初级阶段,技术上的攻克仅仅是基础环节,正确引导大数据侦查思维、弥合内外数据鸿沟以及建设大数据侦查人才梯队才是各侦查机关都需要面对的问题。
[注释]:
①例如网络社交媒体中较为流行的“表情包”就是一种典型的非结构化与半结构化数据交融的形式。
②马太效应(Matthew Effect)是指强者愈强、弱者愈弱的现象,广泛应用于社会心理学、教育、金融以及科学领域。马太效应是社会学家和经济学家们常用的术语,反映的社会现象是两极分化严重。
③“弱人工智能”是指,在某一方面表现出智能,但是不具有与人类相当的智力水平和思维模式。弱人工智能其实并不具备思考的能力,而弱人工智能本质上也是统计学以及拟合函数等运算,实际上并不能真正地去推理问题,去解决问题,也没有自己的世界观、价值观。
④详情参见:中共云南省委政法委员会云南长安网《“天网”已应用全国16省市人脸识别技术助力安防》,http://www.zfw.yn.gov.cn/gczs/201803/t20180323_731416.htm,最后浏览时间2020年5月10日。
⑤回溯型侦查模式是指针对已发生的犯罪行为,可在具体个案侦查中用大数据方法寻找相关线索、证据,也可以对大量的历史犯罪数据进行整体化分析,寻找犯罪活动的内在规律。预测型侦查模式是通过大数据预测技术预测未来犯罪活动的发生,以及发现某些正在发生的隐蔽性犯罪的线索。