大数据时代的犯罪预防问题辨析

2017-03-13 18:12刘艺坤

法制博览 2017年2期

摘要：随着互联网技术的发展，当今世界已经进入了大数据时代。因为其强大的数据分析和前瞻性的数据预测功能，对实现犯罪预防技术的进一步发展似乎带来了新的希望。但是大数据不是以往所了解的数据的简单集合，潜在的巨大风险如影随形，正确认识并合理应用才是大数据时代的应有之义。

关键词：犯罪预防；数据错误；数据隐私；数据监控

中图分类号：D924.393；D917.6文献标识码：A文章编号：2095-4379-（2017）05-0080-03

作者简介：刘艺坤（1991-），女，汉族，甘肃人，华南理工大学法学院，诉讼法专业硕士研究生，研究方向：刑事诉讼。

一、大数据与犯罪预防

电影《少数派报告》讲述了人们如何利用“先知”抓捕可能犯罪的人从而预防犯罪的故事。电影的主角某一天受到了抓捕，然而他并没有任何犯罪的意图、没有任何犯罪的行为趋势，他因为被抓捕反而去思考他可能的犯罪动机，然后真正的实施了犯罪。这里不知道是因为犯罪去预防还是由于被预防才导致犯罪。我们应用大数据也是为了预防，大数据有一个强大的预测功能。

运用数据进行预防早已有之，美国警方的“CompStat”（数据驱动的警务管理系统）以及布兰代斯诉讼方法都是数据在法律适用中的極好典例。大数据形成的预防有两种：首次犯罪识别和再次犯罪惩戒。首次犯罪识别就是通过预测分析技术审查系统所发现的可疑交易、申请，发现、识别和跟踪犯罪。再次犯罪惩戒出现在审判和执行阶段。审判时考虑人身危险性会考虑被告人的各种情况，大数据因为它的全面性和综合预测性优势将会提供一个非常庞杂的个人情况，包括他的浏览习惯、购物清单、阅读倾向、还款信用率等。相类似的还有假释、缓刑和减刑的考虑，对犯罪人本人我们将了解的更多更深入，以决定罪犯是否有再犯可能性。但这两种犯罪预防都要面临的一个重大质疑是：如果你说自己阻止了某事的发生，那么你如何证明，如果不去阻止，你所担心的的事情就必定会发生呢？

二、犯罪预防相关问题

既然传统的犯罪预防就是建立在犯罪数据和一定的风险评估上，那么为什么不能接受一个更为广泛系统的数据作为参考呢？这里可能产生两方面的问题：1、犯罪模型，因为数据庞杂，怎么建立一个准确的模型来综合应用这些数据成为重中之重，当系统做出不准确或者错误的描述，实际上你则完全是无辜的，这件事更没有发生，怎么证明？另外给每个因素事前确定一个固定的比例也是不科学的，个人的风格和倾向性以及社会的偶然性等等都会导致误判的发生；2、数据的过度依赖。审判员可能会因为体系而考虑的更加全面审慎，但系统也可能会让他忽视自己的主动观察和思考，让他形成某种技术依赖，尤其是对上级或外界权威推荐的他不甚了解的系统。

此外，有以下几个问题不得不去重视：

（一）数据错误

要拥有巨大的数据资源，必然要抛弃对数据精确性的绝对追求，大数据之父舍恩伯格认为执迷于精确性是信息缺失时代和模拟时代的产物，如果不接受混乱，95%以上的数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足世界的窗户。就个人来说，我们可能会谨慎认真的发布一条消息，但是我们也会不专注的时候写下错别字，混乱也是生活的一种状态，大数据对此并不排斥，甚至乐意之至。谷歌将这种错误应用在搜索和翻译中，即使打下错误的指令也能找到你可能找到你需要的内容。这种思维方式上的自信当然也是因为当数据规模足够大的时候，数据错误就可以忽略不计。实验规律就是如此，当试验次数增加到一定程度，其结果就会越来越趋于一个稳定的数值。

但是作为大数据应用的经典案例：谷歌搜索准确预言流感，于2014年在《科学》上受到文章质疑，该文认为谷歌的流感预防并不那么准确，普遍存在高估情况。大数据原先为什么准确？现在为什么不准确？没有人能回答，谷歌也不知（一开始就没法知道）搜索关键字和流感传播能够产生紧密的联系，大数据的分析思维就是相关关系，而不是因果关系，就像沃尔玛也不知道尿布和啤酒的销售为什么会联系在一起。这种单纯特征上的相关性研究，不知道它背后的产生机制也将不能明白它的消失时间。

大数据的错误的原因还有数据太大必然有大量的无关信息，虽然当数据规模足够大时，错误信息可以接近忽视，但是若因为特殊原因导致无关错误信息占据大多数，纵使数据模型和推理足够高超也不能避免失败的命运。

实际上我们很容易接受数据这种理性的蛊惑，实行国家大数据战略则完全可能将人们对数据的依赖上升到受其统治的地步，我们必须时刻谨记大量的数据实质上并不可靠：质量差、不客观、毫无联系、没有逻辑……如此多的问题，还无法解释、无法证明，我们对其的信任可以走到哪里？无疑要打一个大大的问号。现实的是，这些乱七八糟的数据最后进入个人的相关系统，并用来预测、确定个人的一切。

（二）数据歧视

数据歧视表现在两个方面，一是传统的偏见，比如说种族、宗教、肤色、区域歧视。人们总是会受到自己信仰和偏见的制约，心理上叫做“你看到的就是你想看到的”，又叫做“吸引力法则”，这与我们的注意力和精力的有限相关。世界上会同时发生很多事情，一件事情可以用不同的角度去思考，但是你只会用你惯用的角度去看去想，更为重要的是，偏见会随着经验的增多具有周期性和自我强化的功能。如果你能用数据来替换主观信仰和偏见，毫无疑问在这种拥有偏见色彩数据之上的预测分析技术应用将更加强化这样的轮回。比如说，执法部门在给犯罪嫌疑人制作资料和档案的时候就会特别强调是否为少数族裔，有时还会有区号、宗教等，这类特别被“关注”的群体犯罪率也会格外的上升。虽然并不能说是因为犯罪记录显示了种族的区别，但我们会更主动的审查这类群体是否犯罪，这类群体的被抓率肯定就会高于其他较少关注的群体。二是消费者偏见。一个典型的营销案例是目标超市会根据你的消费记录来判断你是否怀孕。虽然你可能并没有点击任何的母婴产品，但是因为数据预测的相关性分析而非因果关系会让一些企业知道更多，成为你“最亲密的陌生人”。在技术领域这叫作“个性化技术”，包括个性化排序和个性化推荐，如网络搜索链接的自动排序，购物网站的优化推荐，交友软件的推荐好友。阿里巴巴阿里贷款就是借助分析自家电子商务平台淘宝、天猫、支付宝等的客户行为及信用数据运作的，它比较传统银行贷款无抵押、纯信用贷款，不需要您提供房产、设备抵押或担保人担保，仅仅依靠交易行为和信用足以，全程由大数据技术自动分析判定，不会出现任何人工干预，而且坏账率曾达到1%以下，现在虽有所上升，但是也远低于银行水平。这些也许方便了消费者的生活，但是显然也属被动而非主动的接受所要面对的信息，如果一个人是家庭主妇，那么她将永远陷于铺天盖地、五花八门的娱乐绯闻、电视预告或者购物信息中而不自觉。而你的购物倾向和消费习惯都会影响你的信用水平，进而录入个人的数据档案中。

（三）遗忘权

大数据的存在使一种权利走到了人们的视野之中：“被遗忘的权利”。2012年，欧盟出台了一项有关个人信息保护的改革方案，主张民众有权要求相关机构删除有关他们的个人数据。2014年欧盟最高法院通过判决的形式承认了“遗忘权”，个人可以就某件具体事宜要求网站管理者删除错误、不恰当、不相关、过时的信息。2016年3月谷歌宣布把“被遗忘权”政策的法律适用范围扩展到欧盟以外的主域名，2016年2月日本一家法院也判决承认了“被遗忘权”，但是作为中国首例“被遗忘权”案件任某诉百度案受到了两级法院的驳回，法官认为其利益并不具有正当性和受法律保护的必要性。

当今世界的存储能力和存储成本有了显著的变化，云计算的出现让无限存储不再是梦想。科学家这样形容云计算：它就像一个总的自来水库，我们使用存储就像自来水一样，当需要的时候我们就打开水龙头，想要存储量大一点的时候放大水龙头即可。所以当空间无限且边际成本永为零的时候，每一个电子数据可以肆无忌惮的留在网络空间不怕填满也将永不会消失。被誉为“大数据时代的预言家”舍恩伯格在《删除：大数据的取舍之道》写道：“在数字时代，或许人类发生的最根本的改变，就是记忆和遗忘的平衡已经反转了。将信息提交给数字存储器已经成为默认状态，而遗忘则成了例外。”例如在网络上发布信息，要全部清理掉是非常困难的，即使你删除了内容，但是个人网页已经被搜索引擎编录了，并被网络爬虫程序存档，还可以通过快照之类的方式读取。更严重的是，这种一时的冲动所产生的阴影会一直笼罩着余生，甚至比我们的寿命更长。所以我们不得不极力遏制分享和评论的欲望，谨言慎行。然而搜索引擎所记住的，要比网页上发布的信息多的多，我们每一个搜索请求、随意点击的网页……足够准确的预测到我们倾向什么信息，这些被我们遗忘的细节和挖掘技术，可以毫不夸张的说，搜索引擎对我们的了解比我们自己能够记住的还要多。

另外，完善的记忆模式也将影响整个社会到个人的思考和决策方式，越来越注重个人的过去，迷失在过去的琐碎细节中，束缚于记忆，也意味着一旦犯错便永无宁日，再也没有了重返正常生活的机会。

（四）数据监控

乔治·奥威尔早在1948年就著《一九八四》一书就描述了完全监视下零隐私的恐惧：“不论是睡着还是醒着，在工作还是在吃饭，在室内还是在户外，在澡盆里还是在床上—没有躲避的地方。除了你脑壳里的几个立方厘米以外，没有东西是属于你自己的。现实中“老大哥”并没有出现，但是通过大数据可以实现了无处不在的监控，而永久数据库和数据挖掘技术的存在，脑壳里的思想也将无可避免。

震惊世界的斯诺登事件以及相关的“棱镜计划”就是美国政府的一个数据监控策略。这种被监视的恐慌，让人们想起了《一九八四》里的“电幕”，美国领导人就是那个“老大哥”。对自由意志和平等地位的追求已经成为当今民主国家的潮流，面对世界各国强烈的谴责和抵制，这种行为总会冠上许多冠冕堂皇的理由，比如反恐与国家安全。美国虽然早在1974年颁布了《隐私法》、1967年颁布《信息自由法》，但是2001年作为应对“9·11”反恐策略，布什总统签订了《爱国者法案》，根据该法案警察和情报机构不需要法院的核准，就有权窃听公民的电话，检查电子邮件等。美国也曾有几次公开的数据库计划，最早是1966年的“中央数据银行”，即在联邦政府成立一个统一的“数据中心”，把政府部门所有的数据库连接、集中、整合起来，建立一个大型的数据库。最终，每一个公民将有一个数据档案，里面包括每一个人的教育、医疗、福利、犯罪和纳税等等一切数据记录。这种统一管理不仅能节省运营成本、提高数据的准确性和查詢的效率，也有利于保障数据的安全，但是它因无法保证公民的隐私不受到侵害而被无限搁置。“9·11”以后，新面孔加新技术的“万维信息触角计划”卷土重来。它是利用恐怖分子在计划执行活动时的任何信息记录，如通讯、出入境、医疗等，通过数据挖掘，发现和追踪恐怖分子。虽然该项目后更名为“反恐信息触角”，并反复强调专为反恐服务，不适用任何的商业产生的数据，依然迫于压力被叫停。2006年同样以反恐为名美国国土安全局提出“建言”计划，在前者之上，预先设计了种种技术方案进行隐私保护。大型数据库计划一再因为隐私的原因被叫停，因为它不仅能够监视恐怖分子更能监控任何人，况且谁能够确保真正拥有这个能力而不滥用。

（五）数据隐私

数字化和互联网给了我们很多便利的同时，也带来痛苦。这个超乎寻常的平台将世界连在了一起，人们意识到互联网不仅仅是一个接受信息、知识的工具，还可以自己发动智慧生成和共享。一种新的技术和创造理论形成：众包（利用互联网将工作打包分配出去），典型如维基百科，百度百科等。人肉搜索就是基于这种力量，也利用了诸如六度空间等人际关系理论，接包人可能并不是为了报酬，为了兴趣、公益或者帮助他人的满足感，甚至是自己也没有意识到，就在不知不觉把任务完成了。数据化时代会带来更多，享有数据的集团或个人无需惊动任何人，自己就能完成搜索追踪的工作。

数据应用的监管一般来说都寄希望于行业自律，为数据所有者所承担，当数据所有者同时为数据监督者的时候，权力滥用的危险很难避免。身份识别的攻击、不准确的数据与模型、不公平的使用敏感信息、影响公众的个人行为、增加政府控制公民的能力、大规模的数据破坏等等，而公民个人很难独立的意识到，我们拥有便利的同时遭到了不公正的对待。另一方面，我国没有“数据权”这项法定权利，即使发现也缺乏保护机制和对应的及时挽救方法。

三、结语

数据的理性似乎更符合法律的客观性，但是这些限制自由、生死攸关的重大决策，我们能否把信任托付在冰冷的机器和乱起八糟可能缺乏真实性的数据上，也是个极难理清的伦理难题。但是大数据时代已经来临，临阵退缩不如正确善待、更好的应用，才是决定新技术影响好坏的关键。

[参考文献]

[1]西格尔.大数据预测：告诉你谁会点击、购买、死去或撒谎[M].袁杰译.北京：中信出版社，2014.

[2]维克托·迈尔-舍恩伯格.删除：大数据的取舍之道[M].袁杰译.杭州：浙江人民出版社，2013.

[3]乔治·奥威尔.一九八四[M].董乐山译.上海：上海译文出版社，2011.

[4]徐子沛.大数据：正在到来的数据革命，以及它如何改变政府、商业与我们的生活[M].林市：广西师范大学出版社，2012.7.

[5]徐子沛.数据之巅：大数据革命，历史、现实与未来[M].北京：中信出版社，2014.