“大数据”破案

2013-07-12 18:49阿碧
检察风云 2013年15期
关键词:安全局犯罪分子数据挖掘

文/阿碧

“大数据”破案

Detect by Big Data

文/阿碧

据英国《卫报》和美国《华盛顿邮报》2013年6月6日报道,美国国家安全局和联邦调查局于2007年启动了一个代号为“棱镜”(PRISM)的秘密监控项目。该项目使得他们可以直接进入网络公司的中心服务器里挖掘数据、收集情报。美国安全局前雇员爱德华·斯诺登向媒体透露了这个秘密项目,引起了国际社会的高度关注。现在人们关注的焦点,除了斯诺登最终的去向和命运外,还有“棱镜门”涉及的核心技术——数据挖掘。

从大数据中寻找破案线索

在互联网时代,警察破案除了用到传统的档案、走访资料、电话记录等资料外,还会用到互联网上出现的信息。所有的这些信息汇集成海量的数据,这些数据如今有了一个更加时髦的身份,那就是“大数据”(Big Data)。当然,大数据不仅仅是传统的数据资料换了一个“马甲”那么简单。大数据指的是资料量规模巨大的资讯,往往在一个较大地域范围内出现,这些资讯无法在短时间内通过传统的方法被人们所利用。

现在,一个犯罪分子要想销声匿迹,除非把自己完全绝缘起来。这样司法机关掌握的大数据无论有多大,都难以查找到犯罪分子的个人电子信息了。但是,在如今这个信息技术已经渗透到生活方方面面的时代,犯罪分子要想不留下任何电子信息,已经是几乎不可能的事情了。比如,就算犯罪分子不上网、不使用手机、不看电视等,总之不和任何信息设备发生关联,也可能逃脱不了大数据的追踪。因为犯罪分子不可能长期出现在道路、商店、码头、车站等公共场所,一旦出现,就可能被公共或私人的电子设备拍摄到。即使犯罪分子长期蜗居在某个偏远地区的某幢房屋内,他也可能被谷歌的街景车拍摄到他从窗口探出的脑袋。

近期,利用大数据成功侦破的有名案例是波士顿连续爆炸案。2013年4月15日,美国波士顿在举办马拉松赛的过程中发生连续炸弹爆炸案,结果导致3人死亡、183人受伤。在案件发生后,警方保留了案发现场附近的所有监控录像以供比对、查找,波士顿警察局的官员称“仔细查看了所有录像的每一帧画面”。然后,警察走访了事发地点附近12个街区的居民,收集可能存在的各种私人录像和照片,无论他们来自摄像机还是私人的手机。警方还大量收集网上信息,包括像Twitter、Facebook、Youtube等社交媒体上出现的相关相片、录像等,而且在这些受众面广泛的网站上提出了收集相关信息的请求。最终,警方从马拉松赛事沿途录像中寻觅到嫌疑人的踪迹,并从录像中截取出嫌疑人照片,其中包括嫌疑人正面的清晰影像,并结合其他信息,宣布嫌疑犯为兄弟俩,分别是26岁的塔米尔南·沙尼耶夫和19岁的乔卡·沙尼耶夫。4月19日凌晨,嫌疑人在水镇(Watertown)与警方发生枪战,塔米尔南·沙尼耶夫在过程受重伤经送医不治,乔卡·沙尼耶夫趁乱逃脱。当日晚间,警方利用公共场所的红外线摄像机,准确定位了嫌疑人的位置,并且迅速包围。在与警方对峙数小时后,乔卡·沙尼耶夫投降,追捕行动结束。

波士顿连续爆炸案的侦破工作符合了大数据技术中著名的4V原则:(1)来自各方的巨大的数据量(Volume);(2)各种数据源(Variety),特别是来自各种社交媒体上的图像、影像类的非结构化数据非常丰富;(3)快速的反应(Velocity),在事件发生数分钟之内,已经有大量信息发布在各种社交媒体上;(4)这些数据对侦破工作也很有价值(Value),其社会价值是无法简单估量的。当然,大数据也给侦破工作带来挑战,如何处理从各个数据源收集来的信息就是个难题,包括对信息的真伪进行鉴定,对同一地点不同距离、不同视角、不同清晰度、不同时间的有用信息的综合利用。

如何获取大数据

目前,获取大数据的渠道主要有两个,一个是电话公司,一个是互联网公司。美国安全局就长期从电话运营商处获取到通话数据库,其中包含大量通话数据记录,例如通话时间与通话时长、相关电话号码以及移动设备本地数据等等。这套数据库建立于2001年“911”恐怖袭击事件后不久,而且得到了多家电信运营商的支持。2006年,《今日美国》称这套通话数据库是“世界上规模最大的数据库”。该数据库处理着数以十亿计的电话记录数据,有大量的计算机和数据分析师处理这些数据。

美国还长期从互联网信息中获取大数据。然而,他们目前无法真正捕捉并保存用户们所产生的全部数据。随着信息技术的发展,这两项艰巨任务逐渐变得可能起来。由于全球互联网的IP地址都由美国的服务商来提供,这给美国监控全世界提供了便利。美国安全局已经在海底互联网光纤主干上安装了智能流量分析器,这是一种原理类似于“水龙头”的分流装置,可以获取全球互联网上的信息。

然而,比获取信息更难的是存储信息。根据思科公司的统计,2012年全球互联网流量每天达11亿GB,这需要110万个容量为1000GB的硬盘来容纳这些数据。目前世界上90%以上的数据是最近几年才产生的,而在未来一段时期内,互联网上的数据每年将增长50%,从存储物质来看,目前要将互联网上的所有信息存储下来就已经无法实现,更不要说实际使用这些信息了。当然,从技术发展的角度来看,将来是有希望做到把所有的信息都存储下来,这就是未来的DNA计算机所能做的事情。DNA计算机将利用人工合成的DNA作为存储介质。DNA由4个碱基组成,它们的排列顺序千变万化,储存信息的容量相当大。最近,哈佛大学研究人员将一本大约有5.34万个单词的书籍编码进不到亿万分之一克的DNA微芯片,然后成功利用 DNA 测序装置来阅读这本书。这是迄今为止人类使用DNA遗传物质储存数据量最大的一次实验。

由于目前DNA存储还没有进入实用阶段,安全部门和司法部门都只能从相对有限的大数据中获取线索。美国安全局每天所捕捉并保留的数据总量,也仅占每天全球互联网流量和通话记录中的一小部分,即那些通过关键词、关键图像、关键数据等筛选过后的信息。从互联网获取信息还遭遇另外一个难题,那就是密码问题。往往安全部门希望获得的信息却是经过加密的,比如恐怖组织和一些黑客会采取很先进的加密技术来传输自己的信息。要破译这些信息,不仅需要更好的技术,而且投入十分巨大。而且,破译这些信息需要一定时间,恐怖组织或犯罪分子会利用这个时间差,在相关部门破译信息之前,恐怖袭击或犯罪活动已经发生了。因此,大数据时代警方所能利用的线索虽然很多,但是需要警方不断更新技术,让自己更好且快速地从这些数据中挖掘出有用信息。这些技术被统称为“数据挖掘”。

利用数据挖掘技术破案

在侦破过程中,刑侦人员会对来源不同的各种证据和线索进行梳理,找出对侦破最有用的证据和线索。这些对已有资料的梳理、统计、分析工作,就是数据挖掘技术。在司法领域,数据挖掘是一项比较古老的方法。在一百多年前,多国司法机构就知道建立违法犯罪档案。一旦某地出现新的违法犯罪活动时,侦破人员会搜索已有的档案,从中发现破案的线索。而犯罪学专家则研究这些档案,总结违法犯罪的动机、方式、工具等特征,为预防犯罪和侦破提供依据。这些都是较为古老的人工数据挖掘方法。到了信息科技时代,数据挖掘则以计算机挖掘为主。

数据挖掘的英语名称是Data Mining,又译为资料探勘、数据采矿。所谓数据挖掘,是指从大量不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取那些隐含在其中的,然而人们事先不知道却有潜在用途信息的过程。它是根据数据的微观特征,发现其表征的、带有普遍性的、较高层次概念的知识,是信息优势成为知识优势的基础工程。数据挖掘萌芽于“情报深加工”,其实质就是发现情报背后的情报。在大数据时代,数据挖掘就是从海量数据中寻找到自己需要的信息,我们常用的百度、谷歌等搜索引擎完成的工作也属于数据挖掘的范畴。

随着计算机和互联网技术的迅速崛起与普及,人们(当然包括犯罪分子和恐怖分子)已经离不开手机、电脑、智能电视等智能终端设备,不少日常活动基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。总之,在通信技术无孔不入的时代,人们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为司法部门破案时所需要分析的材料。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以可理解的方式(如可视化)将找出的规律表示出来。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,信息时代众多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。

目前,美国安全局已经开始利用数据挖掘技术追踪恐怖分子和监控社会情绪。比如,美国安全局和交通安全局曾经基于数据挖掘技术,开发出计算机辅助乘客筛选系统。该系统为美国本土各个机场提供接口,当乘客购买机票时,系统利用乘客提供的信息确定乘客是否是需要额外安全筛选的人员。该系统将乘客购买机票时提供的信息输入到商用数据提供商提供的数据库,这些信息包括全名、地址、电话号码以及出生日期。商用数据库然后将隐含特殊危险等级的数字分值传送给交通安全局。带有“绿色”分值的乘客将接受“正常筛选”,带有“黄色”分值的乘客将接受“额外筛选”,而带有“红色”分值的乘客将被禁止登机而且还将接受“法律强制性的关照”。在利用商用数据库信息时,交通安全局声称工作人员不会看到用于计算分值的实际信息,也不会保留乘客的信息,以此保障乘客的隐私。

目前,数据挖掘技术已经被用在刑事侦破领域,为破获一些疑难杂案、保障老百姓的人身和财产安全提供了新的技术支持。比如,寻找犯罪嫌疑人的人脸识别方法就需要用到数据挖掘技术。警方先通过计算机对嫌疑人进行画像,然后自动在目标人员数据库中搜索犯罪嫌疑人。不过,人脸识别技术要高效发挥破案的作用,前提就是要建立有大级别的人像数据库系统。也就是说,人脸识别的数据挖掘是需要建立在大数据的基础之上的。同样,指纹识别、虹膜识别、掌纹识别、步态识别等生物识别技术,也需要逐步完善的数据库给予支撑。

在司法领域,数据挖掘技术分析的对象一般分为两大类:一类是基于监控对象的系统,它能够帮助分析专家跟踪某个犯罪嫌疑人;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑的可能涉及犯罪的行为,或者可能是犯罪分子才会产生的行为。基于监控对象的数据挖掘技术又称作关联分析法,是司法机构重点开发的技术。这种方法能利用相关数据,在表面上没有关系的人或事件之间建立关联。比如,如果某人是犯罪嫌疑人,那么就可以使用关联软件发现嫌疑人可能正在影响的其他人,从相关人那里获取破案线索。

重大的案件会用到超级计算机进行数据分析

大数据时代的隐忧

英国牛津大学网络学院的维克托·尔耶·舍恩伯格教授在其新书《大数据时代》书的引言中说:“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发…… ”

美国政府已将大数据视为“未来的新石油”,并将对大数据的研究上升为国家意志。在美国的推动下,未来大数据之战的脚步声也似乎越来越近。

舍恩伯格在新书中还表示,在大数据时代,人们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯;谷歌监视着我们的网页浏览习惯;而微博似乎什么都知道,不仅窃听到了我们的心思,还能描绘我们的社交关系网。

因此,不仅司法机构可以利用大数据来破案和预测潜在的犯罪,犯罪分子和犯罪团伙也可以利用大数据寻找到可以侵害的对象并实施犯罪。以前不少盗窃大案的犯罪分子往往要实地勘察几个月甚至数年,以此来分析某人或某机构的习惯规律以实施犯罪行为。在大数据时代,人们只需要一台电脑和简单的黑客手段就可以完成这样的分析。

目前,已经有不少犯罪团伙通过互联网上的海量数据,利用搜索引擎和密码破译等手段挖掘出人们的私人信息和社交关系,以此实施盗窃、诈骗、敲诈勒索、拐卖儿童等犯罪行为。

除了可能被犯罪分子偷窥外,政府也可能正在利用大数据监视我们,黑客也可能侵入到政府的服务器查看所监控到的信息。如果没有合理的控制和防范措施,人们的隐私和行为模式很可能被政府监控人员或网络黑客所散布。这正是“棱镜”项目被泄漏之后,美国国内和国际社会反对声较大的一个重要原因。如果个人网络信息保护问题得不到很好的解决,未来因大数据和数据挖掘引发的社会矛盾将会越来越多,且会越来越激烈。

栏目主持人:刘雨濛 lymjcfy@163.com

猜你喜欢
安全局犯罪分子数据挖掘
探讨人工智能与数据挖掘发展趋势
欧洲食品安全局认为毒死蜱不可能安全地使用
拜访朋友
与谁接头?
关于流窜犯罪案件的分析及侦查措施的运用
欧盟食品安全局:三氯蔗糖无致癌风险
基于并行计算的大数据挖掘在电网中的应用
论DNA技术在森林刑事案件中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究