□薛建周
在“大数据”的时代,大量的人、设备和传感器通过数字网络连接起来,每天都有从它们的交互中生成的大量数据。对大数据的有效处理和分析可以揭示宝贵的知识,使人们能够及时地处理新出现的问题。
人们很少能找到现有文献中所讨论的大数据分析模型和犯罪取证方法。本文提出了一种利用异构大数据资源进行犯罪模式检测的新的大数据分析框架。该框架可以揭示犯罪网络的固有结构特性,这对于犯罪调查和犯罪网络运行策略的制定都是必不可少的。本文所提出的系统所产生的结构分析能力,可以显著地提高网络分析任务的效率和准确性。该框架由两种重要的分析方法组成,即结构分析和网络映射。基于所提出的框架,开发了一个自动犯罪检测器(ACD)原型系统,该系统结合了几种大数据分析方法。实证评价表明,该框架对于犯罪网络发现是有效的。从历史上看,寻找预防犯罪活动的解决办法是刑事司法和执法专家的主要任务。在大数据时代,大量的人、罪犯、设备和感应器通过数字网络和交叉播放在这些信息中聚集在一起,这些信息为执法人员和侦探提供了解决犯罪的手段。在这项研究中,将在计算机科学、社会科学和刑事司法之间采取跨学科的方法,发展一种大数据范式,帮助更容易、更快地解决犯罪问题。恐怖主义活动分为两大类。ONC是涉及单个嫌疑人的个人犯罪,另一种是涉及一群嫌疑人的有组织犯罪(例如武装抢劫、与帮派有关的事件)。自2001年9月11日双塔袭击以来,针对有组织犯罪的张力网络分析一直受到学者们的广泛关注,以防止未来的攻击。组织犯罪,如贩毒、组织犯罪、欺诈和持械抢劫,往往需要共谋和连锁行动。警察部门和侦探机构早就认识到犯罪网络模式对犯罪调查的重要性。清楚地了解网络结构、团体行动和个人角色,可以帮助警察部门和侦探机构采取适当措施防止犯罪活动。目前,大多数法律信息和情报机构都会遇到来自不同大数据资源的大量数据,这些数据必须被处理并转化为有用的信息。虽然执法机构越来越多地获取数据和数据挖掘,以支持其犯罪分析能力,但它们仍然缺乏获得大数据机遇的工具和技术支持。一般来说,大数据的特点是“3V”——容量、Vclocity和多样性[1]。
V表示从不同资源生成的数据量。速度表示比现有数据处理工具更快的数据生成速度。多样性与不同格式的数据相关,如结构化、半结构化和非结构化。最近,在大数据中加入了BCCN,以确保数据的可信度和准确性。由于伪造数据会提取虚构的犯罪模式,从而误导执法机构,因此,准确性是一个重要的维度。因此,在分析过程的卡莉阶段,数据的准确性应该受到质疑[2]。
基于大数据的应用,从不同的研究工作中提出了一个体系结构的概念。为了描述隐私分析,在(Lu,R.et.al.)中提出了一种大数据的体系结构。本文将描述犯罪数据获取中的大数据分析的一般架构。大数据的一般结构,主要由三个重要阶段组成:第一阶段是通过使用正确的元数据和进程与数据收集、获取和过滤相连接的,在这一阶段,来自不同来源的数据被聚合和转换,以补充数据,并且信息值允许组织分析以获得比较的收益。第二阶段涉及应用不同的分析和预测模型来寻找大规模数据集之间的模式和关系。根据组织的需求,大数据处理和建模的智能水平是不同的。这一阶段的重点是当前和未来,而不是传统的历史相关性,以抓住大的数据挑战。第三阶段主要组织和映射数据到所需的模型,同时解释当时发现的信息的含义。虽然结构化数据集很自然地适应了关系数据集,但半结构化和非结构化数据集却不是这样。为了适应,非结构化数据集有大量的应用程序集中于提供对这些数据源的访问viaNoSQL[3]。
(一)刑事数据领域的数据分析。刑事数据挖掘的主要思想分为关联和顺序规则化、分类和预测以及数据压缩和聚类技术。关联规则挖掘技术被广泛应用于从用户交互记录中检测入侵检测。此外,调查人员可以将这一方法应用于入侵者的配置文件,从而设想未来的网络攻击。与关联规则挖掘一样,序贯规则挖掘主要发现在某些预定义事务的不同时间上发生SCQuencc事件的频率,这种方法可以识别时间标记数据之间的入侵模式。同样,分类方法发现,不同犯罪实体之间的相似特征,并将它们组织成预先定义的类。通常用于预测犯罪趋势,分类和预测技术减少了捕捉犯罪实体的时间。数据提取从异构数据访问标识特定模式。它已被用于从警方叙述的非结构化记录中自动识别个人地址、特征、地点。此外,还采用一些统计基础方法将犯罪记录中的罪犯、嫌疑人和组织等不同对象联系起来。金融犯罪执法网络人工智能系统使用聚类方法识别类似于侦查洗钱和其他金融犯罪的交易[4]。
(二)现有犯罪网络分析工具。将犯罪网络分析工具分为三大类:第一代:手工方法。第一代的代表是“安娜帕帕图”。在这种方法中,分析人员(A)构造关联矩阵;(B)检查数据文件以识别罪犯之间的联系;(C)绘制基于关联矩阵的链接图,以便于可视化。第二代:基于图形的应用。第二代工具由COPLINK开发,可以自动生成图形。网络划分是分析犯罪网络的另一种重要方法,它采用了矩阵置换和更严格的聚类两种方法。矩阵排列主要是矩阵的RC-排列行和列,使得具有相似属性的成员组织在同一组中。由于矩阵置换中的NP难问题,许多研究者特别关注在SNA研究中使用层次聚类方法。位置和角色是社会网络分析中的重要概念,它们在本质上是联系在一起的。位置是一个网络节点的集合,这些节点在结构上是可替换的,在社交活动、地位和与其他节点的链接方面也是相似的。网络中相同位置的两个节点在位置分析中不需要直接连接,而在关系分析中是必要的[5]。
为了便于犯罪模式的检测,提出一种结合两种分析方法的框架:一是结构分析;二是网络映射。在此框架下,开发了一个原型系统——自动犯罪检测系统,它可以应用于大数据环境中。框架可以被归类为第三代网络分析工具。并且,还可以利用该系统提供的一些数据分析过程,找出是否可以有效地发现犯罪模式检测,并提出了建议的框架。WC在框架中使用了三种最流行的中心功能。为了识别犯罪网络中的中心成员,犯罪网络中的中心性、中心性和中间中心性被广泛使用。一个节点的度中心度被度量为该节点与所有其他节点的连接数。如果n是一个犯罪网络中的节点总数,则节点u的度中心度可以用C(U)来度量,可以通过除以Byn-1来标准化。CD有六个主要Memus(文件、编辑、提取、集群、结构、地图和帮助)。前两个菜单-文件和编辑,用于类似的目的,如典型的应用系统。一般情况下,文件和编辑菜单包括打开、保存、编辑、打印、剪切、复制、粘贴和S0的功能。结构分析和网络映射模块给出了中心性度量和依赖矩阵,用于提供清晰的图像来识别一个粒子区域节点对其他节点的依赖程度,以及其他节点对任何特定节点的依赖程度。这一类型的结构分析和网络映射有助于犯罪关联和模式可视化[6]。
ACD系统计算的中心度度量和依赖矩阵。在中心度度量中,度和中间度度量是非常简单的,当节点与其他节点具有较高的连接度时,度和中间度实际上度量的是相依性。如果更多的节点依赖于某个特定节点与其他节点通信,则该节点具有更高的之间性[7]。
一个节点与网络中其他节点的距离是由该节点之间的总距离和acll中的所有其他节点之间的距离来衡量的。中心节点(单元lcader)具有较高的贴近度值,因为它们与单元中所有其他节点的总距离最小。
本文利用大数据的新机遇,特别是重视大数据犯罪模式的准确提取,提出了一种大数据分析的总体体系结构,回顾了现有的犯罪网络分析工具在数据挖掘中的应用,还提出了一个从社会媒体数据、报纸报道、警察报告等大规模数据中提供清晰的犯罪网络模式的框架,以帮助法律工作者和智能代理机构。在此基础上,对系统进行了全面的评价,最后总结了本文的研究内容。