杜 威, 杨奕琦
(1.广东警官学院计算机系,广东广州 510232;2.珠三角公共安全研究所,广东广州 510232)
当前,随着计算机技术、网络技术为核心的信息技术的飞速发展,社会各个行业在充分利用计算机网络的同时也面临着极大的信息安全风险,针对计算机网络的高科技犯罪形式越来越复杂,如商业欺诈、网络舆情、网络贩毒等。与传统的社会犯罪行为特点不同,网络犯罪是一种典型的高技术犯罪行为,网络犯罪证据都以二进制的数字数据形式通过网络中的计算机或相关网络设备进行传输和存储。而且,这些数字数据形式的网络犯罪证据通常混杂在海量的正常数据之中,难以提取且易于修改、销毁。
显然,这些海量的、变化的电子证据仅依靠技术人员的经验去分析、获取有用的证据是不现实的。如何从网络上分散的网络设备中收集到的海量的并且是不断更新的证据源中抽取出真实的电子证据,是取证技术专家所要解决的问题。文献[1-2]分别对计算机取证分析模型进行研究,提出了一些改进的技术及方法。本文提出的基于数据挖掘技术的网络取证模型将数据挖掘技术应用于网络取证的证据分析中,充分利用数据挖掘技术的多种挖掘模式,可以准确、高效地在海量数据中挖掘出与犯罪行为有关的电子证据。
网络电子证据是指计算机网络硬件设备和相关软件在运行过程中产生的以电磁光信号形式表现出来的,能够证明案件真实情况的数据或信息。目前在司法实践中,网络电子证据主要有E-mail、BBS信息、网页信息、链接信息、聊天记录、用户电子签名、系统文件及日志信息等[3-4]。
由于网络电子证据是存在于网络中的计算机或相关网络设备之中二进制的数字数据,其表现形式是电磁光信号或电子脉冲信号。因此,在网络电子取证的过程中一方面要注重电子证据的特点,另一方面也要考虑到嫌疑网络的结构及软硬件配置特点,必须采用专门的取证工具和高效的取证技术按规范的方法进行提取和分析,使之能具备证明案件事实的证据能力。
在进行网络电子证据取证过程中需要着重注意以下几个方面的特点[5]:
(1)电子证据具有多样的表示形式,如声音、文字、图形、图像等,同时还具有隐蔽性、电子性、准确性、分散性、脆弱性及海量性等特点。
(2)在取证的过程中要充分了解嫌疑网络的系统结构及软硬件相关配置信息,包括网络拓扑结构、服务器、工作站、网关、交换机、路由器等硬件信息及网络操作系统、相关的应用软件的配置信息,为取证工作的顺利进行打下基础。
(3)在网络电子取证的过程中不仅仅要考虑本网络中计算机上的数据,也要着重注意网络设备中正在流转或存储的数据,这也是网络电子证据的一个重要特点。
(4)网络电子证据取证的过程具有动态和分布式的特点,这是因为网络电子证据可能是在网络中分布在不同地理位置的网络设备中进行动态地传输。因此,在取证的过程中有时需要在多个不同地方部署取证代理进行联动的动态取证,从而保证电子证据的连续性和完整性。
(5)在网络自动取证系统中,取证技术可以与网络监控技术充分结合起来,例如入侵检测技术、蜜罐及蜜网技术等。通过网络监控技术的发现、检测非法入侵行为激活取证系统,从而实现网络自动取证。
目前常用的取证模型有基本过程的取证模型、增强型数字过程取证模型、基于目标的层次取证模型及多维计算机取证模型等,这些模型分别针对不同的取证场合对现场保护、证据收集、分析及调查做了明确的规范,简化了工作流程,提高取证效率[6]。但随着网络设备的存储容量越来越大,传输速度越来越快,原始的取证模型就会有一定的局限性。对于在网络设备中存储和传输的大量数据,我们可以根据案件特点和法律规定运用数据挖掘技术在大量的数据中以合法的手段高效、及时、准确地获取与特定的犯罪有关的证据,分析出犯罪嫌疑人与犯罪事实之间的关系,实现取证的高效率和智能化。基于数据挖掘技术的网络取证模型如图1所示。
图1 基于数据挖掘技术的网络取证系统模型
模型主要由数据抽取、数据预处理、证据挖掘、证据鉴定、证据保全及证据提交等几个模块构成。
(1)数据抽取模块:该模块完成数据收集功能,主要根据事先定义的数据抽取规则获取来自网络的数据,包括网络数据包、防火墙及入侵检测系统日志、其他网络工具产生的日志等,形成抽取数据的数据仓库,并同时建立嫌疑数据仓库的备份库。抽取规则实际上就是将犯罪证据和相应的法律条文、证据规则进行形式化描述,并能被数据挖掘能技术分析和应用的数据集。
(2)数据预处理模块:数据预处理模块是整个取证数据分析的基础,包括数据清洗、数据变换及数据集成等方式,对数据仓库中的犯罪嫌疑数据按照分箱平滑噪声、识别或除去异常值以及解决不一致问题等方式进行数据清洗,并采用数据变换和基于熵的离散化数据压缩方法对清洗的数据进行数据预处理,从而获得高质量的分析数据,为后续的证据挖掘提供真实、可靠的分析数据源[7]。
(3)证据挖掘模块:本模块通过采用相应的数据挖掘算法对所获得的高质量分析数据进行建模分析,在算法模型分析的过程中可随时对模型结果进行评价,并对评价差的算法模型各种参数及时作出调整,以保证证据挖掘的效果。可用于证据分析的主要挖掘算法有关联分析、决策树分析、聚类分析及偏差分析等。
关联分析算法(Apriori算法)是一种最有影响的挖掘布尔关联规则频繁项集的算法,可以在海量网络数据中进行关联分析,包括对入侵时间、IP地址、文件属性、日志、犯罪特点等的分析,并能找出同一事件不同证据之间的关联性,预测及跟踪挖掘潜在的犯罪行为证据。决策树分析算法(ID3算法)就是找出一个类别的概念描述,它代表了这类数据的整体信息,并根据类别差异来构造分类模型。在网络取证过程中可以利用ID3算法获得犯罪证据与犯罪事实的分类模型,从而可以根据证据类型对犯罪行为进行推断。聚类分析技术(clustering)是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。应用聚类分析技术,将多种不同的证据根据其相似性归类,以便进一步的分类、预测和相关性分析。偏差分析(deviation)的主要功能是利用观察结果与参照之间差别的方法发现数据所存在的异常情况,在网络取证中常常要使用这种方法识别异常数据。
(4)证据鉴定模块:证据鉴定模块是对证据挖掘模块挖掘出来的证据进行鉴定,包括证据属性、证据来源、证据关联等,从而发现电子证据与犯罪事实之间的联系,更加有效地追踪、定位犯罪。
(5)证据保全模块:证据保全模块将证据分析、鉴定出来的证据使用MD5或SHA-1(哈希函数)进行加密、签名保全,确保证据的真实性和可靠性,并将证据传送到证据库保存。
(6)证据提交模块:本模块将犯罪证据生成完整的报告,依法律程序提交法庭。
根据网络取证系统模型,我们构建了一个网络取证系统,如图2所示。
图2 基于数据挖掘技术的网络取证系统
图2所示网络取证系统的主要特点就是在用户网络的内网和外网之间以及内网的用户终端和服务器之间都架设了数据源的抽取点,系统按照预设好的抽取规则自动监控抽取点通过的数据包。这样一旦外网用户非法侵入内网或者内网用户非正常使用服务器,网络取证系统就会按照取证系统模型中的各个功能模块对捕获的数据包进行分析、鉴定、提交及保全等工作,并且可以及时报警或采取相应的技术防范措施。
在网络中应用数据挖掘技术进行动态取证分析正是有效地结合数据挖掘技术和网络技术的特点。网络上可以不间断地产生大量的数据包,而数据挖掘技术正是一种高效、智能的数据分析技术,可以根据不同的挖掘技术从包含大量的、无序的、随机的、模糊的实际数据中挖掘出尽可能多的有规律的隐含知识,从而为决策者做出正确的分析判断提供基础。在网络数据取证系统中应用数据挖掘技术,能够更加高效地对海量的电子证据进行智能化处理,从中提取出犯罪行为的特征模式,发现各种犯罪行为之间的关联规则,从而达到取证分析的目的,这也正是其他取证方法所不具备的优点。当然,对于模型中各种挖掘技术的技术参数需要在相应网络环境下进行进一步的调整和量化,这是使得网络取证系统能够保持鲁棒性的关键因素。
本文全面系统地构建了一个基于数据挖掘技术的网络取证系统,并对系统中取证模型的各个部分提出了具体的技术实现方法,有助于解决网络动态取证的实时、准确和智能化问题。网络电子取证技术是一个迅速发展的研究领域,由于网络证据的特点我们可以确信的是数据挖掘技术将在网络取证技术中发挥越来越大的作用,在网络信息安全和网络犯罪调查方面有着良好的应用前景。因此,本模型的研究将有助于网络取证系统相关技术的发展,并将成为打击网络犯罪行为的强有力武器。
[1] 刘源泉.基于数据挖掘的计算机取证分析系统设计[J].大众科技,2009(11):18 -19.
[2] 谭建伟,韩忠.计算机取证模型分析[J].网络安全,2008(2):71 -73.
[3] 李苹,陈立毅.刑事电子证据的收集与运用问题研究[J].贵州警官职业学院学报,2009(4):54 -60.
[4] 杨永川,李岩.电子证据取证技术的研究[J].中国人民公安大学学报:自然科学版,2005(43):66-69.
[5] 张俊,麦永浩,张天长.论黑客入侵的网络取证[J].警察技术,2006(4):21 -23.
[6] 胡亮,王文博,赵阔.计算机取证综述[J].吉林大学学报:信息科学版,2010(4):378 -384.
[7] 王燕.关联规则在计算机取证中的应用研究[J].计算机安全,2010(4):45 -47.