大数据环境下数据挖掘在电子取证中的应用

2019-01-08 03:16李俊磊
电脑知识与技术 2019年33期
关键词:数据挖掘大数据

李俊磊

摘要:在大数据时代,如何从容量大、虚拟化存储的大数据中获取电子证据是电子取证急需解决的大难题。该文结合数据挖掘的优势,将其处于大数据环境下在电子取证中的应用进行了分析。

关键词:大数据;数据挖掘;电子取证

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2019)33-0001-02

大数据时代的网络背景下,数据呈现出5V特点,即数据量大(volume)、形式多元化(Variety)、时效快(Velocity)、真实性高(Veracity)和价值大(value)。网络犯罪呈现样式多元化、智能化、网络化,案件侦破困难重重,传统单一的电子取证已无法满足当前势态的发展。將数据挖掘技术应用到电子取证中,不但能够快速获取网络犯罪行为的原始数据进行分析并挖掘出有价值的信息,同时也可以获得可靠的犯罪证据,呈现犯罪嫌疑人的犯罪事实。有效地提高电子取证的效率,加快了犯罪案件的侦破,打击网络犯罪活动,维护社会安全稳定。

1大数据时代下的犯罪行为

随着信息技术的发展,全球的电子信息数量成指数递增,互联网上每天都有大量的视频、日志、图片、文件多样化的信息产生,海量的数据为人们带来便利和财富的同时,也让让犯罪分子趁机而人,一系列互联网犯罪事件在我国逐年涌现,从山东临沂准大学生徐玉玉被电信诈骗郁结于心离世,到广州“1101-黑客”银行卡盗窃案、江苏徐州“神马”网络盗窃案涉案金额2000余万元等这一宗宗触目惊心,在公安部开展的“净网2018”专项行动踪,破获刑事案件22000余起,抓获嫌疑人33000余名,网络犯罪行为不断蔓延,给社会造成了极大的损失和危害。

在大数据时代的新形势下,互联网的安全性面临巨大挑战。网名的个人隐私信息在不知情的情况下被收集造成信息泄露,容易诱发不法分子窃取个人信息从事电信诈骗、盗取商业秘密和个人财产等犯罪行为。同时电商时代,人们习惯通过电商平台浏览和购买商品和其他网络交易,在用户安全意识不高的情况下,容易进入不法分子设计的陷阱,造成虚拟财产的流失等现象。大数据时代你网络犯罪日益增长,不仅扰乱了人们正常工作和生活、危害了人们的生命和财产安全,同时也破坏了社会的稳定。

大数据环境下的犯罪类型复杂多样化:

1)通过非法手段,针对网络漏洞对网络进行技术入侵,侵入网络后,主要以偷窥、窃取、更改或删除计算机信息为目的的习巳罪行为。

2)通过信息交换和软件的传递过程,将破坏性病毒附带在信息中进行传播、在部分免费辅助软件中附带木马和后门等攻击程序。

3)利用公用信息网络侵吞公共财物,以网络为传播媒体在网上传播反动言语或实施诈骗和教唆犯罪。

4)利用现代网络实施色情影视资料、淫秽物品的传播犯罪。

2大数据环境下电子证据面临的挑战

电子取证就是执法人员按照符合法律法规的方式利用技术手段进行收集、识别、提取、保存和分析电子数据的执法行为。电子取证的过程可分为5步:保护现场、现场收集初始电子证据、固定并验证电子证据、电子证据分析、归档以及最终呈堂。电子取证的对象包括电子邮件、聊天记录、视频、音频等一切能够有助于办案的电子数据。

大数据环境下,数据庞大、来源不同、结构不同、形式不同,如何高效地搜集和整理电子证据是一个极具挑战性的问题。大数据具有以下特征:

1)数据量巨大:取证分析需要大量的计算和存储资源,传统取证工具难以在可接受范围内完成取证分析;

2)数据类型复杂:由于大量结构化、非结构化的异构数据并存,传统取证工具的数据处理能力难以适应;特别要求在秒级时间范围内进行运算处理,并得出对应的结果。

3)数据价值密度低:需要从海量混杂数据中发掘出少部分真正有效的线索证据;在数亿的网民中,不法分子只是沧海一粟,在海量的数据中仅有一小部分是不法分子进行不法行为所遗留的信息,大多数是分散的、不集中的。特别大部分不法分子具有反侦查能力,对上网痕迹进行清除、存储资源给予破坏等,需要通过技术手段找出相关联的信息,电子证据在数据中所占密度极低。

4)数据存储空间时间跨度大:由于不法分子利用网络环境实施犯罪行为,在大数据时代,借助的网络平台繁多,存储地点跨区域性较大,方式多样化,数据的搜集难度大。目前的犯罪逐渐将传统犯罪手法和互联网技术进行高度融合,这种以虚拟空间为犯罪发生地的犯罪行为,犯罪人员的虚拟化、空间虚拟化、时间的虚拟化等,使得案件侦破难度大。

正是因为大数据环境的复杂性,在网络犯罪案件的侦查中困难重重,不容易取得电子证据,因此,急需能够应对大数据的电子取证技术来对大数据中的犯罪线索和证据进行取证和分析。

3简析数据挖掘技术

海量的数据分析中常用的技术是数据挖掘技术,在海量的、不规则的、复杂多样的数据中挖掘出潜在有价值的信息。数据挖掘的对象是多样性的,可以包括关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据、时态数据库、异质数据库和WEB数据库等多中信息存储格式,数据挖掘的流程包括:定义问题(数据采集)、数据准备傲据清洗、数据处理)、数据挖掘、结果分析。其中数据挖掘阶段可以使用的技术有关联分析、聚类分析、分类、预测、时序模式、偏差分析等方法。通过数据挖掘可以做到自动预测趋势和行为、个体之间的关联分析、异常孤立点的分析等。

关联分析就是找出两个或两个以上变量的取值之间存在的规律,关联可分为简单关联、时序关联和因果关联。通过调整支持度和可信度两个阀值来度量关联规则的相关性,使得挖掘结果符合需求。

聚类分析是把数据按照相似性归纳成若干个类别,同一类中的数据间是相似的,不同类间的数据是相异的。在没有任何模式和先验知识的参考下进行分类。聚类分析的目标是在相似的基础上收集数据来分类。

分类就是利用训练数据集按照分类算法得到分类规则,利用规则建立分类模型,并通过该模型对未来数据的种类和特征进行预测。

4数据挖掘技术在大数据环境下电子取证中的应用

数据挖掘能从海量数据中挖掘出潜在的有价值的信息,所以将数据挖掘技术应用到大数据环境下的电子取证是非常有意义的。电子取证工作的关键问题之一是对取证获得的海量数据进行分析,从中审查判断出与案件相关的、反映案件客观事实的电子证据。

将数据挖掘技术融合到电子取证分析的应用框架结构模型如图1所示:

在电子取证中的数据挖掘的流程跟其数据挖掘本身流程类似,只不过多了对法律法规的匹配和建立犯罪信息数据库两部分。在原始数据获取时需要采用一定的技术从大数据中采集。在数据挖掘阶段采用不同的技术提取出有关的行为特征和规则,通过对数据的挖掘,查找出有关联的数据,并对数据进行关联性分析、分类分析、聚类分析、时序分析和异常分析。能够呈现犯罪事实,同时也能预防犯罪行为的发生,做到打击和预防犯罪。

在网络犯罪的电子取证中,数据挖掘技术常用的有:关联分析、演变分析、分类分析等。关联分析用于采取罪犯的犯罪信息,通过利用Apriori算法、FP-Growth算法等关联规则算法对数据处理后的特征进行关联分析,挖掘出罪犯的相关有用信息,不同犯罪形式之间的联系,如罪犯的行为特征、犯罪时间、犯罪的心理情况和犯罪动机等;通过分类分析建立模型,对异常数据进行分类预测,利用当前的大数据中的犯罪数据,进行训练建立犯罪行为模型,然后对数据进行监测和对比,有利于对案情的预测,能够发现异常行为,尽快抓获犯罪嫌疑人,减少犯罪事件发生。另外在通过数据挖掘在电子取证应用的模型侦破的案件,可以输入到犯罪信息系统中,扩展犯罪信息数据库的数量,建立计算机犯罪信息知识库。不断完善和评估该取证系统的机制,使得准确性和高效性越来越好,做到电子证据的可靠性。

5结束语

在信息成指数增长的时代,不法犯罪分子越来越凸显,技术手段越来越多元化,并且反侦查能力也越来越强,在大数据环境下,应该数据挖掘技术对海量数据进行分析挖掘出犯罪线索,促进案件侦破和犯罪预防,保障人民群众的生命财产安全,为平安中国增添色彩。

猜你喜欢
数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
大数据环境下基于移动客户端的传统媒体转型思路
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究