王 慧, 郭红涛
(中国人民公安大学,北京 100038)
国内对于网络犯罪的界定主要表现在刑法第285、286及287条,包含了对计算机信息系统的破坏以及利用计算机信息系统所实施的犯罪等[1],其对网络犯罪行为方式的描述与欧洲委员会《网络犯罪公约》非常接近。网络犯罪作为一新型犯罪形式,在早期主要体现为黑客入侵、破坏计算机信息系统、侵犯计算机资产等网络技术犯罪,但现在正迅速向传统犯罪领域渗透,以计算机网络为作案手段的犯罪形式层出不穷,涉网敲诈勒索、网络淫秽色情、跨国网络赌博和金融诈骗等案件的发案率逐年攀升。
与传统犯罪行为相比,网络犯罪呈现出案发时间空间交错复杂、案件实施手段隐蔽多、涉案嫌疑人非常规等突出特点,传统案件的侦破经验往往无法直接继承,其侦查主体、分析思路、侦破手段都具有新的特点。一般情况下,网络犯罪案件附属于刑事案件,案件侦破工作主要由网警与刑警相互配合进行,刑警在案件线索梳理、嫌疑人盘查定位等方面经验丰富,网警在网络技术侦查、电子证据勘查取证等方面占有优势,但国内各地区网警队伍建立时间相对较晚,且没有前期相似案件的侦查经验可继承,案件侦查串并经验常有所欠缺[2]。目前,随着公安信息化建设的深入,业务数据库对网络犯罪行为的数据记录更加规范,使得利用大数据分析手段对网络犯罪案件进行技术性经验继承成为可能。为实现网络犯罪行为的深层次分析,论文在建立约简决策表的基础上提出网络犯罪行为关联分析算法,该算法首先将原始数据按照兴趣点不同进行属性集的提取及规范化,形成决策表,并对决策表进行属性约简完成前期数据预处理工作,之后就新决策表结合公安业务实际需求使用频繁概念集上无冗余关联规则提取算法[3],最后对所生成的规则集结合领域专家知识进行解释评价,提出防控策略。
随着大数据技术的产业化发展,融合智能计算理论的大数据分析手段已经成为各行各业的关注热点,其核心目的是从数据中获得更深层次、更具有预测能力的知识。同样,在公安网络犯罪执法领域也需要大数据智能分析技术,且随着公安信息化建设进程的加速,原始数据智能分析条件已初步具备。
首先,网络犯罪案件信息已经全部录入业务系统,信息采集相对规范,通常在业务数据库中附属于刑事案件,从立案到侦破直至诉讼判决都完全按照基本案件的录入规范进行。就网络犯罪案件而言,其记录方式分别围绕涉案人基本信息、涉案物品基本信息、案件基本信息展开,并按其所触及法律与所定罪名在业务数据库中分类存储,记录格式多采取关系数据表形式,目前针对原始数据表的简单整合统计工作已实现,但深层次的数据总结预测基本无法实现。其次,对网络犯罪案件的描述相对细致,涉及描述属性往往上百个,针对案件特征的小范围数据碰撞比对工作已可进行,但比对过程仍需人工干预,海量数据智能比对无法实现。由此可见,现有网络犯罪业务数据从记录数量与质量上都已奠定了智能分析的基础,然而现有公安业务数据分析系统并不是典型大数据分析系统,不具备理解、推理、预测与决策能力,仍存在改善空间。如何让业务数据系统适应复杂多变的网络犯罪形势需求,如何在现有数据资源的基础上引入智能分析手段,如何灵活机动地从数据库中提取高置信度的规则集以梳理案件技术特征并指导决策,是当前网络犯罪行为智能分析的迫切要求。
针对当前业务数据库,可通过建立新型的概率和统计模型、增加后期数据预处理、数据动态整合、数据分析归纳等步骤完成数据智能处理并获取决策知识,关联分析是较常用的智能挖掘处理手段[4]。网络犯罪行为关联分析是从大量的网络违法犯罪记录中发现与犯罪程度或犯罪性质具有紧密联系的客观因素,确定引发犯罪的综合要素,进一步发现某类网络违法行为在案件性质、证据线索分布、案件实施步骤中的潜在规律,可从线索梳理、犯罪时空特征等角度指出犯罪行为的触发要素。根据挖掘到的规则可信度,可以辅助布防、监控、定位、预防路线的确立。
一般情况下,犯罪行为在案件库中已经依据犯案性质分类存储,记录信息以犯案行为为核心,关联涉案人员、受害人、受损物品等信息,并可以数据表形式导出,各类数据表之间通过案件编号关联。根据挖掘分析的目的不同,确定并导出分析对象,即案例分析的主题选择与案件类型选择,案件类型选择确定了需要载入的子数据库,案件主题选择确定了需要分析的属性范围,在此基础上形成决策表开始后续关联分析,分析流程如图1所示。
为避免产生遗漏现象,重组并导出的决策表往往包含上百个属性,属性的取值以字符型居多,表中记录数量依案件性质、案发时间段、案发地域的不同差距较大,为有效提高分析效率,属性约简常作为必要的前序预处理步骤,通过属性约简,删除不相关或不重要的属性,以有效缩减后续分析的数据规模。针对此类数据,可融合公安领域知识通过主题选择进行属性约简[5],初步明确决策表的分析目的,并在约简决策表上构造Hasse图数学模型完成关联挖掘。
图1 网络犯罪行为关联规则分析流程
相对商业领域的关联分析而言,公安领域更关注于导致某种情况发生的基本条件集,因此对后件最小的规则具有更高的兴趣度。充分考虑行业特点,在属性约简完成之后,按照常规算法生成频繁概念集并构造 Hasse图[3,6],在图中进行无冗余兴趣点关联规则提取。兴趣点关联规则的无冗余性是指当规则后件为单项集时,前件中包含尽可能少的属性,如在给定置信度约束下,若规则ABC⇒D成立,则前件{ABC}的超集所产生的后件为D的规则可都由ABC⇒D根据推理规则获得,是相对规则ABC⇒D的冗余项,可根据需要选择。
无冗余兴趣点规则的提取算法如下。
输入:频繁概念集的Hasse图[7](设Hasse图共有N个叶子结点);置信度阈值为mincof。
输出:无冗余兴趣点规则集IRS(Interested Rule Set)。
步骤1:所有 1频繁项结点 Ci〈sup({pi}),{pi}〉进入队列 Q1,i=1,2,…,N;
步骤2:IRS=Ø;
步骤3:若Q1为空,转向步骤7,否则执行步骤4;
步骤4:C〈sup(Y),Y〉=Outqueue(Q1);
步骤5:若child(C)=∧,转向步骤3,否则执行步骤6;
步骤 6:调用过程 Gen-IR(C〈sup(Y),Y〉),转向步骤3;
步骤7:输出IRS。
对于触及刑法的网络诈骗案件,公安部门将以诈骗罪提起诉讼,针对高发的网络诈骗案件运用上述算法进行分析,从案件库中载入相关诈骗案件526起进行关联规则的提取。
案例分析的主题选定为涉案人员基本特征与案情描述信息之间的关联关系,业务指标包括:
“案件基本信息”类属性:案件编号、案件性质、案发地域、案发时间、作案手段、作案人数、作案工具、涉案证据、取证地区。
“涉案人员信息”类属性:案件编号,性别、籍贯、居住区域、教育背景、职业经历、收入状况、家庭背景、有无违法犯罪经历、是否涉黑涉恶、是否团伙作案、是否流窜作案。
图2 网络诈骗案件挖掘模型
选取上述相关属性导出数据形成决策表,运用基于等价划分的蚁群优化算法进行属性约简[8-9],获得的约简属性集包含作案手段、是否团伙作案、作案工具、涉案证据、取证地区、性别、籍贯、教育背景等8个属性,在约简决策表上提取无冗余关联规则集,关联分析过程如图2所示。
选取支持度与置信度阈值Minsup=12.5%,Mincof=75%,通过对载入案例数据进行分析,获得规则集,根据公安领域知识筛除形如后件为性别等无实际意义的规则后,所获部分规则为:
规则1:IF教育背景=本科 AND籍贯=A省AND作案手段=网络钓鱼AND作案工具=虚假网站THEN是否团伙作案=是;
规则2:IF教育背景=本科AND籍贯=A省AND作案手段 =网络钓鱼 AND是否团伙 =是THEN取证地区=B省;
规则3:教育背景=本科AND作案手段=网络钓鱼AND作案工具=虚假网站AND是否团伙=是THEN涉案证据=QQ聊天记录。
提高支持度与置信度阈值(Minsup=40%,Mincof=80%)后所获规则集如图3所示,从中可以看出,虚假网站、团伙作案、网络钓鱼、A省、4个信息密切相关。
图3 网络诈骗行为关联规则
通过领域专家对所获规则进行评价,可获以下知识:以网络钓鱼为作案手段的诈骗案件,涉案人员一般为本科学历的A省籍人员,采用分工明确的团伙作案方式,涉案证据多为点击率高的购物虚假网页,如淘宝网店的网页,证据落地点多集中于B省一带。
涉网敲诈勒索往往是嫌疑人通过非法途径获得受害人不愿为第三人所知的隐私信息,以此为把柄通过网络途径向受害人实施的敲诈索财行为。提取XXX市刑事案例库中涉网敲诈勒索案件156例,案例分析的主题选定为涉案人员特征与涉案电子证据之间的关联关系,业务指标包括:
“案件基本信息”类属性:案件编号、案件性质、案发地域、案发时间、作案手段、作案人数、是否进行IP定位、是否进行邮件恢复;
“嫌疑人信息”类属性:案件编号、性别、籍贯、居住区域、教育背景、职业经历、收入状况、家庭背景、有无违法犯罪经历、是否与受害人相识、是否团伙作案、是否流窜作案;
“受害人信息”类属性:案件编号、性别、籍贯、居住区域、教育背景、职业经历;
“涉案电子证据”类属性:案件编号、计算机是否被植入木马、是否存在自动打包发送软件、是否存在自动抓屏软件等。
选取上述属性导出并形成决策表,以涉案金额作为决策属性,涉案金额分为普通、重大、巨大3个范围,属性约简后获得的约简集包含作案手段、嫌疑人性别、嫌疑人收入状况、是否与受害人相识、受害人教育背景、计算机是否被植入木马、计算机中是否存在自动打包发送软件、是否存在自动抓屏软件、是否进行IP定位、是否进行邮件恢复等10个属性。在约简决策表上构造频繁概念集Hasse图,并在Hasse上进行无冗余关联规则提取[10],获取的部分规则集。
提针对规则集中后件为涉案金额=“重大”的全部规则进行分析,可得出如下结论:与不雅照片相关的涉网敲诈勒索行为主要是犯罪嫌疑人通过电子邮件在受害人终端种植木马,直接窃取存储的影像信息或暗中打开摄像头直接获取影像信息,以此为借口向受害人讹诈;诈骗信息为商业秘密的网络诈骗行为,受害人终端往往存在自动抓屏软件,对此类案件的侦破一般可围绕受害人终端提取相关电子证据,再由IP重定位取得嫌疑人的IP地址,嫌疑人锁定抓捕一般通过常规盘查手段完成。
为对网络犯罪行为进行智能分析,结合典型网络犯罪案例库的数据特点建立关联规则分析模型,首先详细分析了公安业务数据库中网络犯罪案件的数据描述特点,并对加载案例库结合分析关注点以案件编号为索引提取相关属性导出数据,形成决策表。其次为提高关联规则挖掘效率,采用基于蚁群优化与等价划分的属性约简算法对决策表进行属性约简,将约简后的决策表进行数据转换并构造频繁概念集的Hasse图,然后围绕Hasse图进行无冗余兴趣点关联规则的提取。最后,以网络诈骗案件与涉网敲诈勒索案件分析为例,进行关联规则挖掘的应用实例验证,结果表明所形成关联规则集符合实际。
鉴于网络犯罪案件附属于刑事案件,录入规范基本一致,所提关联分析过程及分析方法对其他犯罪行为同样适用。
[1]中华人民共和国刑法[M].北京:中国法制出版社,2011.
[2]王慧,王京.属性约简的决策树分类算法对未成年人犯罪行为的分析[J].中国人民公安大学学报:自然科学版,2011(4):29-32.
[3]AGRAWAL R,IMIELINSKI T,SWAMI A.Mining association rules between sets of items in large databases[C]∥ACM SIGMOD Record.ACM,1993,22(2):207-216.
[4]毛国君,段丽娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007.
[5]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759 -766.
[6]胡可云,陆玉昌,石纯一.基于概念格的分类和关联规则的集成挖掘方法[J].软件学报,2000,11(11):1478-1484.
[7]GANTER B,WILLE R.Formal concept analysis:mathematical foundations[M].Springer Science& Business Media,2012.
[8]DORIGO M,BLUM C.Ant colony optimization theory:A survey[J].Theoretical Computer Science,2005,344(2):243-278.
[9]王慧,王京.等价划分与蚁群优化的属性约简改进策略[J].北京邮电大学学报,2011,34(6):55 -58.
[10]王慧,王京.FP-tree上频繁概念格的无冗余关联规则提取[J].计算机工程与应用,2012,48(15):12 -15,62.