孙晓飞*,潘文文,袁 伟,王 霞,张 伟
(枣庄学院 信息科学与工程学院,山东 枣庄 277160)
随着科技的发展,犯罪人员的反侦查能力越来越高,公检法系统的侦查方式面临新的挑战。目前常采用一些计算机辅助侦查软件来协助破案,话单分析就是其中一种重要的侦查工具。但此类软件在分析高价值目标时大多基于简单的数据统计,影响了判断的准确性和速度。
灰色预测作为一种对含有不确定因素的系统进行预测的方法越来越受到重视[1-3]。近年来,在灰色模型的建立方面,面向区间灰数序列预测模型的研究较多。这些研究主要集中在灰数序列的表达[4]、灰数几何特性[5]以及合成灰数灰度[6]等方面,进而建立预测模型。曾波[7]提出了基于核和灰度的区间灰数预测模型。本文将灰色关联度法和灰色预测模型用于判断嫌疑人异动时间点的自动判断,以取代人工分析数据。在选定关键联系人后,就可以对嫌疑人与关键联系人的通信次数进行监控,通过建立灰色预测模型,预测出每日(或某段时间间隔)的通信次数,与实际通信次数比较,若差值大于某个阈值,则认为嫌疑人有异动。
分析关键联系人是刑案侦查中关键一环,使用灰色关联度法可以获得优于以往判断方法的精确度。采用刑侦部门的多张话单构建数据库(其中包含约500名联系人的信息)。从中提取某一时间段内嫌疑人与若干联系人的通话、短信详单,包含通话、短信时间、次数、费用、通话经纬度位置等详细信息。首先通过程序对数据进行简单处理,获取通话次数、短信次数、特殊时间段(如21:00以后)通话次数,将这些数据作为原始数据。然后从中作第一次筛选,将联系特别少的联系人剔除,选取10名联系人进行分析。提取对分析结果有用的通话次数、短信次数、通话时长、特定时间段通话4个关键因素进行实验,实际操作中也可以根据需要增减影响因素的个数。首先对数据进行标准0-1变换。i为联系人的编号,i=1,2,…,10;j为 4 个关键因素,j=0,1,2,3;mij为第i个联系人第j个因素,该因素在标准化后为nij,则标准化公式为:
其中:mj,min为第 j个因素的最小值;mj,max为第 j个因素的最大值。标准化后的数据如表1所示,其中的通话次数、短信次数、特殊时间段通话次数参数值都是0-1变换后的值,例如联系号码1586***1899的通话次数最多,经0-1变换后的值为1。数据进行0-1变换是为了屏蔽各种参数值之间的巨大差异,使预测分析更清晰。而各种参数之间可以通过加权来获得对最终结果影响的比重。加权值的选择可以根据经验反复试验后选取,不影响本实验算法的选择。本实验假定权值已经固定,且各个参数权值相同。
计算灰色关联系数公式为:
其中:ξ(ik)为关联系数;│x0(k)-xi(k)│为x0数列与xi数列在k点的绝对差值;ρ∈[0,1]为分辨系数,在此取0.5,通常分辨系数越大,分辨率越大,反之越小[7]。
表1 联系人各因素的关联系数和关联度
对关联度分析结果进行评价,关联度越大,则联系人的关注价值越高。按关联分析原则,关联度大的联系人数列与标准目标数列最为接近,即号码1337***1351与理想目标最为接近,侦查价值最高,其次为1586***1899,而号码1386***7128的侦查价值最低。
预测方法偏重算法的预测能力,而数据挖掘更重视算法的可解释性。预测能力要求做到在训练集合上训练好的算法在验证集合上面误差、误分类率要尽可能低。也就是说,模型给出的预测要尽可能地接近实际结果。而数据挖掘的可解释性更关心输入的p维变量之间的联系,或者算法产生的预测是哪几个变量起了主要作用。对于实际应用问题到底是采用预测还是数据挖掘,一个重要因素是看有没有能力改变数据来源,或者重新设计输入数据。而针对嫌疑人话单分析来说,数据源是不可改变的,在既定的条件下设计算法,需要准确预测出结果,因此选用预测来进行算法设计[1],分析嫌疑人话单中的异动,判断出嫌疑人准备潜逃等动向。
话单“消失点”是指嫌疑人打破长期来的通信常态,大幅减少通信频率或减少与某些关键联系人的通信频率的时间点。消失点往往是嫌疑人有所觉察甚至准备潜逃的关键点。通过对嫌疑人与关键联系人的每日通信次数建立灰色预测模型,预测出下一天的通信次数,将预测次数与实际发生次数对比,若差值大于某个阈值,则认为嫌疑人极有可能有所觉察。
对嫌疑人与关键联系人通信次数建立灰色预测模型的步骤为:
假设原始数列为 x(0)=(x(0)(1),x(0)(2),…,x(0)(n)),计算数列的级比为 λ(i)=x(0)(i-1)/(x(0)(i)),i=2,3,…,n。若所有的级比都在区间中,则数据x(0)列可以建立 GM(1,1)模型。否则,对数据做适当的变换处理,如y(0)(i)=x(0)(i)+c,i=1,2,…,n。为数据列建立 GM(1,1)模型x(0)(i)+az(1)(i)=b,用回归分析求得a,b的估计值,于是相应的微分方程为其中:a为发展灰数;b为内生控制灰数。
选定与某嫌疑人有关联的关键嫌疑人10名,通过对比嫌疑人与关键联系人通信次数的预测值和实际值,若差值>阈值T=x(1)(k)/4则定为消失点,实验结果如表2所示。
分析发现:此嫌疑人与主要联系人在被监控的第44天,与多位主要联系人的通信次数低于预期阈值,嫌疑人有异动的可能性非常高。通过与实际情况的比对发现,分析情况完全符合当时实际情况。
表2 某嫌疑人与关键联系人通信消失点的检测结果
应用灰色关联度法和预测法得出的结论与专业刑侦人员的判断基本一致。从500多名联系人中经过筛选,最终判断关联度最大的前几位号码为关键联系人号码,这一结论是在综合分析几个关键影响因素的基础上得出的,还可以根据实际适当加权,从而得出更科学、客观的分析结果。
在确定关键人后,通过对嫌疑人与关键联系人通信次数建立灰色预测模型,可以准确判断通信“消失点”,我们通过实验证明了这一点。相对于均值法等普通估计方法,采用灰色预测获得的通话次数更接近于真实值。这是由于联系人之间的通话规律往往有阶段性,采用灰色预测方法可以反映这种变化趋势,而均值法不能做到这一点。
本研究是建立在将通话次数、短信次数、特殊时间段等影响因子的权值固定的情况下进行的,而权值的大小需要经过统计获取。这个统计是对大量用户统计的结果,而每一名嫌疑人有不同的通信习惯,今后的研究重点将是每名嫌疑人的通信习惯,从而动态确定影响因子的权值,取得更高的预测准确度。
[1]郑志勇,张光华.基于GM(1,1)模型的沉降变形分析及预报[J].地矿测绘,2012,28(4):98-112.
[2]欧阳炼.GM(1,1)-Logistic路基沉降组合预测模型研究与应用[J].铁道科学与工程学报,2010,7(4):73-76.
[3]弓成林,郭爱民,汪小伟,等.灰色关联度和层次分析法在葡萄品质评价上的应用[J].西南农业学报,2002,15(1):79-82.
[4]邓聚龙.灰理论基础[M].武汉:华中科技大学出版社,2002:1-496.
[5]曾波,刘思峰.一种基于区间灰数几何特征的灰数预测模型[J].系统工程学报,2011,26(2):122-126.
[6]王大鹏,汪秉文,李睿凡.考虑合成灰数灰度性质的改进区间灰数预测模型[J].系统工程与电子技术,2013,35(5):1013-1017.
[7]曾波.基于核和灰度的区间灰数预测模型[J].系统工程与电子技术,2011,4(33):821-824.