陈芳琳 钟 婷
(广东警官学院,广东 广州 510232)
通讯消息包含嫌疑人本身高消息频次的亲属联络等社交联络“障眼”,如何在大量信息中高效拨开“障眼”找寻涉嫌犯罪的关联,增加衡量维度深入挖掘数据潜力并推广至侦查基层?另一层面,以往的数据挖掘多为复杂数学模型,算法研究等理论框架[1]未能与实际基层提取到的电子数据进行实战演练。本文从一线立案侦查获取到的涉疫走私嫌疑人手机电话通讯及微信通讯记录入手,除考虑消息频次外,构造基于通信频次与再次联络间隔时长的三维矩阵亲密度算法,为基层侦查提供可行分析路径。
涉嫌涉疫走私类型犯罪人员大多在“老乡”等人介绍下短期涉险,团伙作案概率较高。本文研究对象是涉疫走私的嫌疑人手机信息,旨在利用提取到的通讯记录来构造基于亲密度理论的通讯画像,为侦查提供帮助。基层部门通过设备提取到数据一般为json 格式(见图1),包含昵称、双方发送消息数及存储路径。
图1 嫌疑人通讯记录(json 格式)
本文使用json 格式提取关键信息技术[2],将通讯对象以及对应的消息频次(包含恢复数据)提取出来解析为html 格式(见图2),每条聊天记录的关键信息主要有时间戳、发送者昵称、本人昵称、聊天内容。
图2 嫌疑人通讯记录(html 格式)
如图1 中“(1021)”所示,嫌疑人(嫌疑人在手机取证过程中显示为Administrator,以下简称A)与各联络人都有往来的消息数,侦查人员一般根据该数字作为判断是否为团伙,并展开研究甚至追踪该人员,但消息频数的统计不足以衡量双方的关系深浅,需要更多维度作为变量进行数据挖掘。因此以涉疫走私嫌疑人手机通讯信息为例,本文主要利用时间戳展开研究。
社交媒体中来往回复速度一定程度上反映了双方的亲密程度。互动次数调查对回复消息的时间快慢程度进行亲密度考量[3],发现5min内回复关系为非常亲密,5~10min为亲密,1h 内为普通朋友,1h 以上可能是垃圾信息或者广告订阅等,亲密度较低。本研究利用这种亲密指数参考进行亲密度层级划分。
笔者利用提取到的时间戳信息统计双方有效回复的时间间隔,则暗含两个维度是否有往来对话(跳过单方面发送消息),以及对话间隔时间;而亲密度的另一个统计维度为时间序列,本文研究中用天数来划分。在数据量巨大且衡量指标较多(本情况为三维变量),框架算法研究者[4]提出需要用矩阵来挖掘关联关系,因此本文在理论模型上使用矩阵来记录亲密度Relationship Closeness(以下简称RC),矩阵算法公式如下:
该公式涉及的字母基本定义及备注如下:
(1)RC(A, ui)表示嫌疑人与聊天对象ui之间的亲密度,则每位对象u 共M 次聊天记录;以嫌疑人的最多通讯频次来设定M(次),若不满M(次),则在矩阵中设定为0。
(2)N 值(高频通讯人数),为进一步缩小算法运算时间,本文N 为取值为15 人。侦查部门还可根据实际情况设定消息数的阈值,如超过500 条信息的人数,从而确定出N 值。
(3)n 值:n=1 为回复时间间隔小于5min;n=2 为5 ~10min; n=3 为10 ~60min;n=4 为60min 以上。
根据上述四个层级划分亲密度,如果以A为中心,共M 次聊天记录,对其前N 位聊天对象的回复时间间隔进行四个层级频次统计,例如两次交流时间的间隔小于5min,则在第一个层级上的频数累加;若时间间隔在5~10min内,则在该段时间间隔频数累加,以此类推,如下矩阵所示:
利用上述矩阵模型,代入基层部门提取到的案件手机信息进行可视化应用,画出嫌疑人通讯画像。首先,通过提取json 记录的通讯消息数共36280 条通讯记录。再根据其消息数由高到低排序出15 人作为进一步研究对象(以下通讯对象皆为化名)。如图3 所示,中间是嫌疑人,连线中的数字是双方的消息频次。其中,消息数最高的联络人为“寂寞不哭”,达1021条消息。通讯画像从这位开始,再根据理论画出其通讯画像。
图3 嫌疑人A 与前15 位联络人画像
令RC(A,ui)中的ui = 寂寞不哭,矩阵映射至如表1 所示:
表1 嫌疑人A 的与寂寞不哭通讯频次统计矩阵
图4是双方通讯亲密度随时间变化的情况。利用折线图中的横轴为通讯频次,以天数为划分;纵轴为每天联系的总次数。不同的颜色代表对应亲密度层级;蓝色占比越多,回复间隔时间越短,亲密度关系越高。嫌疑人A 与化名为“寂寞不哭”的通讯从2021 年7 月8 日到次年3 月5 日,虽偶有联络频次降低的情况,但总体看联络较为频繁,该类联络人极可能属于亲属或长期业务来往关系。对于此类通讯对象,若业务上无涉及涉嫌犯罪行为暂可排除其嫌疑,提高侦查效率。
图4 RC(A,“寂寞不哭”)可视化画像
作为对照,令ui= YS*,双方消息频数达986 条,亲密度矩阵映射如表2 所示,将得到的数据进行可视化操作画出通讯画像,如图5所示。
表2 嫌疑人A 的与YS*通讯频次统计矩阵
图5 RC(A,“YS*”)可视化画像
虽然以“YS*”为代表的此类对象与以“寂寞不哭”为代表高消息频数联络人在消息数上相差无几,但经过RC 矩阵后数据呈现出明显不同。前者(如图5 最高往来频次达95 次)相较于低频的长期联系的后者(如图4 最高往来次数为35)在特定时间段来往极为频繁,在侦查阶段属于重点对象。
根据图4、图 5 的画像可看出,掌握特定涉嫌犯罪的事件时间后,YS*的研究意义要甚于消息频次更多的“寂寞不哭”,前者在亲密度高频联系(即回复时间小于5min)的占比83.8%不仅略高于后者的83.1%,且在2022 年1 月20 日达到联系高峰,消息多且联系极度频繁。经与实战侦查部门查证,该时间段与涉嫌走私犯罪行为实施时间重合关联,可为涉嫌犯罪动机的时间提供辅证。画像的目的在于将高往来人群(消息频次较高)加以区分,排查出真正与涉嫌犯罪有关的人员,同时提供涉嫌犯罪行为的时间、人员认定等侧面印证。
本文利用亲密度理论搭建通讯矩阵算法模型,为仅停留在“消息频数”的研究上新增了3 维度的评价变量,分别为双方是否互动、互动消息间隔以及联络时间序列上的变化。随后的可视化画像能够作为判断该人物与嫌疑人之间通讯亲密度关系的重要参考。该方法不需要额外购买用户画像等相关软件即可分析提取到json 或html 数据格式,为基层单位因预算问题,或因数据量巨大导致程序耗时过长等提供切实可行的通讯画像功能。
针对本文研究的矩阵式算法模型仍有发展的空间,例如微信通讯以及电话通讯亲密度RC的时间粒度应该再细化,使用电话联络,相隔60min 以上较为常见,微信联络时间跨度较长但回复间隔时间极短,有时候甚至1min 可以有8 ~12 个来回对话;其次,M 的计数方式还待完善,以天数划分会忽视午夜回复的聊天间隔时间。虽然在本次研究中跨午夜的情况不多,但仍可作为一个研究方向。