(江西警察学院,江西 南昌 330100)
20世纪50年代,随着计算机的出现和计算机图形学的发展,人们开始利用计算机技术在屏幕上绘制出各种数据的图形图表,开启了数据可视化的先河。最初,可视化技术被大量应用于统计学领域,主要用来绘制统计图表,如圆环图、饼图、柱状图、直方图、散点图等;21世纪初,数据可视化技术得到进一步发展,逐渐应用于地理信息系统、大数据挖掘分析、商务智能等,有效地促进了人类对不同类型数据的分析与理解。[1]
在经济犯罪侦查中,侦查员常常要分析大量的涉案资金交易数据,我们称之为违法资金数据分析。违法资金数据分析通常要涉及资金数据的采集、清洗、数据质量检测、资金流展示、多维度分析、涉案资金交易的溯源与追踪、嫌疑人/嫌疑账户定位等各种业务需求。在解决这些业务需求过程中,不仅要进行统计嫌疑账户的交易金额、研判出账/入账的特征等简单分析,而且要在大数据背景下实现关联交易的挖掘、找出犯罪团伙、刻画犯罪资金流向等复杂分析。数据可视化分析技术的引入很好地解决了以上问题,在违法资金数据分析中发挥了至关重要的作用。
由于可视化分析技术在违法资金数据分析中的广泛应用,我们可以抽象出资金数据可视化分析的概念。资金数据可视化分析是指将涉案资金数据以图形图像的形式表示出来,并利用数据分析和开发工具进行统计、分析、研判并发掘其中的涉案线索,形成破案情报的技术处理过程。数据可视化技术在违法资金数据分析领域的应用,不仅仅是对涉案资金数据的简单图形化,而是主要体现在对资金数据的深度挖掘。
资金数据可视化分析中要处理的最核心的数据就是资金交易数据。相比其他各种数据,资金交易数据是一种特点鲜明的数据。首先,资金交易数据主要是结构化数据。资金交易数据的字段通常包含交易卡号、交易账号、交易户名、交易证件号码、交易时间、交易金额、交易余额、收付标志、交易对手账卡号、现金标志、对手户名、对手身份证号、开户行、交易场所、IP地址等交易信息。这些交易字段中最核心的是交易双方的账号、户名、交易金额、交易时间,收付标志。无论是银行账卡号的交易还是第三方支付交易,对这些核心交易字段进行标准化相对较容易,也便于对调单数据进行整体清洗。其次,由于资金交易数据有账户主体之间出账和入账(收和付)的关联关系,使得数据抽象之后不仅适合关系型数据库的存储和处理,也适用于图数据库的存储和计算。图数据库是基于图模型的数据库。相比较于关系型数据库,图数据库是真正注重“关系”的数据库。图的逻辑可以很好地解决大数据时代经常遇到的关联数据分析问题,比如,绘制用户社交关系图谱做社交影响力排名、好友推荐;通过绘制资金交易图谱做大数据征信、反欺诈等应用;构建设备关系网络图谱实现物联网建模分析、供电网络建模分析等等。图数据库支持数据的实时增删查改,保证ACID事务性①ACID,指数据库事务正确执行的四个基本要素的缩写。包含:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。,同时提供可视化、高可用、备份恢复等功能。
正是由于资金数据的上述特征,在处理、分析大量资金交易数据时,可以将资金数据以图数据结构存储并进行挖掘。对资金数据可视化分析中正需要解决图数据库擅长的大量关联数据分析问题。比如,对大额可疑资金的溯源、追踪资金流的去向、厘清嫌疑账户之间的交易关系、挖掘资金交易中的核心犯罪证据等。可以说,大数据时代违法资金数据分析的需求、资金数据的特征和图数据库的优势三者一拍即合,产生了资金数据可视化分析这个应用场景。
资金数据可视化分析可以应用图计算的很多成熟理论。比如,在虚开增值税专用发票犯罪的侦查中,侦查员常常要解决查找资金环路的问题,如果采取传统关系型数据挖掘方法,从海量的资金数据中进行筛选,效率比较低,分析结果也不够直观,缺乏易读性。而将资金数据转换为图形,同时在底层以图数据结构进行存储和计算,从资金交易流中查找出资金交易环路问题可以抽象成从具有多重边的有向图中搜索环路问题,而这个问题的求解就有很多成熟的算法可以选择了。事实上,图的环路搜索一直以来都是各个领域研究图论算法应用的热点,尤其是针对搜索最小独立闭合环路的算法,就有深度优先搜索算法、基于邻接矩阵变换算法、基于生成树和余树的搜索算法等。[2]
资金数据可视化分析的价值主要体现在数据观察、视觉美感、洞察问题、科学分析、决策支持等方面。现代经济犯罪侦查中要分析的资金数据量巨大,为了侦破个案,侦查员常常要调取数百万条甚至千万条资金交易数据和其他情报数据。资金数据的可视化分析一方面可以将枯燥乏味的数据转化为丰富生动的视觉效果,有助于简化侦查员的分析过程,提高观察、分析数据的效率;另一方面,可视化分析技术可以将数据集生成资金数据图像,将数据的各个属性值以多维数据的视觉形式表示,并提供交互能力,这有助于分析人员从不同的维度发现、挖掘涉案资金数据背后的规律,不仅对侦破个案具有指导价值,而且会为把握相关经济犯罪规律,预测、预防类罪发案提供有效决策支持。
资金数据可视化工具大致可以分为三类。第一类是基于软件的可视化工具,用户上手比较容易,只要学会软件操作,就可以进行可视化分析,对于使用者的技术要求较低。该类软件一般可以单机使用,运行速度快,初级版一般免费,但高级功能可能要收费。第二类是基于网络平台的可视化工具,资金数据的可视化网络平台一般部署于公安专网,以经侦领域居多,公安民警必须使用数字证书登录使用。基于平台的可视化工具在服务器上远程运行,速度一般,可视化功能相对固定,不够灵活。第三类是基于编程的数据可视化工具,这类工具属于专家级应用软件,需要用户具备一定的编程能力和数据分析基础,入门比较困难,但掌握好之后功能调用灵活,数据处理效率高。
基于软件的可视化工具有Power BI、Tableau等通用可视化工具和公安情报可视化专业软件I2、火眼金精、资金流向追踪系统等。基于平台的可视化工具一般嵌入公安网的大数据应用平台,在数据采集、清洗之后进行可视化分析,公安民警常用的有违法犯罪资金查控平台、BDP 大数据分析平台等。基于编程的数据可视化工具有D3、Matplotlib、R 等,这些工具一般要求掌握某种编程语言,比如D3 的全称是Data Driven Documents,其本质是提供了一个用于网页作图、生成互动图形的JavaScript 函数库;Matplotlib 则是基于Python语言的一个图形绘制库;而R 是一个用于统计计算和制图的开源软件,具有强大的编程功能,可以进行数组运算、实现分支、循环以及用户自定义的专业数据分析与制图等,常用于大数据集的统计分析。[3]
资金数据可视化的效果图一般有散点图、柱状图、层级关系图、资金流向图等,在实际应用中根据分析需求不同,有很多中表现形式,可谓千变万化。但从解决问题的角度来看,基本可以分为以下五类,分别是时间序列类、比例类、组织关系类、资金流向类、空间关系类。[4]
图1 某犯罪团伙资金交易频率分析
1.时间序列类
在违法资金交易的侦查中,常常要按时间维度进行分析统计,比如按交易时间统计某几个嫌疑账户每天的资金交易金额,以判断这些账户是否涉嫌洗钱犯罪,是否存在中间账户。这些以时间元素为核心的可视化分析图形就属于时间序列类,时间序列类图形包括按时间轴排列的资金交易图、按时间特征标注的账户资金金额变化图等。柱状图、散点图、阶梯图、曲线图常用于时间序列类的图形表达。图1 为某犯罪团伙的资金交易频率分析 (按时间关系对团伙成员的交易次数进行统计)。
2.比例类
比例类图形主要用于分析数据的比例关系,可用于显示涉案资金账户进/出账金额占交易总金额的比例,直观展现某些交易金额的最大值、最小值、总体分布情况等等。比如在某些网络传销犯罪中,返利金额的比例计算,就可以通过比例类图形直观展现。饼图、堆叠面积图、板块层级图(Treemap)等常用于展现比例关系。
图2 某传销团伙层级关系
3.组织关系类
组织关系类图形主要展示社交网络关系和犯罪组织层级,在涉众型经济犯罪、黑社会性质的组织犯罪的情报分析中常要用到。组织关系类图形主要探索犯罪主体之间的关联关系,上、下线关系等,结合可视化分析工具,可用于社交网络分析和社区发现。组织关系类图形常见的有气泡图、树状图、层级结构图等。图2 为某传销团伙层级关系。
4.资金流向类
资金流向类图形是违法资金交易可视化分析中的核心图形,主要展现资金的流向,一般从资金来源、中间账户、资金去向实现资金的整个交易流程的可视化。在可视化分析工具中,可以将所有交易数据图形化,并应用图计算的一些算法,进行遍历或最小生成树、最短路径计算等,对大额可疑资金的流向进行追踪或资金回路发现。在资金流向图上可以根据各种权重进行不同颜色、不同线条粗细的设置,显示资金交易关系,还可以通过用户交互进行不同布局的选择。[5]图3 为某地下钱庄犯罪资金流向(局部)(见图3)。
图3 某地下钱庄犯罪资金流向(局部)
5.空间关系类
空间关系类图形主要借助电子地图,显示犯罪热点分析结果、嫌疑人地域分布情况、涉案资金交易区域化密度关系等。空间关系类图形可以引入时间元素,形成动态显示图。空间关系类可视化分析一般要调用一些电子地图工具(Google Fusion Tables、Modest Maps、ArcGIS等)和时间线工具(Timetoast、Xtimeline等),用于辅助资金数据分析。着色技巧在空间关系类图形中应用较广。
从经济犯罪侦查的宏观角度来看,在违法资金数据分析中,主要的可视化分析内容包括资金数据检测、资金流向展示、重点嫌疑人/团伙画像、嫌疑人/嫌疑账户定位、预警监测辅助五大应用场景。在这五大应用场景中,都可以用到资金数据可视化分析,使纷繁芜杂的枯燥数据转换为直观、清晰的图形展示,令侦查人员迅速理解数据,挖掘有价值的情报,指导侦查破案方向。
涉案资金数据的来源一般是多家银行业金额结构、第三方支付机构的数据库。在办案单位调取涉案资金数据并进行标准化清洗之后、进一步深挖扩线之前,要对资金数据集进行一个总体评估,并通过直观地展现以便了解已经获取的所有涉案资金数据的全貌。大数据时代的资金数据评估一般由程序自动完成,这个总体的评估过程,我们称之为资金数据检测。在具体检测方法上,从单账户、单主体、账户组(团伙)、全账单多角度,以交易金额、交易笔数、净流入/流出、交易频度、银行卡BIN码等多维度,进行统计分析、检测评估。可视化技术在这一阶段用于各种统计图表的输出,展现数据集的全貌。
资金数据检测可以涵盖通用内容检测、特定内容检测和嫌疑目标检测三大类。通用内容检测是所有资金数据量较大的案件都基本要评估的常规内容,即针对资金交易要素,刻画涉案资金的规模、变量、对手等情况,以图表形式予以可视化展现。通用内容检测具体包括交易主体、交易对手、资金交易规模、账户组(团伙)资金进出情况、交易频率、最大单笔交易等。其中,针对交易主体的检测可以通过开户信息对账户主体进行分析,收集身份信息、住址、联系方式等多维度信息,完善主体个人身份信息及关联信息。交易对手的检测包括人员和机构,可以对交易明细中的对手人员的卡号和姓名进行汇集,明确对手卡号、人员数量;对交易明细中出现的机构情况进行汇集,并对机构性质进行初步判断,分析主体与机构的交易是否符合身份特征和一般规律,发现可疑点;此外,从对手分布情况可以确定作案范围及受害人分布情况,便于对案件的准确定性、定量、定范围。资金交易规模的检测可以从交易总笔数、总金额、交易频率、资金流动量等要素入手,分析一定时间内交易金额的进出规模,用于明确犯罪危害程度、变化规律、应重点关注的涉案时间段等。账户组资金进出情况检测目的是统计疑似团伙账户的总入账金额,判断涉案金额情况;统计总出账金额,为下一步资金追踪指明方向;统计总差额情况,判断截留资金情况,为追赃挽损提供数据支撑。交易频率检测是对单个账户或账户组交易频率的研判,针对资金交易不同时间段会有不同的特征,如虚开犯罪,在月末时间,呈现出一定的集中特征;从账户组的情况来看,则呈现多个账户轮换使用的特点。最大单笔交易检测目的是从众多交易流水中,及时发现最大单笔资金,为查找重要受害人或追查资金去向提供方向。
资金特定内容检测是对一些有规律的资金交易特征进行识别,主要包括小额测试(大额交易前的小额测试,测试账卡号是否被冻结)、固定金额(识别是否工资发放、顶额转账以规避反洗钱监控等)、现金业务(小额异地取现、大额现存或现取,提示资金断点)、公转私业务、沉睡期等要素,开展特定内容检测,发现交易中需要重点关注的账户和主体。
嫌疑目标检测是结合账户、主体比对历史案件库发现前科情况,根据涉嫌犯罪案件及线索与违法犯罪资金查控信息碰撞比对的结果,发现重点嫌疑目标,为侦查办案提供指引。所有的检测、评估项纷繁复杂,如果以数字形式呈现,不易读且难以理解,因此这一阶段的可视化主要是对统计报表的可视化展现,比例类、时间序列类图形应用较多。
资金流向展示是将资金数据集的所有资金交易来源、去向、链路、环路的全部可视化的过程。在具体方法上,通过图计算对资金数据关联关系要素的计算和对依法调取及数据库中存量数据分析,实现涉案资金追踪溯源和断路资金接续可视化查询功能,进而发现资金的来源、去向、链路、环路等资金流转形态。例如,按交易方式、对象类别、进出流量比,分析资金的来源和去向;对指定的交易,进行路径追踪,形成资金链路(即资金的单向流动或树枝状流动);自动发现以各种关系形成的资金环路(即资金从实际控制人转出后经多个环节,又转回实际控制人处的环形流动),为发现犯罪运作模式提供依据。
图计算的一些经典算法或改进算法可以用于资金的溯源与追踪。[6]资金的溯源与追踪对象有两类,一类是单账户资金流向追踪(单笔资金的追踪),一类是多账户的资金流向追踪(账户组的资金流向追踪)。单笔资金的追踪主要根据资金额度、时间、交易方式、地点等要素进行相关性统计,确定资金链路方向,是否形成环路。如果资金流转中出现了取现,则需要标注大额取现交易,根据同柜存取或冠字号接续资金链路,实现断路追踪;如果出现资金转换资产,譬如购买房产、理财等,则需要根据资金流向律,查询资产的实际控制人与嫌疑人之间的关系。多账户(账户组)的资金流向追踪,主要考查重点交易主体或账户组在特定时间区间的资金来往关系,通过迭代计算的方法,追踪账户组的资金去向,实现交易主体资金流转之间的交叉识别。
图计算的底层技术加上可视化的应用,可以将分析目标的资金流向、交易金额、交易时间等关键要素直观展现出来,令侦查人员能够一目了然地观察资金的整个流转过程。这一阶段的资金数据可视化主要输出资金流向类图形,展现多种资金流向布局方式,比如以时间轴为中心展示出账与入账的金额大小、方向、关键节点,或直接挖掘资金环路并进行高亮显示等。
重点嫌疑人/团伙画像是利用数据挖掘技术研判涉案资金账户关联度、辨识核心账户,并对账户组及犯罪团伙整体画像进行可视化的过程。在具体方法上,通过资金账户穿透和历史资源比对分析,发现账户、资金的实际控制人,进而判断账户性质(沉淀账户、取现账户、过渡账户等),发现涉案账户关联,辨识重点嫌疑账户或团伙。
重点嫌疑人/团伙画像分三个层面,一是账户锁定,通过开户信息、交易时空、交易行为的分析,锁定账户实际控制人。账户锁定除了要进行资金交易分析,还要关注开户地址、交易地址、账单、话单、出行轨迹、银行联网核查等大数据,通过对交易账户的IP/MAC地址、绑定电话、预留地址等要素进行穿透、比对、关联,发现违法犯罪资金的实际控制人。二是账户分层,目的是根据资金交易规律,刻画账户在资金链路中的层级关系和账户性质,从而发现核心账户,以可视化图形方式予以直观呈现。现代经济犯罪已经发展到专业分工极其细密的阶段,通过账户分层,可以判断资金沉淀账户、取现账户、过渡账户、生活账户、吸金账户,挖掘核心交易账户。三是账户关联,即通过交易主体、交易对手、交易手法、交易背景、交易时间等要素进行关联分析,定量计算各要素之间的亲密度,发现犯罪嫌疑人控制的账户组,厘清犯罪团伙架构。账户关联计算中判别的维度越多,关联性越强,对于犯罪团伙的整体画像越精确。重点嫌疑人/团伙画像在底层涉及智能研判、机器学习领域的前沿技术,这一阶段的资金数据可视化分析主要输出组织关系类、资金流向类等关系图形,并附有各种标签图例。
嫌疑人/嫌疑账户定位是利用资金活动要素和痕迹,对资金及其控制人进行物流空间定位、锁定的过程。在具体定位方法上,利用电子地图、研判工具,抓取资金交易活动中的时间和地理位置信息,运用可视化技术展示时空轨迹,确定犯罪嫌疑人在特定时期内的活动地、居住地等物理位置。
实践中,对嫌疑人/嫌疑账户定位要依赖很多地址类信息。部分地址类信息可在调单的资金交易表中作为数据项直接获得反馈。违法犯罪资金查控平台的数据反馈标准要求各银行业金融机构提供涉案账户开户行、卡归属地、ATM、营业网点地址、IP地址等。银行联网核查信息和JASS数据都有详细的地址反馈,第三方支付反馈的信息中也有客户端IP、收货人地址等地理位置信息。要实现嫌疑人/嫌疑账户定位,必须结合GIS(Geographic Information System)地理信息系统,根据资金分析中的时空信息,提取交易记录中的时间和地点字段,展现在电子地图上,刻画人员轨迹。
资金数据可视化分析在这一阶段可利用拓展出的资金交易发生地、银行联网核查地点信息、银联交易POS机、ATM所在网点、IP/MAC地址、移动支付GIS等位置信息,辅之交易发生时间,并整合其他技术侦查、大数据分析手段,对资金、账户控制人进行时空定位和轨迹监测,为侦查取证和缉捕追逃提供支撑。这一应用场景下,资金数据可视化分析主要输出空间关系类图形,并可形成动图。
上述四个应用场景主要集中在案发后的回溯型侦查领域,在资金数据不断积累、海量数据不断汇聚的背景下,各级公安机关也在如火如荼地建设经济犯罪预警监测平台。预警监测平台可以围绕不明性质的资金交易和金融活动,通过监督和无监督的机器学习算法,对社会生产中的资金异常交易性质、行为、归属、特征等进行智能分析和实时监测,提前预警犯罪风险。
可视化分析技术可以辅助预警监测信息的展示和推送,为犯罪预防提供预案模板和决策支持。在具体方法上,通过构建基于资金数据的主体、账户、交易等多维计算指标体系,汇集开户时间、地点和交易时间、额度、地点、对手数量、对手类别等多维度要素,并实时收集相关互联网信息数据,归纳类罪资金交易特征和侦查实战中资金分析研判的经验规则,通过机器学习、深度学习算法,智能分析判定高危风险。实践中,聚类分析(Cluster Analysis)在资金数据的机器学习研判中应用最广泛。聚类分析起源于分类。从前,人们主要依靠经验和专业知识来实现事物的分类,很少利用数学工具进行定量的分类。随着科学技术的发展,人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析又称群分析,是根据“物以类聚”的原理,对样品或指标进行分类的一种多元统计分析方法,聚类分析的目的是根据在数据中发现的描述对象及其关系的信息,将数据对象分组,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。聚类分析在资金交易网络分析、犯罪团伙挖掘、类罪预警监测中都有很好的应用效果。
资金聚类分析的结果可以通过可视化推送的形式不断输送出线索和预警信息。比如,可以将目标资金数据与非法从事资金支付结算业务、非法买卖外汇、虚开增值税发票、骗取出口退税等类型的犯罪活动的资金交易特征进行匹配,发现目标资金与类罪行为的关联和内在规律,为串并案和多维度线索拓展提供依据。针对数据特征明显的经济犯罪,可以围绕高危籍贯维度、主体前科维度、账户特征维度、交易特征维度等设置均值或参数,通过聚类分析,进行风险识别和推送。比如某些甘肃、宁夏等重点地域地下钱庄高危人员和浙江台州、广东饶平等重点地域涉税高危人员的涉嫌违法犯罪行为,可以通过实时监测预警的方式进行预测、预防。在这一应用场景中,资金数据可视化主要起辅助作用,推送出的主要是组织关系类、空间关系类图形。