杨 阳
(浙江警察学院计算机与信息安全系, 浙江杭州 310053)
随着经济改革的深入推进以及人、财、物、信息等社会资源流动的加剧,当前非法集资、网络传销等涉众型经济犯罪总体上仍较为严峻,发案总量持续高位运行,特别是社会领域经济犯罪与专业领域经济犯罪相互叠加,传统经济犯罪与网络经济犯罪交织共生,严重破坏市场经济秩序和国家经济安全,给广大群众造成特别巨大的经济损失。
而且,公安数据信息规模庞大且实体关系复杂,海量数据快速检索与理解无法满足当前的公安业务需求。知识图谱最早是谷歌提出的一种将数据组织成知识库的技术,用于提高对数据、信息、情报的搜索和查询的质量[1]。其基本组成单位是“实体-关系-实体”三元组,以及实体与其相关属性的“属性-值”,实体间通过关系相互联结,构成网状的知识结构[2]。知识图谱能将人、事、地、物、组织等实体对象融合起来,形成相互关联的情报知识网络,打通数据孤岛,深度挖掘数据背后的价值线索[3]。
本文将重点研究涉众型经济犯罪知识图谱构建以及经济犯罪情报分析方法;基于此,我们将视角聚焦在社会网络分析和资金交易分析,通过可视化呈现目标对象的社交网络图谱关系和资金流向关系,挖掘隐含关系和资金交易路径,从而为经济犯罪情报分析提供支持。
本文采用自底向上的方法,融合公安内部数据、工商、银行等多库情报资源信息,采用网络组织的方式对数据对象进行组织,构建情报知识库[4]。知识图谱构建流程主要包括信息抽取、知识融合和知识加工3个步骤,知识图谱构建流程如图1所示。信息抽取涉及实体抽取、关系抽取和属性抽取3个关键任务。实体抽取对情报信息中出现过的人员、手机、账户、公司、资金、车辆等实体对象进行计算,对多源异构数据采用唯一标识,形成高质量的实体数据。关系抽取对团伙人员网络关系以及资金链路进行网络连接表示,通过节点与连线展示实体之间的关系。属性抽取是实体和关系的描述和形容,比如人员的分类,账户的类型等。知识融合利用实体对齐、实体消歧等技术解决数据中的冲突、不一致等问题,将多源异构的公安情报数据融合成高质量的知识库。知识加工包括知识推理、质量评估、知识更新,通过推理更新迭代图谱保证知识图谱的高质量。
情报分析技术路线如图2所示。本文的研究内容利用大数据特征提取和多源警务信息融合,将人、事、地、物、组织等公安信息要素有效组织,构建涉众型经济犯罪知识图谱,通过可视化认知开展情报分析研判,重点挖掘犯罪团伙社会网络关系及资金交易信息,以情报信息主导经济犯罪侦查,实现精准预警精确打击[5]。
图1 知识图谱构建流程
图2 情报分析技术路线图
在知识图谱的基础上,运用图论方法挖掘事件线索,采用网络结构图描述成员关系。网络结构图由节点、关系、属性3个基本要素组成。通过网络结构图分析其内在的关联性和事件的发生、发展和结果[6]。
2.1.1 活跃程度(点度中心度)
活跃程度分析用于查找犯罪网络中影响力较大的成员,在社会网络中联系人员越多活跃程度值就越大。活跃程度分析采用社会网络点度中心度算法,点度中心度是在社会网络分析中刻画节点中心性的最直接度量指标,反映了节点在网络中的活跃程度[7]。
(1)
式中,CD(k)为节点k的点度中心度,d(i,k)为布尔型变量,计算节点i与节点k是否有连接关系。如果有,d(i,k)的值为1,反之为0。
2.1.2 重要程度(中间中心度)
重要程度分析用于查找犯罪网络中关键成员,衡量该成员作为桥梁操控其他成员的能力。重要程度分析采用中间中心度算法,即计算节点的中介能力。一个结点的中间中心度越大,说明网络中的节点越有可能通过该结点与其他结点联系[8]。
中间中心度的算法原理是计算网络结构图某个节点与其他节点最短路径的相对中心度。如果节点i的中间中心度越高,说明其他节点经过i节点的概率越大,反应了节点与节点联系的重要程度。
(2)
公式(2)中CB(i)为节点i的中间中心度,描述了节点作为中介联系其他成员的能力,即节点在网络中与其他节点之间的联系程度,gjk(i)表示社会网络节点j与节点k之间经过节点i的最短路径的数目,gik表示社会网络节点j与节点k之间最短路径的数目。
2.1.3 中心地位(接近中心度)
中心地位分析用于寻找犯罪网络的核心成员,达到打击经济犯罪源头的目的。中心地位分析采用社会网络接近中心度算法,通过度量社会网络中节点之间关系的标准,处于中心性地位的实体即为社会网络的核心成员,如公式(3)所示[9]。
(3)
式中,CD(i)表示节点i的接近中心度,dij定义节点i与节点j的最短路径。
接近中心度需要考量每个节点到其他节点的最短路径的平均长度。也就是说,接近中心反映了一个结点到达其他节点的速率。一个结点的接近中心度越大,说明该节点到其他节点距离越短, 成员间耦合关系越强[10]。
资金交易分析是涉众型经济犯罪数据分析的重点。资金交易分析以账号或户名作为实体,实体间关系为资金数额,识别各类重点核心账户,建立交易模式时序路径,分析资金流信息,监测资金动向,提取涉众型经济犯罪特征,搭建资金分析模型,超前固定证据,不断提升资金数据驱动的涉众型经济犯罪数据分析效能[11]。
2.2.1 资金流向分析
如图3所示。资金流向分析模型重点关注指定分析账户,建立流入流出筛选设置,最后将计算的结果以人性化的直观图表可视化展示,便于专业人员深入分析研判。
图3 资金流向分析模型
资金流向分析围绕资金来源、资金中转、资金沉淀建立资金账户交易关联图,绘制资金流向层级图,可视化资金账户层级关系[12]。
资金来源分析针对账户资金出向属性,计算资金流出金额占资金总额比重,计算公式如(4)(5):
(4)
λ1(k)≥n1
(5)
式中,λ1(k)为节点(账户)k的资金来源特征值,n1为资金来源账户阈值,阈值是根据经济犯罪类罪模型研判的结果设定。如果账户的资金来源特征值超过阈值,则可认定该账户是资金来源账户。
资金中转分析针对账户资金出入属性,计算资金流入金额与流出金额绝对差值占资金总额比重,计算公式如(6)(7):
(6)
λ2(k)≤n2
(7)
式中,λ2(k)为节点(账户)k的资金中转特征值,n2为资金中转账户阈值,阈值是根据经济犯罪类罪模型研判的结果设定。如果账户的资金中转特征值超过阈值,则可认定该账户是资金中转账户。
资金沉淀分析针对账户资金入向属性,计算资金流入占资金总额比重,计算公式如(8)(9):
(8)
λ3(k)≥n3
(9)
式中,λ3(k)为节点(账户)k的资金沉淀特征值,n3为资金沉淀账户阈值,阈值是根据经济犯罪类罪模型研判的结果设定。如果账户的资金沉淀特征值超过阈值,则可认定该账户是资金沉淀账户。
基于知识图谱的基础上,将嫌疑人账号进行角色分类,还原线索阐述的资金关系,与提炼的经济犯罪模型互相印证。以非法集资为例,根据非法集资资金流特点,重点提炼4类账户特点:吸揽资金账户,存在资金分散打进、集中转出特点;倒账账户,存在交易流水即进即出特点;返本付息账户,存在资金按比例或成倍分散打出特点;公司运营费用账户,存在交易摘要体现公司日常经营或项业务人员发放工资、提成特点。
2.2.2 交易模式分析
交易模式分析从时间维度挖掘资金关联线索,重点分析嫌疑对象在时间上的交易规律。首先,根据资金情报信息建立时间关系模型,然后,搜索重点账户或重点人员,建立交易路径链接,通过时序转换,在时间维度上映射交易路径,交易模式分析模型如图4所示。
图4 交易模式分析模型
例如,在诈骗案件中警方发现了负责实际操作的嫌疑人A和B,但需要找到嫌疑人A与B之间资金转账的交易模式即交易路径作为案件证据,并进一步挖掘出潜在的犯罪团伙。通过交易模式分析方法,按时间分组布局导入含日期和数据的大容量数据,生成资金交易时序图,根据需求进行特定时间段统计分析,通过时间关系模型和查找路径的方式来查找在大量交易记录中两个特定嫌疑对象账户之间的资金流动情况。
本文使用脱敏后的某地地下钱庄案件。案件数据格式为XLS,首先根据案情需要,对数据进行清洗、整理、过滤,将数据进行预处理后的数据描述如表1、表2所示。
表1 资金交易数据示例
表2 通话数据示例
3.2.1 知识图谱构建
如图5 所示,地下钱庄犯罪网络知识图谱总体呈星状分散开,重点局部出现聚类现象,知识图谱共包括102个实体总数,463个链接总数。其中包含人员、账户两类实体的网络结构,包含案件与人员的关系,人与人之间的通话关系,账户与账户的资金流向关系。基于地下钱庄犯罪网络知识图谱,可进行多维度的应用分析,以手机通话网络为例,以主叫或被叫手机号为节点,以通话时长为边线,通过网络关系图清晰呈现犯罪团伙的网络信息、结构信息、动态信息及重要分工等,能够为数据分析挖掘出更深层次的信息。
3.2.2 社会网络分析
社会网络分析基本思想是,以通话唯一标识号码为实体标识,以通话时长为链接标签,标签计算方式为数值合计,搭建基于嫌疑人通话网络关联模型。通过计算点度中心度、中间中心度、接近中心度来度量社会网络中节点的活跃程度、重要程度和中心地位。社会网络中排名前10的节点中心度计算结果如表3所示。
图5 地下钱庄犯罪网络知识图谱
表3 节点中心度计算结果
(1)活跃程度
在涉众型经济案件中,查找活跃成员具有重要的意义。活跃程度可视化结果如图6所示,在通话网络图谱中,基于中心度算法计算后,成员1、成员2、成员3、成员4、成员5联系对象最多,点度中心度分别为0.636 4、0.409 1、0.909 1、0.848 5、1,可以得出成员5的地位最活跃。成员5的实体总链接数66,出项链接数65,占比高达98.5%;实体的出向链接值总和为171 777,表示在通话网络中成员5作为主叫号码通话时长171 777 s。通过分析可知,边框标注成员为通话网络中最活跃成员,出项链接最多,联系成员最频繁,能够有效影响和控制犯罪网络图谱中的其他成员。
图6 活跃程度可视化结果
(2)重要程度
中间中心度算法是度量犯罪团伙成员重要程度的标尺。重要程度可视化结果如图7所示,在犯罪网络图谱中,成员1的重要程度最高。该成员实体标识为839****4530,实体的出向链接值总和为171 777,占实体链接值总和的96.7%;入向链接值总和为5 831,占实体链接值总和的3.3%。通过中间中心度的计算可知该成员在犯罪网络中大部分路径都要经过该成员,该成员控制其他成员能力的中介性较强,具有网络强关系桥梁作用。
图7 重要程度和中心地位可视化结果
(3)中心地位
中心地位可视化结果如图7所示,在通话网络图谱中,基于接近中心度算法计算后,成员2的实体中心地位最高。该成员实体标识为6845****2191,实体的出向链接值总和为0,入向链接值总和为9 436,表示在通话网络中该节点具有单一方向性,中心地位优势明显。通过分析可知,成员2在通话网络中距其他成员的路径最短,能够快速连接最活跃的5个成员,网络关系模型以该成员为中心呈聚合收敛,该成员中心地位最高,很大概率该成员为犯罪网络首脑或核心头目。
3.2.3 资金交易分析
(1)资金流向分析
在地下钱庄网络知识图谱基础上,将犯罪团伙成员账号按照角色进行分类。如图8所示,帐号可分为资金来源账户、资金中转账户和资金沉淀账户。基于资金来源去向属性计算,绘制资金账户层次图。从图中可知,账户共有5个层级,一级账户为资金来源账户,五级账户为资金沉淀账户;其中资金来源账户经过层层中转,沉淀到三级账户李某,金额为18 500 000元,经过四级账户高某,资金最终沉淀到安某证券公司账户里,金额为36 000 000元。
图8 资金流向分析可视化结果
如图9所示,针对李某个人的资金流向分析,可知李某名下共有4个账户,其中3个来吸收资金,账户标识分别为44****6209、44****2209、44****9209;1个用来转移资金,帐户标识为34****2209,转移资金18 500 000元。
图9 李某个人资金流向分析可视化结果
(2)交易模式分析
交易模式分析主要分析特定账户在时间维度上的资金交易规律。如图10所示,基于资金交易流水,从时间维度上分析出李某与安某之间的交易路径,并且挖掘出嫌疑人李某、安某之间的共同嫌疑人高某。李某账户在2015年12月1日向账户名为高某的账户转入2 500 000元,高某账户在2013年6月25日向账户名为安某的账户转入3 500 000元。
图10 李某与安某交易模式分析可视化结果
(1)基于知识图谱的涉众型经济犯罪分析能够实现可视化图形结果呈现,有助于侦查人员快速梳理各类分散的、独立的情报线索,有效应对复杂多变的犯罪模式。
(2)通过知识图谱的关系推断、隐含关系挖掘以及虚实身份映射等,分析出目标对象的社交网络图谱关系,并展示目标对象不同的社会渠道的核心关系圈。
(3)涉众型经济犯罪知识图谱能够为资金交易分析实现语义化理解和知识化转化,提供快速检索和语义搜索支持,挖掘隐性资金交易,从而为资金查控提供决策支持。