基于知识图谱嵌入的涉诈网络链接补全和关键节点识别

2024-06-29 22:43:18李泽卿黄诚曾雨潼冷涛

四川大学学报(自然科学版) 2024年3期

李泽卿黄诚曾雨潼冷涛

摘要：涉诈网站作为网络诈骗的常见载体之一，在网络犯罪中扮演着平台内容提供者的重要角色. 该形式的犯罪具有高度的团队性与合作性，涉诈网站在内的涉诈资产之间往往呈现出极强的关联. 涉诈资产、涉诈团伙等共同构成了一个庞大的涉诈网络. 虽然已有不少研究者针对涉诈网站识别开展了相关研究，但目前针对涉诈资产的关联性研究还相对较少. 由于涉诈网络中节点的匿名性，导致直接获取涉诈资产相关的身份信息极为困难. 警务人员往往难以快速准确的对涉诈网站进行溯源反制. 本文基于本体论构建了细粒度的涉诈知识图谱，创新性地将知识图谱嵌入应用于涉诈网站溯源领域，将涉诈网络中的关系抽象为多维复空间上的旋转操作，并以知识图谱嵌入向量为依据，通过向量的空间相似性探求涉诈实体间关系网络的相似性，利用模型进行实体关系的补全；此外，本文创新性地对涉诈知识图谱中关系对涉诈团队身份的揭示程度进行量化，利用加权后的涉诈关系来优化特征向量中心性算法，以挖掘其中的关键线索节点. 实验结果表明，在资产关系补全上本文使用的模型有着较高的准确率，在包含37 866 个实体的数据集上的HITS@10 准确率达到了47%，效果领先于其他知识图谱嵌入模型. 在后续案例中证明，本文设计的关键线索挖掘方法能够有效地对涉诈资产进行关联溯源，并取得了显著的成效.

关键词：知识图谱嵌入；涉诈团伙；链接预测；关键节点识别

中图分类号： TP309. 1 文献标志码： A DOI： 10. 19907/j. 0490-6756. 2024. 030004

1 引言

随着互联网产业的快速发展，其在给教育，医疗和经济领域带来巨大便捷的同时，也成为了滋生网络犯罪问题的温床. 网络诈骗作为一种常见的犯罪手段，给人们日常生活和社会秩序的稳定运行造成了极大的安全隐患. 因此发现涉诈网站，挖掘涉诈网站之间潜在的团伙关系，以及分析涉诈网站背后的运作模式，对净化网络环境有着重要的战略意义.

作为网络诈骗最常见的载体，涉诈网站是网络公害治理领域中最普遍，危害最大的诈骗手段之一. 涉诈网站通过冒充合法的信息来源，商品和服务进行传播，造成了数十亿美元的损失. 给无数个人和企业造成了无法挽回的后果［1］. 涉诈网站的形式包括但不限于分发平台，刷单诈骗，投资理财，杀猪盘诈骗，电商购物，网络赌博和色情网站等. 随着互联网业务的发展与扩张，也不乏新型涉诈网站的产生.

针对互联网中泛滥的网络诈骗乱象，我国颁布了《中华人民共和国反电信网络诈骗法》，为预防，遏制和惩治网络电信诈骗，规范网络行为，针对网络电信的信息链，技术链，人员链等各环节做出了严格的制度规范. 但由于网络诈骗团伙追踪存在着周期短，溯源难的问题. 近年来电信诈骗热度依旧不减.

目前已有工作往往局限于涉诈网站的识别与告警，在网站创建之初便将其检测并封禁固然重要，但仅仅局限于涉诈网站的识别与封禁往往并不能从根本上解决网络诈骗猖獗的问题. 目前缺少一种对涉诈网站背后的犯罪个体乃至团伙的识别方法，从根源上制止网络诈骗行为. 随着信息对抗技术的发展，不法分子会刻意在网络上隐匿行踪，或散布虚假信息. 在现实情况中，仅仅通过涉诈网站本身特征提取出的身份信息有限，很难形成情报挖掘分析、评价与利用为一体的方法，因此难以定位其背后的隐藏团伙［2］. 相较于传统的诈骗模式，网络诈骗具有更明显的特点，即节点匿名化，行为集团化，网站寿命周期短，行为模式较为固定等. 涉诈团伙的欺诈行为常常伴随着信息的遗留，随着警务人员对涉诈团伙信息的收集与涉诈活动的持续运行，构建知识图谱已经成为一种有效手段，通过利用已被识别的涉诈实体或资产揭露匿名节点的身份信息. 从而实现涉诈团伙的精准定位与打击.

随着知识图谱技术的发展，匿名涉诈节点溯源可以被建模为知识图谱中的链接预测问题. 利用图谱中已有的知识，通过规则匹配［3］，协同过滤［4］和机器学习［5］等方式对潜在的实体间关系进行预测. 然而目前涉诈资产关联的现实应用却受到了知识图谱补全技术的限制，如何处理涉诈知识图谱之间的复杂关系，成为实体关系预测的关键.

近年来，随着Bordes 等人［6］提出TransE 模型后，知识图谱中的多关系数据的预测模型逐渐取得了人们的关注. 在涉诈网站溯源领域，传统的图数据嵌入诸如Grover 等人［7］提出的使用随机游走的Node2vec，或是使用Skip-gram 学习图嵌入的DeepWalk［8］等往往缺乏对异质节点间不同关系的表征能力，并不能够很好地处理涉诈网络中错综复杂的关系. 为了有效地捕捉知识图谱中实体和关系之间的复杂性，Sun 等人［9］提出了RotatE 模型，通过将图谱间的每个关系定义为复向量空间上的旋转操作，在关系预测模型中取得了良好的预测成绩.

为了解决涉诈网站溯源难，以及关键线索定位难等问题，本文将知识图谱技术与涉诈网络溯源领域相结合. 采用细粒度的涉诈知识图谱构建方式，综合考虑涉诈网站的注册地，注册服务商等信息，并利用RotatE 模型进行知识图谱嵌入，通过使用复数嵌入和旋转操作符来为涉诈资产的表征过程提供更强的学习能力，以此来实现缺失涉诈关系的补全. 在涉诈团队溯源领域，本文以知识图谱嵌入向量为基础，对涉诈实体之间的相似关系进行表征. 再通过构建涉诈知识图谱关系间的身份揭示系数矩阵计算实体的特征向量中心性，来挖掘涉诈知识图谱中的关键线索节点. 最后利用余弦相似度将RotatE 学习到的目标资产与涉诈关键节点特征相关联. 为涉诈资产的溯源提供精准的决策依据.

综上所述，本文有以下贡献：（ 1）设计了一种基于本体论的涉诈网站知识图谱构建方法，为涉诈团伙资产建模提供了新的视角；（ 2）将知识图谱嵌入技术RotatE 应用于涉诈资产追踪的实践，为解决涉诈资产关联难问题提供了一种新思路，最终模型在37 866 个实体的数据集中HITS@10达到了47%，优于其他测试模型；（ 3）定制化调整特征向量中心性中涉诈资产关系边的权重，用加权后涉诈关系来优化特征向量中心性算法，以更准确地挖掘涉诈网络中的关键线索，增强算法可解释性和适应性.

2 国内外研究现状

2. 1 涉诈网站知识图谱构建

针对于涉诈网站的图谱构建，目前流行的方法是构建涉诈网络行为与特征图. 其中基于威胁元语的涉诈实体追踪实践被广泛应用于犯罪组织追踪过程. 例如以太坊欺诈数据，针对用户的欺诈地址与交易行为进行建模，对基于以太坊的交易记录进行挖掘来检测以太坊欺诈［10］.

但不同于传统的网站特征构建方法，网络公害治理关注的重点不仅仅在于涉诈网站的识别，还要注重涉诈网站的溯源，在图谱构建中更关注能够揭示涉诈网站背后团伙身份的关键信息.

自从”透明计算”项目启动后，利用溯源图进行威胁检测便逐渐成为了实体追踪领域的主流方向［10］. 通过构建威胁信息本体图的形式，对不同类别实体之间的因果关系进行关联，以处理缓慢又隐蔽的威胁溯源难题. 构建溯源图以对涉诈网络对象中复杂的数据流和控制流关系进行表征，将存在强因果联系的实体关联起来. 目前溯源图的构建大多是粗粒度的，存在着“ 依赖爆炸”的问题［11］. 而重点在溯源涉诈领域的本研究需要构建更为细粒度的数据集. 针对涉诈团体提取出更有因果关系和代表性的本体. 同时，如何构建细粒度的溯源图，为涉诈溯源提供准确的数据支持，也是未来涉诈领域研究的主流方向.

随着网络诈骗规模的增长，涉及到的资产和关系数量急剧增加，对全部的资产信息进行文本处理变得愈发困难. 基于知识提取的本体论在解决这一难题上表现出了良好的效果，在知识表示领域，本体论被用来对知识图谱中的概念、实体和关系进行表示，以规范化的方式描述了涉诈领域中的实体和他们之间的关系［12］. 基于本体论的构建方法能够清晰直观地提供构建知识图谱的数据，尤其是面对涉诈知识图谱这种稀疏网络时，其在信息抽取中发挥着重要的作用. 本体论在其他安全领域也发挥了重要的应用价值，如Mozzaquatro等人［13］创建了基于本体论的物联网安全架构，其被用于监控物联网设备并用于知识推理. Du等人［14］从攻击链角度考虑实体关系，提出了针对APT 组织的高可读性威胁情报推荐图.

综上所述，目前尚未有针对涉诈网络知识图谱的系统性构建方法，以解释涉诈网络中潜在的身份关系. 本文以域名对应涉诈资产信息为核心，包括域名创建信息和注册者信息等构建涉诈知识图谱，这些实体不仅是涉诈网络研究的重要数据来源，同时也为涉诈行为复杂网络关联提供了有价值的信息基础［15］.

2. 2 涉诈网站溯源技术

涉诈网站的溯源一直是国内外网络安全学者高度关注的课题. 在利用涉诈资产同源性分析技术实现追踪溯源的研究中，安全研究人员提出了众多方法. 目前较为主流的是基于规则匹配的溯源，通过涉诈网站页面中包含的对身份的强表征信息，诸如邮箱、地点、电话等，对涉诈团伙的身份进行揭示［16］.

目前的研究方法侧重于在威胁情报关联过程中利用URL，网页内容等网络特征进行关联［17］，对网站本身的身份属性考虑较少. 随着诈骗团伙反侦察意识的提高，传统的身份溯源技术的效果往往较差［18］. 此时亟需能够对涉诈网络的深层次语义特征进行识别，来锁定不同涉诈资产背后的同一威胁源的技术. Rid 等人［19］提出Q 模型，旨在解释，指导和改进威胁归因的设计，同时从战术、操作和战略等3 个层面相结合，将犯罪分子与犯罪行为相匹配，以最大程度地减少不确定性. 为溯源网络威胁提供了一种系统化的方法.

随着知识图谱技术在实体关系表征领域取得优势，知识图谱表示学习正逐渐成为涉诈实体表征强有力的手段之一. 以Bordes 等人［6］提出的TransE 模型为代表，对于三元组（ h，r，t ），通过将t表现为h 相对于r 的平移操作进行学习，来将实体和关系映射为空间上的向量. 随着知识图谱表示学习的发展，Sun 等人［9］受欧拉恒等式e-iφ =cosφ + isinφ 启发提出了RotatE，通过将关系表示为实体在复空间上的旋转操作，在关系预测的领域取得了较大的成功. 知识图谱表示学习使得知识图谱有了较低的纬度和较高的抽象层面. 利用知识图谱表示学习生成的向量综合了异质图中复杂的语义信息. 结合知识图谱本体构建方法能够更深层次的探寻涉诈网络中的语义信息.

由于涉诈犯罪网络可以被建模成一个由节点和链接组成的广义网络，因此可以使用社交网络分析和图论的技术来识别网络中的关键节点［20］.传统针对犯罪网络的研究大多集中在未加权的关系分析上，例如度中心性［21］和介数中心性［22］等，未经拓展的这些算法可以帮助我们了解节点在网络中的连接情况，但并不能对边的类型和重要性进行表征. 而特征向量中心性的提出以及拓展则不仅考虑到了相邻节点的中心性，更可以通过对关系赋予权重的方式表征节点间复杂的关系［23］. 在真实场景下，为了线索挖掘的准确性，需要设计涉诈网络间不同关系的身份揭示权重，并结合其他的中心性指标用更复杂的指标来对涉诈网络的关键节点进行挖掘.

3 方法

本节将介绍涉诈网站资产关联与关键节点识别关联方法，方法的整体框架如图1 所示.

3. 1 基于本体论的涉诈知识库构建

3. 1. 1 涉诈知识图谱本体设计通常，网络涉诈活动存在着复杂的信息交换方式与运营模式. 其活动范围从简单的技术支持（第三方网络服务提供商，服务器的注册地点）到复杂的运营团队网络.

为更好地解释涉诈活动，在这里引入现实场景中的一个实例，以提取对涉诈溯源有利的实体类别：

某涉诈团伙A 近日在域名注册商B 处注册了大量域名C 用于涉诈网站的搭建，并将其服务器地址选为D. 为了逃避国内网络的监管，服务器地址可能会部署在国外. 如果部署在国内，需要向CNNIC（China Internet Network Information Center）申请备案，网站会拥有备案号E，与此同时网站的IP 被互联网注册机构分配到ASN（AutonomousSystem Number）为F 组进行管理.

依据此案例可以整理溯源需要的本体如下：

（1） Website 涉诈网站；（2） Location 实体所在的国家和地区；（3） Registrant 网站注册人或组织；（4） ASN 网站的服务商编号；（5） Licences 网站提取的备案号；（6） RegisteServer 网站服务提供商.

在案例中，真实场景下能够获得的信息有限.涉诈团伙有着高度的匿名性，犯罪分子往往会故意隐藏起自己的身份信息，如地点、服务提供商等. 在知识图谱中，匿名性表现为关系的缺失. 通过构建起足够复杂的知识图谱，利用知识图谱表示学习对缺失的信息进行知识补全. 因此提取出的本体和关系需要尽可能地对涉诈资产的身份信息有着强表征能力. 在此定义能够表征涉诈团伙身份信息的实体和关系如表1 所示.

为了全方位的建模涉诈资产的运营过程，将图挖掘技术应用于涉诈节点的溯源中，需要用异质信息网络来表示示例中的涉诈网络. 为对涉诈资产更深层次的运行机理进行建模，本研究选择了能够更全面表征涉诈资产身份信息的本体，并以此为依据进行信息抽取，为知识图谱嵌入提供数据支撑.

3. 1. 2 涉诈知识图谱优化在取得图谱中结构化三元组后，仍需对其中冗余的实体和关系进行处理.

首先，需要对预处理后的结构化数据进行实体融合，涉诈实体在图谱创建初期可能会出现冗余. 无论命名实体身份属性如何，图谱需要保证其在构建图谱时只出现一次. 在此对知识图谱中同一命名实体进行识别，并融合实体间的链接［24］.

例如在本文数据集中涉诈网站这一实体与其他实体存在着不同关系，网站拥有不同的备案号，并且归不同的服务提供商管理，这种1-n 的结构需要进行关系拓展. 使得知识图谱嵌入过程中实体的关系特征更丰富［25］.

在经过实体和链接处理后，涉诈知识图谱实体-关系图如图2 所示.

3. 2 基于RotatE 的涉诈知识图谱嵌入方法

RotatE 模型中关系的嵌入在空间中被表现为旋转操作，以更好地捕捉涉诈网站实体与关系间复杂的语义关联. 在此将实体e 与边r 嵌入维度初始化为Ck，以将向量映射到复数空间中. 并对实体向量的实部和虚部进行随机初始化.

根据知识图谱的定义，对于每个实体关系对应的三元组RotatE 的得分函数定义如下，这一指标的数值越接近于零，表明模型对关系的拟合能力越强.

四川大学学报(自然科学版)2024年3期

四川大学学报(自然科学版)的其它文章: 一种高空坠楼监测预警系统研究; 一种用于DBMS 模糊测试的自适应变异策略; 基于多光谱交互注意力融合的多尺度无人机小目标检测; 基于变分信息瓶颈多任务算法的多领域文本分类; 基于双域交互Transformer 的磁共振图像重建; 基于混合机器学习模型的地层电阻率反演及不确定性分析