基于SEMMA 的网络安全事件可视探索

2022-04-02 07:24钟颖王松吴浩程泽鹏李学俊

浙江大学学报（理学版） 2022年2期

钟颖，王松，吴浩，程泽鹏，李学俊

（西南科技大学计算机科学与技术学院，四川绵阳 621000）

随着网络应用的不断增加，大规模的网络管理愈加困难。网络管理员和安全分析师的一项重要任务是从大量日志数据中检测潜在的由恶意用户、应用程序或设备故障引起的异常活动或行为模式［1］。入侵检测技术主要用于检测网络或系统中是否存在违反安全策略的行为和被攻击的迹象，虽然日志中含有大量安全警报，但分析日志数据存在很大困难：（1）异构的数据源和迅速扩大的数据规模极大地增加了分析人员的认知负担［2］；（2）随着新攻击类型的出现及攻击复杂度的增强，很多传统的数据分析方法不再有效；（3）日志数据中充斥着大量误报、漏报、重复报，判断日志警报是假阳性还是真威胁仍是一项巨大挑战［3］；（4）实现多种安全设备、多个数据源、多个日志之间的协同分析很困难。

网络安全可视化有助于用户准确判断安全事件发生的时间、地点、内容及关联性，快速追踪用户行为。GOODALL 等［4］提出的Situ 可用于发现和解释计算机网络流量日志数据中的可疑行为，识别和调查异常事件和IP 地址，帮助理解异常原因。LIKUN等［5］提出的NetflowVis，结合了链接节点树图的辐射布局和改进后的主题河流图，能呈现不同协议的上/下行流量的统计数据并分析Netflow 日志的通信模式和网络异常原因。但以上大部分工作主要围绕特定类型的日志数据或特定的攻击事件展开，缺乏对异常分析整体过程的指导。本文的主要工作包括：

（1）在网络安全分析流程引入数据挖掘中经典的SEMMA 分析范式，抽象并总结提取异常事件、规范攻击事件的分析思路。

（2）提出了基于协议的节点链路图（protocolbased node link diagram，PBNLD）可视化表征方法，以帮助构建网络通信模型，相较传统的网络安全关系图，PBNLD 以协议为划分标准对通信节点进行分类，对单一协议的通信情况进行深度探索，用基于模糊C 均值的主机行为聚类视图解决网络资产结构的分类问题。

（3）搭建了基于示例-探索-修改-模型-评估（sample-explore-modify-model-assess，SEMMA）的网络安全事件可视分析系统，在流量日志、数据库日志等基础上分析网络通信特征及存在的关联关系。

1 相关工作

1.1 网络日志可视化

网络日志是对系统进行实时监测和安全事件分析的重要信息来源。在网络日志的记录存储和模型构建方面，SGX-Log［6］是一种新型的日志系统，对最新的硬件进行扩展，重新设计日志记录。该系统提供了具有密封和启封原语的安全区域，保存内存和磁盘中的程序代码和数据，以免未经授权被修改。针对系统和安全产品产生的大量网络日志，TATSUAKI等［7］设计了一种日志分析系统，可从海量的非结构化日志中自动快速提取日志模板，构建日志特征向量，并用机器学习的方法将故障与日志数据相关联。针对大量日志的维护、概览、导航和快速识别，JANERIK 等［8］提出了一种交互式的可视化过滤系统。该系统与重点查询结合，搜索已知的可疑术语，并在可视图和日志文件中凸显这些可疑术语。在网络流量日志内容分析方面，CoNTA［9］是一种面向警报的可视分析系统，支持用户通过交互探索和发现在大型流量警报集合中的威胁，并将错误警报报回入侵检测系统。MMSLAS［10］将业务规则分析和行为分析集成，用机器学习分析行为轨迹，快速定位日志中的不当行为，提前发现异常请求。在网络安全可视化图的设计方面，YANG 等［11］提出了IDSPlanet，将行星作为设计隐喻，其由空间环、警报球和交互核心三部分组成，具有可视化大量网络警报和监控大量主机的能力，但随着警报类型的增加，在有限的空间内进行渲染易出现重叠问题，导致交互困难。

1.2 网络安全分析模型

网络安全分析的目标是检测网络内部的安全事件并建立有效的网络态势分析模型，以帮助分析人员快速建立分析思路。HOANG 等［12］将不确定性纳入网络安全分析，将每个边缘概率描述为随机变量的布尔表达式，以概率的方式回答相关重要问题。LIU 等［13］提出了一种基于粗糙集的网络安全事件关联方案，建立了网络安全事件数据库和知识库，给出了规则生成方法和规则匹配器，通过将数据离散化、属性约简、值约简和规则生成相结合，解决了大规模安全事件的简化和关联问题。ZHAO 等［14］综合网络安全分析人员用网络流量时序数据检测网络异常的过程，提出一种自顶向下的网络流量时序流程模型。XU 等［15］提出了一种基于未纯化网络跟踪的安全协议格式分析方法，将未纯化网络跟踪集作为输入，自动生成协议格式，为有效处理未净化网络痕迹提供了一定的分析思路。

网络数据的分析与可视化在网络安全研究中取得了阶段性成果，但要实现同时支持多类安全事件的检测过程仍面临巨大挑战。本文在融合多类安全事件类型的基础上，提出了一种通用的网络安全事件分析模型，以规范异常事件的整体分析思路。

2 基于SEMMA 范式的安全事件分析模型

SEMMA 是由SAS 研究所提出的一种通用的数据挖掘方法，支持挖掘大量数据，解决复杂问题并做可靠决策，在环境检测［16］、贷款违约预测［17］等领域有一定应用。本文将SEMMA 分析范式应用于网络安全领域，以网络安全流量数据为中心，融合提取网络异常的几种常见方法，实现对多源日志数据的联合分析，支持完整的异常检测过程。在数据处理（示例）阶段，分析日志数据之间的时间、空间关系，构建关系网络。特征探索（探索）主要用于寻找数据变化规律或异常子集，从点到面，通过可疑主机和端口的周期性流量变化特征，寻找相似趋势的其他主机及端口。初步提取特征后，通过整体流量的变化特征，从整体到个体，定位异常网络的主机和端口，对原来模糊的问题进一步明确和量化（修改），并建立正确的分析方向，完善不同类型的分析模型（模型），挖掘隐藏的信息。最后，从上述分析过程中得到目标问题从结果到起因的多方面描述，关联各项可疑数据指标，确定安全事件的起因与结果（评估），还原网络攻击场景。流程见图1。

图1 基于SEMMA 范式的网络安全事件分析模型Fig.1 SEMMA-based analysis model of cyber-security event

2.1 示例

网络安全分析人员需要处理的网络安全数据种类非常多，其中大部分来自各类网络监控设备，根据数据特点，可大致分为流量数据、状态数据与警报数据。流量数据主要来自TCP/IP 的数据包信息和流量监控中的会话记录。状态数据包括网络状态、系统负载、异常进程等；警报数据主要为各类防御设备产生的警报事件。网络安全分析人员需同时面对一些非监控型的网络安全数据，如网络配置文件、病毒样本等。本文在面对监控型多源日志数据时，随机抽样每种数据中的10%，判断日志数据属性可能存在的演化关系，构建IP 属性关系网，实现日志记录之间一对多或多对多的映射关系。用全部日志数据构建可视分析系统，提取网络流量特征，并出现主机、用户异常行为，以保证分析结果准确。

2.2 探索

通过PBNLD 构建网络通信模型，提取企业内部网络中的通信协议分布特征；利用模糊C 均值聚类算法提取主机行为，得到以协议为单位的主机通信特征。

2.2.1 PBNLD

客户端常存在与多个服务器进行通信，且单个通信对使用协议不一致的情况。若简单用传统关系图对网络通信流进行可视化，易造成图元重叠，致使很多有效信息被遮挡。为解决此问题，PBNLD 同传统的网络关系图一样，仍使用节点/顶点与连线编码网络通信之间的关系，但在绘制中引入“协议”和聚类计算结果，补充节点簇的协议分类和信息，提升通信网络节点的呈现速率。

PBNLD 分为三部分，分别为协议（节点与其内部的节点）簇、源IP 节点簇和通信链路（图2）。在通信协议节点中，用圆形半径编码日志数据中协议的使用情况，用灰度编码使用协议不同类型的IP 节点，用PBNLD 可视化主机通信记录。快速构建以协议为划分标准的网络通信结构，识别主机的网络结构角色。

图2 PBNLD 模型Fig.2 Protocol-based Node Link Diagram

2.2.2 基于模糊C 均值的主机行为关系聚类

结合模糊C 均值量化主机行为，通过计算样本的隶属度使被划分到同簇的主机之间具有最大相似度，簇之间具有最小行为相似度。具体思路如下：

（1）数据预处理。在获取日志数据后，从时间维度将数据集划分为N=(f1，f2，f3，…，fn)，令每个子集包含单日数据。提取每个子集中的source_ip，destination_ip 属性为fi=(x1，x2，…，xn)（xi为第i种协议的使用情况），计算相关性最高的协议类型，并将该属性与IP 地址绑定c=(x1，x2，x3，…，xn)，根据协议属性分类，得到pi=(c1，c2，c3，…，cn)。

（2）行为聚类。用欧几里得范式度量主机之间的相似性（距离），用最小化目标函数计算，得到聚类中心：

其中，t为迭代步数，ε为很小的常数，表示误差阈值，通常ε=m！-1≈0.008 33。迭代更新uij和cj直至前后两次隶属度最大变化不超过误差阈值，最终收敛于Jm的局部极小值点或者鞍点，此时的划分精度最高。针对不同类型的服务器聚类结果，可在PBNLD中选择某一协议类型，并在此协议下的主机行为关系聚类图中将节点边缘加粗，以呈现聚类结果。

2.3 修改

参照ZHANG等［18］在TIFS中提出的针对一系列网络的全局属性、平均攻击力度的多样性互补指标，将提取网络安全事件的关键因素归纳为4W1H（＂When＂＂Where＂＂What＂＂Who＂＂How＂）。

（1）过去哪些时段，内部网络可能发生过重要事件？包括系统更新、非工作时段服务器高负载、数据库访问量激增等。

（2）在这些重要事件中，是否存在非周期性活动？这些活动发生在网络结构的哪个部位？

（3）这些可疑活动在网络结构中的主要表现是什么？造成的影响有哪些？

（4）可否通过日志数据之间的关系，映射定位攻击源？包括攻击IP、攻击者和攻击类型。

（5）在初步确定事件发生的时间、位置和内容后，通过分析受害资产与内网流量，能否在一定程度上还原攻击路径与攻击手法？

对上述问题进行总结后给出系统需要完成的任务：

（T1）企业内部资产的特征识别和负载分析。分析安全日志数据中存在的异常事件，首先探索公司内部的网络结构特征，结合工作时段与非工作时段服务器访问量、主机通信频峰等的变化情况，分析企业资产负载。

（T2）支持分析和提取可疑用户的行为特征。不同类型的用户在操作记录中的差别很大，横向对比某项指标的分布情况，可初步确定异常用户。

（T3）攻击事件还原。确定攻击事件发生的时间、位置、内容、攻击源，找到各数据指标之间的潜在关系、还原网络攻击场景。

2.4 模型

为便于从网络的整体分析中探索网络流、协议等可能存在的安全事件，确定各可疑操作具体的时间节点与操作用户，判断其在空间、时间、人员往来上的关系，设计并实现了以下可视表征方式。

2.4.1 基于故事线的用户操作可视化表征方式

Timeline 图给出了用户操作的时间维度分布概览。以竖轴为参考线，通过增加圆角矩形的方式，记录用户在系统中选中的协议名称和IP 地址。用灰度编码区分用户选中的节点类型，将协议所在的圆角矩形放置在参考线的左侧，将IP 所在的圆角矩形编码放置在参考线的右侧，便于用户快速准确定位操作记录。

2.4.2 用户行为特征可视化

为实现对用户行为特征的提取，用密码气泡图呈现数据库用户的密码修改频次。密码气泡图以时间为横轴、用户为纵轴，气泡半径与密码修改频次呈正比。根据密码气泡图的波动情况，通过横向对比了解当日不同时间段用户的密码修改状况，初步确定可疑用户。

为研究用户在数据库中的详细操作和了解其在流量方面是否存在可疑的行为模式，引入了词云图和流量折线图，辅助对可疑用户的筛选。词云图呈现该可疑用户在当日数据库中的结构化查询语言（structured query language，SQL）操作，用字体大小编码该词在日志记录中的出现频次，增强用户对SQL 高频词汇的视觉感知。根据流量折线图的波动情况，探查某用户的流量数据随时间的变化规律，帮助发现和定位一些离群的异常时间节点，如严重偏离均值的时间节点，再对这些异常时间节点进行特殊分析。

2.4.3 通信流量可视化

除用户在数据库中的操作外，不同协议下的网络通信流、IP 对之间的通信频次、上下行流量包等统计信息对于异常行为的研究同样具有价值。Sankey 图可呈现数据流动的特点，用其表示流量之间的通信关系。当用户在PBNLD 中选择某一协议后，呈现该协议下高频通信的前20 个IP 对，Sankey图中的节点表示各主机的IP 地址，边的宽度与主机之间的通信流量呈正比。

与工作时段相比，非工作时段IP 对的通信频次和流量数据包的大小差异很大。为探索流量数据与时间的关系，当用户在PBNLD 中选择某一协议后，用带有缩放滚动条的流量双折线图对该协议在某日24 h 内的上、下行流量包进行可视呈现。横轴为时间，时间间隔为5 min。双侧纵轴Y1，Y2 均表示流量数值，上侧折线图为下行流量走势，下侧折线图为上行流量走势。

2.5 评估

对网络进行行为分析时，不仅要挖掘网络流量的表面特征和用户倾向性行为的单次活动，还应加强对内部特征和多类事件在空间、时间上的关联性的挖掘［19］。为有效呈现网络行为的变化特征，辅助攻击事件的回溯，本文提供了3 种主要的交互手段：

（1）拓扑结构定位与查询。在PBNLD 视图中，通过点击目标协议节点，过滤得到针对该协议的主机行为关系聚类图。在辅助分析的可视图中，双击某节点即可在主机行为关系聚类图中通过标红的方式呈现该节点的位置结构信息（图3）。

图3 基于主机行为关系聚类图的交互操作Fig.3 Interactive operation of behavioral relationship diagram based on host clustering

（2）基于Timeline 的操作记录回溯。系统中用户所有的点击操作都将记录在Timeline 图中。当用户新选中的IP 地址与上一IP 地址所属协议类型不同时，系统首先在竖轴上自动补全当前IP 地址所属的协议节点，再添加IP 地址节点，辅助规范记录。同时，当用户选中Timeline 图中任意一个节点时，系统高亮该节点在其他视图中的分布，实现对用户操作的回溯。

（3）多视图协同关联。多视图协同交互可有效帮助完成分析任务。借助PBNLD 与嵌套饼图，有效识别企业内部网络资产；借助密码气泡图、Timeline 图与词云图，聚焦企业内部异常员工，提取用户行为画像；借助主机聚类图、PBNLD、上下行流量图与Sankey 等共同确定可疑主机，探索网络流量中的异常行为。

3 系统构建与分析评估

3.1 数据介绍

本文使用的网络日志数据集来自某高新技术企业公司，该公司内部重要系统被攻击，导致重要数据泄漏。日志数据跨度共14 d，主要包含3 种类型：（1）tcpflow 日志。该日志为传输层的数据传输记录，包含生成时间、使用协议、目的端口和上下行数据包的字节数等。（2）db 日志。MYSQL 数据库日志包含记录的生成时间、客户端IP 地址、目标地址和用户的SQL 语句操作。（3）login 日志。记录FTP、SMTP、POP、SMB 和数据库中用户登录情况，包含用户登录名、用户状态（主要包括登录成功、登录失败、密码错误、密码修改成功等）和用户经过加密后的登录密码。

3.2 系统描述

基于以上分析，提出了基于SEMMA 的网络安全事件可视探索系统（图4），用多视图可视化企业主机通信、行为聚类与行为特征信息，通过不同视图间的联动进行异常和变化规律分析，系统主要提供3 类可视分析功能：

图4 系统界面概览Fig.4 System interface

（1）基于网络通信和企业资产分类的可视化（T1），PBNLD 可直观呈现某日网络协议的使用情况及通信流走向，利用模糊C 均值算法度量主机之间的关联特征，根据差异分布指导主机的行为聚类，帮助挖掘企业内部网络结构特征。

（2）基于login 日志和db 日志的用户特征提取可视化（T2），其中密码气泡图描述用户密码修改频次，词云图描述用户常用的SQL 操作，折线图描述该用户的上/下行流量数据的规模与时间的关系，三者联合可直观地提取用户行为，有效描述用户行为画像。

（3）基于流量数据的异常分析可视化（T2，T3），综合考虑流量数据分析结果与其他数据的关联关系，引导用户关注和追踪异常的可视化结果，进而实现攻击事件回溯。

3.3 企业资产的发现和分类

分析多源日志数据中可能存在的异常安全事件，首先提取网络结构特征，识别并对企业资产进行分类。本文结合嵌套饼图和基于模糊C 均值的主机聚类识别网络资产（图5），初步提取以下特征：

图5 某企业网络资产结构Fig.5 Network asset structure of an enterprise

（1）在PBNLD 中，发现该企业通信协议中包含HTTP、MYSQL、REDIS 与FTP，即该企业内部网络资产中除常用的工作组服务器外，可能还包括FTP 文件服务器、MYSQL 数据库服务器、REDIS存储数据服务器。

（2）在对网络资产进行分类时，以HTTP 协议为例，分别从源IP 与目标IP 两方面统计网络通信量最大的前5 个网段。

企业客户端通信量最大的前5 个网段分别为10.49，10.56，10.60，10.54，10.65，目标网段访问量最大的前5 个网段分别为10.49，10.24，220.181，180.149，10.39。即公司业务均在内网进行，其中10.49 网段最为活跃，初步判断该网段运行公司关键业务。

（3）在目标网段中，220.181 与180.149 网段分别为公网C 类地址和公网B 类地址，其余均为内部网段，可合理判断公司内部网络通过上述2 个网段连接至互联网，即220.181 与180.149 为该公司路由器IP 地址范围。

3.4 基于用户的异常行为探索

监测异常活跃主机及数据库访问量的变化情况，可辅助聚焦企业内部异常员工，确定用户行为模式，描绘用户行为画像。按照本文提出的网络安全事件分析模型，在点击PBNLD 中的MYSQL 协议节点后，得到针对MYSQL 协议的各类可视图，辅助特征探索。按照4W1H 原则，初步提取以下特征：

（1）借助密码气泡图，可发现在6 月10 日00：00，用户jxd_gdxj的数据库密码有反常的高频修改行为，在1 h 内，共修改1 627 次；

（2）在Timeline 视图记录该用户并回溯至PBNLD 的高亮关系中可看出，当日该用户仅与数据库服务器存在数据交流；

（3）借助词云图呈现该用户的SQL 操作，确定该用户高频使用“set”“select”“autocommit”等语句对数据库中“cars7295”表单进行查询修改操作；

（4）通过监控该用户的上、下行流量发现，该主机在当日凌晨01：25，上、下行流量各出现一次激增。

综上所述，可初步得到员工jxd_gdxj 的行为画像。jxd_gdxj 可能是一名具有高权限的数据库管理员，其在企业内网的IP 地址为10.56.92.187。6 月10日00：00，其数据库登录密码遭到攻击者的暴力破解，并在01：25之前破解成功。攻击者利用jxd_gdxj的数据库权限不断查询IP 地址为10.24.249.104 的企业数据库内部含敏文件，并在01：25—01：35 成功下载至本地。攻击者还利用该用户的写权限，成功上传“后门”文件，以达到日后绕过系统安全设置，直接获取对数据库的访问权限的目的。6 月10 日与该数据库通信的IP 地址还有10.49.21.15和10.56.92.125，通信频数分别为7 和14，与企业内部的正常访问频次相符，排除被攻击的可能。分析过程见图6。

图6 基于用户的异常行为探索Fig.6 User-based exploration of abnormal behavior

3.5 基于网络流量的异常行为探索

拒绝服务攻击和恶意代码扩散，在流量方面体现出一对一、一对多等特征，造成流量异常。监控网络流量可帮助管理员快速、准确地发现网络攻击，并对攻击类型进行分类。在对比分析PBNLD 中的HTTP 协议节点后发现，企业日常数据流量具有相似性。按照分析模型中的4W1H 原则，初步提取了以下特征：

（1）6 月10 日20：50—22：50，通过服务器负载监控视图，发现 web 服务器 10.24.64.118，10.24.172.153，10.49.253.53 与10.49.17.199 负载激增。此时段上述服务器均宕机，通信频次和通信总量均为0。

（2）利用Timeline 视图记录与发生宕机的服务器地址通信的主机IP 地址并回溯于系统各个视图中，确定嫌疑主机，包括10.49.137.7，10.56.131.163，10.49.253.35 等。

（3）以10.49.137.7 为例，借助基于流量的双折线图和Sankey 图的协同交互，在6 月10 日、6 月11日、6 月13 日晚，发现IP 地址为10.49.137.7 的嫌疑主机上、下行流量走势呈规律性变化，持续向某服务器发送相同大小的数据包并下载某文件。

根据上述特征，初步判定攻击者可能对公司服务器实施了DDOS 攻击，使其对外拒绝服务，业务无法正常运作，即企业内部IP 地址为10.49.137.7，10.56.131.163，10.49.253.35 的主机因3389 端口开放，感染木马病毒或存留有后门程序，被攻击者一对多或多对多远程控制，集体制造高流量无用数据，消耗公司对内业务的web 服务器，致使其网络瘫痪，服务器系统崩溃，发生宕机。分析过程见图7。

图7 基于网络流量的异常行为探索Fig.7 Traffic-based exploration of abnormal behavior

3.6 用户评估

为进一步评估本文工作，招募了20 名相关领域专家作为志愿者，年龄在18～50 岁，13 名男性、7 名女性。其中，有9 位志愿者的研究领域为数据可视化，对可视化十分熟悉；有6 名志愿者的研究领域为信息安全，他们均了解并使用过静态可视化图表；另外5 名志愿者的研究领域为网络安全可视化，使用过网络安全数据并在相关领域有一定成就。20 名志愿者首先通过15 min 的系统操作了解视图内容和视图间的交互操作，然后根据任务要求操作并回答问题。表1 为用户实验的3 个任务。

表1 用户实验任务Table 1 User experiment tasks

第1 和第2 个用户实验任务是测试本系统能否有效挖掘异常流量事件与发现异常用户，第3 个用户实验任务是测试本系统可视视图设计的合理性。实验任务完成率见图8。

图8 实验任务完成率对比Fig.8 Comparison of experiment task completion rates

从统计结果看，在任务1 中，绝大部分用户都可从异常流量的可视分析界面中得到一致的选择。所有用户均认为6 月10 日服务器存在异常变化，62%的用户成功得到正确的可疑主机10.24.64.118，10.24.172.153 与10.49.253.53，只有2 位选择了10.49.117.56 和10.56.21.106。在对系统的改进建议中，有超过20%的用户提出PBNLD 中协议节点簇存在点重叠问题，建议添加放大功能或使用列表呈现所有的节点，“虽然系统对每个协议下通信量最大的前20 个IP 对做了可视呈现，规划了值得关注的IP 范围，但希望能更容易地在PBNLD 中选中IP地址”（5 名数据可视化专家）。

在任务2 中，80%的用户认为值得怀疑的3 名可疑员工为jxd_gdxj、lss6 和uyhrnf，jxd_gdxj 以轻微优势超过另外两位。部分用户被误导主要是其只关注了当前数值的大小，未考虑异常行为的变化。“有的主机或用户可能平常通信量很少，但是在某日出现激增是值得怀疑的。单纯由通信总量确定嫌疑范围可能会忽略值得注意的部分”（3 名信息安全专家）。证明本系统需要在交互过程中更好地引导用户关注行为变化和操作内容，有待进一步改进。

在任务3 中，90%的用户对安全事件的回溯正确率达60% 以上。这些高正确率用户均认为PBNLD 和Timeline 是最先注意到的图表，对分析任务很有帮助，认为PBNLD 可以帮助识别当日网络通信中协议的占比。Timeline 则可当作记录板，帮助回溯之前的操作记录。4 名网络安全可视化专家认为，PBNLD 有效构建了通信结构网，可对通信节点迅速分类，“PBNLD 的渲染速度很快，在选择日期后几乎一瞬间就加载好了。传统的网络关系图很久才稳定下来，PBNLD 在这方面很有优势”。“当看到Timeline 的操作记录时，就像有了一个更大的视角，可能会想‘原来我点击过这些IP 地址’，不用记住每个IP 地址，要知道记住很多无规律的数字很麻烦”。“Timeline 的自动补全协议和视图回溯功能很棒，可防止IP 地址协议的混乱，也有助于看到某个IP 地址在整体网络通信中的位置”（2 名信息安全专家）。

4 结论

引入了数据挖掘中经典的SEMMA 分析范式，提出了一个通用的安全分析模型和一套规范监测、提取异常事件的分析思路，设计并实现了基于SEMMA 的网络安全事件可视探索系统，结合模糊C 均值算法量化主机行为，识别网络资产结构，并用PBNLD 构建通信模型，实现对较大规模通信节点的分析。从结果看，用多维度衡量安全特征之间的关系，有效构建了企业内部网络资产结构。

结合用户评估，后续将在以下两个方面做进一下改善：（1）完善PBNLD 通信模型，考虑将PBNLD中的通信链路与通信频次或通信量绑定，更好地呈现节点簇中所有的IP 节点。（2）在研究中加入机器学习，采用无监督学习的方式，使得安全特征的提取和异常事件的定位更加智能化，并允许分析人员在特征选择过程中进行实时交互。