基于UEBA的数据泄漏分析

2018-08-27 08:30:42观安信息技术股份有限公司上海200062

信息安全与通信保密 2018年8期

（观安信息技术股份有限公司，上海 200062）

从近期发生的安全事件可以观察到这样一个趋势：即安全事件正从传统的攻防、从针对业务系统或者主机设备进行攻击的事件，转向了侧重于针对数据泄露、数据篡改的事件。进入DT时代，数据的价值被大家逐渐认知，同时，数据也成为企业的核心资产。因此，这些年来，针对数据的安全事件也层出不穷。2017年发生的数字泄漏事件比2016年增长了13%。同时，个人信息的泄露在数据泄漏中占的比重非常多，达到49%。在2017年差不多有近100多亿条的数据造成了泄漏。此外，内部安全威胁也在逐渐加剧，CERT调研显示53%的企业认为内部威胁远大于外部威胁。

1 数据违规的生命周期和企业应对措施

数据泄露行为从技术的角度可以分成四个环节：探测、横向移动、数据的访问和收集、数据泄露。在每个环节都有一些典型的行为特征，比如：探测环节的典型特征包括：恶意软件、账号被盗；横向移动环节的典型特征包括：平行移动、不正常的登录；数据的访问和收集环节的典型特征包括：大量数据访问、应用账号滥用；数据泄露环节的特征包括：不正常的对外连接、突增的网络流量等。

企业针对数据泄露行为的检测，可以收集相关安全设备日志或者IT设备的日志，然后利用用户和实体行为分析（User and Entity Behavior Analytics,UEBA）技术进行数据泄露风险的分析。比如：利用用户的一些登陆、登出的行为，发现帐号是否存在被劫持或者被盗用的风险；或者通过网络流量的历史访问数据，建立动态的基线，从而发现当前流量是否有异常。

2 UEBA的价值与核心理念

UEBA是指用户和实体的行为分析，比较适合敏感数据泄露的分析。可以利用一系列的基础分析手段和高级分析手段来提供用户行为模型和异常侦测。根据Gartner的预测：“2020年之前，会有25%的SIEM厂商会通过收购、合作、自主开发来增加UEBA的功能。”观安信息也提供了基于数据访问分析的UEBA解决方案。

UEBA为什么这两年在国内得到快速地认可呢？UEBA的核心定位是“人”，即检测用户行为是否异常。所以说，它跟传统的安全手段不太一样。传统的安全手段关注安全事件，比如病毒和木马。UEBA能帮助用户发现一些可疑的行为尤其是内部可疑行为，能够为安全人员的行动迅速指明方向。UEBA有两个优势：①更容易找到存在异常行为的人或者说坏的“人”。UEBA是长时间、持续性地对用户的行为进行记录和分析，通过历史行为分析来检测当前的一些操作是否存在异常，这样就能大大削减告警的数量，能够迅速地关注到存在的风险点。②因为是基于“人”的视角判定，所以可以更直接地让我们的审计人员、安全人员快速地定位到这个“人”的恶意操作行为。

UEBA的技术核心理念，就是上下文感知，是基于对用户、终端、文件、网络或者是其它一些实体，来构建上下文的联系。比如：人的这些基础的、自然的属性，包括他的部门、职位、帐号、权限以及其它一些信息，都可以作为分析实体来构建上下文内容。同时，UEBA的价值在于产生内部威胁的异常行为事件。而异常行为事件或规则的制定，简单的方式是基于各种类别内部数据进行针对性定义，是来自于安全经验和客户环境和场景的驱动。

3 观安的UEBA解决方案

观安的UEBA整体解决方案的思路，分为四层——数据源层、数据处理层、分析引擎层、展示层。分析引擎层有两个特点，第一个特点是基于用户访问数据自动生成安全基线。比如针对访问数据库的行为，从谁访问的、如何访问、访问了什么数据、同一类型的用户访问行为是不是一致、访问量多少、什么时间访问等多个维度来构建动态的基线。这比传统的基于规则或者基于阈值的检测大大提升了检测的准确度。举例来说，我们一些客户核心业务系统中防止数据泄漏的做法，是针对一些营业人员的高频次访问客户详单这种敏感操作做安全审计，采取了一刀切的审计策略。比如：营业人员如果一天内上千次的查客户详单，认为会涉及到数据泄露风险。但是每个公司下面各个营业点或者各个子公司的业务量是不一样的，业务有繁忙和空闲周期，这里面就没办法有效的查出真正的“有数据泄漏”的点，反而有很多误报。这里我们可以基于动态基线，结合每个人的操作历史行为、登录地等特征，再结合历史操作的量来对今日的操作行为进行判断，这样的一个检测效果就会比原来检测的准确率提升很多。

第二个特点是用到机器学习的模型。比如针对敏感数据接口调用，我们可以采用孤立森林算法。采用机器学习的时候，从帐号、IP、时间、接口四个角度，多维度综合数据特征。比如：帐号的角度，可以考虑帐号的类型、账号登录次数、以及帐号接口调用数、账号关联系统类型等维度数据。IP的角度，可以考虑IP的接口调用次数、IP关联的接口类型等维度。时间角度可以从访问时长、访问的时间是不是工作日、时间间隔等维度。基于这些维度数据，结合孤立森林算法来进行异常行为检测。

图1 案例分析

以一个客户的实际案例来解释，从图1可以看到，敏感数据接口的访问行为中，基于这些维度的数据，通过孤立森林算法来判断是否有异常的行为。最右边的得分数值越高，异常概率越高。我们也用了图示的方式来呈现，左边的图中红色的线代表是置信区间。在置信区间内访问的点，代表异常概率相对较低的访问行为。在置信区间外的，代表异常概率相对比较高的访问行为。

基于机器学习分析的方法，我们也对一些典型的场景和一些重点的分析维度做了一些汇总。核心还是基于用户和数据，因为大部分的数据泄漏风险还是在用户和数据交汇点。我们在用户的层面，会关注用户的身份，包括：账号、IP信息、使用的软件等。访问的数据层面，我们就关心访问的具体数据内容，包括：执行的一些具体的操作、时间、数据量、文件类型和大小等。

总结UEBA在数据泄漏分析应用上主要呈现以下特点：

一是对用户、终端、文件、应用和其他实体构建上下文。以用户上下文为核心实现驱动或关联数据，实现行为分析和异常检测。

二是除了传统的规则以外，专门构建的机器学习算法可以产生高度可信的结果，这有助于事件响应和寻找威胁。

三是以部门、个人、资产、资产群等为单位建立多维度行为基线，关联用户与资产的行为，用机器学习算法和预定义规则找出严重偏离基线的异常行为。

四是提供基于用户的调查分析工具，全面掌握用户信息和行为轨迹，让异常用户无所遁形。