实现虚拟机敏感数据识别

2020-06-20 13:02中国移动通信集团天津有限公司李越鹏

网络安全和信息化 2020年6期

■ 中国移动通信集团天津有限公司李越鹏

云计算环境下，很多业务部署在虚拟机资源池，包括客户身份相关数据、客户服务内容数据、用户服务衍生数据等。在云环境中，由于存储、计算的多层面虚拟化，带来了数据管理权与所有权分离，网络边界模糊等新问题，与传统环境相比，在敏感数据识别方面存在更多的困难和风险。这些问题会导致企业面对急速增长的数据安全问题无法做到主动发现、动态识别敏感数据，甚至于因问题资产检测遗漏引发的安全事件在爆发后相当长的一段时间后才被知晓，安全管控措施较为被动。

本次研究基于云计算环境，设计了两种方式的识别敏感数据。一是通过主机Agent抓取数据库、文件夹、文件中的数据，根据规则匹配其中的敏感数据，以得到敏感数据资产。二是利用网络流量分析技术，通过在核心交换机上部署TAP设备，对流量数据进行镜像采集和分析，进而识别敏感数据，实现对虚拟资源承载的敏感数据的有效识别。研究关注的焦点是敏感数据的有效识别，形成有效信息载体清单用于后期实施控制，对于出云敏感数据的实时监控和告警，不涉及分类后控制管理工作。

基于主机Agent的敏感数据识别

本次研究采用在主机上部署Agent，实现对数据库、主机承载的敏感数据资产的自动化采集。

动态敏感数据识别引擎通过集成数据库表结构、主机目录（文件）的Agent作为采集引擎，采用规则、特征库以及SQL语句处理，实现完全不影响业务系统正常运行的“无损探伤”模式的采集分析功能，对包含个人敏感信息的数据进行识别、特征提取从而进行智能发现，以实现全面掌控数据库、主机的数据资产变化情况的目的。系统整体分为四套引擎，分别为：数据资产建模引擎、任务调度引擎、配置采集引擎和资产分析引擎。

1.结构化敏感数据识别流程说明

(1)连接虚拟环境中的数据库。

(2)解析数据库中的库表结构。

(3)根据库表结构，正确的获取数据库表中每条记录每个字段的内容。

(4)使用预先定义的敏感数据发现分类规则扫描字段内容，从而判断数据库中是否还存有敏感数据。

2.非结构化敏感数据识别

本次研究中使用了基于自然语言理解与机器学习的方法，实现敏感数据标签动态学习过程。通过扫描文件夹、文件中的非结构化数据，分析其中的敏感数据匹配度，突破了传统上依靠关键字、正则表达式的识别方法，实现敏感数据识别的智能化。利用机器学习算法对敏感字段识别不仅能够提高识别的准确率，同时也能提高识别效率，从而高效地完成敏感数据的存储策略制定和数据落库。

识别流程如图1所示。

流程说明：

（1）利用Agent递归扫描虚拟资源中所有文件目录，以便于发现其中的敏感数据，为了提高扫描速度，支持对不同操作系统的扫描路径进行优化。

（2）扫描到压缩文件以后，会将压缩文件展开，以便于后续进一步扫描压缩文件中的相关数据。支持逐级展开级联压缩的压缩文件，以保证压缩文件中所有的数据文件都会被展开，避免漏扫。

图1 识别流程拓扑结构

（3）解析文件格式，根据文件的二进制格式头判定文件的存储格式，然后根据文件格式提取文件内容。

（4）处理中文编码，由于常见的中文编码包含GBK，UTF8和Unicode，为了后续的监测敏感数据模块能正确工作，必须鉴别文件内容中中文的编码方式，以保证文件内容被正确理解。

（5）使用预先定义的敏感数据识别分类规则扫描文件内容，从而判断相关文件是否属于敏感数据。

基于网络流量的敏感数据识别

本次研究除支持基于主机Agent实现对虚拟资源的识别外，还支持从网络传输层面上发现敏感数据以及敏感数据的操作识别。研究过程是将TAP设备，并旁路部署在核心交换机侧，通过在核心交换机上的相关端口进行镜像，从交换机中获取访问各个虚拟机的流量,分离出来类似HTTP、FTP、SMTP、POP3等可以传输、访问文件的协议，并从这协议中获取传输文件、访问文件的日志，结合该虚拟机的敏感数据结果，进行分析、展示。

流程说明：

（1）采集TAP设备发送的网络流量数据。

（2）对采集到的流量数据进行协议解析，解析对象为支持文件传输及访问的协议，如HTTP、FTP、SMTP、POP3。

（3）提取协议中的文件传输及访问的日志信息。

（4）敏感数据信息进行比对。

（5）呈现敏感数据的分析结果。

研究成果

本次研究基于Agent和流量采集技术，集成敏感数据发现工具，实现云计算环境下，针对虚拟资源承载的敏感数据进行内容级的敏感数据发现，建立完善的虚拟资源发现流程，覆盖原云资源池数据识别安全盲区，建设效果如图2所示。

图2 建设效果图

1.资源管理能力：实现实时监控虚拟机的变化情况，实时掌握发生变更的虚拟机是否承载了敏感数据，采取有针对性的安全防护手段保护敏感数据；

2.敏感数据发现能力：敏感数据的准确发现和识别是敏感数据防护的基础，在私有云环境中，敏感数据多以文件的形式存储在虚拟服务器，本期项目实现基于自然语言处理的敏感数据文件内容识别功能，能够关联文件内容的语境、语义进行敏感数据内容的发现，且只需要遍历一次文件内容，将提升敏感数据内容发现的准确率，大幅降低对服务器性能的消耗。

3.终端管理能力：无法识别用户通过瘦客户端访问虚拟桌面的源IP地址，进而不能定位发生的安全问题；能够自动分析搜客户端的源IP地址，实现虚拟桌面操作和传输敏感数据行为监控。

4.敏感数据传输监控能力：目前的敏感数据传输监控只支持FTP、SMTP、HTTP三类协议，在云环境下，除支持FTP、SMTP、HTTP三类协议外，还需要支持SFTP、封装API的协议。

5.增强敏感数据管理和展现：通过多种不同的方式对敏感数据进行展现，包括建立敏感数据资产载体视图、敏感数据报表等方式，直观地对敏感数据进行展示。

6.云资源池安全防护策略制定和推进：云资源池虚拟机敏感数据高效识别，目前已完成，下一步考虑在敏感数据泄露风险的快速响应工作，制定敏感数据防护策略和规范，从而进一步提升敏感数据的安全防护。