于文良 马田良 黄 鹏 邱 杰
1(中国电信集团有限责任公司 北京 100029)2(北京易华录信息技术股份有限公司 北京 100043)3(中电信数智科技有限公司 北京 100035) (yuwl@chinatelecom.cn)
运营商用户信息是指用户身份、用户细分、用户需求、用户联系方式、用户服务内容等基本资料,如用户身份和标识信息、用户网络身份鉴权信息、服务内容和资料数据、用户服务使用数据、设备信息等.运营商用户信息是运营商核心的无形资产和企业的重要生产要素[1].这类信息如果被违规存储、使用、泄露,会导致企业信誉品牌受到重创[2],还可能会给用户信息的所有者带来重大的损失.电信诈骗就是最典型的事件,运营商用户信息是电信诈骗活动所需的关键要素[3].当前网络应用非常普及,网络或应用系统中的用户信息非常容易被获取,各国对用户信息安全保护也非常重视.放眼国际,欧盟将个人信息作为公民基本人权加以严格保护[4].Michelfelder[5]提出了个人隐私信息的保护主要运用到企业自律、技术手段、法律支撑3种方式.在国内,中国运营商的移动通信网络成为用户信息安全的关键出入口[6].我国也出台了相关的法律,来保护个人信息不被违法滥用.但是,因各方面的原因,网络或应用系统中的用户信息安全按照相关政策和要求落地实施存在一定困难.因此,需要对重要网络或应用系统中的用户信息数据进行安全检查,以发现其中存在的潜在用户信息数据泄露风险,提前对风险进行预警和处置.
用户信息数据是系统关键数据之一.随着技术的发展和新的应用场景出现,对用户信息数据安全进行检测越来越重要.预防运营商用户信息泄露在一定程度上可以预防网络电信诈骗.
根据《中华人民共和国个人信息保护法》《基础电信企业数据分类分级方法》《基础电信企业重要数据识别指南》和工信部《2021年基础电信企业行业数据安全标准》等相关要求,对运营商核心系统中的用户信息进行安全检测,检测其是否存在用户信息不合规情况或安全风险.
运营商用户信息的检测包括全生命周期安全评估和技术检测2个方面,以保证检测结果的全面性和准确性.全生命周期安全评估包括:数据采集、数据识别、数据加密、数据脱敏、数据传输、数据存储、数据使用、数据开放共享、数据销毁等;技术检测包括:数据泄露防护、操作审计、接口安全管理等检测项.
对运营商用户信息进行安全检测,现有的方法是生成多个用户信息最优特征子集,再进行学习和检测,忽略了用户信息的权重,导致检测结果偏差大[7],也有基于脆弱性网络的用户信息安全检测[8]和基于用户行为日志的采集和分析的安全检测技术[9].本文分析了当前已有用户信息的安全检测方法的优缺点,采用了动静结合检测的方法,即对检测目标中的用户信息根据其环境进行分类:动态环境中的用户信息采用动态检测法,静态环境中的用户信息采用静态检测法,而对于很分散的终端上的用户信息,则采用agent或代理模式的终端检测法.
用户信息动态检测法主要流程如下:1)收集系统相关信息,以确定检测目标对象;2)对业务行为数据进行分析,创建正常业务行为模型;3)使用离群挖掘方法计算各行为离群度,对历史安全事件行为信息进行数据训练.用户信息安全动态检测,根据文件、应用及数据库表的操作日志和访问日志,以及SQL语句的解析、API的调用等构建分析主体、设备、应用和数据库表的行为关系图谱,明确数据资产分布、数据流动情况,作为动态分析.
信息安全行业常用的动态采集方式有以下几类:1)snmp trap方式.利用简单网络管理协议对网络进行管理和信息采集,snmp trap是将snmp mib作为基础对设备信息进行收集,如果设备参数或者状态出现变化,会自动更新相关信息和数据.2)日志采集方式.日志服务器中配置安全设备日志管理,对日志数据进行接收,并将日志数据写入数据库.3)镜像流量方式.是指复制交换机等网络设备端口流量到另外端口,通过文件还原的方式解析出需要的信息,如SQL语句的执行情况、API接口的调用等.4)使用蜜罐、APT沙箱等检测工具,对传输过程中的app,exe等可执行文件进行沙箱模拟运行,形成安全性报告.
综合上述动态检测工具和方法,在日志和流量方式的基础上,增加用户实体行为分析(user entity behavior analytics, UEBA)的数据建模能力,来分析和检测运营商网络中用户信息的安全.其处理过程如下:1)从文件、日志、数据库等采集用户数据;2)对数据处理缓存和格式化处理,将处理后数据存储到数据库;3)通过规则引擎、用户属性、基线数据库等,进行关联分析和风险分析;4)分析的结果存储到数据库.UEBA模型逻辑处理如图1所示:
图1 UEBA模型逻辑处理
UEBA对系统日志、设备日志、安全设备日志、网络设备日志等进行规范化预处理,并提供存储、检测、分析、检索功能.支持对日志、网络层元数据、应用层元数据等结构化数据的分布式存储.对结构/半结构/非结构化数据进行索引,并对所收集到的日志数据进行索引.
UEBA区别于传统的规则和特征分析技术,更加注重于行为异常的分析,目前主要使用2种行为挖掘引擎:
1) 多维度行为基线引擎.
该引擎通过提供罕见值模型、时间序列模型以及聚类等无监督学习模型,分析用户行为来判断运营商用户信息的风险情况.
2) 用户及实体的行为会话重组引擎.
该引擎为行为序列模型提供行为特征的分析计算,以部门、个人、资产等为单位,建立多维度动态行为基线,关联用户与资产的行为,用机器学习算法(基于数量、关联关系、行为序列,上百个模型)和预定义规则找出严重偏离基线的异常行为,判断用户信息是否存在异常风险.
用户信息静态检测法主要是对系统中的数据库数据、文件数据、大数据平台中存储的数据进行分析和检测.其检测过程如下:1)用户信息资产自动发现.采用网络嗅探、端口扫描等技术,实现指定IP和端口范围内存活的数据库及ftp/sftp资产中用户信息的自动发现.2)基于用户敏感信息特征、识别策略及识别模型,使用爬虫等技术扫描文件系统,用数据库扫描工具进行用户敏感信息识别定位,形成敏感用户信息识别策略集.
根据建立的敏感信息策略集,通过白盒测试方法,对系统中的文件、数据库中数据、大数据平台中存储的数据进行静态扫描,发现敏感的用户信息是否进行了保密性处理等.
对于非存储型终端采用agent与代理的方式进行数据采集.目前agent主要分为用户态和内核态,代理方式主要采用透明代理.
agent用户态:主要用于扫描当前终端中存储的数据是否涉敏.
agent内核态:主要用于解决https等加密流量的动态收集.
透明代理:由于agent的内核态会消耗相当一部分的硬件性能以及设备的带宽,因此更普遍的方式为采用代理的方式进行https等加密流量的动态收集.
目前针对于终端加密流量(SSL流量)的分析处理,主要采用SSL卸载的方法来实现.
为确保用户信息安全管理符合要求,根据主管部门相关工作考核要点与评分标准,从数据识别能力、数据脱敏能力、接口安全管控能力、数据防泄露能力及数据库审计能力等方面进行评估检测.
对网络或应用系统中的用户信息安全检测主要包括管理面的检查和技术面检测.管理面的检测主要以访谈、资料审查的方式进行,技术面检查主要通过检测工具进行检测.
1) 用户信息识别配置.对工具按检测的流程进行配置,包括用户信息资产的发现和识别、敏感信息策略配置等,如图2所示:
图2 用户信息资产识别
通过工具扫描探测功能,发现被检网络中可承载用户信息的IT资产信息.对于已知的资产信息,直接通过模板导入到系统,再根据系统账号,对关键资产按检查项进行配置,如数据库、文件系统等.
2) 策略配置.根据确定的敏感信息,选择敏感信息策略.在配置策略时,如果敏感字段信息不包含在工具中,通过自定义策略进行添加.敏感用户信息识别策略如图3所示.
3) 检测扫描.对选定的资产目标按策略进行扫描检测.在检测过程中,工具不能直接判定的检测内容,辅以人工检测方式.最后得到安全检测的结果,如表1和表2所示.
表1是检测中发现存在的风险项,在本次检测中,主要问题是存在的敏感信息未脱敏的情况.因为被测系统是仅限公司内部有限人员访问,所以风险等级评估结果是“低”.如果这类系统面向互联网或外部人员开发,风险等级评估结果就会是“高”.
表1 存在的风险项
表2中列出了技术安全检查项和检测结果.在本次实践检测中,数据脱敏不完全通过.
通过图4可以看出,用户信息在传输、展示和流转过程中,被检测系统存在对敏感数据脱敏处理不完全的问题.
图3 敏感用户信息识别策略
表2 技术安全检查结果
图4 用户信息脱敏
运营商用户信息的安全检查非常复杂,其安全检查项也非常多,很难在短时间内完成全覆盖检测,需要根据实际的检测场景,有针对性地对关键环节、关键点进行检测.单一的人工检测无法发现隐藏的风险,完全依靠检测工具容易存在漏判和误判,需要检测工具加人工辅助才能尽可能保证检测的效果.结合用户信息检测实践,运营商用户信息的安全问题主要集中在3个方面.这也是在运营商用户信息安全工作中需要重点关注的风险点.
1) 账号、权限、API等是用户信息保护的薄弱点.
用户凭证泄露是导致用户信息泄露的主要因素.账号作为主体访问客体的重要凭证,在通过安全验证后可以直接访问数据库、数据仓库等载体的数据资源,保障账号安全是用户信息安全工作的重要内容之一.应用系统在不断增加,系统间的数据交互越来越普遍,但对系统API的调用没有给予最小化的访问权限.同时,高频数据访问账号的共享及弱口令设置等问题也特别突出.这一系列问题会导致用户信息保护的风险点进一步增加.
2) API防护缺失,成为用户信息泄露最大的风险.
API作为系统数据连接方式,其安全风险重视程度有待提高.API格式的多样性、复杂性增大安全挑战.随着业务场景的动态发展,API的协议和格式也发生快速变化,API在广泛应用的同时,也引入了大量数据安全挑战.
3) 用户信息安全状态持续保障是落地难点.
用户信息资产梳理不全面导致安全保障不彻底.随着数据处理技术的不断成熟,数据量呈PB级增长,业务的持续扩大与数据应用的不断裂变,海量、多元和非结构化成为数据发展新常态.企业通常在数据治理阶段并未全面考虑相关的安全特性,数据本身又因为特征多、分布散,关联关系复杂等特性,造成大量低质量、关系模糊的数据存储在分散的数据载体中.这给企业用户信息资产梳理造成了困难,而建立在用户信息资产梳理基础之上的持续安全保障更是难以实施.
用户信息融入在网络和系统各个层面,特别是运营商用户信息其重要性不言而喻,安全性也更复杂.对运营商用户信息进行安全检测是非常必要的.在系统的不同节点,运营商用户信息的安全建设和检测方法不尽相同,所以对运营商用户信息的检测需要结合具体的场景施行相应的检测方案,不能仅通过工具进行定期检查或检测.对于系统中用户信息数据的薄弱点需要增强检测力度和频度,根据检测结果督促及时整改,以确保运营商用户信息全生命周期的安全性.