王邦礼,冯中华,赵思宇,尚 旭
(中国电子科技集团公司第三十研究所,四川 成都 610041)
在享有“大数据时代的预言家”之称的全球数据科学家维克托·迈尔-舍恩伯格所著的《大数据时代》一书中提出“大数据”概念,该书前瞻性地指出,大数据带来的信息风暴对我们的生活、工作和思维习惯带来了变革性的改变[1]。随着第三次信息化浪潮的涌动,见证了互联网公司利用大数据技术对我们生活产生的巨大影响,可以毫不夸张地说,现在我们的生活已离不开大数据技术应用。在2020年5月,国家工业和信息化部发布《关于工业大数据发展的指导意见》中,提出“推动工业数据全采集、加快工业设备互联互通、推动工业高质量汇聚、统筹建设国家工业大数据平台、推动工业数据开发共享、激发工业数据市场活力、深化数据应用、完善数据治理”[2]。由此可见,大数据已成为国家发展的重要战略,已深入国家发展的关键领域,因此安全作为国家大数据发展的基石将面临越发严峻的挑战。
目前大数据在安全方面的研究还远远跟不上大数据技术的发展。2020年1月,微软披露了存储客户支持分析上的数据大量泄漏,该数据安全事故发生在2019年12月,由于服务器存在漏洞,造成2.5亿个条目在没有任何安全保护措施的情况下泄露。后经调查分析,用于进行搜索操作的数据库由5个ElasticSearch服务器组成,该服务器上的安全规则配置错误导致安全漏洞。2020年4月,经医疗巨头公司麦哲伦健康证实,由于受到勒索软件和数据泄露攻击,大约有36.5万名患者信息遭到了泄露。攻击者通过安全恶意软件盗取员工的登录凭证,再通过发送网络钓鱼邮件,冒充麦哲伦的客户进入内部系统完成信息盗取和勒索攻击。2021年1月,日本汽车日产公司由于一台服务器配置错误,导致公司Bitbucket Git服务器的信息在黑客论坛上开始传播,该服务器账户主要用于储存日产公司开发的应用程序和内部工具的源代码。在上述近一年发生的安全事件中可以看出,如何能近早发现已运行在大数据平台中的安全问题,这对各类安全防护技术已有迫切要求,将为我国信息化建设和国防事业提供重要保障。
首先,分析大数据目前研究现状;其次,基于大数据平台资产监控信息,提出了一种大数据安全稽查与风险评估框架,提前预防大数据平台中可能出现的安全威胁;最后,总结研究意义并对大数据稽查与评估技术进行展望。
大数据安全的研究在产业界和学术界已开展很多年,下面从大数据安全技术和大数据安全标准两个方面的研究现状进行介绍。
近年来,数据安全方面的研究受到越来越多的关注。在文献[3]中提到大数据生命周期可以分为数据生成、存储和处理3个阶段,在这3个阶段采用访问控制,利用数据伪造来保障数据的安全性。该文献中也提及对数据安全周期的定义各有不同,有些学者把数据安全周期分为4个阶段,分别为数据发布、存储、分析和处理阶段,但采用的技术基本一致,通过访问控制和数据伪造来防止数据泄露[3]。数据安全在大数据安全技术应用中,更多的关注点仍在保护数据的完整性和隐私性,但对于大数据平台自身安全的防护无法涉及,在实际大数据环境建设中,平台自身的安全防护相比于数据安全需要更早地建立。
在大数据安全研究中,由于不同的研究人员在需求理解、接触的大数据实际运行场景方面存在差异,导致其在研究上产生方向、力度、关注点的不同。大数据安全法律法规和相关标准是规范不同研发人员研究大数据安全防护的基础,从研发方向、深度、安全性防护能力等方面做出规范,是判定研发结果和大数据实际安全能力的重要依据。
2016年,党中央、国务院高度重视大数据发展,并将大数据安全及相关标准化研究成果作为国家发展的重要战略,要求尽快完善大数据安全相关法律法规和标准化制度。全国信息安全标准化委员会成立了大数据安全标准特别行动小组,通过参考大量国内外大数据安全相关标准、大数据技术,根据大数据产业的相关需求,在2018年4月发布了《大数据安全标准化白皮书》[4]。2017年12月,中国电子技术标准化研究院、清华大学和中国软件评测中心等互联网单位联合编写的GB/T 35274—2017《信息安全技术 大数据服务安全能力要求》,对大数据安全审查工作提供指导和依据[5]。
在国际上,多个标准化组织早已展开针对大数据安全相关标准化的工作,其中主要有美国国家标准与技术研究院(National Institute of Standards and Teachnology,NIST)、 国际标准化组织(ISO)/国际电工委员会(IEC)下的信息安全分技术委员会(SC27)、国际电信联盟电信标准化部门(ITU-T)等。NIST已公开发布的有关大数据安全的标准主要有8个方面的内容,分别为《数据完整性:从勒索软件和其他破坏性时间中恢复》《非联邦信息系统和组织的受控非机密信息的保护》《受控非保密信息的安全要求评估》《数据中心的系统威胁建模指南》《政府数据库去标识化》《个人可识别信息去机密保密指南》《个人可识别信息去标识化》和《联邦信息系统和组织的安全和隐私控制措施》[6]。SC27针对安全研究的不同方向,分别根据信息安全体系、密码技术与安全机制、安全评价和规范、安全控制与服务和身份管理与隐私管理5个方面设置不同的工作小组开展研究,目前已发布相关安全标准20项。ITU-T在大数据安全方面已发布4项相关标准,分别为《移动互联网服务中大数据分析的安全要求和框架》《大数据服务安全指南》《大数据基础设施和平台安全指南》和《电信大数据生命周期管理的安全指南》。
国内外不断对大数据安全的标准展开研究,目的是进一步规范大数据在实践应用中的合规性,提升数据安全保护能力。尽管目前国内外已公开发布很多关于大数据安全方面的标准,但在大数据平台实际建设和大数据技术实际应用中,这些安全标准的落地情况不是很乐观。在目前已有的大数据产品中,研发人员更多的去关注大数据组件功能的研发和性能的提升,淡化了大数据安全法律法规和标准。下一章节,本文将通过研究国内大数据安全标准为依据,提出一种大数据安全稽查与风险评估平台框架设计。
大数据安全稽查与风险评估系统对大数据平台组件自身安全脆弱性情况进行分析,实现对大数据平台中各数据全生命周期重要环节过程控制情况进行稽查和评估。该系统框架设计目标为核查大数据平台中各类组件安全策略以及安全过程控制等落地情况,判断各组件安全防护能力是否充分、能够有效发挥。对大数据平台内部的安全风险做到智能稽查告警,最终实现动态评估大数据平台综合安全防护能力。
大数据安全稽查设计通过研究相关大数据平台组件模型、接口和大数据集群环境资源监控方式为基础,构建统一的大数据安全稽查模型。模型对大数据平台内部所有虚拟资产和大数据集群环境物理资产进行监控,对每一种虚拟资产及物理资产进行身份标识,实时监控资产变化原因、影响范围和变动的合规性。
要实现对大数据平台内部资产做到实时、全面、细粒度和高要求的稽查,需要对平台内部资源进行分类整理,依据整理结果创建各类资产统一的监管接口。在该资产稽查设计中,把虚拟资产分为计算类组件资源、存储类组件资源、传输类组件资源、调度类组件资源、安全类资源。其中,计算类组件资源包括Mapreduce、Spark、Flink等;存储类组件资源包括HDFS、Hive、Hbase等;传输类组件资源包括Kafka、Flume等;调度类组件资源包括Zookeeper、Mesos、Yarn等;安全类资源包括Ranger、Kerberos、Knox等。在该资产稽查设计中,同样需要把大数据集群环境资源进行分类,可以分为基础资源和安全设备资源。其中,基础资源包括大数据集群各个节点的CPU、内存、硬盘、网卡等资源的身份标识;安全设备资源包括大数据集群内部部署的防火墙、堡垒机、入侵检测服务器、病毒防护服务器等各类安全设备。与传统监控相比,利用收集到的虚拟资源身份标识、虚拟资源运行状态、物理资源身份标识、物理资源运行状态,构建大数据平台整体资源稽查蓝图。在传统的大数据分析系统中,主要针对单一组件或者数据进行分析,而对于实际情况下的大数据平台,其包括各种虚拟资产和物理资产,相互之间协作工作紧密,传统大数据分析手段因具有局限性,往往只能发现平台内部表面存在的安全风险,对于组件与组件之间、设备与设备之间、组件与设备之间的风险不能及时侦查。该资产稽查方案的设计,可以更加全面、细粒度地稽查出针对这些资产的攻击。例如,攻击者让Kerberos服务不能正常运行,那么整个大数据平台的认证功能失效,平台面临随意接入的高安全威胁;又例如攻击者偷换大数据集群中的某台节点的网卡,并嵌入监听程序。通过资产多方位的检测,能更加全面地稽查出平台资产所存在的安全风险。
目前已有的大数据安全防护手段还停留在根据已产生的安全攻击行为再做出及时反应,对不同的攻击行为采取不同的响应措施。这种“亡羊补牢”式的防护手段已不能满足大数据在各种国防关键领域中的应用,因此在大数据安全稽查设计中,还需要对大数据平台中的攻击进行响应,由被动抵御转化为主动防御。通过大数据平台内部资产监控结果,创建主动式和被动式安全稽查控制接口规范。在设计中依赖大数据平台内部资产稽查蓝图和安全风险评估结果为基础,通过构建多种数据威胁攻防场景和应用案例,对平台自身的安全防护能力进行稽查。一方面,研究大数据平台中存在的各类威胁攻击场景,验证平台中认证能力、授权能力、加密能力等安全防护措施是否有效。另一方面,模拟大数据平台中各种敏感数据操作场景,验证平台威胁阻断能力、脱敏能力、防泄漏能力等防护手段是否生效。大数据安全防护能力的稽查可以很好应对外部攻击,并做出积极防御,智能发现大数据平台安全能力中的薄弱点。
大数据平台中产生的数据具有Velocity(高速)特点,但在目前已有的大数据安全研究中,对未知风险的检测和内部安全的评估不够及时,一般通过采用各种组件以往的日志信息、操作信息、已产生的安全风险告警记录等进行分析,评估整体平台的安全风险。这种传统的风险评估手段仍然属于事后抵御风险模型。
通过研究大数据组件多维基线检测模型,对大数据平台内部组件进行深度研究,把各个组件的配置属性按照基础性、合规性、健壮性、安全性进行多维分类。首先研究筛除组件中不重要属性,使基线检测模板具有通用性。进而对每一个重要检测属性分配阈值范围,分别创建组件多维基线评估模型。在基础性属性中,以组件运行必须配置项进行划分。在合规性属性中,以组件内部的各个模块运行所需要的内存类、核心数类、日志类、缓存类、线程类等属性进行划分。在健壮性属性中,按照组件运行高可用性进行划分。安全性属性分为两个方面:一方面研究组件自身安全特性,包括ACL属性、SSL属性、SASL属性等;另一方面研究组件与大数据安全类组件所结合的安全属性,主要结合Kerberos和Ranger与该组件的配置方式,分析组件授权和认证的安全风险。依赖大数据多维基线检测模型,结合大数据资产稽查结果,通过监控资产身份标识变化、资产变动的合规性与合法性、资源运行状态的变化记录等因子为基础,对平台内部组件采用被动式和主动式安全风险检测,生成各个组件的安全风险评估报告并给出风险整改建议。从平台组件运行角度、安全防护角度来评估组件安全性,能更加全面地、准确地发现组件中潜在的安全漏洞。
该风险评估模型结合大数据资产稽查结果、大数据安全防护能力稽查结果、大数据组件风险估计结果,以国内外大数据安全规范为指标,为平台内部各类风险分配不同的风险权重,通过计算,对大数据平台安全风险等级进行划分,对应给出安全风险建议整改方案,发现大数据平台中未知安全威胁。目前对大数据平台进行安全攻击的一种常用方式为 APT(高级持续威胁)攻击,该攻击方式具有攻击时间长、攻击面广、隐蔽性强等特点,采用安全主动防御方式对整个大数据平台的安全风险进行评估能有效地发现潜藏在系统中的APT攻击,并及时进行预防[7]。
大数据安全稽查与风险评估平台总共分为5层,分别为大数据平台层、资产采集与管理层、资产安全稽查与安全能力稽查层、安全风险评估层和综合应用层,总体平台架构如图1所示。
图1 大数据安全稽查与风险评估框架
(1)大数据平台层:研究目前市场中大数据平台资源数据格式和采集方式,建立统一资源采集接口和资源模板,采集平台包括CDH(Cloudera’s Distribution Including Apache Hadoop)平台、CDP(Cloudera Data Platform)平台、HDP(Hortonworks Data Platform)平台、华为大数据平台等。
(2)资产采集与管理层:通过资产采集功能,智能发现接入系统的大数据平台,自动监控大数据平台内部资产变更信息,对平台资源模板实现管理。利用统一的资产采集接口,把采集到的大数据平台资产信息进行打标处理后,存入数据仓库,为后续安全风险评估提供原始依据。
(3)资产安全稽查与安全能力稽查层:利用资产稽查引擎对纳入系统管理的大数据平台进行稽查,构建资产稽查蓝图。生成稽查任务实时稽查平台资产种类、数量、身份、状态变更风险,稽查平台内部认证、授权、加密、脱敏安全防护能力并生成稽查报告,为平台安全评估提供基础。
(4)安全风险评估层:风险评估由基线扫描、基线验证、安全性评估、评估模板4个模块构成。依靠资产稽查结果为基础结合组件基线扫描模板,利用安全风险评估引擎,生成组件基线扫描任务,定时对各个组件功能的可用性、合规性、健壮性、安全性进行基线扫描。利用大数据分析技术,评估大数据组件存在的安全威胁风险。在整体上,对资产稽查结果、安全能力稽查结果、组件评估结果分配不同的权重,利用大数据分析手段,对平台整体风险性进行评分,再次评估平台中所存在的安全风险。
(5)综合应用层:综合应用主要包括分权分域、配置管理、任务管理、可视化展示、模板管理、报表管理和日志管理。一方面为用户提供系统综合服务,包括系统配置、模板配置、任务查询等服务功能;另一方面为用户提供风险监控、风险告警、评估结果展示、日志展示等可视化界面。
该平台与传统大数据监管平台相比,对安全风险的发现由被动监管模式转为主动稽查模式。随着大数据技术不断成熟,已不能再片面化地分析大数据平台所存在的安全风险,安全研究人员需要多方面研究最新的国内外大数据安全规范标准,从各个角度、多维联合分析在大数据平台中出现的安全漏洞和安全威胁,对可能存在的风险进行预判并采取修复措施。
大数据技术早已深入国家发展和人们生活的各个领域,通过不断挖掘数据价值来改变各行各业的工作方式,其随之带来的安全攻击事件也越发频繁。本文首先阐述目前大数据安全技术研究热点,国内外大数据安全标准研究状况,然后以大数据资产为基础,分别从稽查和评估两个方面出发,结合最新的大数据安全标准为依据,设计大数据环境安全稽查与评估系统,旨在实现“抢先”发现大数据平台存在的安全风险,杜绝平台潜在威胁。就目前来说,在大数据安全稽查和评估方面展开的研究远远落后于大数据技术的应用,为了更进一步提高大数据安全防护能力,亟待加强在安全标准与大数据技术相结合的基础上展开更多研究。