天融信作为信息安全领域的引领者,以网络安全为核心,大数据为基石,长期致力于大数据安全领域的研究,为用户提供安全云服务,集全公司优势资源打造安全的大数据环境,积极推动大数据安全的发展。
随着互联网、物联网、移动互联网、云计算和人工智能等新兴技术的高速发展,各种智能终端、社交网络服务的大量涌现,全球数据量出现了巨幅增长。据相关统计,预计到2020年全球数据将增至35.2ZB。显而易见,真正的大数据时代已经到来。一方面,云计算技术的成熟,为这些多样化的数据提供了存储和计算的平台;另一方面,数据挖掘和人工智能等技术为大数据时代提供了信息参考,大数据的快速发展进一步扩大了信息的开放程度,但是随之而来的一系列安全问题已经成为影响大数据发展的关键因素。
麦肯锡称:“今天的数据,已经渗透到当今每个行业和业务功能区域,成为一个重要的生产要素。人们对于大量的数据挖掘和利用,预示着一个新的生产力增长和消费者剩余影响的到来。”大数据已在物理、生物、环境、生态学等领域以及军事、金融、通信等行业存在一定时间,近年来,大数据在互联网、企业以及个人等方面的应用进一步促使我们身处大数据时代。
在互联网应用方面,互联网公司在日常运营中形成积累用户网络行为数据,具有海量的数据规模、多样的数据类型、价值密度较低、快速的数据流转以及时效性要求高等特点。毫无疑问,大数据将加速推动互联网的发展。中国互联网协会理事长邬贺铨在河南省首届互联网大会的主题演讲中指出:“随着互联网的快速发展产生大数据,大数据反过来加速推动互联网各种各样应用的演进。在可预见的将来,通过对大数据的全面挖掘将产生更多新的应用,将促使产生更多的新业态,将给我们带来更多的便利和惊喜。”
在企业应用方面,据《中国大数据发展调查报告(2017年)》显示,2016年大数据市场168亿元,大数据平台软件市场规模占50%左右,达到72.6亿元。约有50%左右的企业自建大数据平台,大数据平台正逐步成为企业重要的关键基础设施。
在个人应用方面,大数据不仅仅是一种技术,更是一种思维方式、行为模式与治理理念的全方位变革,大数据的落实应用正在改变我们的衣食住行。
鉴于大数据时代的快速发展以及产生的重大影响,2015年8月,国务院印发《促进大数据发展行动纲要》,首次明确提出建设数据强国;2015年10月,党的十八届五中全会提出“实施国家大数据战略”,将大数据上升为国家战略。其后,国家政府部门、科研院所、互联网大企业、传统工业企业等不断发布战略蓝皮书,对未来进行规划布局。
大数据在各应用领域发展迅速,为社会带来巨大的价值。同时,大数据的安全问题已成为制约大数据发展的重要阻碍。对于大数据的特点,行业内普遍的认识可以用5V来表达:即体量大(volume)、速度快(velocity)、多样化(variety)、难辨识(veracity)和价值密度低(value),大数据的这些特点使得大数据安全需求与传统数据安全存在差异。大数据环境下存在的安全隐患如下:
(1)采集阶段安全隐患:在大数据应用场景下,存在大量不同种类的数据来源,例如传感设备、移动终端等。由于设备类型众多,并且数据来源的设备位置不固定,也就可以看作被采集的设备处于一个安全程度较低的场景,因此在采集阶段存在采集设备的不可信性,采集数据中可能含有如病毒、恶意脚本等恶意代码,数据变更的属性关系、分析计算的复杂性等方面均存在安全隐患。
(2)存储与计算阶段安全隐患:大数据环境主要使用开源软件来构建,这些软件设计初衷是为了高效的数据处理,但在安全功能方面缺乏严谨的设计,存在安全漏洞,安全防护能力较差;大数据需要汇集多源数据进行集中存储与管理,包括用户敏感隐私数据,数据集中存储管理也带来风险的积聚效应。
(3)应用阶段安全隐患:在大数据时代存在与传统不同的情况,一方面,在使用传统传输协议的情况下,急速增加的海量数据造成对传统边界防护手段的处理性能要求同样急速增加,在处理性能不足的情况下不得已只能将安全策略粒度放宽,这就可能会被黑客利用协议漏洞进行攻击,发生传输过程中的数据窃取;另一方面,大数据时代的网络更加注重无线传输,无线传输相比传统的传输模式具有更强的开放性,数据在这种传输环境中更易遭到拦截或监听。大数据应用中,数据开放是大数据业务发展的重要方向,同时也必然存在个人隐私、企业信息泄露等关键问题。
政策法规作为信息安全的重要依据,大数据处理同样需要符合相关政策法规要求,比如涉及企业金融信息方面,应遵循Sarbanes-Oxley Act;涉及个人健康记录共享应遵循HIPAA等。同时,企业应遵守自身安全策略、隐私策略、共享协议等。这些都对数据访问控制及审计粒度提出了更加严苛的要求。而由全国信息安全标准化委员会推出的《大数据安全标准化白皮书(2017)》为大数据安全建设提供了参考。尤其在国家“十三五”发展规划中明确提出了加快大数据安全与隐私保护的发展要求,更是把大数据安全提升到了前所未有的高度。
大数据环境包括了构建环境的各个组件、可能对接的各类系统以及环境中的各类数据,因此大数据环境的安全防护应该按大数据环境的网络域划分,从平台体系安全到边界安全构成一个纵向分层的安全防护体系;同时按数据的流转过程,从数据采集到数据应用构成一个横向的安全防护体系,全方位的保障大数据的安全性。
大数据环境的边界安全主要是实现大数据环境边界安全防护,主要手段是通过在网络边界部署防火墙、入侵防护、病毒过滤、VPN、抗DDOS、WAF、漏洞扫描、数据防泄漏等网络安全设备,确保大数据环境的边界防护。
大数据环境自身体系安全不仅涉及到传统的物理安全、基础设施安全的安全防护要求,数据更是具有体量大、速度快、多样性、辨识低、碎片化的特点,这就造成了对于大数据环境安全治理手段需要依据不同应用、类型、格式的数据,根据其特点进行差异化分析。
(1)统一门户管理:大数据集中化的属性,需要对不同业务系统的用户、权限进行统一动态管理,另一方面也需要对所有系统实现统一的安全策略。因此大数据集中身份管理系统,通过对大数据环境的用户和系统资源进行集中身份管理、集中认证管理、集中授权管理和集中审计管理,让大数据环境的访问方式更加简便、安全,大幅提升大数据的安全管理。
(2)大数据环境安全域管理:大数据环境根据业务以及功能不同,分为不同的区,针对这些区域进行相应的安全域管控策略,主要包括访问控制、入侵检测以及安全隔离等,实现大数据环境的安全管理。
(3)采用大数据技术保证大数据环境安全:以大数据技术为基础,通过分类建模分析以及流式分析手段,实现大数据的安全监控、事件分析及策略联动,最终形成完整的大数据治理架构,确保大数据环境安全,我们称为安全大数据技术,以实现大数据环境的全方位态势感知与安全防御。
基于大数据环境的态势感知系统能够提供探知检测、大数据存储计算、挖掘分析、信息检索、探索分析、通报处置、威胁情报管理等能力。探知检测能力融合网络资产探测、终端检测防护、网站检测、流量监测类、日志采集子系统。
资产探测功能能够对目标IP范围进行资产基础信息探测,获取网络在线IP及位置、操作系统、端口、服务、应用、设备类型等多种详细信息,根据操作系统、服务、应用等版本信息关联已知漏洞,对重要漏洞能进行全网快速验证发现。
终端检测防护功能对大数据终端上的病毒进行检测查杀,对终端访问互联网过程进行安全防护,实现操作系统自身及应用程序安全加固,控制网络接入行为。
网站检测功能对大数据环境业务网站可用性、漏洞进行检测,能发现网站被挂马及篡改行为,能监测网站是否存在敏感信息。
流量监测功能包括但不限于僵木蠕检测、入侵检测、网络行为检测等子系统。
日志采集功能对网络、安全、主机服务器、应用系统等日志数据进行收集。
大数据存储计算功能提供交换接口,将探知检测到的事实数据接入,进行清洗后存储到存储计算引擎中。存储计算引擎包括分布式文件存储、数据仓库、NoSQL数据库、关系数据及分布式计算框架。事实数据经过汇入处理后形成的结果数据,用于网络态势感知的基础数据也交由大数据存储计算子系统进行存储。
挖掘分析功能提供数据分析算子,基于数据分析算子能够可视化构建数据分析模型,并将分析模型采用任务方式进行调度执行,能够支持的数据分析模型包括但不限于攻击检测、情报关联、态势统计、IP画像等分析模型,分析模块能够进行快速自定义扩展。
信息检索功能提供对系统中存储的资产、日志、情报等进行快速检索。探索分析能力能够以探索任务的方式对风险事件进行确认和追溯发生原因,能够将线索数据添加可视化界面,并在界面上对线索数据进行多种操作分析形成更多线索数据,多种线索数据相互关联快速确认风险事件和追溯发生原因。
通报处置功能支撑风险事件流程化处置,威胁情报管理功能汇集多种情报源,提升风险识别和处置效率。
大数据环境的数据安全需要贯穿于数据的全生命周期,主要包括数据采集安全、数据传输安全、数据存储安全、数据挖掘安全和数据发布与应用安全。
(1)数据采集安全:数据采集阶段面临的安全风险,包括采集阶段面临的未经授权的数据采集、数据分类分级不清、敏感数据识别依据不清、采集过程缺乏细粒度的访问控制、数据无法追本溯源、敏感数据的泄密、采集设备的安全性以及采集过程的事后审计等。针对上述面临的安全风险,通过安全认证、数据清洗、敏感数据识别以及数据标签作为数据采集过程的安全途径。
(2)数据传输安全:加密技术是解决数据传输的有效途径,而在大数据环境中存在大量用户即数据的拥有者、使用者,用户间的数据传输场景相对于传统网络环境十分复杂,所以在传统的以用户为基础采用公钥加密的方式下,密钥管理将会成为整个系统的瓶颈。为解决上述问题,我们可以将加密的对象从用户转变为数据的属性,也就是数据标签,通过这种方式实现对加密数据的更细致地管控,并大量减少密钥管理的性能消耗。
(3)数据存储安全:传统的数据分类通常以数据的类型、结构等进行,在大数据环境下,由于数据体量的庞大,上述数据分类方式很难解决大数据安全问题;所以需要将标签技术与分级分类相结合,依照数据的标签、类型、结构、内容等进行分类存储,实现不同类型数据的隔离,便于访问控制手段的具体应用以及计算过程中的分类调用。在分类存储的基础上,考虑到在安全及应用的开发、测试阶段对数据模板参考的需求,从安全角度需要避免数据的二次泄漏,数据脱敏技术则应运而生。不过在大数据环境下,脱敏的应用又与传统数据安全体系存在差异,常见的数据脱敏方式包括数据随机化技术、数据匿名化技术、数据关联规则隐藏技术等;但在大数据环境下,由于庞大数据量和数据碎片化、低密度等特点,造成单独某一种脱敏方式存在被破解和还原的风险,比如说匿名化技术可以将敏感数据隐藏,在一定程度上保护用户敏感信息,但攻击者利用数据的关联规则作为技术条件,还原匿名数据,造成敏感数据的泄露。所以在大数据环境下,需要在多种数据脱敏技术的基础上进行综合应用,如匿名技术与关联规则隐藏技术相结合,从而实现大数据的静态脱敏。
(4)数据挖掘安全:大数据挖掘是从海量数据中提取和挖掘知识,在大数据挖掘的特定应用和具体过程中,大数据挖掘安全首先需要做好隐私保护,目前隐私保护的数据挖掘方法按照基本策略主要有数据扰乱法、查询现值法和混合策略。其次,大数据挖掘安全技术方面还需要加强第三方挖掘机构的身份认证和访问管理,以确保第三方在数据挖掘过程中不植入恶意程序,不窃取系统数据。
(5)数据发布与应用安全:大数据应用的安全途径主要是针对应用系统的权限控制,即认证、授权和审计等。其中数据防泄漏在应用方面主要是针对数据进行内容的检测,防止敏感数据泄露。通过一套完整的数据识别引擎,完成数据格式的识别,数据内容的抽取以及数据内容的标注,设计和实现一套指纹和标签化工具,生成数据的指纹和标签;通过数据泄露防护引擎,完成数据合规性检查、泄露数据的统计分析及泄露风险提示。■