◆郭永和 刘 安 李 静 张亚昊 程 杰
以数据驱动的网络安全关键技术研究
◆郭永和 刘 安 李 静 张亚昊 程 杰
(国家电网有限公司信息通信分公司 北京 100761)
网络安全是信息社会的重要问题。随着大数据、云计算和人工智能等新兴技术的发展,网络安全技术也面临变革。数据驱动安全已经成为了网络安全技术发展新方向。本文详细探讨了以数据驱动的网络安全相关的关键技术,并对其发展前景和应用中面临的挑战进行分析。
数据驱动;网络安全;大数据;云计算;人工智能
近年来,随着大数据、云计算、人工智能等新一代信息技术的蓬勃发展,互联网和信息产业开始转向以数据驱动业务的新型商业模式。同时,黑客们的目标也在发生变化。以乌克兰电网受攻击停电事件、WannaCry勒索病毒事件、Facebook用户信息泄露事件、万豪酒店顾客信息大规模泄露为代表的网络安全事件表明,网络上的攻击行为已不再单纯的为了炫耀技术,而是逐渐成为了实现政治目的或获取经济上的收益的手段[1-2]。国际间网络对抗日益加剧,各类新型网络安全威胁层出不穷。网络安全形势日趋严峻。
传统的企业信息安全体系以边界防护和入侵检测为技术基础。即在企业内网和互联网的边界处部署防火墙、入侵防护系统和web应用防火墙等策略对来自互联网的攻击进行入侵检测和访问控制。这种传统的防护策略在面临新型安全威胁时越来越力不从心。首先,随着云计算、移动互联计算等新技术的兴起,企业内网和互联网的边界变得日益模糊,从而导致传统防护体系效果大大降低。第二,技术高超的黑客可以通过APT攻击、利用0day漏洞的方式绕开边界防护。而传统的企业信息安全体系对已经渗透进内网的攻击往往缺乏监控和发现的能力[3-4]。第三,传统的企业信息安全体系无法应对业务逻辑上的漏洞。
日趋严峻的网络安全形势催生了新的网络安全需求,而新的网络安全需求推动了新的网络安全技术的发展。“以数据驱动的安全”被认为是大数据时代应对信息安全问题最有前景的一条途径。
对于安全运维人员来说,他们首先需要了解内部的网络存在的安全隐患。然而,随着企业内部网络规模的不断扩大,加之人员流动造成的工作交接脱节等问题,安全运维人员发现对面临的安全风险的掌握会越来越困难。主要问题如下:
(1)内部资产模糊不清。目前普遍存在的一个问题是,很多大型的企业和机构都存在IT资产不清的问题。企业内网中会时不时出现一些不在IT资产列表中当中的“野资产”。造成“野资产”出现的原因有可能是因为资产上线时管理流程不完善而没有进行登记,也有可能是某一部门或个人出于某种需要而未经批准自己架设的服务器,甚至是个人自有的摄像头、打印机等。由于这些资产不存在于企业的IT资产数据库中,这就使得安全运维人员无法及时掌握它们的位置、ip地址、端口开放和存在的漏洞。“野资产”的存在降低了企业内网的安全性,在安全事件发生时会严重影响企业的应急响应速度。
(2)人员流动造成的安全隐患。有些企业的IT部门人员流动大,由于工作衔接上的问题,造成了一些安全隐患和信息丢失问题。例如,前一任安全运维人员在离开时,没有将其配置的防火墙策略或者IPS策略详细文档化并交接给继任者,这就导致后一任安全运维人员无法了解这些策略配置的原因,也不敢修改这些策略。使得某些原本应当是临时性的策略长期有效,进而成为了安全的风险点。
(3)人员能力不足。专业能力强的安全运维人员永远是一种稀缺资源。很多大型的非互联网企业普遍存在着安全人员能力不足、人手不够的问题。这就使得企业在日常安全运维工作中捉襟见肘,难以及时发现隐藏在海量数据中的安全风险和隐蔽攻击。甚至在接收到外界提供的安全威胁情报时,也不知道如何处置。
上述这些问题在传统的企业信息安全框架下很难得到彻底的消除。而大数据技术的发展,为解决这些问题提供了一条可行之道。2013年RSA信息安全大会以“Mastering data. Securing the world”为主题,引发了信息安全业界对数据分析的重视[5]。一个企业的内部网络中每天都会产生大量数据,这些数据包括网络设备日志、安全设备日志、数据库日志、业务系统日志以及各类网络流量等。一个大型企业每天甚至可以生产几十甚至上百GB数据。如何利用好这些数据,从中发现隐藏的蛛丝马迹,从而发现不在资产数据库中的隐蔽资产,识别出被传统安全设备所无法察觉的安全威胁和攻击企图,进而对安全事件快速响应,是数据驱动安全的首要目标。
数据驱动安全的第一步是获取数据。根据数据的来源可以分为内部数据和外部数据。内部数据包括内部的流量、网络设备日志、安全设备日志、主机日志、数据库日志、业务系统日志、域名信息、已发现漏洞、资产负责人、基线配置及安全设备配置等。外部数据则主要以外部威胁情报、厂商提供的规则库升级等。
获取到的原始数据往往包含大量无效和冗余的信息,因此需要进行初步处理后方能进行持久化和进一步分析。例如,对于内部资产不清的问题,可以对流量中的报文进行分析,确定ip地址段归属、端口访问关系,并通过指纹比对的方法,确定主机的操作系统、运行的服务等。结合主动扫描技术,可以有效的发现隐藏于企业内网的“野资产”。而对各类日志在去重之后可以按照时间关联,形成在某个时间点上的整个信息系统运行情况的快照。
初步处理后的数据需要进行持久化以供深度关联分析。传统数据持久化的主要手段是通过关系数据库存储。然而,采集的原始数据种类繁多,数据量巨大,且大多为非结构化数据。因此,在解决数据持久化问题时候可以考虑应用分布式NoSQL数据库,如HBase、MongoDB、Cassandra、Neo4j等等。由于增加额外物理存储是一笔不小的支出,企业可以考虑租用云计算服务商的云存储服务来实现对数据的持久化。
数据分析是数据驱动安全技术的核心。数据分析技术包括模式匹配、数据挖掘和机器学习等。应用数据分析技术解决安全问题包含下面三个层次。
(1)入侵检测。从技术原理上讲入侵检测技术包括基于异常的检测和基于误用的检测。传统的安全设备如IPS、WAF和防病毒系统大多应用基于误用检测的原理对包含在流量中的恶意攻击载荷进行检测,即通过匹配已知攻击的特征进行识别。基于误用的入侵检测技术误报率低,但是无法检测未知攻击。另一种入侵检测技术是基于异常的检测。这种技术的基本原理是构建一个正常行为的统计模型,然后将待检测的数据与该模型进行匹配,若不在正常行为的范围之内即认为是异常。基于异常的检测提供了检测未知攻击的可能性,但是误报率较高[6]。
(2)安全信息与事件管理。安全信息与事件管理(Security Information and Event Management)将不同入侵检测系统和产品的报警信息统一收集和集中关联分析,挖掘出有效的、具备可行动能力的信息提供给安全专家,从而辅助运维和管理人员采取及时有效的安全响应措施,应对更为复杂的网络安全态势变化。安全信息与事件管理系统使长期碎片化的攻击行为有机会被关联和复原出来,大量试探性扫描和信息收集行为也能更好的与实质入侵行为区分开来,避免海量低危报警淹没了真正的高危行为。
(3)基于人工智能的自动化安全事件分析与处置。安全信息与事件管理系统将应用数据分析的思路解决网络安全问题提升至全局层次,缩短安全事件的响应周期,大大提高安全运维的效率。然而,用好安全信息与事件管理系统要求分析人员具备很高的专业水平。面对不断增长的网络数据量和告警事件数量、日益复杂的网络威胁形势,依赖安全分析团队的人力分析是无法持续提供安全检测和防护能力的。日益发展的人工智能技术为实现安全事件的自动化分析和处置提供了可能。目前人工智能技术的基础为机器学习。其根本思想是从假设空间 H中寻找假设函数f近似目标函数 f’。目前人工智能技术已经广泛应用于自动驾驶、图像识别、机器翻译等各领域。通过在网络安全领域运用人工智能技术,可以将网络安全专家的力量从海量的低价值重复的安全事件分析和处置工作中解脱出来,能够更好聚焦于那些真正重要的重大威胁事件的分析。
“以数据驱动安全”这一个概念一经提出,就得到了各大IT厂商和互联网公司的积极响应。目前已经有多种产品和服务在实际中得到了应用。CISCO研究人员研究了数百万不同流量上恶意流量和良性流量在使用TLS、DNS和HTTP等协议上的差异,提炼出了恶意软件最明显的一系列特性,在此基础上推出了具备加密流量分析功能交换机和路由器产品,解决了传统安全设备无法对加密流量检测的问题[7]。腾讯优图运用人工智能技术实现对色情图片的鉴别,大幅度降低企业因色情违规收到通报的次数。百度安全利用机器学习技术分析网页,可以发现钓鱼网站、网页挂马等威胁。阿里巴巴提供基于云计算和机器学习的安全服务,为部署在阿里云上的企业服务提供防护。支付宝利用大数据技术通过对历史交易数据构建风险模型,通过智能风险控制实现对用户账户安全的保护[8]。
尽管“数据驱动安全”的概念已经被安全业界广泛接受,并且被认为前景光明。然而,在真正实践的过程中,依然面临着诸多挑战。要真正实现以数据驱动安全的目标,单单依靠网络安全厂商的努力是不够的。这是因为数据驱动的安全与企业信息网络内部的数据联系紧密,需要各个企业根据自己自身情况定制开发,这对没有自主开发能力的非IT或非互联网企业来说是个巨大的挑战。此外,在运用机器学习技术对安全事件进行分析需要大量的训练数据。而标记数据获取成本高、难度大,导致网络安全领域的标记数据非常稀有,相比较于在图像识别、语音识别等领域更容易获取标记数据,安全攻防领域能标记数据的人只有安全专家,获取标记数据的人力成本和时间成本更高。
习近平同志提出“没有网络安全就没有国家安全”。WannaCry勒索病毒、Mirai蠕虫等层出不穷的严重安全事件为我们敲响警钟。本文对“以数据驱动安全”的概念、关键技术及面临的挑战进行了详细的论述。尽管“以数据驱动安全”被认为是应对未来安全威胁的一条可行路径,其最终的实现依然需要克服诸多困难。这需要安全厂商和用户的共同努力。
[1]国家计算机网络应急技术处理协调中心.2014年我国互联网网络安全态势报告[EB/OL]. http://www.cert.org.cn/publi sh/main/upload/File/2014%20secirity%20situation%20report.pdf.
[2]CHEN P, DESMET L, HUYGENS C. A study on advanced persistent threats[C]. Communications and Multimedia Security-15th International Conference. 2014.
[3]付钰,李洪成,吴晓平,王甲生.基于大数据分析的APT攻击检测研究综述[J].通信学报,2015.
[4]TANKARD C. Advanced persistent threats and how to monitor and deter them[J]. Network Security, 2011.
[5]YORAN A,COVIELLO A.Big Data Transforms Security [EB/OL].https://www.rsaconference.com/vid eos/big-data-transforms-security-video.
[6]赖英旭, 刘增辉, 蔡晓田等.工业控制系统入侵检测研究综述[J].通信学报, 2017.
[7]ANDERSON B, PAUL S, MCGREW D. Deciphering malware’s use of TLS (without decryption)[J]. Journal of Computer Virology & Hacking Techniques, 2016.
[8]支付宝风险引擎首次公开展示 AlphaRisk首秀Money20/20 Asia [EB/OL].https://www.csdn. net/article/a/2018-03-29/15944331.