宣宇才,杨海军,李 论
(1.北京航空航天大学,北京 100083;2.北京联合大学,北京 100101)
基于信息熵的网络安全研究
宣宇才1,杨海军1,李论2
(1.北京航空航天大学,北京100083;2.北京联合大学,北京100101)
本文针对中国2011年到2015年的月度安全数据展开研究,研究发现飞客蠕虫、仿冒域名和高危漏洞与网络安全事件数量显著相关。通过信息熵和互信息的度量,僵尸病毒的熵值经历了先升的过程,在2014年发生了明显的下降,飞客蠕虫处于下降状态,高危漏洞则在2015年出现了激增的情况,成为重要的安全隐患。安全处理事件数量与僵尸病毒、飞客蠕虫、高危漏洞的熵值在2015年出现了较大的变化,网络安全系统的混乱程度在剧增。通过互信息可以发现2015年我国网络安全出现了新的变化趋势,除了关注传统的僵尸病毒、飞客蠕虫和高危漏洞之外,还需要更加关注后门植入网站和网站被篡改等情况。
网络安全; 信息熵; 互信息
随着信息技术和信息化的深入发展,信息技术及其相关应用已经深入到现代社会的科研、经济、政治、军事与社会生活的各个领域。以互联网为基础的网络空间,产生了云计算、大数据、移动互联网、社会网络、物联网等日新月异的信息技术和应用,引领了社会生产新变革,创造了人类生活新空间,拓展了国家治理新领域,极大提高了人类认识世界、改造世界的能力,网络空间成为继陆、海、空、太空之外人类赖以生存的“第五空间”。[1](P52~58)美国在1993年开始建设国家信息基础设施,随后包括中国在内众多国家积极跟进建设国家信息基础设施。[2](P215~227)国家信息基础设施的建设极大地促进了互联网的发展,由于互联网具有信息传输的广域性和网络协议的开放性,网络安全问题变得尤为重要。面对来自内部和外部的各种各样的威胁,网络空间的安全受到广泛关注和重视,网络信息是否安全已经成为国家、地区、组织是否安全的一个重要因素,从国家层面看,已经成为影响国家政治稳定、社会安定、经济发展的全局性战略问题。至2014年,世界已有50多个国家从国家发展战略、安全战略和军事战略的高度制定网络信息安全战略。
中国互联网发展历经20余年,作为世界第二大经济体和第一网民大国,中国在面对信息技术革命时做出的任何一项重大决策变化都会引起国内外的格外关注。在我国从网络大国向网络强国迈进的道路上,网络安全与信息化建设是我国面临的一项新的挑战。国际形势错综复杂,“棱镜门”等一系列网络安全事件爆发,对我国网络信息安全产生巨大影响,我国的信息技术发展水平与发达国家存在差距,而所面临的安全风险却是与国际同步的,为我国信息化、新型工业化发展带来新的挑战。
随着网络空间的价值和影响不断放大,网络空间各行为主体围绕网络空间的战略博弈也在全面升级。2007年,爱沙利亚成为历史上第一个政府和关键基础设施历经大规模网络攻击的国家;2015年通过网络攻击进行的网络犯罪造成商业损失高达4000亿到5000亿美元。政府背景有组织网络攻击频发,我国遭受境外地址网络攻击数量明显增加,给我国网络关键基础设施和重要信息系统安全带来严重威胁,主要攻击方式为网络渗透攻击、网站后门、网络钓鱼、木马和僵尸网络等,特别是高级持续性威胁(APT)攻击事件显著增加。[3][4][5]
面对网络安全我们可以采用主动防御技术和被动防御技术。[3][4]被动防御技术主要有杀毒软件、防火墙技术、VPN及加密锁等安全体系、安全扫描器、入侵检测系统、口令验证和审计跟踪等。网络主动防御技术就是通过网络感知技术及时发现潜在的网络安全风险,分析、识别、预测位置的网络攻击,通过增加安全方法手段及时化解安全风险,达到增强网络安全目的的防御技术。与被动防御技术相比,主动防御技术具有防范的前瞻性,能够有效降低网络攻击的损失,可以较好地解决网络攻击自动化、智能化及混合多方式攻击的问题。另一方面,由于对未知攻击的特性缺乏足够的了解,主动防御技术要比被动防御技术面临更大的技术难题。虽然人们不可能完全预知潜在网络攻击,但这些潜在攻击总会与网络中的一些具体表现紧密相关,本文认为通过研究网络具体事件及相关事件间的信息关联因素,可以很好地预测网络攻击。信息熵(information entropy)具有直观信息度量的特点,[6][7]因此,本文将通过信息熵、互信息等方法研究中国网络信息安全问题,为网络主动防御技术提供理论依据。
随着经济和技术的迅速发展,我国大力推进基于网格计算、云计算、大数据、移动互联网和互联网+等为基础的信息化建设;重点打造新一代信息技术产业、电子信息产品制造业、区域信息服务产业,培育信息经济新业态,推进信息产业跨越发展;推动信息化在工业、农业、教育、服务业和政务部门各领域的应用,推动智慧城市、数字乡村建设,引领经济社会全方位发展。针对基础设施、数据、应用和用户四位一体,建立完善网络信息安全战略体系,加强网络信息安全保障能力,建立健全网络信息安全治理体系,提高网络信息安全服务水平,成为我国信息化建设的当务之急。[8][9]网络熵和神经网络也分别用来评定网络攻击效果和研究网络安全态势。[10][11]
从技术角度分析,我国网络空间信息安全面临的威胁主要有网络病毒、僵尸网络、拒绝服务攻击、旁路控制、社会工程学攻击、身份窃取和高级持续性威胁攻击(APT)等。其主要实施主体有各类黑客、恐怖主义分子和民族、国家、政府的信息战人员,也有工业间谍与有组织犯罪集团的非法入侵、信息窃取和非法网络公关人员等。
本文使用中国国家互联网应急中心(CNCERT)2011年1月至2015年12月的月度数据,[5]对病毒检测、网站安全数据、漏洞数据、网站被篡改数、飞客蠕虫、僵尸木马、后门植入网站和安全事件接收等数据进行了汇总分析。在此基础上进行了数据检验,得到如下结果:
表1 主要数据相关系数
BCGABDZAFKZAJSZBHMZRCLDZDJSBCG1.000000-0.046057-0.335762-0.280239-0.0966250.0332850.183064ABDZ-0.0460571.000000-0.0070230.138696-0.3038990.5352280.013499AFKZ-0.335762-0.0070231.0000000.6051230.079803-0.259334-0.76992AJSZ-0.2802390.1386960.6051231.000000-0.03403-0.175755-0.410918BHMZR-0.096625-0.3038990.079803-0.034031.000000-0.1216330.020472CLDZ0.0332850.535228-0.259334-0.175755-0.1216331.0000000.198965DJS0.1830640.013499-0.76992-0.4109180.0204720.1989651.000000
(A类数据:病毒检测,B类数据:网站安全数据,C类数据:漏洞数据,D类数据:网站安全。其中,BCG:境内网站被篡改数,ABDZ:病毒总数,AFKZ:飞客蠕虫总数,AJSZ:僵尸木马总数,BHMZR:后门植入网站数,CLDZ:安全漏洞数,DJS:安全事件接收数)
我们知道CNCERT的数据与互联网世界实际发生的安全事件之间肯定存在差异,而且这种差异是无法避免的。因此,需要研究在现有数据条件下,主要安全隐患数据与安全接收数据和安全处理数据间的相关关系。事件接收数目与事件处理的回归关系如图7所示:
计量检验表明安全事件接收数目与事件处理数目高度相关,因此在以后的研究中我们可以只使用上述两个变量中的一个即可。
检验结果表明飞客蠕虫通过了t检验,病毒数没有通过显著性检验。因此,在今后的研究中对飞客蠕虫要更加关注。
检验结果表明安全漏洞通过了显著性检验,后门植入没有通过显著性检验。因此,在今后的研究中对安全漏洞的数据要更加关注。
检验结果表明飞客蠕虫、仿冒域名、高危漏洞三个变量通过了显著性检验,且指标非常显著。因此在今后的研究中,会重点关注在飞客蠕虫、仿冒域名和高危漏洞这三个方面。
网络安全涉及的内容相当宽泛,潜在威胁和实质性危害也很难界定,因此很难用一个简单的关系去度量网络安全程度。同样的网络安全隐患可能造成差距极大的安全问题,因此本文考虑引入新的测度方法——熵,进行网络安全研究。
(一)熵和互信息在网络安全中的定义
网络安全事件处理数量、飞客蠕虫数目,仿冒域名数量,高危漏洞和远程攻击次数等都可以看作是离散型的随机变量。这些与网络安全紧密相关的随机变量到底蕴含着什么样的信息,如何测度这些信息?本节通过引入熵和互信息的定义[7]来解决这一问题,通过熵来测度与网络安全紧密相关的随机变量的不确定性程度。
定义1对于与网络安全相关的随机变量X(ω,t),它的熵H(X)为:
H(X)=-∑p(x)·logp(x)
(1)
(2)
H(X)=-E[logp(x)]
(3)
其中,X(ω,t)=x∈R+,p(x)=Pr(X(ω,t)=x)是随机变量X(ω,t)的密度函数。
定义2对于与网络安全相关的随机变量X(ω,t)和Y(ω,t),它们的互信息I(X;Y)为:
I(X;Y)=∑∑p(x,y)·log(p(x,y)/(p(x)·p(y)))
(4)
(5)
其中,p(x),p(y)和p(x,y)分别是随机变量X,Y,(X,Y)的密度函数。
(二)熵和互信息在网络安全中的实证
根据2011年至2015年CNCERT月度数据,我们可以得到中国互联网安全指标的熵测度。
根据公式(2)我们可以使用公式(6)分别计算处理事件、飞客蠕虫、仿冒域名和高危漏洞的熵。
服从正态分布的随机变量的熵为:
(6)
其中σ2为分布的方差。
应用公式(6),我们分别计算了处理事件、僵尸病毒、飞客蠕虫、高危漏洞以及处理事件与僵尸病毒、飞客蠕虫、高危漏洞的熵值, 图示如下:
从图12表明网络安全处理事件的熵值从2011年到2015年逐年增大,特别是从2014年到2015年有非常明显的增加,表明网络安全的混乱程度越来越严重,这与实际的直观数据相吻合。图13、14和15的结果显示单独的网络安全问题呈现了不同的发展趋势,僵尸病毒的熵值在经历了先升的过程,在2014年发生了明显的下降;飞客蠕虫处于下降状态,向有序方面转变;高危漏洞则在2015年出现了激增的情况,变得更加混乱,需要密切注意高危漏洞的安全隐患。图16表明处理事件与僵尸病毒、飞客蠕虫、高危漏洞的熵值在2015年出现了较大的变化,网络安全系统的混乱程度在加剧,需要投入更大的人力物力来保证网络安全。
根据定义2, 我们可以得到两个及多个服从正态分布的随机变量间的互信息。具体公式如下:
I(X;Y)=∬p(x,y)·log(p(x,y)/(p(x)·p(y)))dxdy
=H(X)+H(Y)-H(X,Y)
从图17、18、19我们可以发现,处理事件的数量与僵尸病毒、飞客蠕虫和高危漏洞数量之间的相互关系在2015年发生了明显的变化,其互信息出现了显著的下降。这一结果表明,2015年我国网络安全出现了新的变化趋势,除了关注传统的僵尸病毒、飞客蠕虫和高危漏洞之外,我们需要关注仿冒域名、主动攻击等其他网络安全隐患问题。图20是将安全处理事件与僵尸病毒、飞客蠕虫、高危漏洞综合研究的结果,这一结果支持了前面的分析结果。这也说明互信息可以更好地发现关系动态性变化。
随着国民经济和社会各领域的信息化建设取得较大进展,信息安全建设变得越来越重要。多年来“重建设轻保障”的发展方式和思路,造成了在信息安全保障工作方面的欠账过多,安全保障能力与业务系统的防护需求不相匹配,应急处置能力总体薄弱等问题,导致了网络信息安全保障工作中漏洞频发,信息安全总体形势非常严峻。要解决这些问题,首先要找到影响信息安全的关键因素;这些因素会随着时间和环境的变化呈现动态性的特点,如何刻画这种关系成为互联网安全的关键技术。
本文针对中国2011年到2015年的月度安全数据展开研究,其中飞客蠕虫、僵尸木马、仿冒网站和高危安全漏洞在10%水平下符合正态分布;飞客蠕虫、仿冒域名和高危漏洞与网络安全事件数量显著相关。通过信息熵和互信息的度量,僵尸病毒的熵值在经历了先升的过程,在2014年发生了明显的下降,飞客蠕虫处于下降状态,高危漏洞则在2015年出现了激增的情况,成为重要的安全隐患。处理事件与僵尸病毒、飞客蠕虫、高危漏洞的熵值在2015年出现了较大的变化,网络安全系统的混乱程度在剧增。互信息可以更好地发现关系动态性变化,2015年我国网络安全出现了新的变化趋势,除了关注传统的僵尸病毒、飞客蠕虫和高危漏洞之外,还需要更加关注后门植入网站和网站被篡改以及其他网络异常情况。
[1]李莽. 网络空间中的安全困境[J]. 亚非纵横, 2013,(3).
[2]Blanning R W, Bui T X, Tan M. National information infrastructure in Pacific Asia[J]. Decision support systems, 1997, 21(3).
[3]Altman E, Sassatelli L, De Pellegrini F. Dynamic control of coding for progressive packet arrivals in DTNs[J]. Wireless Communications, IEEE Transactions on, 2013, 12(2).
[3]国家计算机网络应急技术处理协调中心. 2013年中国互联网网络安全报告[M].北京: 人民邮电出版社, 2014.
[4]国家计算机网络应急技术处理协调中心. 2014年中国互联网网络安全报告[M].北京: 人民邮电出版社, 2015.
[5]国家计算机网络应急技术处理协调中心.2011—2015 网络安全信息与动态周报[EB/OL].http://www.cert.org.cn/publish/main/17/index.html
[6] Han C K, Choi H K. Effective discovery of attacks using entropy of packet dynamics[J]. Network, IEEE, 2009, 23(5): 4-12.
[7] Cover T M, Thomas J A. Elements of information theory[M]. John Wiley & Sons, 2012.
[8] 王世伟. 论信息安全、网络安全、网络空间安全[J]. 中国图书馆学报, 2015, 41,(2).
[9] 韩锐. 计算机网络安全的主要隐患及管理措施分析[J]. 信息通信, 2014,(1).
[10]张义荣, 鲜明, 王国玉. 一种基于网络熵的计算机网络攻击效果定量评估方法[J]. 通信学报, 2004, 25(11).
[11]谢丽霞, 王亚超, 于巾博. 基于神经网络的网络安全态势感知[J]. 清华大学学报(自然科学版),2013,(12).
〔责任编辑:左安嵩〕
Research on Network Security Based on Information Entropy
XUAN Yu-cai1,YANG Hai-jun1,LI Lun2
(1.Beihang University, Beijing, 100191, China; 2.Beijing Union University, Beijing, 100101, China)
This paper makes a research based on the monthly security data of China from 2011 to 2015, finding that Conficker, piracy domain name and high-risk vulnerability were apparently related to the number of network security events. According to the measurement of information entropy and mutual information, the entropy value of Zombie virus rose at first and then declined obviously in 2014, Conficker was on the declining status while high-risk vulnerability increased dramatically in 2015, which became the major security loophole. The number of security disposal events and the entropy value of zombie virus, Conficker and high-risk vulnerability changed greatly in 2015 and the network security system was becoming increasingly chaotic. It can be found that our network security witnessed a new changing trend in 2015 through mutual information: in addition to traditional zombie virus, Conficker and high-risk vulnerabilities, we should pay more attention to backdoor implantation websites and website defacement.
network security; information entropy; mutual information
宣宇才(1965— ),男,北京人,北京航空航天大学博士研究生,主要从事网络信息安全研究;
C913.9
A
1006-723X(2016)09-0066-07
杨海军(1970— ),男,天津人,北京航空航天大学教授,博士,主要从事计算机金融研究;
李论(1974— ),男,北京人,北京联合大学讲师,主要从事计算机信息安全研究。