截至 2016年 9月 20日,中国知网(CNKI)和Web of Science(WOS)的数据报告显示,以“网络安全(network security)”“网络空间安全(cyberspace security)”为词条可以检索到的期刊文献分别为7186条与16464条,本专题将相关数据按照:研究机构发文数、作者发文数、期刊发文数、被引用频次进行排行,结果如下。
根据中国知网(CNKI)数据报告,以“网络安全(network security)”“网络空间安全(cyberspace security)”为词条可以检索到的高被引论文排行结果如下。
根据Web of Science统计数据,以“网络安全(network security)”“网络空间安全(cyberspace security)”为词条可以检索到的高被引论文排行结果如下。
基于Web of Science检索结果,利用Histcite软件选取LCS(Local Citation Score,本地引用次数)TOP50文献作为节点进行分析,得到本领域推荐的经典文献如下。
美国国家安全54号总统令和国家安全23号总统令中对网络空间(cyberspace)的定义是:“网络空间是连接各种信息技术基础设施的网络,包括互联网、各种电信网、各种计算机系统、各类关键工业设施中的嵌入式处理器和控制器。还涉及人与人之间相互影响的虚拟信息环境。”该定义强调网络空间是大范围连接的网络,这种说法有一定的局限性,导致物理隔离的网络、ad hoc网络等局域连接的网络不包含在网络空间中。
可信计算领域在设备层主要面临底层设备故障引起的安全问题。为解决此问题,提高提供可信计算服务的硬件实体可靠性,包括元器件可靠性、设备可靠性和系统可靠性。以可信赖平台模块(TPM,trusted plateform module)为核心提供可信硬件平台,并作为可信计算平台的信任根,建立一级信任一级的信任链。
当今,社会信息化和网络化的发展导致数据爆炸式增长。据统计,平均每秒有200万用户在使用谷歌搜索,Facebook用户每天共享的东西超过40亿,Twitter每天处理的推特数量超过3.4亿。同时,科学计算、医疗卫生、金融、零售业等各行业也有大量数据在不断产生。2012年全球信息总量已经达到2.7 ZB,而到2015年这一数值预计会达到8 ZB。
这一现象引发了人们的广泛关注。在学术界,图灵奖获得者Jim Gray提出了科学研究的第四范式,即以大数据为基础的数据密集型科学研究;2008年《Nature》推出了大数据专刊对其展开探讨;2011年《Science》也推出类似的数据处理专刊。IT产业界行动更为积极,持续关注数据再利用,挖掘大数据的潜在价值。目前,大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。据Gartner预测,2013年大数据将带动全球IT支出340亿美元,到2016年全球在大数据方面的总花费将达到2320亿美元。Gartner将“大数据”技术列入 2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一不仅如此,作为国家和社会的主要管理者,各国政府也是大数据技术推广的主要推动者。2009年3月美国政府上线了data. gov网站,向公众开放政府所拥有的公共数据。随后,英国、澳大利亚等政府也开始了大数据开放的进程,截至目前,全世界已经正式有35个国家和地区构建了自己的数据开放门户网站。美国政府联合6个部门宣布了2亿美元的“大数据研究与发展计划”。在我国,2012年中国通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会,为我国大数据应用和发展提供学术咨询。
人们进行数据分析由来已久,最初且最重要的目的就是获得知识、利用知识。由于大数据包含大量原始、真实信息,大数据分析能够有效地摒弃个体差异,帮助人们透过现象、更准确地把握事物背后的规律。基于挖掘出的知识,可以更准确地对自然或社会现象进行预测。典型的案例是Google公司的Google Flu Trends网站。它通过统计人们对流感信息的搜索,查询 Google服务器日志的IP地址判定搜索来源,从而发布对世界各地流感情况的预测。又如,人们可以根据Twitter信息预测股票行情等。
错误信息不如没有信息。由于网络中信息的传播更加便利,所以网络虚假信息造成的危害也更大。例如,2013年4月24日,美联社Twitter帐号被盗,发布虚假消息称总统奥巴马遭受恐怖袭击受伤。虽然虚假消息在几分钟内被禁止,但是仍然引发了美国股市短暂跳水。由于大数据来源广泛及其多样性,在一定程度上它可以帮助实现信息的去伪存真。目前人们开始尝试利用大数据进行虚假信息识别。例如,社交点评类网站Yelp利用大数据对虚假评论进行过滤,为用户提供更为真实的评论信息;Yahoo和 Thinkmail等利用大数据分析技术来过滤垃圾邮件。
1)数据采集与预处理(Data Acquisition & Preparation)。
数据存储与大数据应用密切相关。某些实时性要求较高的应用,如状态监控,更适合采用流处理模式,直接在清洗和集成后的数据源上进行分析。而大多数其它应用则需要存储,以支持后继更深度的数据分析流程。为了提高数据吞吐量,降低存储成本,通常采用分布式架构来存储大数据。这方面有代表性的研究包括:文件系统 GFS,HDFS和 Haystack等;NoSQL数据库Mongodb、CouchDB、HBase、Redis、Neo4j等。
2)数据分析(Data Analysis)。
在计算架构方面,MapReduce是当前广泛采用的大数据集计算模型和框架。为了适应一些对任务完成时间要求较高的分析需求,文献[12]对其性能进行了优化;文献[13]提出了一种基于MapReduce架构的数据流分析解决方案 MARISSA,使其能够支持实时分析任务;文献[14]提出了基于时间的大数据分析方案Mastiff;文献[15]也针对广告推送等实时性要求较高的应用,提出了基于MapReduce的TiMR框架来进行实时流处理。
在查询与索引方面,由于大数据中包含了大量的非结构化或半结构化数据,传统关系型数据库的查询和索引技术受到限制,而 NoSQL二类数据库技术得到更多关注。例如,文献[16]提出了一个混合的数据访问架构HyDB以及一种并发数据查询及优化方法。文献[17]对key-value类型数据库的查询进行了性能优化。
3)数据解释(Data Interpretation)。
4)其他支撑技术(Data Transmission & Virtual Cluster)。
当前企业常常认为经过匿名处理后,信息不包含用户的标识符,就可以公开发布了。但事实上,仅通过匿名保护并不能很好地达到隐私保护目标。例如,AOL公司曾公布了匿名处理后的3个月内部分搜索历史,供人们分析使用。虽然个人相关的标识信息被精心处理过,但其中的某些记录项还是可以被准确地定位到具体的个人。纽约时报随即公布了其识别出的1位用户。编号为4417749的用户是1位62岁的寡居妇人,家里养了3条狗,患有某种疾病,等等。另一个相似的例子是,著名的DVD租赁商Netflix曾公布了约50万用户的租赁信息,悬赏100万美元征集算法,以期提高电影推荐系统的准确度。但是当上述信息与其它数据源结合时,部分用户还是被识别出来了。研究者发现,Netflix中的用户有很大概率对非top 100,top 500,top 1000的影片进行过评分,而根据对非top影片的评分结果进行去匿名化(de-anonymizing)攻击的效果更好。
此外,不同类型的大数据中可能存在多样化的访问控制需求。例如,在Web 2.0个人用户数据中,存在基于历史记录的访问控制;在地理地图数据中,存在基于尺度以及数据精度的访问控制需求;在流数据处理中,存在数据时间区间的访问控制需求,等等。如何统一地描述与表达访问控制需求也是一个挑战性问题。
以典型的k匿名方案为例。早期的方案及其优化方案通过元组泛化、抑制等数据处理,将准标识符分组。每个分组中的准标识符相同且至少包含k-1个元组,因而每个元组至少与k-1个其他元组不可区分。由于k匿名模型是针对所有属性集合而言,对于具体的某个属性则未加定义,容易出现某个属性匿名处理不足的情况。若某等价类中某个敏感属性上取值一致,则攻击者可以有效地确定该属性值。针对该问题研究者提出l多样化(l-diversity)匿名。其特点是在每一个匿名属性组里敏感数据的多样性满足要大于或等于 l。实现方法包括基于裁剪算法的方案以及基于数据置换的方案等。此外,还有一些介于k匿名与Z多样化之间的方案。进一步的,由于 l-diversity只是能够尽量使敏感数据出现的频率平均化。当同一等价类中数据范围很小时,攻击者可猜测其值。t贴近性(t-closeness)方案要求等价类中敏感数据的分布与整个数据表中数据的分布保持一致。其它工作包括(k, e)匿名模型(X, Y)匿名模型等。上述研究是针对静态、一次性发布情况。而现实中,数据发布常面临数据连续、多次发布的场景。需要防止攻击者对多次发布的数据联合进行分析,破坏数据原有的匿名特性。
社交网络产生的数据是大数据的重要来源之一,同时这些数据中包含大量用户隐私数据。截至2012年10月Face book的用户成员就已达10亿。由于社交网络具有图结构特征,其匿名保护技术与结构化数据有很大不同。
由数据的无序性、动态性等特点所决定,在数据库、文档中添加水印的方法与多媒体载体上有很大不同。其基本前提是上述数据中存在冗余信息或可容忍一定精度误差。例如,Agrawal等人基于数据库中数值型数据存在误差容忍范围,将少量水印信息嵌入到这些数据中随机选取的最不重要位上。而Sion等人提出一种基于数据集合统计特征的方案,将一比特水印信息嵌入在一组属性数据中,防止攻击者破坏水印.此外,通过将数据库指纹信息嵌入水印中,可以识别出信息的所有者以及被分发的对象,有利于在分布式环境下追踪泄密者;通过采用独立分量分析技术(简称 ICA),可以实现无需密钥的水印公开验证。其它相关工作包括文献[64-65],若在数据库表中嵌入脆弱性水印,可以帮助及时发现数据项的变化。
上述水印方案中有些可用于部分数据的验证。例如在文献[58-59]中,残余元组数量达到阂值就可以成功验证出水印。该特性在大数据应用场景下具有广阔的发展前景,例如:强健水印类(Robust Watermark)可用于大数据的起源证明,而脆弱水印类(Fragile Watermark)可用于大数据的真实性证明。存在问题之一是当前的方案多基于静态数据集,针对大数据的高速产生与更新的特性考虑不足,这是未来函待提高的方向。
早在大数据概念出现之前,数据溯源(DataProvenance)技术就在数据库领域得到广泛研究。其基本出发点是帮助人们确定数据仓库中各项数据的来源,例如了解它们是由哪些表中的哪些数据项运算而成,据此可以方便地验算结果的正确性,或者以极小的代价进行数据更新。数据溯源的基本方法是标记法。后来概念进一步细化为why-和where-两类,分别侧重数据的计算方法以及数据的出处。除数据库以外,它还包括 XML数据、流数据与不确定数据的溯源技术。数据溯源技术也可用于文件的溯源与恢复。例如文献[74]通过扩展Linux内核与文件系统,创建了一个数据起源存储系统原型系统,可以自动搜集起源数据。此外也有其在云存储场景中的应用。
未来数据溯源技术将在信息安全领域发挥重要作用。在 2009年呈报美国国土安全部的“国家网络空间安全”的报告中,将其列为未来确保国家关键基础设施安全的3项关键技术之一。然而,数据溯源技术应用于大数据安全与隐私保护中还面临如下挑战:
虽然基于大数据的威胁发现技术具有上述的优点,但是该技术目前也存在一些问题和挑战,主要集中在分析结果的准确程度上。一方面,大数据的收集很难做到全面,而数据又是分析的基础,它的片面性往往会导致分析出的结果的偏差。为了分析企业信息资产面临的威胁,不但要全面收集企业内部的数据,还要对一些企业外的数据进行收集,这些在某种程度上是一个大问题。另一方面,大数据分析能力的不足影响威胁分析的准确性。例如,纽约投资银行每秒会有 5000次网络事件,每天会从中捕捉25 TB数据。如果没有足够的分析能力,要从如此庞大的数据中准确地发现极少数预示潜在攻击的事件,进而分析出威胁是几乎不可能完成的任务。
其次,传统认证技术中认证方式越安全往往意味着用户负担越重。例如,为了加强认证安全,而采用的多因素认证。用户往往需要同时记忆复杂的口令,还要随身携带硬件USB Key一旦忘记口令或者忘记携带USB Key,就无法完成身份认证。为了减轻用户负担,一些生物认证方式出现,利用用户具有的生物特征,例如指纹等,来确认其身份。然而,这些认证技术要求设备必须具有生物特征识别功能,例如,指纹识别。因此很大程度上限制了这些认证技术的广泛应用。
目前,基于大数据的数据真实性分析被广泛认为是最为有效的方法。许多企业已经开始了这方面的研究工作,例如,Yahoo和 Thinkmail等利用大数据分析技术来过滤垃圾邮件;Yelp等社交点评网络用大数据分析来识别虚假评论;新浪微博等社交媒体利用大数据分析来鉴别各类垃圾信息等。
来源出版物:软件学报, 2000, 11(11): 1460-1466
21世纪是信息的时代。信息成为一种重要的战略资源,信息的获取、处理和安全保障能力成为一个国家综合国力的重要组成部分。信息安全事关国家安全、事关社会稳定。 因此, 必须采取措施确保我国的信息安全。近年来,信息安全领域的发展十分迅速,取得了许多新的重要成果。信息安全理论与技术的内容十分广泛,但由于篇幅所限,这里主要介绍密码学、可信计算、网络安全和信息隐藏等方面的研究和发展。
来源出版物:中国科学(E辑:信息科学): 2007, 37(2): 129-150
安全评估是贯穿信息系统生命周期的重要管理手段,是制定和调整安全策略的基础和前提。只有充分识别系统安全风险,才能有针对性地采取有效的安全防范措施。基于IDS(intrusion detection system)海量报警信息和网络性能指标,结合服务、主机本身的重要性及网络系统的组织结构,提出采用自下而上、先局部后整体评估策略的层次化安全威胁态势量化评估模型及其相应的计算方法。该方法在报警发生频率、报警严重性及其网络带宽耗用率的统计基础上,对服务、主机本身的重要性因子进行加权,计算服务、主机以及整个网络系统的威胁指数,进而评估分析安全威胁态势。实验表明,该系统减轻了管理员繁重的报警数据分析任务,能够提供服务、主机和网络系统3个层次的直观安全威胁态势,使其对系统的安全威胁状况有宏观的了解。而且,可以从安全态势曲线中发现安全规律,以便调整系统安全策略,更好地提高系统安全性能,为指导安全工程实践、设计相应安全风险评估和管理工具提供了有价值的模型和算法。
来源出版物:软件学报, 2006, 17(4): 885-897
来源出版物:软件学报, 2004, 15(8): 1208-1219
来源出版物:软件学报, 2003, 14(1): 110-116
来源出版物:电子学报, 1999, 27(1): 98-102
软件定义网络(software-defined networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案。综述了基于OpenFlow的SDN技术发展现状,首先总结了逻辑控制和数据转发分离架构的研究背景,并介绍了其关键组件和研究进展,包括OpenFlow交换机、控制器和SDN技术,然后从4个方面分析了基于OpenFlow的 SDN技术目前所面临的问题和解决思路。结合近年来的发展现状,归纳了在校园网、数据中心以及面向网络管理和网络安全方面的应用,最后探讨了未来的研究趋势。
来源出版物:软件学报, 2013, 24(5): 1078-1097
目前的入侵检测系统存在着在先验知识较少的情况下推广能力差的问题。在入侵检测系统中应用支持向量机算法,使得入侵检测系统在小样本(先验知识少)的条件下仍然具有良好的推广能力。首先介绍入侵检测研究的发展概况和支持向量机的分类算法,接着提出了基于支持向量机的入侵检测模型,然后以系统调用执行迹(system call trace)这类常用的入侵检测数据为例,详细讨论了该模型的工作过程,最后将计算机仿真结果与其他检测方法进行了比较。通过实验和比较发现,基于支持向量机的入侵检测系统不但所需要的先验知识远远小于其他方法,而且当检测性能相同时,该系统的训练时间将会缩短。
来源出版物:软件学报, 2003, 14(4): 798-803
来源出版物:软件学报, 2008, 19(3): 702-715
来源出版物:通信学报, 2007, 28(8): 113-122
来源出版物:南京理工大学学报, 2014, 38(1): 12-21
来源出版物:计算机研究与发展, 2014, 51(8): 1681-1694
在现有法律法规和标准体系的指导下,提出了一种通用的网络安全体系框架,阐述了安全目标、安全边界、安全体系要素与安全服务和安全风险评估之间的关系.在网络安全体系框架的基础上,利用统一建模语言(Unified Modeling Language,UML)在建模表述上的强大性和通用性给出了安全目标、安全边界和安全体系要素的建模方法,以规范化安全体系的表示形式并消除沟通中的歧义性。利用建立的模型,安全管理员使用提出的网络安全建模分析方法,可以验证业务流程的目标满足性并得出可能的安全风险。最后通过一个典型网上银行网络的建模分析,验证了提出的安全体系框架和建模分析方法的有效性和合理性。相比于传统的方法,该方法建模分析要素更为全面,且推导得出的结果指导性更强。
来源出版物:计算机研究与发展, 2014, 51(7): 1578-1593
来源出版物:中国图书馆学报, 2015, 41(216): 72-84
来源出版物:电信科学, 2015, 7: 1-6
来源出版物:计算机学报, 2015, 38(4): 749-758
来源出版物:中国科学:信息科学, 2016, 46(2): 125-164
来源出版物:科技导报, 2016, 34(14): 107-112
来源出版物:软件学报, 2016, 27(8): 2099-2114
