胡如会 曾造 贺道德
摘要:针对信息时代中大数据在管理及使用方面的安全问题,提出在可信计算下,通过加密数据、度量平台完整性、检测用户身份认证等方式,实现网络主动防御,确保大数据在存储、传输、认证整个信息处理过程中可控、可信、可管,使大数据更加安全有效。
关键词:可信计算;大数据;存储;传输;认证
中图分类号:TP309.2
文献标识码:A
文章编号:1009-3044(2017)10-0016-03
1.引言
21世纪的今天,是一个全新的互联网大数据时代,数据以每年50%的比率递增,每两年翻一番。在数据公开的信息社会中,不管你是否愿意,任何人、任何公司或机构都可以了解你。美国政府将大数据比喻为“未来的新石油”,一个国家对大数据的占有和控制将成为海、陆、空之外的另一种国家核心资产,是综合国力的重要组成部分。在国内,政府各个部门都拥有很多原始数据,如金融数据、信用数据、交通数据、住房数据、医疗数据、教育数据等。这些数据在每个部门都是独立的、静态的,如果将这些独立的数据关联起来,对其进行分析和统一管理,其价值是无法估量的。随着大数据的进一步集中和互联网技术的发展,传统的信息安全技术已成为大数据快速发展的瓶颈。大数据的安全问题会因为数据规模、数据处理、数据存储等因素而面临新的安全威胁与挑战。传统的“封堵查杀”防护机制并不能有效地保障数据在互联网中的安全,互联网的可信运行才是保障大数据安全的关键。面对大数据安全的威胁性和脆弱性,可信计算可以从根本上转变“封堵查杀”的被动防御模式,使攻击者进不去,进去后非授权者拿不到数据,窃取保密信息后无法破解,基本实现大数据在网络中的主动免疫和可信管理。因此,本文通过分析可信计算与大数据的关系,针对大数据的安全问题,对可信计算下大数据的安全存储、安全传输、安全认证方面作了进一步探讨和论述。
2.可信计算与大数据
可信计算(Trusted Computing)指计算机系统所提供的服务是可信赖的,是一种运算和防护并存的信息安全新技术,使计算结果总是与预期一样,全程可测可控,具有状态度量、保密存储和身份识别等功能,使系统和网络安全可信。可信计算以TPM(Trusted Platform Module)设备作为基础,其基本思想是在计算机系统上置入一个可信平台模块硬件芯片TPM,以其作为平台的信任根,再从信任根开始到硬件、操作系统、应用层建立一条信任链,逐级测试、逐级验证,将信任扩展到整个计算机平台,确保整个信息系统的可信。大数据(Big Data),在IT行业又称巨量数据集合,是指“无法用现有的软件工具搜索、存储、提取、分析、共享和处理的海量的、复杂的、多样的数据集合。”维基百科将大数据定义为:“无法在一定时间内使用常规数据库管理工具对其内容进行抓取、管理和处理的数据集。”在维克托·迈尔一舍恩伯格编写的《大数据时代》中用5个“v”来概括了大数据特征:Volume(大量)、VelociIv(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据本质上还是数据,是互联网发展到现阶段的一种表象或特征,其已经渗透到每一个行业领域,成为重要的生产因素。随着大数据的快速发展,未来几年数据泄露将会泛滥,数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。以服务为中心的计算任务中,大数据的应用需要可信作为发展前提,需要可信度量作为基础。如果没有相应的可信机制,将无法保证大数据在存储、传输、认证方面的安全。
3.可信计算下的大数据安全
3.1可信安全存储
大数据中非结构化的数据占主流,传统的数据处理技术不能有效地处理半结构化和非结构化的多维数据,面对复杂多样的大数据存储,目前的数据存储管理模式容易造成数据失窃和篡改。大数据的安全存储涉及3个方面的问题:(1)数据的存储环境是否安全可靠;(2)采用何种存储方式存储才能确保数据不被攻击和泄露;(3)如何保障数据存储机制的安全。可信计算是目前大数据安全的一种新技术,是从使用终端开始主动防范攻击,其有别于传统的安全防御机制。针对大数据安全存储的存储环境、存储方式和存储保护等3个问题,利用可信计算技术设计了大数据安全存储方案,如图l所示。这种技术以可信平台模块TPM作为信任根,通过可信计算提供的安全特性来提高大数据的存储安全。
存儲环境的安全可靠是大数据存储的前提,内置于计算机系统中的TPM作为一个可信的信任根,通过完整性度量机制来判断大数据存储环境是否被攻击和篡改。完整性度量就是对当前大数据系统平台运行状态的收集,其度量过程也就是信任链的建立过程。目前主流的度量方法有基于属性的度量、基于二进制的度量和基于语义的度量。大数据系统平台从信任根开始启动,先度量系统BIOS,将度量结果通过扩展方式存储到对应的系统平台状态寄存器PCR(Platform State Register)中,由此继续往下度量操作系统启动模块、系统内核、系统上的应用程序,并为它们建立起一条信任链,每完成一次度量,都把度量值存储到PCR中,平台状态一旦被度量和存储,攻击者就无法伪造平台的状态来窃取数据。如图2,用户访问大数据平台时,通过平台完整性报告的度量值与已存储的度量标准参考值进行比对,依靠可信平台来鉴定存储值的完整性,如果一致则说明存储环境完整可信,否则表明系统启动过程中数据发生了改变。
要确保大数据不被攻击和泄露,加密存储是关键。大数据在被上传到服务器后,一方面服务器出现故障会导致数据泄漏,另一方面服务器被非法入侵后,数据存在被窃取和篡改的风险。如果数据拥有者在将数据上传服务器之前就对大数据进行拆分、加密,即使大数据在传输或存储过程中丢失,也会因为事先加密而不会发生信息泄露。加密算法是把明文变成密文,密文再变回明文,变不回来的不能算是加密。目前市场上基于可信计算技术常用的加密算法是RSA公钥加密算法和ECC椭圆曲线加密算法。RSA加密算法是目前最具影响力的公钥加密算法,RSA加密算法已被ISO推荐为公钥数据加密标准。ECC椭圆曲线加密算法是目前已知的公钥体制中,对每比特所提供加密强度最高的一种体制,具有大数运算、大容量存储等特点。加密算法的安全性取决于密钥的安全性,由于公共大数据平台的用户众多,大数据服务系统需要管理大量的用户密钥。一旦用户密钥泄露,与之相关的大数据资源将会被窃取和篡改,将给用户带来不可估算的损失。因为可信计算平台TPM具有防篡改功能,所以用户密钥存储在其内部相对较安全,为了对众多的用户密钥进行保护,可信计算组织提出采用树形结构对其进行存储和管理。大数据迅猛发展使数据量急剧增加,公共数据平台的存储安全问题更加突出,由于可信计算技术的研究与应用在国内已经比较成熟,所以使用可信计算提升系统的安全性是解决大数据存储安全问题的有效方法之一。
3.2可信安全传输
大数据时代,信息交流离不开大量数据的传输,数据传输的安全性问题不可回避。数据在传输前,必须保证该数据来自受信任的一方,且要确保数据的机密性和确保数据免受意外或被故意修改。因此,重要数据的传输更需要一种强有力的安全措施来确保其不被窃取和篡改,基于可信计算的数据加密算法为大数据传输提供了较好的解决方法。
数据在传输过程中要通过口令或数字证书来进行身份验证,以确保数据来自可信任的一方。发送者用姓名、证件号等私钥加密一个签名,接收者用公钥来解密,如果成功即能确保数据可信,否则,数据不可信。假设A发送文件给B,则A和B至少需经过三个步骤:(1)A用其私钥加密该文件;(2)A将加密文件发送给B;(3)B用A的公钥解密A发送的文件。为确保数据信息在传输过程中不被泄露和篡改,在大数据平台中引入可信认证服务,增加身份和平台合法性的认证,这种可信认证方式能确保数据安全传输,从而保证了大数据在传输中的可信与安全。由于TPM的密钥采用树形结构进行管理,所以A在传输前,用自己的私钥将文件从子密钥、父密钥到根密钥SRK层层加密,以确保數据在传输过程中的机密性;当B接收到A传来的文件后,必须先将其从根密钥SRK到该密钥的所有的父密钥进行层层解密,直到该密钥对应的数据被完全解密为止,才能看到该文件的明文。
为了确保数据在传输过程中免受意外或被故意修改,可以通过验证被传输的数据是否完整来判断。数据传输前先通过SHA-1求出其对应的哈希值,接收者收到数据后,将该数据的哈希值与传输数据的哈希值进行比较,判断该数据是否被篡改。如果对比不上,说明已被破坏或篡改,则拒绝进一步接收数据。如果对比符合,说明发送端和数据可信。由于大数据在传输过程中的安全需求不同,不同的数据加密要求也不同,所以数据在传输过程中为了确保其安全、可靠,应在可信计算下,根据不同的数据安全要求提供不同的数据传输方案。
3.3可信安全认证
传统的大数据认证技术主要通过用户口令或持有的数字证书来鉴别,这样就会存在问题:一方面,攻击者一旦窃取到用户口令或用户持有的数字凭证就能轻松通过认证;另一方面,传统认证技术中的认证方式越安全就意味着用户负担越重,如果采用先进的认证技术如生物认证,又需要用户终端具有生物特征识别功能,这样反而是增加了系统更大的开销和不现实。传统的大数据认证技术已不适合应用于当前的大数据管理,如果在认证技术中引入可信计算则能够有效地解决上述两个问题。根据可信计算技术,首先为用户构建配有安全芯片TPM的可信终端,用来度量大数据平台的完整性,加密重要信息和检测恶意代码,同时采用基于可信计算的ECC椭圆曲线加密技术,该技术在目前加密算法中具有高强度的保密性。其次,为确保数据在传输中的安全,除终端设备需要可信性自认证外,还需通过检测代理和服务器的可信认证。根据可信计算技术中可信网络连接的相关规范,可在用户终端不同网关处设置可信检测代理,用以检测恶意行为。用户终端需要访问大数据服务平台时,必须经可信检测验证判断其是否安全可信,若通过验证则允许用户访问网络,否则拒绝请求。如图3所示,当用户终端向大数据平台服务器发出需求请求后,可信检测代理
首先检查网络连接以排除非法数据链接,然后用终端公钥解密签名以验证终端用户的合法性,当服务器认定用户身份可信时,再用大数据平台的私钥解密用户终端传来的数据信息,然后响应用户传输数据请求。
4.结束语
总之,大数据已成为各个国家和相关领域关注的重要战略资源,将会带动科技创新和未来生产力发展,对国家治理、政府决策、企业规划以及人们的生活方式等都将产生一系列的影响。原有的数据处理手段已经不适应迅速增大的数据量,原有的计算环境、存储方式、传输模式也在随着数据关联、数据分析、数据挖掘等大数据技术的发展而变化。在可信计算下,以数据访问控制为核心,实现主动防御,确保大数据在存储、传输、认证整个信息处理过程中可控、可信、可管,使大数据更加安全有效。