大数据的安全风险及防范策略分析

2017-04-17 01:27:26文冯
互联网天地 2017年2期

□ 文冯 昀

大数据的安全风险及防范策略分析

□ 文冯 昀

一、引言

近年来,随着信息技术的迅速发展,以互联网为主体的信息网络日益普及,“大数据”已在悄然间融入人们的工作、学习和生活之中,成为不可或缺的组成部分。比如,用大数据预测疾病,用大数据预测奖项,用大数据支撑智能交通,用大数据助力企业商业决策,用大数据分析客户心理等。大数据平台存储了大量的用户数据,包含个人隐私、财务等敏感信息。近年来,大数据平台安全事件不断发生,隐私数据或敏感信息的泄露、服务中断等安全问题严重阻碍了大数据业务的健康发展。深入研究大数据平台存在的安全风险,切实保障大数据平台的信息安全是我们需要研究的课题。

二、大数据的定义和特征

大数据,即一个体量特别大、数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。简单地说大数据的“大”是形容这些数据“管理成本高昂”且“难以创造价值”。大数据具有体量大、结构多样、时效强等特征,处理大数据需采用新型计算架构和智能算法等新技术。大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线业务流程优化。大数据不能只强调“大”,应从资源、技术、应用和理念多个角度全面认识。大数据更重要的意义是启发全社会重新审视数据的价值。

(一)数据体量大

截至目前,人类生产的所有印刷材料的数据量大概是200 PB(1 PB=1000 TB),而人类所说过的话的数据量大概是5 EB(1 EB=1000 PB)。当前,普通个人电脑的硬盘容量为TB量级,而一些大公司的存储数据量已经接近EB量级。

(二)数据类型多样

大数据存储的数据类型多样,总体上可分为结构化数据、非结构化数据和半结构化数据。结构化数据是可用二维表格结构表示的数据,表中任何一列的数据都有相同的数据类型。非结构化数据是不能用固定结构表示的数据。半结构化数据是介于结构化和无结构数据之间,用二维表之外其他结构表示的数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括音视频、图片、网络日志、地理位置信息等。多类型的数据对数据的处理能力提出了很高的要求。

(三)价值密度低

价值密度的高低与数据总量的大小成反比。我们以视频监控为例,一天24小时连续监控的过程中,真正有用的数据可能只有几十分钟。如何通过机器算法更快地提炼出有价值的数据是目前急需研究解决的难题。

(四)处理速度快

大数据与传统数据挖掘最大的区别就是处理速度快。据统计,到2020年,全球数据的使用量预计会达到35.2 ZB。在海量数据面前,处理数据的效率关系到企业能否长久生存下去。

图1 大数据技术框架

三、大数据关键技术

大数据来源于互联网、企业系统和物联网等信息系统。经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过 5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现,技术体系如图1所示。每个环节都面临不同程度的技术上的挑战。

(一)数据准备环节

在进行存储数据之前,需要先对数据进行清洗、整理,传统数据处理体系中称为 ETL(Extracting,Transforming,Loading)过程。与以往数据分析相比,大数据的来源渠道多样,包括企业内部数据库、互联网数据和物联网数据,不仅数量巨大、格式多样,质量也参差不齐。这就要求数据准备环节首先要规范格式,便于后续存储管理,其次还要在尽可能保留原有语义的情况下去粗取精、消除噪声。

(二)数据存储与管理环节

当前全球数据量正以每年超过50%的速度增长,存储技术的性能和成本面临巨大的压力。大数据存储系统需要以最低的成本来存储海量数据,同时还要适应种类繁多的非结构化数据管理需求,具有数据格式上的可扩展性。

(三)计算处理环节

根据需要处理的数据类型,选取适合的算法快速处理数据。海量数据处理往往要耗费大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。所以,分布式计算逐步成为大数据的主要计算架构。

(四)数据分析环节

数据分析环节需要从异常复杂的数据中发现规律并提取新的知识。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。

(五) 知识展现环节

在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节则不是必需的。

总而言之,大数据对数据准备环节和知识展现环节来说只是量的变化,并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。

四、大数据的应用

世界经济论坛报告指出:“大数据是一项具有帮助全球经济复苏的巨大潜力的新资产”、“大数据将在取得包容性增长目标方面扮演重要角色”。大数据被国际社会普遍视为驱动经济社会创新发展和改善效率的新动力,可广泛应用于经济社会各领域。

(一)政府应用

国内地方政府部门应用大数据提升机构治理和政府监管能力的行动已经开始出现。一是打击老鼠仓。沪深两大交易所对“老鼠仓”等交易行为建立了专项核查和定期报告制度,目前已建立实时监控机制、专项核查机制、联动监控机制、智能化监控机制四位一体的监控体系,成功打压了多起老鼠仓交易。二是税务稽查。江苏省无锡市国税局稽查局利用购物网站的软件查询分析功能,发现并成功查处了全市首起网络交易偷税案,补征税款及罚款合计12余万元。三是征信体系建设。浙江省信用中心成立超过10年,汇集了工商、法院、税务和中国人民银行杭州中心支行等39个省级部门和单位提供的信用信息,目前向全社会无偿提供企业和个人的信用信息查询服务。四是食品药品监管。河北省食品药品监管局利用大数据推进大药品监管,通过综合药品生产、流通、使用等各环节的监管情况,对检查、检验、监测中的各种数据深度分析和利用,找到问题并对症下药。五是反腐倡廉。江苏省昆山市引入大数据理念,将党风廉政建设和反腐败工作任务尽可能量化为客观指标,并应用信息管理系统对不间断的数字信息流实现实时监测,启动大数据反腐创新模式。六是犯罪预防。北京市怀柔区警方也运用大数据整合历年案件信息,建立犯罪数据分析和趋势预测系统,助力APEC期间的安保工作。

(二)互联网行业应用

互联网行业是大数据应用的领跑者。阿里巴巴作为全球最大的零售体,支撑它快速成长的是大数据、云计算等新技术的运用,该公司2015年零售平台交易额突破3万亿元,每天有超过30亿的浏览量、数千万交易。腾讯在大数据方面的应用主要有精准推荐、信用体系、数据云等。腾讯分布式数据仓库TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100 PB;每日作业数100多万,每日计算量4 PB,作业并发数2000左右;实际存储数据量80 PB,文件数和块数达到6亿多。百度拥有全球最大的神经网络,支持万亿级别的传输,单集群规模超过数万台服务器,数据管理能力1000 PB,每天处理100 PB。相继推出百度云、百度大脑、数据工厂、司南(营销平台)等大数据服务。

(三)其它应用

文化娱乐大数据:根据3000万次观影行为、400万个评分、300万次搜索请求,美国最大付费视频网站通过大数据决策自制剧生产,大获成功。科研大数据:大数据开创科研“第四范式”。科研是以获取数据和分析数据为核心的工作;科研结果可重现要求从结果回溯到数据与分析;采用不同的分析方法可能会得到新的科学发现。电信运营商:Verizon于2012年推出Precision Market Insights,聚合移动用户使用模式和地理位置数据,向媒体、零售商、体育场馆等提供数据分析服务。France Telecom已有基于用户消费数据的分析,以帮助法国电信改善服务质量,并通过承建公共项目向交通等部门提供数据服务。金融、贸易、物流等“广义信息产业”是大数据最有潜力的领域。

五、大数据安全风险

随着网络化社会的不断发展和技术水平的不断提升,大数据安全风险也与日俱增。首先,各式各样的智能终端、互动频繁的社交网络和超大容量的数字化存储,为获取和存储大数据提供了一个开放、互联的平台。基于云计算的网络化社会,使分布在不同地区的资源可以快速整合、动态配置,实现数据集合的共建共享。但这一平台的开放性,也使得蕴含海量信息和潜在价值的大数据更容易吸引黑客的攻击。对于攻击者而言,由于这些信息的相互关联,用相对低的成本便可获得巨大的收益。其次,技术的发展也增加了安全风险。计算机网络技术和人工智能的发展,服务器、防火墙、无线路由等网络设备和数据挖掘应用系统的广泛应用,为大数据自动收集和智能动态分析提供了方便,但也增加了大数据的安全风险。一方面,由于对大数据的安全控制力度不够,应用程序编程接口的访问权限控制以及密钥生成、存储和管理方面的不足都可能造成数据泄露;另一方面,攻击技术不断提高,大数据本身可能成为一个可被持续攻击的载体,隐藏其中的恶意软件和病毒代码很难被发现。

(一)重要业务面临安全威胁

大数据平台多用来承载电子政务、电子商务、数据存储等重要业务,接连发生的安全事件严重威胁着平台业务安全。一方面,不法分子借助泄露的账号、密码等敏感信息,能够直接入侵平台,窃取敏感信息,发布虚假消息,扰乱平台业务正常秩序;另一方面,不法分子通过DDOS等手段能够直接对大数据平台进行网络攻击,造成平台瘫痪、业务中断等严重后果。当前,大数据平台承载的业务已经成为商务、政务以及金融等重点行业在网络空间的延伸,平台业务受损将直接殃及现实世界。

(二)信息泄露事件接连发生

近几年,大量的信息泄露事件接踵而至。如酒店开房信息泄露事件,中国2000万顾客酒店开房信息泄露并被19万次下载;圆通速递近百万条快递单个人信息不仅网上有售,且单号数据信息还能24小时更新;12306数据泄露事件,多达13万用户的账号、明文密码、身份证、手机号等敏感信息在网络上疯狂传播。接连发生的信息泄露事件极大制约着大数据平台的健康发展。

(三)潜在后果难以预估

作为海量数据的载体,大数据平台出现安全问题,有可能会产生一系列连带后果。一是泄露的居民身份证、银行卡等敏感信息被放到网上非法买卖,可能被不法分子用于洗钱、逃税、诈骗、送礼和开店刷信用等行为,扰乱了正常的社会秩序。二是不法分子可借助大数据平台泄露的数据对其他平台进行“撞库”攻击。互联网用户往往习惯于在不同的平台使用相同的账号和口令,但平台的安全防护能力各不相同,一旦其中一个漏洞较多的平台发生数据泄露,其他平台也将遭殃。三是频繁发生的安全事件不只带来经济损失,还会降低互联网用户对大数据平台的信心,严重阻碍大数据平台的健康、快速发展。

2014年8月,中国互联网协会发布的《中国网民权益保护调查报告(2014)》显示,2013年7月至2014年7月,中国网民因各类侵权遭受的损失合计约1434亿元,其中直接经济损失约为1093亿元。大量事实表明,如果不能妥善处理大数据安全问题,将会造成不可估量的损失。

六、大数据安全保障策略

大数据安全保障可以从物理安全、存储安全、系统安全、访问安全、网络安全、运营安全、审计安全等角度进行研究。围绕大数据整个生命周期,即数据产生、传输、采集、处理、存储、分析、展示、发布和应用、产生新数据这些阶段进行安全防护。其目标是尽可能地保护大数据自身安全。防止越权访问、数据泄露、密钥泄露、数据篡改、数据丢失、侵犯用户隐私等问题的出现。

(一)大数据应用安全策略

大数据应用安全策略应从以下几方面着手:一是防止APT(Advanced Persistent Threat,高级持续性威胁)攻击。依靠大数据处理技术,针对APT安全攻击潜伏时间长、隐蔽能力强、攻击渠道和路径不确定等特点,构思具备事后回溯能力与实时检测能力的全流量审计方案,提示隐藏有病毒的应用程序。二是整合工具和流程。利用整合工具和流程,保障大数据应用安全处在大数据系统的顶端。同时,通过设计一个通用的数据格式简化整合过程,可以改善分析算法的持续验证。三是用户访问控制。大数据的跨平台传输应用会带来内在风险,可以根据大数据的用户需求和密级程度的不同,对应设定不同的权限等级,同时严格控制访问权限。四是数据实时分析引擎。数据实时分析引擎融合了机器学习、云计算、统计学、语义分析等多个领域,采用数据实时分析引擎,从大数据中迅速挖掘出潜在威胁、非法操作、黑客攻击等各类安全事件,及时发出警告响应。

(二)大数据存储安全策略

大数据的安全存储问题可以从以下几个方面来考虑解决:一是数据加密。在大数据安全服务的设计中,大数据平台的数据可以被存储在数据集的任意存储空间,采用SSL(Secure Sockets Layer,安全套接层)加密方式对这些数据进行加密,以达到数据集的节点和应用程序之间移动保护大数据的目的。在大数据的传输服务过程中,通过加密数据,数据流的上传与下载得到了有效的保护。目前,具有强大加密功能的程序有PGP(Pretty Good Privacy,基于公钥加密体系的邮件加密软件)和TrueCrypt。二是采用过滤器。通过过滤器的监控,只要发现数据离开了用户的网络,立即自动阻止数据的再次传输。三是分离密钥和加密数据。使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开。同时,定义产生、存储、备份、恢复等密钥管理生命周期。四是数据备份。通过数据管理、敏感信息集中管控、系统容灾等产品,实现点对点的数据保护,保证大数据损坏情况下能够及时恢复。

(三)大数据管理安全策略

通过技术来保护大数据的安全必然重要,但管理也很关键。大数据的管理安全策略主要有:一是规范建设。大数据建设是一项有序的、动态的、可持续发展的系统工程,一套规范的运行机制、建设标准和共享平台建设至关重要。规范化建设可以促进大数据管理过程的正规有序,实现各级各类信息系统的网络互连、数据集成、资源共享,在统一的安全规范框架下运行。二是建立以数据为中心的安全系统。基于云计算的大数据存储在云共享环境中,为了大数据的所有者可以对大数据使用进行控制,可以通过建设一个基于异构数据为中心的安全方法,从系统管理上保证大数据的安全。三是融合创新。大数据是在云计算的基础上提出的新概念,大数据时代应以智慧创新理念融合大数据与云计算,以智能管道与聚合平台为基础,提升数据流量规模、层次及内涵,在大数据流中提升知识价值洞察力。

七、结束语

大数据虽然蕴藏着巨大的价值,给各行各业的发展提供了重大的机遇,但是随之而来的挑战也异常艰巨,尤其是大数据安全问题,它是我们在享受大数据时代所带来的便利的同时所无法忽视和回避的难题。保障大数据安全需对症下药,需从国家、制度、管理、法律等层面进行更多的投入,使大数据平台良性发展,以发挥最大效用。

(作者单位:广西壮族自治区通信管理局)

[1]工业和信息化部信息通信研究院.大数据白皮书[EB/OL].(2014-05-12)[2015-06-18] . http://www.miit.gov.cn/n11293472/n11293832/n15214847/ n15218338/16046426.html.

[2]赵明亮,刘茁卉,李芮,南婷,孙洪磊,李惊亚,韦慧,马意翀. 大数据安全面临系列挑战[EB/OL].(2015-01-21)[2015-06-18] . http://www.lwgcw.com/ NewsShow.aspx? newsId=37178.

[3]冯伟.大数据平台安全问题不容小觑[N]. 赛迪智库专报,2015-3-11.

[4]郭三强,郭燕锦.大数据环境下的数据安全分析[EB/OL].(2013-07-08)[2015-06-18] . http://www.ciotimes. com/bi/sjck/81674.html.

[5]栗蔚,魏凯.大数据的技术、应用和价值变革[J].电信网技术,2013(7):6-10.

[6]李纪舟,叶小新,丁云峰,朱党明.大数据关键技术、主要特点及发展趋势[J].电信技术研究,2013(3):58-64.

[7]邬贺铨.大数据时代的机遇与挑战[J].信息化参考,2013(2):1-6.

[8]魏凯.大数据产业发展状况及政策思考[J].电信网技术,2014(4):1-4.

[9]张亚勤.大数据催生颠覆式创新[J].信息化参考,2013(2):15-17.