高校图书馆面临的数据安全问题及防护策略研究

2017-08-25 00:52鲍劼李丕仕都平平朱世平邓志文
现代情报 2017年7期
关键词:云存储隐私保护数据安全

鲍劼+李丕仕+都平平+朱世平+邓志文

[摘要][目的/意义]研究有效的数据安全防护策略,以应对高校图书馆面临的数据安全威胁,为高校图书馆提升服务质量和效率提供可靠的技术保障。[方法/手段]运用云存储、分级加密、大数据分析、WAF、Pd3AC等技术和生命周期理论,结合高校图书馆面临的数据安全问题,从存储安全、网络安全、隐私泄露三方面进行分析、研究。[结论/结果]从数据云安全存储、提高网络安全防护技术、基于数据生命周期的隐私保护三方面提出多维、有效的高校图书馆数据安全防护策略。

[关键词]高校图书馆;数据安全;云存储;网络安全;隐私保护

互联网、云计算、大数据等技术在图书馆广泛应用,图书馆数字资源建设加快,数据资源总量每年显著递增,数据资源种类增多,现已包括数字、文本、图像、音频、视频、多媒体等各种结构化或半结构化的数据类型,同时通过图书馆微信、微博、社交网络等新媒体方式,读者原创数据爆炸性增长,产生了大量的网络日志、用户行为信息等非结构化、隐私数据。如何做好这些海量数据的安全防护,已成为保证图书馆正常运转、提升信息服务质量的重要技术保障工作。然而近年来,新技术快速发展下的数据安全问题变得越发严峻。Verizon发布的《2015数据泄露调查报告》显示,2015年确认了2122起数据泄露事件,涉及61个国家组织;2016年,ISIS黑客组织泄露美国阿肯色州图书馆协会(ALA)800多名员工的个人信息,所幸信用卡信息未被泄露;2017年中国教育部的信息漏洞平台内部通报某些高校存在弱口令漏洞,经排查漏洞存在于高校图书馆的OPAC系统。因此,以数据存储、挖掘、分析、应用为己任的高校图书馆,分析和研究自身面临的数据安全问题,采取可行的应对策略以保障图书馆的数据安全,是高校图书馆工作者亟需去思考和研究的问题。

1高校图书馆面临的数据安全问题

高校图书馆数字化建设至今,数据资源已成为图书馆最重要的资源之一,高校图书馆的资源建设和服务决策更多地依赖于数据分析,数据本身的可靠性和安全性尤为重要。在此,结合高校图书馆面临的数据安全威胁,从存储安全、网络安全、隐私泄露三个方面,就高校图书馆面临的数据安全问题进行分析研究。

1.1存储安全问题

高校图书馆历经多年信息化、数字化建设,积累了大量的数字资源,数据环境具有海量存储、管控难度大、开放复杂、级数递增等特点。以中国矿业大学图书馆(后简称我馆)为例,数据总量从2012年的26.3TB增至2016年底的147.6TB,并且还有逐年递增加剧的趋势,如此海量的数据对图书馆的存储设备是个巨大的考验,急剧增长的数据量也将超出传统数据库的管理能力。如何防止这些数据丢失、损毁、被非法盗取(利用)是高校图书馆存储安全面临的一个问题。

高校图书馆关注的数据已不仅限于馆藏书目、电子期刊、电子图书、学位论文、借阅信息等业务数据,还延伸到读者在微信、微博、社交网络等新媒体方式互動中产生的难以估量的社会化数据。数据种类包括结构化、半结构化和非结构化等多种类型,由于不同类型的数据对存储系统的性能要求不同,因此存储设备类型多样。以我馆为例,现有存储设备包括磁盘阵列、SAN和NAS三种类型,三种存储系统的存储技术、管理方式、灾难忍受度、性能等都不一样,如何高效、安全地利用三种类型存储是安全存储面临的一个问题。

高校图书馆为了降低成本,开始将一些数据存储在“云”端,但云平台本身在安全方面的隐患给高校图书馆的数据安全带来威胁,主要表现在:云平台的开放性给黑客带来了窃取数据资源的机会;“云”服务提供商可能为了谋取利益而出卖这些数据和信息,导致图书馆核心信息和隐私数据泄露;云平台海量用户共存模式存在潜在的威胁;“云”服务提供商的安全访问控制机制可能无法有效阻止非法用户访问;云平台的虚拟化存在安全隐患,等等。

1.2网络安全问题

高校图书馆是以网络为基础传递数字资源,提供信息服务的。图书馆网络环境不仅面临着传统的病毒、木马、DDoS攻击等安全问题;现在,一方面由于数字资源规模巨大,黑客的一次攻击能够盗取更多的数据,无形之中使图书馆成为更有吸引力的目标;另一方面,黑客利用云计算、大数据等技术发起的高级可持续攻击(APT)、僵尸网络攻击等新模式攻击,能够同时控制百万台计算机,这是传统单点攻击做不到的,由于可利用数据规模巨大,攻击者能够很好地隐藏攻击代码,使传统的安全工具无法检测。

高校图书馆的服务模式和读者阅读方式正在改变,伴随着自助借还、无线接入、移动阅读终端、微信、微博、云计算和其他新技术的应用,使得外部信息接入点增加,传统网络防护设备安全隐患加大,API(程序接口,如我馆的汇文系统接口程序)的访问权限开放等。这些都是图书馆数据资源受到攻击和泄露的重要原因,也是高校图书馆网络安全面临的重要问题。

目前,图书馆的网络安全防护基本采用杀毒软件和防火墙相结合的模式来阻止病毒、木马等恶意程序的入侵。扫描一遍现有的存储需要花费几天的时间,面对未来几何级增长的数据、大量的外部信息接入、API接口开放等,将会需要更多的扫描时间,这些网络安全问题亟需我们去研究和解决。

1.3隐私安全问题

移动互联时代的高校图书馆,积极收集读者个人信息(如个人身份信息、私人电话、E-mail等)和读者活动信息(如阅读行为、参考咨询内容、上网行为、个人偏好、科技查新内容等)等,并对这些信息进行分析、挖掘、整合、利用,更好地根据读者需求提供个性化服务、知识服务以及转变服务模式。但同时,这些读者隐私信息存在被任意获取、泄露、扩散的隐患,将极大地威胁读者个人隐私安全。

大多数高校图书馆都有阅读终端设备、视频监控设备、服务监控系统等,实现了对用户信息和用户行为(包括阅读行为、阅读需求和用户地理位置信息)等隐私信息的数据采集与监控。这些数据的采集与分析,提高了用户服务质量和读者阅读满意度,同时为高校图书馆科学预测用户服务模式变革提供了可靠的决策支持。但是,图书馆对这些隐私数据的使用权和所有权没有明确的界定,也没有用户隐私数据保护措施。大量事件证明,数据未被妥善应用会对用户的隐私造成极大的侵害,“棱镜门”事件就是一个实例。

高校图书馆官方微信、微博、社交网络等新媒体平台的积极推进,使互联网每时每刻都在产生与读者个人相关的海量数据,这部分数据包含了大量的读者个体特征、阅读社会关系、个体行为等隐私数据,如果未被妥善处理,将增大读者隐私泄露的风险。

2高校图书馆数据安全的解决方案

高校图书馆在使用数据处理、数据挖掘、数据分析等技术获取数据蕴藏的有用信息,创新服务模式,提高服务质量的同时,应研究和解决如何确保数据存储安全,如何降低网络安全威胁,如何防止用户隐私泄露。高校图书馆可以从数据存储安全,提高网络安全防护技术,读者隐私数据保护三方面着眼,建立全方位、深度的数据安全防御体系。

2.1数据云安全存储

高校图书馆由于数字资源呈爆炸性、无限增长状态,现有的存储系统将无法有效地存储和管理这些数据,限制了数据的增长。根据各类数字资源的功能性和机密性需求,对于数据规模较大的电子期刊、电子书、多媒体等数字资源,其服务范围较广、涉及隐私敏感数据较少的情况,图书馆可考虑将这部分数字资源存储在云端,利用云存储实现数据的存储、管理以及分析利用,保障数据的完整性、机密性和可用性;而对于数据规模相对较小,涉及隐私信息较多的读者个人信息等敏感数据存储在本地。云存储的体系结构可分为4层,分别是:存储层、基础管理层、应用接口层和访问层,如图1所示。

安全云存储系统由客户端、服务器和云存储服务提供方3个模块构成。客户端属于访问层,用户(包括图书馆工作人员、读者和服务提供商)通过各种终端应用云存储服务,在该层用户要进行身份认证和权限管理,用户数据可以进行分级加密。客户端和服务器端通过web service、应用软件以及公用API接口进行数据交互。

服务器端的基础管理层提供分布式文件系统、集群系统、数据分块、数据索引以及数据加密备份等功能。服务器与云存储服务提供方通过可信高速的内部网络进行数据的存储传递。

云存储服务提供方属于存储层,主要对数据进行压缩和冗余删除处理,提高存储的利用率。用户访问权限信息和用户数据的完整性、机密性均由客户端进行保障,可在客户端运用分级加密访问控制技术。

所谓分级加密,即用户可以通过发送请求,要求变更加密等级,等级越高,密钥越长,安全性就越高,运行开销也就较大。用户(图书馆工作人员)可以根据数据安全需求的高低,进行加密等级划分,这种方式可以提高加密效率,进而提高数据的访问效率。

2.2提高网络安全防护技术

云计算、大数据、移动互联等技术给高校图书馆的网络安全带来了很大的威胁,但同时也给网络信息安全技术带来了新机遇。传统的网络安全防护模式是“漏洞扫描一入侵检测一访问控制一响应恢复”,大多数网络安全防御是在攻击发生后,对其响应并处理,做好恢复工作。现在,网络安全防护可以利用大数据的分析技术,构建一个安全智能平台,对网络异常情况分析,从而发现潜在攻击,有效预测威胁,如图2所示。

网络安全智能平台实时检测异常,同时报告异常检测结果,并利用大数据分析技术对这些检测报告进行分析,发现攻击行为和可疑行为,对攻击行为做出响应处理,对可疑行为做出预测处理,并同时将攻击行为以及可疑行为的分析结果反馈给网络安全智能平台的分析模块,形成一个“监控一检测一分析一反馈”模式的、集成的、智能的网络安全防御解决平台。通过大数据分析技术,可长时间分析更多种类数据(结构化、半结构化和非结构化),从而发现潜在威胁,预测未知的恶意攻击行为;同时,能够帮助应对高级持久威胁(APT),内部威胁和欺诈。

以我馆为例,考虑到图书馆的各种信息服务多数以Web应用方式提供,因此我们部署了深信服的Web应用防火墙(WAF),该防火墙通过执行一系列针对HTTP/HTTPS的安全策略专门为Web应用提供保护。WAF设备对我馆的Web业务进行7×24小时流量监控,实时发现系统新增漏洞,直观呈现业务系统的漏洞和遭受的攻击,并能快速定位有效攻击,以便我们可以及时采取应急措施。该WAF设备能够同时抵御网络层和应用层的攻击,并采用安全沙盒技术来发现可疑的未知威胁,防止新型攻击集中爆发。

2.3基于数据生命周期的隐私保护方案

对于人类而言,遗忘一直是常态,而记忆才是例外。然而,数字技术与全球网络的发展,让社会丧失了遗忘的能力,取而代之的是完善的记忆。世界上90%以上的信息是数字形式的,因此我们能够毫不费力地进行存储、处理、利用,例如Google一直在存储每位用户的每次搜索请求与访问记录,可以说Google对我们的了解比我们自己能够记住的还要多。如果大量数字化的私人信息没有有效的监管,它不仅可能在今天被盗用,在若干年后仍然可能被盗用。

高校图书馆用户的个人信息以及产生于微博、微信、社交网络中的用户敏感信息也可能以数字形式被搜集、存储很久很久,继而被大数据的挖掘技术、关联分析技术所处理、整合、利用,一旦不能保证这些数据的合法利用,失去控制,那么将造成个人隐私泄露危机。在此,我们以“隐私数据生命周期”为理论基础,把图书馆用户的个人信息保护工作贯穿于整个数据生命周期。隐私数据生命周期包括:数据采集、数据存储、数据处理与应用、数据传输以及数据删除5个环节。根据5个环节中防范隐私泄露技术手段的不同,将分为4种类型保护方式:RBAC、权限管理、加密保护和安全删除,从各个环节起到防范作用,如图3所示。

RBAC:RBAC即基于角色的访问控制,将权限和角色关联,为不同角色赋予不同的权限,用户成为某个角色时,就拥有了该角色的权限。在图书馆用户敏感数据采集、处理(挖掘、分析、整合、共享)和应用这2个环节中,采用RBAC保护方式,对不同的数据使用人员(包括图书馆工作人员和服务运行商)规范其权限范围,根据工作分工不同赋予不同的权限,实现数据使用个人具有最小权限,有效地防范用户隐私的泄露。

匿名保护:对于数据采集环节,有一部分产生于微博、微信、社交网络的图书馆用户敏感数据,采用匿名保护技术,在数据发布时隐藏用户的标识信息、属性信息、用户问关系,尽可能隐藏用户个人数据中的敏感信息。同时,图书馆也应对搜集到的用户个人信息匿名化。

分级加密:用户的隐私数据以明文形式进行的存储和传输在很大程度上是不可取的,因此在数据存储和传输2个环节,应采用加密保护。这里,我们提出采用分级加密技术,根据保密等级不同,设定不同的密钥长度,能够在达到保密效果的同时有效降低运行开销,提高图书馆应用系统的运行速度。

安全删除:图书馆应科学地管理用户个人信息,当用户个人信息达到使用目的,确定不需要时,必须“销毁”。敏感信息的销毁,采用清洗/擦除或覆写法,确保数据彻底删除,无法复原,以免造成涉密信息泄露。

3结语

云计算、大数据、移动互联等新技术給高校图书馆信息服务模式带来深刻的变革,同时也给图书馆的数据安全带来全新的挑战。我们利用云存储、分级加密、大数据分析、WAF、RBAC等技术和生命周期理论,从数据安全存储、网络安全防护技术加强、隐私数据有效监管三方面入手,建立全方位的、深度的信息安全防御体系,将数据安全防护贯穿整个图书馆信息化、数字化建设、运维、使用环节中,以保障高校图书馆信息服务的质量和效率,为广大师生用户提供可靠、可信的信息服务。但是,加密等级划分、安全态势分析和预测、安全边界划分、数据脱敏等问题,还需要我们进一步思考和研究。

猜你喜欢
云存储隐私保护数据安全
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
浅析龙岩烟草业务数据与监控数据中的云存储与大数据
大数据安全搜索与共享