朱维乔
(广州航海学院图书馆,广东 广州 510725)
大数据环境下图书馆数据安全风险控制的SWOT分析∗
朱维乔
(广州航海学院图书馆,广东 广州 510725)
当今社会发展已迈入大数据时代,大数据的潜在价值等待着诸多领域的深入挖掘。在图书情报界,大数据收集存储、分析使用等环节中存在着严峻的数据安全风险问题,将SWOT矩阵分析法作为分析工具,剖析图书馆数据安全风险控制的内部优势与劣势、外部机遇与挑战等因素,构建大数据安全风险控制框架,从优化大数据安全管理方式、保护数据安全等方面提出应对策略,以期为图书馆大数据安全风险的降低与规避提供新思路。
大数据 图书馆数据安全 风险控制 SWOT分析
近年来,大数据日益成为社会关注的焦点之一,各领域在努力挖掘大数据产生的信息与价值的同时,也面临着诸多方面的挑战,其中,大数据的数据安全问题首当其冲,如何寻找该问题的有效解决方案成为一项亟待完成的任务。
在图书情报界,大数据环境使图书馆的数据存储与管理难度增大,海量数据在提高读者需求感知与用户服务保障能力的同时,也使数据中心基础设施结构复杂度及服务安全风险急剧增加:传统的数据安全管理工具难以有效保障大数据平台用户服务的安全性。此外,图书馆高价值的大数据资源及其数据中心管理与服务系统网络也成为黑客窃取与攻击的主要目标。可见,图书馆正面临着数据质量和可用性被恶意破坏和用户隐私数据泄露的挑战,这使得图书馆用户阅读满意度和个性化服务质量受到较为严重的影响。综上所述,如何应用大数据技术完善图书馆安全防御系统,使数据可用性和系统服务的安全性得以不断增强并有效控制数据安全风险,进而构建安全高效的智慧图书馆,对提高图书馆的用户服务质量和市场竞争能力具有重要的战略意义。
2.1 大数据环境下图书馆数据安全风险控制的内部优势(Strengths)
2.1.1 图书馆具备丰富的大数据源
图书馆自身就是大数据的重要聚集地,作为数据资源收集、存储、加工和服务中心,其通过应用服务产生着海量用户社会性网络及复杂使用过程大数据,大量阅读终端与移动服务在数据采集存储、访问传输过程中的安全性亟待提升,需要运用大数据技术进行数据管理与深度挖掘,进而形成新的大数据服务模式。由此可见,尽管大数据引发了数据安全风险,但其自身也是实现数据安全风险控制的有效手段,为信息安全领域的发展提供了全新的契机。
2.1.2 图书馆的大数据服务用户群体相对稳定
数字图书馆用户大数据服务深度不够,难以满足用户随时随地获取知识信息的需求,导致用户群体受到了较大的限制,尚未实现服务与资源的互通共享。而这一特点对于大数据环境下图书馆数据安全风险控制而言正是其内部优势,用户群体的相对稳定降低了大数据安全风险。
2.2 大数据环境下图书馆数据安全风险控制的内部劣势(Weaknesses)
2.2.1 大数据系统平台结构复杂度和开放性的增加
大数据环境下,图书馆数据中心的基础设施架构和应用程序复杂度随着用户服务模式的变革而快速增长,图书馆大数据平台管理员可以利用大数据技术、云计算技术和用户服务网络的开放性实现大数据和服务资源的优化整合与动态分配。但与此同时,大数据环境的极强开放性也大幅提高了黑客攻击的成功率。
2.2.2 大数据可信度的威胁
大数据可信度的威胁主要来自于两方面:一方面是刻意制造或伪造的数据,由于虚假信息的产生与传播在当前网络社区中变得愈加容易,其诱导分析者做出错误的判断,所产生的负面影响不可低估[1];另一方面是由于数据采集过程中的人工干预导致其在传播过程中出现误差并逐步失真,最终对数据分析结果的准确性产生不良影响。由此可见,若要消除数据可信度的威胁,应从数据来源的真实性、数据传播途径以及数据的加工处理过程等多个环节着手。
2.2.3 系统漏洞与技术漏洞的存在
一方面,图书馆大数据管理的主要特点是以非结构化数据为主体,由于非关系型数据库NoSQL的不成熟性,其自身存在的大量系统漏洞使图书馆面临着巨大的安全隐患。与此同时,云计算和大数据技术的广泛应用,使传统的安全防护系统难以满足大数据环境下图书馆的安全管理需求[2],黑客可通过多种新途径对大数据平台采取攻击行为;另一方面,技术漏洞的存在是由于爆炸式增长的大数据对安全防护技术提出了更深层次的要求,导致安全防护技术的更新落后于数据非线性增长的速度,从而给黑客以可乘之机。此外,现有技术也难以对数据进行完全实时的全方位监测,以上因素大幅增加了数据的信息安全风险。
2.2.4 图书馆大数据服务水平与用户隐私保护的矛盾
图书馆用户行为数据的可用性、准确性和可控性是关系到其大数据分析科学性、用户服务质量和隐私保护安全性的重要因素。在图书馆对读者进行个性化服务的过程中,通过对读者阅读终端产生的个人信息、地理位置、阅读内容和阅读社会关系等用户数据的采集和分析,能够精准判断读者的身份、位置、需求与行为路径,但也令用户面临着行为隐私被泄露及未来行为被预测的风险;另一方面,图书馆为了提高用户服务的经济性和效率,会将海量用户数据存储在公有云平台,这使得用户大数据在采集、传输、分析与使用的过程中受到被截获、篡改、窃取及非法使用的挑战,这意味着图书馆对数据管理与控制权的丧失,使用户隐私受到侵犯并降低其对图书馆服务的信任度。
2.3 大数据环境下图书馆数据安全风险控制的外部机遇(Opportunities)
2.3.1 利用云平台提高大数据安全保障的有效性
大数据环境下图书馆对云计算相关技术的依赖性与日俱增,云服务的安全保障有效性成为影响大数据安全的重要因素。针对大数据安全风险控制的这一外部机遇,可采取构建大数据私有云平台的应对策略。私有云有别于公有云,是存在于防火墙之内的云平台,提供对数据服务质量与安全性的有效控制,禁止第三方对图书馆敏感数据的访问,从而减轻外部使用环境的压力[3]。由此可见,图书馆应通过将核心数据资源存入私有云平台,并运用安全验证工具与第三方审查应用程序提升数据安全性[4],增强对大数据安全风险控制的有效性。
2.3.2 大数据前沿技术推动数据安全风险控制的实现
大数据前沿技术为图书馆数据安全风险控制提供了技术支持。基于大数据分析的威胁发现技术具有分析内容的时间跨度更长、范围更广、攻击威胁的预测性更强等特点。基于大数据分析的认证技术是指收集用户和设备行为数据并进行分析,获取用户行为特征进而确定其身份,该技术具有如下优点:首先,由于用户行为数据的采集、存储与分析均由认证系统完成,因此与传统认证技术相比,显著地减轻了用户负担;其次,通过分析大数据技术收集到的用户行为数据,能够确定用户行为特征,可见,攻击者难以通过模拟用户行为特征来实行认证,因此该技术增强了认证方式的安全性。基于大数据分析的数据真实性识别技术可提升垃圾信息的识别准确率。此外,在进行大数据分析时运用机器学习技术,有助于发现具有新特征的更多垃圾信息。上述大数据前沿技术对推动图书馆数据安全风险控制的实现起到了举足轻重的作用。
2.4 大数据环境下图书馆数据安全风险控制的外部挑战(Threats)
2.4.1 大数据访问控制的挑战
图书馆大数据应用范围的广泛性决定了其被不同身份的用户所访问,因此,作为实现大数据受控共享的有效手段,用户访问控制的需求较为突出。大数据访问控制面临的挑战在于:首先,图书馆在大数据环境下需要对用户实施访问权限管理,但却无法获取用户的具体权限要求;其次,由于大数据环境包含着海量数据,数据安全管理员专业知识的匮乏导致其难以精确地为用户界定其可访问的数据范围。此外,由于不同种类的大数据存在各不相同的访问控制需求,可见访问控制需求的描述与表达也是一项巨大的挑战[5]。
2.4.2 大数据环境的开放性增强了黑客攻击的成功率
图书馆大数据环境的极强开放性使黑客攻击的目的性与成功率得以大幅增强。一方面,黑客会最大限度地收集如图书馆网络系统参数信息、读者个体特征及其阅读关系等数据,并对其进行精确分析以提高非法攻击的有效性;另一方面,黑客利用大数据技术向图书馆传输的错误数据将严重干扰并影响大数据安全分析、决策过程的正确性和有效性,进而导致图书馆自身安全性及防御系统可用性的大幅下降[6]。
3.1 SO战略:利用大数据技术提升云平台虚拟化数据的安全性
大数据环境下,图书馆数据中心设备数量庞大,具有结构复杂、系统异构以及安全威胁多等特点。图书馆亟需应用大数据技术加强云平台数据及虚拟化应用的安全管理,重点提升基于云计算的大数据存储系统的安全性,以便于用户服务系统的构建及个性化服务的开展。在大数据存储系统的安全建设过程中,存储系统结构与功能设计必须符合图书馆大数据的安全标准要求。一方面,为了确保在物理上隔离图书馆与其他用户以实现云服务的独立使用,具备较强经济实力与技术水平的图书馆云服务平台的构建应首选自建私有云的方式;如因资金与技术受限等原因与其它用户共享公有云平台,则应当通过与云服务商签署安全管理协议的方式使图书馆大数据安全得到保护。另一方面,图书馆对云平台存储的数据进行备份、传输和处理时,应构建科学的大数据处理模型与可靠的虚拟化应用监管程序,突出云平台存储系统的安全管理与灾难恢复功能,并增强对基础设施架构、移动阅读终端应用程序以及读者阅读行为等用户数据的安全管理力度,提升云平台虚拟化数据的安全性。
3.2 ST战略:应用大数据分析工具及时发现安全威胁,提升图书馆数据安全风险控制能力
大数据环境下,图书馆数据安全风险具有长时间隐藏于海量大数据中、难以被检测到等特征,传统的安全风险控制方式逐渐失效。因此,针对大数据安全管理与服务需求,图书馆在构建大数据安全管理平台以及应用大数据技术进行数据安全风险控制时,应当使用可扩展、兼容性强的大数据分析工具,通过对安全指标数据之间的关系发现与价值挖掘,努力实现对未来可能出现的数据安全威胁的攻击时间、方式及攻击目标的精准预测。此外,图书馆大数据安全风险的及时发现与安全处理效率取决于安全数据仓库的高效管理。因此,增强数据仓库对来自不同采集对象的服务器日志数据、监控日志数据、防火墙日志数据以及威胁预警数据等的管控效率,是提升图书馆大数据安全风险控制的主动性及可控性的重要保障。
3.3 WO战略:实现大数据平台安全管理软硬件的整合与数据中心安全防护体系的构建
图书馆大数据平台建设应坚持智能化管理的原则,努力实现数据安全管理工具与流程的整合,使数据中心安全防护体系得以顺利构建。一方面,为了保证数据格式标准化,体现其高价值性与可用性,在大数据的传输过程中应通过信息管理工具对其进行预处理后再传输至数据安全仓库。另一方面,图书馆应跟据大数据安全管理平台的反馈控制并通过安全威胁的实时检测评估、分析与决策等方式,完成大数据安全应用平台的参数设置与程序管理[7]。
3.4 WT战略:优化大数据安全管理策略,保护数据安全
图书馆大数据安全管理的有效性,将对用户服务的可信度、安全性及可持续性产生重要影响。为了提高图书馆大数据的安全性、可用性与价值性,必须优化大数据安全管理策略,使大数据平台既保持开放共享和标准化的特性,又避免数据被非法访问及过度使用。首先,应当清洗过滤、评估匹配所采集的原始数据,对其进行标准化处理,剔除大数据存储库中与用户服务、系统管理无关的隐私数据与重复数据,提高数据存储的质量和精确度;同时强化图书馆内部系统的安全管理,对大数据平台实行访问控制,以防止黑客利用内部系统的安全漏洞来进行攻击。其次,应重点做好大数据存储系统数据过滤器的使用、核心数据的加密以及数据容灾备份等工作,大数据加密作为基于密码学的方法,尽管安全性较高,但其存在着增加数据安全管理成本的不足。最后,为了同时满足大数据平台对数据存储的安全性与经济性要求,应努力提升存储设备的安全性,为图书馆大数据应用提供安全的数据存储服务,通过构建可信固态硬盘的方式提供存储设备接口与协议,使用户可以对存储数据进行细粒度的访问控制[8],进而有效地保障数据安全,这一方式将成为图书馆大数据安全的新基础。
大数据时代的到来使图书馆网络系统与数据环境愈加复杂多变,图书馆大数据因具有较高的价值性而成为黑客攻击的主要目标。与传统网络环境相比,图书馆需要面对更多的恶意攻击方式等安全威胁。笔者对图书馆大数据安全风险控制面对的优势、劣势、机会与挑战等因素的剖析以及应对策略的讨论,旨在优化图书馆大数据安全管理,进而构建安全高效的智慧图书馆,提升其用户服务质量和市场竞争能力,这也正是图书馆价值的体现,因此该问题也值得继续深入探索。
[1]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1):246-258.
[2]陈臣.大数据环境下数字图书馆安全威胁与对策研究[J].图书馆工作与研究,2014(11):34-38.
[3]黄国彬,郑琳.大数据信息安全风险框架及应对策略研究[J].图书馆学研究,2015(13):24-29.
[4]赵培云.大数据与图书馆数据安全共享[J].图书馆学研究,2014(9):39-41.
[5]陈臣.基于大数据的图书馆个性化智慧服务体系构建[J].情报资料工作,2013(6):75-79.
[6]史卫民.大数据时代个人信息保护的现实困境与路径选择[J].情报杂志,2013(12):154-159.
[7]陈臣.基于大数据的图书馆个性化服务安全体系构建研究[J].新世纪图书馆,2014(11):47-51.
[8]田洪亮,等.可信固态硬盘:大数据安全的新基础[J].计算机学报,2016(1):154-168.
朱维乔 女,1983年生。硕士,副研究馆员。研究方向:大数据应用与数字资源建设研究。
G250
2016-10-08;责编:王天泥。)
*本文系2015年广东省文化厅广东图书馆科研课题“面向大数据的图书馆智能门户构建研究”(项目编号:GDTK1530)、广州航海学院创新强校工程项目“面向大数据的高校图书馆语义门户研究与设计”(项目编号:2014-147)的研究成果之一。