我国图书馆大数据管理制度建设研究
——以《信息安全技术 大数据安全管理指南》为例*

2020-12-01 14:53杜京容任贝贝
图书馆 2020年11期
关键词:数据安全智慧图书馆

陆 康 刘 慧 杜京容 任贝贝

(1.南京晓庄学院 南京 211171; 2.上海市网络技术综合应用研究所 上海 200336)

习近平同志指出:“随着信息技术和人类生产生活交汇融合, 互联网快速普及, 全球数据呈现爆发增长、海量集聚的特点, 对经济发展、社会治理、国家管理、人民生活都产生了重大影响。”[1]互联网大数据技术的创新发展与应用影响了社会的治理模式、组织机构的决策形式、商业的运营模式以及个人的生活方式。国际互联网空间竞争激烈,数据主权治理的边界等问题越发模糊,各国都在积极开展数据主权、数据治理等战略建设规划,以保障本国的数据安全[2]。我国也在稳步推进数据安全国家标准的制定工作,以数据安全监管、规范行业数据安全为目的,指导国内组织与机构提升数据安全能力,促进数据应用的规范化,进而提升数据安全性[3]。我国大数据仍然处于发展的初级阶段,在部分领域得到迅速推广,社会占有率不断提高。在面向用户服务的应用与业务中,数据控制者希望能够获取更多、更全面的数据,以提供更加精确高效的个性化服务。随着互联网领域大数据应用的普及,数据价值也逐渐显现出来,随之而来的安全问题也备受关注。用户在互联网上的任何操作都会产生“数据痕迹”。数据挖掘、汇聚以及分析技术等使用到这些“痕迹”,汇聚的“数据痕迹”将会带来“隐形”信息,也容易暴露隐私。图书馆智慧服务的感知对象主要是“数据痕迹”。智慧图书馆是图书馆发展的新趋势,同时也是一种重要的发展理念[4]。图书馆领域围绕“技术至上”原则开展图书馆智慧服务研究,缺乏制度、理论体系的保障。随着大数据的广泛应用,图书馆不仅需要参考国外的数据管理模式实现业务的优化,也需要结合国内的规范标准,建立适合图书馆发展的数据制度体系,以提高数据的使用效率,保障数据安全,避免“数据痕迹”滥用造成用户隐私泄露。我国《信息安全技术 大数据安全管理指南》(以下简称《大数据安全管理指南》)为图书馆智慧服务的大数据应用提供了管理标准,也为制定我国图书馆大数据规范化使用的行业规则提供了依据。

1 数据支持图书馆智慧服务文献回顾

图书馆伴随着信息技术的发展而不断进步。复合图书馆、数字图书馆促进了图书馆服务创新。以信息技术为基础的智慧图书馆逐渐成为图书馆未来发展的趋势之一。智慧图书馆是智能技术、智慧馆员和图书馆业务与管理三方相互作用、相互融合的结果, 智慧图书馆的核心是智慧服务[5]。笔者在CNKI以“智慧图书馆”+“大数据”为主题进行检索,获得相关文献410篇(如表1所示)。

表1 CNKI“智慧图书馆”+“大数据”主题年度发文量

1.1 数据支持智慧图书馆研究

随着图书馆领域对智慧图书馆的认识逐渐深入,学者们对智慧图书馆产生了不同的见解与认知。王世伟将智慧图书馆三大特点概括为互联的图书馆、高效的图书馆、便利的图书馆[6]。复合图书馆、数字图书馆与智慧图书馆有关联,也有各自的特点,都是信息技术发展推动图书馆进步的不同形态。图书馆时刻关注新技术的发展。数字孪生连续4年被列入十大战略技术趋势,它与图书馆深度融合,对于探索6G时代未来图书馆运行新模式,具有一定价值与意义[7]。图书馆作为向社会公众免费开放的公共文化设施,应在新型环境中创新发展路径,获得社会赋能,规避发展风险,以更高水平的创新实现高质量发展,从而保持在开放社会中的文化与信息主流地位[8]。服务创新是图书馆创新发展的基础。互联网环境为图书馆服务提供了创新的基础,从而促进了图书馆服务的创新,而图书馆智慧服务源自服务创新。

1.2 数据支持智慧服务的研究

随着大数据的出现,各种系统产生的大量多维度数据可以被标注,这让数据控制者可以运用大量数据标注组成的标签体系描述事物与人。例如商业领域的智慧应用中,标注所建立的标签体系既可以用来描述服务或者产品的内容属性,也可以用来描述用户,即所谓的“用户画像”。图书馆的各项业务是实施服务的基础。图书馆智慧服务的发展离不开业务体系的参照。适应业务发展的智慧服务才是图书馆所需要的服务模式。图书馆是一个复杂的“有机体”,包括空间建筑、基础硬件、信息系统、馆藏资源、数据与馆员等因素,这些因素的多样化组合成为图书馆智慧服务开展的重要支撑条件。互联网技术的迅猛发展也推动了图书馆的功能转化与提升,图书馆功能转化与提升的途径和策略研究是其面临的重要课题[9]。以技术创新为主的智慧化应用是智慧服务研究的主要内容。互联网环境复杂,文献资源从传统的文本向图像、流媒体等多媒体转变,而复杂网络对图像、流媒体、文本等数据的统一组织、存储、挖掘,对数据结构之间的隐含关联的探索成为图书馆实施智慧服务的重要技术流程之一。图像、流媒体以及文本挖掘等技术在用户画像、精准推荐、智能问答等图书馆智慧服务应用中具有独特的优势[10]。当然图书馆智慧服务也需要“非技术”因素的支持,资源分类体系的构建、管理机制的重构、合作开发机制的建立、馆员队伍建设等也是智慧服务发展的重要因素[11]。

图书馆资源、管理、开发涉及的内容与系统、数据息息相关,而馆员能力与素质的提高,也与业务实施存在着一定的关联。所以,当前图书馆智慧服务的研究离不开对大数据的探讨,在大数据被公认为重要资源的背景下,数据决策、数据驱动图书馆智慧服务体系构建也将成为下一代图书馆重要的研究方向。在缺乏针对性的图书馆智慧服务体系建设指导意见的前提下,《大数据安全管理指南》等国内标准成为我国图书馆发展的重要参考依据。

2 《大数据安全管理指南》分析

2.1 背景与意义

大数据技术发展与应用影响广泛,大数据的使用必然涉及数据的管理问题,一方面数据的控制者希望获取更多、更全面的数据,以提高服务的精准性与高效性;另一方面数据的主体担心个人数据,尤其涉及个人信息与行为的隐私数据泄露。数据管理面临着安全风险,这是互联网技术创新发展过程中不可避免的。所以,数据控制者需要制度标准对大数据及其应用加以规范,而《大数据安全管理指南》能指导拥有、处理大数据的组织机构做好大数据安全管理、风险评估工作,有效、安全地使用大数据,并通过技术、制度等措施来保障数据安全。

2.2 范围与原则

《大数据安全管理指南》标准为组织机构的大数据安全管理提供指导,其内容包括大数据安全管理基本原则、概念以及管理过程。该标准对大数据的数据收集、存储、使用、分发(共享)、删除等概念与管理要求作了规定,并明确了组织机构内数据控制者、处理者与数据主体等角色的安全职责。标准适用于所有的组织机构,包括企业、政府部门、非营利机构等。

大数据安全管理原则明确了组织应该承担的义务,对数据收集、数据使用、数据共享中可能出现的问题作了明确的限定,例如数据共享的责任不转移原则,规定了数据共享给第三方,但是原数据控制者仍然承担保护与连带责任。在数据获取、数据共享、数据重用和数据加值等实践过程中,社会各种岗位将更重视数据的获取、保存、利用和传播,同时产生新的岗位更加凸显创造数据价值的功能[12]。图书馆等组织在数据收集、数据使用以及数据共享等方面扮演着重要的角色。数据收集规范、数据使用规范以及数据共享规范等长期以来支撑着研究机构与大学数据中心的科研工作。随着大数据应用逐渐从科研工作向业务工作拓展,《大数据安全管理指南》等标准、规范可以帮助图书馆、科研人员开展能力建设,同时对图书馆的基础设施层、数据资源层以及服务应用层产生一定的影响。

3 《大数据安全管理指南》八大原则对图书馆数据管理的启示

图书馆智慧服务需要数据的支持。多维度、全面性的数据能够发掘出更高的价值,但也面临着一些新的安全风险。关联分析是数据价值发掘的常用方法,这种方法在发掘价值的同时,也可能暴露用户个人隐私。数据隐私成为数字经济时代图书馆等组织发展的重要问题。传统的互联网安全机制已经不适应大数据的新特性。图书馆的智慧服务除了实现资源分析以外,用户行为分析成为感知用户需求最直接的方法。一味追求数据价值造成数据滥用可能会给公共利益、国家安全等造成严重损害。所以,图书馆需要对智慧服务的数据使用行为加以约束,而《大数据安全管理指南》为实现和维护图书馆数据的保密性、完整性、可用性、可核查性、真实性与可靠性提供了指导方法。

3.1 基础设施层的技术规范化

图书馆对文献资源整合与规范化建设的长期探索使得馆员具有较强的规则意识。图书馆数据的获取、存储、管理、组织、分析以及应用需要稳定可靠的信息化基础设施支持,而基础设施的技术规范化为大数据驱动图书馆业务实施提供质量保障。图书馆产生数据的基础设施包括视频监控、传感设备、机器人(自助借阅、咨询、盘点等功能)以及RFID设备等,而数据共享与发布平台包括互联网、物联网以及移动互联网等,云计算、AI等为数据挖掘与分析提供了有效的工具,存储设备、计算设备以及网络设备提供了基础的系统连接与汇聚基础。基础设施为大数据驱动图书馆智慧服务提供了保障,大数据安全管理角色与责任也需要从基础设施中得以体现。例如图书馆的文献资源服务对搜索协议有很大的需求,而图书馆系统是多样化的,但是图书馆的用户需要访问多个站点,也不需要学习每个站点的搜索语法,专业化与易用化的检索形式才能让用户接受。图书馆Z39.50协议的强大功能与Web提供的易用性相结合,用于从异构系统中搜索和检索,通过URL(SRU)实现搜索,通过Open Search、上下文查询语言(CQL)和X Query来完善多系统文献资源检索[13]。用户检索数据是用户行为数据的一部分,其收集应该满足意图合规原则、质量保障原则以及数据最小化原则。业务平台与系统的关联与整合规范化一直以来是图书馆技术团队所关注的方向。大数据时代的图书馆技术团队不仅承担着技术创新的任务,也是安全管理团队中核心成员之一。图书馆安全管理团队应对实施的大数据应用项目安全全面负责。各业务部门根据业务需求对所需的数据开展收集、挖掘与分析,负责具体项目的技术实现,并对收集、使用的数据安全负责。图书馆应该围绕业务需求对数据收集、挖掘、分析与使用等各阶段行为制定安全制度,并落实到具体的业务馆员。

表2 《大数据安全管理指南》八大原则

图1 图书馆数据驱动业务关联图

3.2 数据资源层的制度规范化

资源是图书馆的主体。数字图书馆时代以来,文献资源服务制度化日趋加强。随着大数据时代的到来,图书馆对数据资源制度化管理的需求也越发明显。图书馆的数据资源由大数据与大数据处理工具(技术)组成。图书馆大数据既包括组成文献资源的资源数据,也包括由系统产生的记录系统运行和用户行为的日志数据。数据推动着图书馆智慧服务不断创新发展。例如上海图书馆“智慧服务”:“新数据,让阅读更‘悦读’”“新技术,让智慧更闪耀”“新空间,让创新更容易”“新媒体,让服务无处不在”“新资源,让数字阅读更精彩”[14]。随着数据成为重要的资源,图书馆资源的数据化也越来越明显。除了传统的文献数字资源外,系统数据、互联网数据等也逐渐被用于“智慧服务”来感知用户需求,从而提高服务的精准性。传统的文献资源相关制度已经不再适用于大数据环境,图书馆需要重新构建数据资源的制度,以适应新的服务模式与环境。图书馆服务创新由来已久,尤其是近些年来对下一代图书馆系统的探讨,加快了自身结构调整,实现了管理高效、功能优化,最终完成从传统图书馆到现代图书馆的转变[15]。互联网思维所体现的以用户为中心的精神,正是图书馆服务的理念追求[16]。图书馆服务的制度化、规范化是维护“以用户为中心”精神的基础。图书馆制度规范化不仅需要结合业务发展对传统制度进行完善,也需要结合服务创新、技术创新对文献资源服务保障体系实施重构与修订。数据资源作为数字资源在大数据环境下图书馆智慧服务体系的重要组成部分,承担着服务创新的重要责任,其中制度规范是实现该责任的核心步骤之一。

3.3 服务应用层的伦理规范化

《关于图书馆与知识自由的声明》《图书馆员及其他信息工作者伦理准则》《互联网宣言》《被遗忘权》《网络中立与零评价》系列制度文本的颁布标志着IFLA(International Federation of Library Associations and Institutions, 国际图联)图书馆伦理规范日趋完善[17]。而通常学者们容易将数据科学家的伦理框架与传统的图书馆员伦理框架混为一谈,缺乏适应图书馆业务发展的信息伦理框架以及一个更全面和包容的数据伦理思考和概念化框架[18]。图书馆以服务用户为宗旨,无论是数字图书馆还是未来的智慧图书馆都是围绕服务用户开展业务的。图书馆业务在互联网平台的体现主要通过应用得以体现。图书馆技术发展、服务创新的超前性与制度完善的滞后性产生了矛盾,这在一定程度上容易引发服务应用的伦理危机。虽然IFLA与图书馆学界不断呼吁图书馆的伦理规范,但是制度的完善不及服务创新的速度。这也是图书馆服务变革不断招致伦理学者们批评的主要原因。图书馆“以用户为中心”的服务理念与技术创新的“以人为本”理念的一致性,使得图书馆服务应用伦理规范化的实现成为可能。图书馆需要技术创新、服务创新来满足用户在文献资源服务等各方面的需求,因为用户长期受互联网思维的影响,对陈旧的图书馆服务模式容易产生不满情绪。这让图书馆不得不加快步伐引入互联网技术、工具以及理念改造、完善图书馆的传统服务,从而提升服务效率,这也直接导致图书馆重技术、轻制度的现象长期存在。所以,图书馆在服务创新过程中,不仅需要关注新技术、新理念带来的效率提升,也需要完善服务应用的相关制度,避免伦理危机出现。《大数据安全管理指南》等国内标准不仅为我国的图书馆技术创新提供了发展依据,也为图书馆服务应用的伦理规范提供了参照条件。

4 大数据驱动我国图书馆智慧服务体系构建的建议

数字图书馆发展至今形成当前的多源异构数据的协作融合以及AI等新工具在商业领域的广泛应用,智慧服务等环境营造了大数据驱动智慧服务体系构建氛围,而这种氛围需要的制度保障——《大数据安全管理指南》等标准已经颁布实施,这也为我国图书馆创新发展提供了新的策略。图书馆的智慧服务体系建设不能因隐私问题而束缚发展,但也不能因为数据问题侵犯用户的个人权益[19]。所以,图书馆智慧服务体系的建立,需要进一步完善基础设施、数据资源、服务应用等方面的内容。

4.1 基础设施层的技术标准化

电信行业将数据分为A—D类(A:用户身份;B:用户服务内容;C:用户服务衍生;D:企业运营管理)与1—4级(4:极敏感级;3:敏感级;2:较敏感级;1:低敏感级),业务系统则对数据分类、分级管理。其中涉及业务支撑的基础设施系统(B域)、互联网支撑系统(O域)、信息管理系统(M域)、DPI/信令数据系统以及业务管理平台等五大领域数据。智慧图书馆基础设施的技术标准化,关系到多平台、多系统的整合关联。资源存储层、数据传输层和应用层三个层级是图书馆文献资源服务的基础。技术标准化一直是图书馆技术人员所探索的内容,包括:资源存储的跨平台整合,如OPAC多平台使用标准制定;数据传输层的跨平台共享,如Z39.50协议、SDLIP(Simple Digital Library Interoperability Protocol)协议等标准的制定;应用层的跨平台分享,如Java虚拟机、C++语言的类库实现等标准规范等[20]。在大数据驱动图书馆智慧服务的实现过程中,工具必不可少,例如运用机器学习理论,借助于MATLAB的贝叶斯工具箱FULLBNT 1.0.7训练出用于用户借阅行为分析的贝叶斯模型b-net,并在此基础上开发软件Borrow-behavior,实现行为分析的功能,达到对b-net中的概率矩阵进行知识挖掘的目的[21]。“让数据说话”“让数据发声”等数据决策理念在图书馆领域已经逐渐形成共识。然而泛在的理论研究环境下,实践的缺乏让基础设施的标准化难以得到有效检验,《大数据安全管理指南》等标准与大数据驱动图书馆的智慧服务体系有效融合,需要实践来不断完善技术标准化制度,进而保障图书馆智慧服务的有效实施。

4.2 数据资源层的模式统一化

图书馆是一个复杂的“有机体”。图书馆的决策信息存在着分布广泛、流动性大的特征,极易导致信息过载。长期以来信息搜集和分析工具的技术创新不足,导致有效信息稀缺,从而无法保证图书馆科学合理地制定决策目标。另外,图书馆数据决策规划设计过程中,科层制管理结构容易形成信息孤岛,各部门数据信息分割严重,缺乏信息共享机制。所以,环境容易造成数据决策设计的盲目性和随意性[22]。数据资源层的模式统一是信息共享、数据共享的基础,也是数据驱动业务发展的前提。多系统、多平台的数据共享汇聚成“大数据”,虽然大数据存在着一定的安全风险,但是其产生的应用价值足以让人雀跃。图书馆作为公益性的文献资源服务机构,履行对用户的安全承诺、保障用户权益是馆员最基本的职业操守。所以,在大数据作为重要资源的年代,馆员作为数据处理者,不仅需要从数据结构统一等技术角度来考虑共享问题,也需要从伦理道德角度思考对涉及用户数据的适度使用,以保护用户隐私与数据系统的安全稳定。《大数据安全管理指南》对数据收集、存储、使用、分发、删除等作了明确规定。其中收集,需要明确目的与用途以及数据源与收集范围等;存储,需要数据分类(A—D类)分级(1—4级)等;使用,依据法律法规建立正当使用原则,明确使用目的与范围等,并强调最小化使用原则,建立围绕大数据处理技术与模型的安全保护机制,如分布式处理安全、数据分析安全、数据加密处理、数据脱敏处理以及数据溯源原则等;分发(数据共享),需要遵循责任不随数据转移原则,承担安全责任等,建立大数据公开的审核制度,审核信息发布是否遵守法律法规要求等;删除,则需要建立删除超出留存期限的数据,建立与分类分级机制相适应的数据销毁机制等。图书馆文献资源服务需要基础设施平台的保障,而数据资源模式的统一化是数据收集、存储、使用、分发(共享)、删除的保障。

4.3 服务应用层的用户需求化

图书馆资源发现服务是一种“大数据”规模的元数据库搜索服务[23]。对用户需求的“发现”,是图书馆提高服务效率的捷径。文献资源角度的资源发现服务,已经取得了一系列的实践成果,其中影响力较大的有OCLC(Online Computer Library Center)的World Cat Local(WCL)、EBSCO的EBSCO Discovery Service(EDS)等[24],以及国内的“超星发现”“万方学术搜索”,高校图书馆的“未名搜索”(北京大学图书馆)、“思源搜索”(上海交通大学图书馆)等[25]。服务应用层的用户需求化获取,从文献资源服务的知识发现开始,逐渐在图书馆信息化工作中得以实践。然而大数据驱动图书馆的智慧服务与服务应用的结合,其过程较为复杂。一方面,基础设施层的系统关联与数据汇聚过程较为复杂;另一方面数据资源层的统一模式,无论是技术标准统一,还是馆员、系统设计者与监管者应在思想方面统一。“以用户为中心”一直是图书馆所推崇的服务理念。从数字图书馆到未来的智慧图书馆以及大数据驱动图书馆的智慧服务的初衷,都是围绕该理念开展业务的技术创新、服务创新等。《大数据安全管理指南》中除了对大数据系统、大数据的安全实施防护以外,大数据主要活动职责等内容都是直接或者间接来保护用户的数据安全,包括隐私、伦理等角度。大数据驱动图书馆智慧服务体系中的大数据管理平台运行的安全,直接影响到服务应用层的业务实施。运行安全管理的目的应该是确保图书馆大数据平台持续性满足要求,例如建立风险评估机制、建立规范化的项目审核流程,对职责、角色进行监督等,并运用技术方法保障服务应用层能够满足业务的实施,例如更新数据存储方式,提高数据共享效率,更新大数据分析算法、分析方式,提高数据价值发掘效率等。

4.4 我国图书馆大数据管理体系建立

一直以来,图书馆对新技术的追捧程度逐年上升,导致“重技术、轻制度”的现象长期存在。图书馆通过大数据驱动业务的发展,进而促进图书馆的发展,采取了一系列的技术创新、服务创新。这些基于大数据的创新离不开对大数据的控制,如何对大数据进行有效管理成为关系到图书馆未来发展的重要工作。我国图书馆领域已经具备数字资源大数据的管理能力,这种能力源自数字资源商与图书馆的不断努力。然而提供智慧服务的用户数据管理,却一直空白,主要表现在我国图书馆的门户网站、新媒体平台等互联网服务平台普遍缺乏隐私政策(条款)。《大数据安全管理指南》注重对数据的使用,智慧图书馆的发展离不开数据的规范使用,进而摆脱新技术与传统服务冲突造成的伦理危机。我国图书馆大数据管理体系的构建需要《大数据安全管理指南》的指导与支持(见表3),进而形成图书馆行业内部的大数据应用的标准化、规范化良好氛围。

图书馆需要规范化使用数据,无论是文献资源数据还是用户行为数据等,数据使用规范是现代图书馆管理规范体系的重要组成部分。我国图书馆大数据管理体系围绕《大数据安全管理指南》等相关制度实现科学化的构建,反映了我国图书馆从借鉴英美等西方图书馆的制度逐渐转向借鉴国内法规标准,这是制度自信的一种体现。我国图书馆需要根据国内的场景、环境,因地制宜地构建相应的行业标准,从而进一步推进图书馆事业的发展。

表3 我国图书馆大数据管理制度参照《大数据安全管理指南》内容对应关系

以大数据为基础的图书馆智慧服务体系,已经成为未来图书馆发展的趋势之一。数据作为重要的资源,在图书馆领域也备受关注。在当前我国《网络安全法》《民法》等有关大数据应用、用户数据使用等法律制度仍然不够完善的背景下,图书馆如何使用数据以及对数据安全和用户隐私的保护仍然不够明确。我国的《大数据安全管理指南》等国内标准,虽然在适用方面不能完全匹配图书馆大数据使用的场景,但是作为国内的通用标准,图书馆仍然可以借鉴其中的条款制定行业准则,供图书馆行业来规范、约束数据的使用行为,从而为大数据驱动图书馆智慧服务体系的构建提供基础,进一步促进图书馆智慧服务的发展。

5 结论与展望

以数据驱动图书馆智慧服务体系构建,虽然存在着一些安全风险,例如大数据滥用给用户与国家安全带来损害,数据共享增加管理难度,数据不准确、不完整给图书馆的利益带来损失,大数据增加了访问控制的难度,数据汇聚也增加了遭受互联网攻击的风险等。这些风险的存在都是由于图书馆缺乏规范化的大数据管理体系。我国《大数据安全管理指南》等国家通用标准,为图书馆大数据安全管理原则的制定、安全管理目标的确立、战略与策略的规划以及在大数据安全管理中的角色与责任的明确等提供了参考依据。图书馆在发展过程中,应该不断借鉴互联网相关的制度标准,与时俱进,不断完善智慧服务体系,促进智慧服务发展。

猜你喜欢
数据安全智慧图书馆
我国5G数据安全保护供给不足,“四步”拉动产业发展
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
图书馆
大数据云计算环境下的数据安全
有智慧的羊
去图书馆
智慧派
智慧决定成败
智慧往前冲,统计百分百(1)