陆 康 刘 慧 杜京容 任贝贝
(1.南京晓庄学院 南京 211171; 2.上海市网络技术综合应用研究所 上海 200336)
近些年来,随着信息技术的进步以及数字图书馆功能的逐步完善,进一步推动了图书馆的转型升级,智慧图书馆逐渐成为数字图书馆的高级范式[1]。智慧图书馆是当下图书馆发展的新趋势,也是一种重要的图书馆发展理念[2]。自2004年H.Watson 最早提出“数据治理”概念以来,这一概念逐渐引起企业界和政府的关注[3]。数据治理的目标是确保数据管理活动始终处于规范、有序和可控的状态,确保数据资产得到正确有效的管理,并最终实现数据资产价值的最大化。其问题包括三个方面:数据价值、数据安全以及用户保护[4]。数据价值的维度是多样化的,既可分为经济与非经济价值,也可分为短期与长期价值以及局部与全局价值等,然而数据价值的体现需要通过数据治理来实现。如何整合图书馆所拥有的海量数据,对其进行挖掘、计算、分析,为用户提供智慧化的数据服务和知识服务,是图书馆学理论需要深入研究的问题[5]。智慧图书馆要革新服务理念,提供一体化的读者服务和资源发现服务,重构学术服务,强化数据管理[6]。虽然数据所产生的直接经济价值较低,但是其间接经济价值较为明显,例如在用户需求分析、精准服务等方面,非经济价值则体现在数据所承载的用户信息,例如情报预测功能,运用数据对用户进行“描绘”,即通过“用户画像”“学习分析”来反映或者推测某些事件,智慧图书馆也是基于此来获取用户需求,进而开展针对性的个性化服务。数据承载着用户信息,需要对其进行有效保护。智慧图书馆中的数据不仅包括传统的单一层面数据和统计层面数据,也包括海量数据——大数据。图书馆能从三层数据的变化角度来反映数据价值的演变,进而影响个人信息保护模式,数据价值的角度重构与反思个人信息保护,能够更好地平衡数据价值与数据隐私之间的关系,为智慧图书馆的健康发展提供理论支撑。
大数据技术开启了人类社会新时代,不仅让社会呈现出鲜明的智能化、数字化特征,而且成为推进治理能力现代化的一种技术路径[7]。数据治理生态体系需要图书馆执行数据获取、数据共享、数据重用的政策[8]。一个组织的发展离不开良好的数据治理[9],然而目前数据治理尚未形成统一的标准定义。IBM将数据治理定义为一种质量控制规程,用在管理、使用、改进以及保护组织信息的过程中,以提高严谨性和纪律性[10]。数据治理从本质上看就是对一个机构(企业或政府部门)的数据从收集融合到分析管理及利用进行评估、指导和监督(EDM)的过程,通过提供不断创新的数据服务,为企业创造价值。数据治理与数据管理属于不同的概念,也存在着联系,具体表现在:第一,治理的职能包括评估指导与监督,管理则包括计划建设与运营;第二,治理包含辅助决策的数据规范,管理则是对治理提出决策的反馈;第三,治理是宏观规划,管理是具体事务;随着智慧图书馆的发展,图书馆业务对数据的需求与日俱增,数据治理、管理成为图书馆界关注的焦点之一。
在数据安全得到保障的前提下,数据价值应该尽量多地释放,以满足社会发展的需求。智慧图书馆所关注的数据价值,强调对用户行为数据的研究,提供针对性、个性化、精细化的服务。而数据治理的目标是实现数据价值,与智慧图书馆的发展目标一致,由于图书馆行业的管理与服务创新均以数字化、智慧化为主[11],数据价值也成为创新的关键因素之一。图书馆在系统运营管理以及用户服务过程中,往往会根据用户的背景,如学历层次、学科背景、阅读习惯等,对不同数据进行价值分析,实现图书馆业务运营、资源分配以及用户服务的精准性、高效性,最终向智慧性方向努力,这些都以数据价值发掘为基础。数据是一种时刻变化的信息形式,其价值也具有周期性、时效性的特点。图书馆员等长期以来的业务积累,使其具备一定的数据跨情景运用能力,例如运用技术调节方法开展信息交换(信息分享),这是图书馆文献资源服务的基础模式,与“知识共享”框架存在着交集。所以,数据价值对于图书馆来说,无论是用于开展用户服务(用户行为数据价值),还是用于开展知识服务(文献资源数据价值)等,都将成为图书馆开展智慧服务的关键所在。
数据具有多样性。数据因应用而生,随着技术的发展,数据可以分为单一层面数据、统计层面数据以及大数据,这三种数据的变化也体现了数据价值的演变,主要表现在从个体到群体,进而引发从量变到质变的过程。对这三种数据内涵的研究可以进一步完善智慧图书馆数据价值以及构建个人信息保护制度。
大数据驱动的图书馆智慧服务体系,包括基础设施层、数据资源层、服务应用层三个方面[12]。其中,数据资源层包括馆藏数据、服务数据、业务管理数据以及用户行为数据等。单一数据,即个体产生的数据,其数据类型单一,用户行为数据可被认为由单一数据组成。如果没有数据汇聚,那单一数据的价值就得不到体现,多数情况下对个人信息保护的讨论都是基于单一数据而言的。统计数据则是单一数据的汇聚,包括用户图书借阅数据列表、数字资源访问数据列表等以及服务数据中用户的姓名、身份证号和联系电话等,其特点就是单一类型或者多类型的数据汇聚。然而统计数据也面临侵犯用户权利的问题,例如电信诈骗、骚扰电话等,这些都是因为统计数据泄露造成的,所以,统计数据同样需要关注个人信息保护问题。大数据其实是一种技术方法,不能将其与单一数据和统计数据相提并论。图书馆对大数据的热衷程度与智慧服务紧密关联,不少业内人士在一定程度上已经认定智慧服务的数据决策来自大数据。然而,当前图书馆服务数据、用户行为数据以及业务管理数据的体量无法和大数据相比,馆藏数据的数据量虽远超上述三个数据,但是根据数据结构,将其归纳成统计数据更为合适。因此,这些统计数据虽然体量大,但也不能被称作“大数据”。即便如此,随着图书馆数字化、智慧化水平不断提高,多系统、多维度的数据不断汇聚,图书馆也将逐步形成支持智慧服务的大数据环境。届时,也将能够不断释放间接的经济价值,如利用大数据进行文献资源的个性化推荐,提高服务效率,降低成本。当然,大数据也会出现传统的安全问题,例如用户画像与单一数据、统计数据未必形成因果关系,但是存在着相关性,有关个人信息数据收集得越多,用户的画像就会越准确,因此这种情况下的个人信息不能再用单一数据或者统计数据的保护方法。
个性化推荐服务一直以来都是图书馆关注的重点,体现了智慧服务的核心理念。智慧图书馆的个性化推荐服务主要包括文献资源推荐、服务内容推荐以及空间信息推荐等涉及图书馆各类服务功能的推荐,其核心就是基于用户个人数据,通过单一数据汇聚、统计数据汇聚等分析用户对文献资源、服务以及空间等方面的需求,进而实施针对性的信息推送。《信息安全技术 个人信息安全规范》(以下简称《个人信息安全规范》)对个人信息收集有着明确的要求,如个人信息控制者在收集个人信息时,应向个人信息主体告知收集、使用个人信息的目的、方式以及范围等,并且需要征询个人信息主体的同意,这是“隐私政策”有关信息收集的核心内容。《中华人民共和国数据安全法》第三十二条规定,任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。同时该法规定,法律、行政法规对收集、使用数据的目的、范围有规定的,应当在规定的目的和范围内收集、使用数据。所以,智慧图书馆不仅要保护个人信息,还要进一步规范使用个人信息。在社会数据治理的大背景下,数据价值、数据安全以及用户保护等成为智慧图书馆发展所要面对的问题,其中数据价值涉及图书馆智慧服务的效果,同时兼顾数据安全的系统安全、数据隐私以及个人信息保护等。然而,一直以来,“以用户为中心”的服务理念弱化了图书馆数据价值作用的释放,不利于图书馆实施数据治理。当前图书馆正处于统计数据时代,并极力向大数据时代迈进。从统计数据层面来说,图书馆用户的个人信息保护仍然十分重要,可转换至单一数据层面进行处理。《个人信息安全规范》的指导在统计数据层面体现出释放价值的特征,通过匿名化、去标识化等要求来平衡使用和保护的关系。对于大数据来说,用户的相关权益被大幅稀释,数据风险得以降低,这也促进数据价值被充分释放,所以,智慧图书馆在相关制度设计上还需要开展前瞻性研究。
在图书馆尚未普及大数据的背景下,图书馆数据治理发展得还不够成熟。因此,即便图书馆数据研究都是围绕统计数据展开,其结论与观点也不具备准确性与指导性。用户数据的全面采集和深入分析为智慧图书馆的管理和服务提供了数据基础,但也增加了个人数据和隐私泄露的风险[13]。智慧图书馆将数据区分为单一数据、统计数据和大数据,有助于对数据价值与数据安全进行场景化研究,也有助于将个人信息保护与服务充分融合。智慧图书馆适用于个人信息保护的单一数据包括用户的身份信息,所以对于该类信息的规制力度要进一步加强,即加强对该类数据的保护。智慧图书馆的统计数据一般分为用户的借阅信息、用户的访问信息以及用户的入馆信息等,所以对于该类信息要进一步关联服务需求,进行必要的需求分析。智慧图书馆的大数据尚未形成,因此对其规制还是不明确。大数据时代网络学术资源建设的快速发展对图书馆产生了一定冲击,大有取代数字图书馆之势[14]。大数据分析的工作量远远超越统计数据,数据价值在大数据时代将会被充分释放。然而大数据也存在着个人信息泄露的风险,例如用户画像比传统统计数据更能客观反映出用户人格,但数据跨系统、跨单位、跨行业流动,可能会间接泄露用户个人信息,甚至不利于行业、国家安全。大数据价值的体现需要数据汇聚才能产生,数据流动也离不开政策支持。智慧图书馆的发展,不能仅强调技术创新,也需要对制度完善加以保障。智慧图书馆有关数据的困惑,是由来自不同层面的数据产生的,全面认识这些数据,将有助于我国图书馆行业做出科学合理的制度安排。
告知同意规则是确定个人信息处理行为合法性的原则,即除非法律、行政法规另有规定,否则都应遵循[15]。《个人信息安全规范》第5.4节要求个人信息控制者告知信息主体收集、使用目的、方式与范围等规则,并且征询个人信息主体的授权同意。当前,智慧图书馆的数据获取、数据使用、数据共享、数据重用、数据加值等行为越来越普及,而我国图书馆并未重视用户个人信息保护的规范化问题[16]。欧盟在《通用数据保护条例》(General Data Protection Regulation,GDPR)中将那些做出与个人相关的决定或者为了分析预测个人喜好、行为和态度,在互联网上追踪这些个人,且在此过程中使用了相关处理技术来形成用户画像等操作都认定为监控行为,都需要告知信息主体,并征得其同意。智慧图书馆的用户数据使用,也需要执行《个人信息安全规范》的告知信息主体规定。目前,智慧图书馆的单一数据主要用于数据共享,即与其他系统关联、汇聚,以提升统计数据、大数据的价值释放效率,例如高校图书馆管理系统与高校智慧校园系统的关联。智慧图书馆数据使用告知,不仅要告知本系统、本机构的数据使用目的和方式,也要告知使用范围。“告知—同意”成为智慧图书馆合理、合法、合规使用用户数据的前提。但即使是《中华人民共和国个人信息保护法》也无法解决各行各业场景中出现的个人信息保护的问题,因此需要在各行业的相关法律法规中对数据的使用作出明确规定。《中华人民共和国公共图书馆法》第四十三条规定:“公共图书馆应当妥善保护读者的个人信息、借阅信息以及其他可能涉及读者隐私的信息,不得出售或者以其他方式非法向他人提供。”然而这只对图书馆提出了有关个人信息保护的要求,未对个人信息的使用加以规范。所以,智慧图书馆应该参照《个人信息安全规范》中的相关建议,制定适合本场景的数据使用告知规则,进一步消除用户对于个人信息安全的担忧,同时对自身的数据使用行为进行规范。
数据处理登记规则是指数据控制者在收集、处理个人信息数据前将相关情况报告给相关主管机构,例如高校图书馆向高校信息安全管理部门报告,公共图书馆向主管的文化行政管理机构报告等。将数据处理登记规则常态化,是数据治理的一项基本性规则。《信息技术服务 治理 第5部分:数据治理规范》提出:“决策层应制定合理的评价体系与审计规范, 监督数据治理实施的合规性和有效性,对于有偏差或不符合的内容进行指导, 最终引导机构实现数据治理目标。”智慧图书馆的单一数据,存在于独立的系统中,遵循着软件工程的国家标准。数据处理登记,主要是针对统计数据、大数据的数据价值释放行为,属于备案的过程,其作用是建立双向甚至是多向的联系,实现数据控制者、数据监管者以及数据分享对象之间的信息共享。例如向第三方提供图书馆用户的借阅信息、入馆信息等统计数据,需要通过数据处理登记流程,确保数据安全。数据处理登记规则是一项衔接性的规则,便于相关部门建立数据泄露的追溯通道。智慧图书馆数据处理,既不能一味谋求数据价值的释放,也不能一味关注数据安全的保护,而是需要在两者之间建立平衡规则,充分保障数据价值在数据安全前提下得以充分释放。数据处理登记规则的实施,有助于智慧图书馆数据汇聚成大数据并充分释放数据价值,实现数据控制者、分享者之间建立常态化沟通联系机制,进而保障数据溯源的有效开展,因此,数据处理登记规则在欧盟的普及率较高。数据处理在未来智慧图书馆发展过程中将是一种常态化、普遍化的行为,做好数据处理登记,将保障智慧图书馆数据处理的完整性、安全性。
数据泄露通知规则是数据治理,尤其是个人信息保护的核心规则之一。数据泄露通知源自美国,一般被认为是美国隐私权立法的产物。美国《加州数据安全泄露通知法案》(California Data Security Breach Notification Law)于2003年正式生效,该法要求所有加州的企业将现有或潜在的数据泄露通知到加州居民,包括未经授权获取未加密和计算机化的个人信息[17]。智慧图书馆数据价值释放的基础是统计数据以及大数据。个人信息保护主要作用于单一数据,智慧图书馆服务让用户享受到了数据价值释放所带来的福利,然而数据泄露也有可能带来消极效果,导致用户对智慧图书馆产生顾虑,例如管理人员泄露、黑客入侵泄露、系统安全泄露以及设备失窃泄露等[18]。其中管理人员泄露、黑客入侵泄露属于主观层面的泄露,系统安全泄露、设备失窃泄露属于客观层面的泄露。不论是何种数据泄露方式,一经曝光都将会引发信任危机,动摇用户对智慧图书馆的信任基础。智慧图书馆未来在完善制度的过程中,应该考虑到数据泄露事件的发生,若数据泄露则需要履行通知义务,即通知数据主体,尽力降低此类事件对智慧图书馆声誉造成的负面影响,这个过程其实是一种双向制约机制。注重数据安全、个人数据保护的智慧图书馆,在规划、设计与制定智慧图书馆运营方案时,就会根据具体的业务规模和要求采取一定的技术方法以及安全措施,最大化避免数据泄露事件的发生。但如果没有数据泄露通知规则,也可以运用第三方监管来确保智慧图书馆履行安全保障义务,这与数据泄露通知规则对智慧图书馆的自我约束行为相比,监管的要求可能更高。数据泄露通知无论是对于用户、智慧图书馆还是监管机构来说都是显性的,即是否通知都是有据可查的。同时从技术层面而言,是否发生数据泄露也可以通过日志分析查证,所以,数据泄露通知也是智慧图书馆勇于担当的一种表现。
当前,业界和学界对数据流动的关注点在于数据的跨境流动。从国家层面对数据跨境流动进行监管的目的在于降低境外对我国实施大数据分析的可能,避免让国家安全遭受威胁。2021年7月,滴滴出行宣布在美国上市但随即被国家相关机构实施安全审查,原因在于上市带来的数据跨境流动会对国家安全造成威胁。目前,各个国家法律法规对数据流入不作限制规定,但是对数据的流出较为严格。对于智慧图书馆而言,资源数据的流动、共享是知识开放的重要方式,但是对于用户个人信息而言,数据流动需要加以约束。智慧图书馆的数据流动主要是针对统计数据、大数据而言,一般统计数据通过分析因果关系获取数据价值,而大数据追求利用数据的相关关系来预测结果。单一数据、统计数据如果不能够流动,那么便无法形成大数据。智慧图书馆与数字图书馆最大的区别在于“智慧”,而智慧直接体现为大数据的价值。《中华人民共和国网络安全法》第三十七条规定:“关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。”因此对于通过大数据分析产生的相关性结果,例如智慧图书馆运用借阅数据、访问数据、门禁数据等形成用户画像,即使不属于统计数据因果关系产生的,也需要制定数据流动管理规则加以约束。数据流动管理一般与数据分级管理同时讨论,即通过对数据的分级来划分可流动与不可流动的数据。例如智慧图书馆的用户信息作为单一数据,其隐私性比较强,不建议流动。但由于智慧图书馆需要相关数据形成用户画像,以便后续服务的“智慧性”,因此可以在对单一数据进行匿名化与模糊化操作,降低后续数据处理泄露的风险后,允许其在一定范围内流动。
智慧图书馆与数据密不可分,同样需要关注单一数据的个人信息保护问题、统计数据的规范化使用问题以及未来大数据治理的问题。当前,数据治理与个人信息保护交互性较强,一般认为数据治理就是为了对个人信息进行保护。但智慧图书馆拥有资源数据、系统数据、管理数据以及用户行为数据等,其开展数据治理需要关注的是数据价值、数据安全和用户保护等方面,智慧图书馆的个人信息保护也是为了更好地释放数据价值。所以,智慧图书馆应与时俱进地围绕技术创新,完善规则体系,重构业务模式,平衡数据价值与个人信息保护关系,实现高质量发展。