陆 康(南京晓庄学院图书馆)
2003年,芬兰学者Aittola在“智慧图书馆:基于位置感知的移动图书馆服务”一文中首次提出“SmartLibrary”,[1]随后引起了学者的广泛关注。国内智慧图书馆的相关研究始于2010年。
近年来,数据安全问题形势不容乐观,用户数据泄露事件频发。根据调查数据显示,全球58%的企业在2017年至少遭遇过一场数据泄露事件,其中50%至少遭遇了一次内部人员泄露事件,而因为合作伙伴或第三方的原因被泄露信息的超过1/3。[1]在涉及个人信息和隐私保护方面,各国通常都会通过制定法律、法规及相关政策约束网络服务提供商收集个人信息的内容和途径,控制被收集信息的使用方法,掌握被收集信息的使用情况,并据此对个人隐私进行保护。而为了解决在数据价值利用与信息利用过程中不侵犯用户隐私这一难题,学者们一直致力于建立基于社会隐私政策与技术方法相结合的保护机制,以求达到数据发掘与用户隐私保护的平衡。智慧服务需要感知读者需求,获取读者使用图书馆的相关数据,挖掘并分析数据中有关的资源、空间、服务需求,为图书馆智慧服务提供数据决策,以期达到服务的精准性。通过归纳、分析研究文献,发现与读者隐私保护相关的社会方法研究主要为:隐私政策相关的实证研究、隐私政策实践应用研究、隐私政策内容表述与协商研究等三个方向。[2]技术方法研究主要为:密文计算、密文访问控制和密文数据聚合。[3]数字图书馆发展至今,数据使用、数据安全与数据发布成为图书馆为读者权益保护和服务质量保证的重要因素。图书馆获取读者使用图书馆的行为数据,依据该数据能够动态感知读者的需求。行为数据涉及到读者的数字图书馆使用习惯、地点、时间以及研究领域等信息,图书馆针对其进行多维度的数据挖掘及分析可能侵犯到读者隐私。隐私保护研究依托信息安全与大数据,而大数据是支撑智慧服务实施的前提,因此,读者隐私保护是图书馆智慧服务研究与实施的重要环节之一。本研究对“互联网+”环境下的高校图书馆智慧服务的数据价值发掘以及读者隐私保护进行了综合性的梳理、分析与研究,探索两者之间的平衡点,构建平衡模型,供图书馆界探讨与完善以解决两者之间存在的现实问题,探索数据应用与隐私保护问题的解决策略。
大数据应用实践的关键在于其业务价值的体现。数据价值与业务需求息息相关,不同的业务需要不同维度的数据价值,所需结果也不尽相同。数据价值的发掘,不仅可以在海量数据中获取有业务价值的信息,还可以降低数据密度,提升数据的应用性。大数据区别于传统的统计学数据处理方法,主要是数据挖掘的限定规则较为宽松。智慧图书馆建设在以挖掘业务数据价值为基础的前提下,存在着以下问题:①随着数据量激增,多维度的进行数据采集、存储在一定程度上降低了数据价值的密度;② 虽然多元化的互联网业务平台可以为读者提供个性化的服务与资源获取的便捷渠道,但是多渠道服务的模式使得数据不断增长与沉积,导致了数据的复杂性与多样性,数据的价值密度底、价值提取难度增大;③ 数据已经成为业务决策的新的要素,有效的数据提取、数据应用价值的提炼是直接影响图书馆业务决策、智慧服务效果的因素之一。多维度的数据关联与挖掘,涉及到读者信息安全与隐私的问题也越来越突出。数据价值越高,支持智慧服务实施的效果越好,数据安全风险越高,隐私泄露几率越大。
智慧服务依托业务系统的数据支持,构建一套感知化的服务体系,能够挖掘用户需求,从而进行多元化、个性化服务。数据安全性与稳定性往往直接或间接影响着智慧服务的结果。互联网的高速发展不断产生各种类型的数据,如,结构化、非结构化与半结构化数据,他们相互作用,融合在各种业务系统中,保障业务的正常运行(见图1)。据不完全统计,国外平均每秒就有大约200万人使用Google搜索,Facebook的用户每天共享的信息超过40亿条,[4]国内的微信、微博也拥有相似量级的数据信息,这些数据被商业机构运用于科学计算、医疗卫生、金融与零售等各种行业,并取得了一定的效果。持续的数据利用以及对数据的挖掘,不仅可以发现其显性价值,也可以发掘其隐性价值,大数据逐渐成为继云计算后计算机信息科学领域一个新的增长点。人们在享受互联网各种服务的过程中,往往愿意牺牲部分隐私而获取便捷的服务。在信息社会环境下,用“鱼和熊掌不可兼得”来形容智慧服务与隐私保护两者之间的关系也不为过,“隐私”的定义也随着社会发展而发生改变。
图1 基于数据价值的智慧服务体系
大数据量已经超出人工处理的能力范围,根据业务需求的数据价值提炼,是实现精准服务的重要环节,数据价值提取的精度越高,智慧服务的效果越好,效率越高。科学数据具有周期性,数据价值也有周期性。动态的、实时的数据价值的提取,能使智慧服务在短时间内及时、精准地提高读者的满意度与忠诚度,以智慧服务为主体的业务平台,读者粘度是否得到提升,是平台建设成功与否的关键。
李克强总理说过,“数据是基础性资源,也是重要的生产力”。[5]而马云也总结了数据技术给互联网所带来的变革,他认为,“我们正迎来一个从IT到DT变革的新时代,IT时代把人变成了机器,而DT时代把机器变成了智能化的人”。[6]大数据的价值体现在宏观层次的全面性、微观层次的精确性,大数据价值具备准确性、及时性与个性化的特征。高校图书馆的智慧服务,需要发掘读者相关数据的价值,以此反馈学科服务,提升其准确性、及时性。在方法上,可以借助于信息检索、资源服务、决策支持、数据挖掘、创新驱动等解决实际问题。数据是智慧服务的基础,数据的安全性与稳定性,直接影响到智慧服务的效果。《大数据产业发展规划》中将数据作为国家基础性战略资源,认为“数据”是21世纪的“钻石矿”。[7]因此,真实、可靠、稳定的数据,可以用以作为宏观决策的依据,并能够真实反映业务动态、社会现象等微观层面难以描述的现象。由此数据安全性与稳定性就显得尤为重要,对于用户而言,数据安全与隐私问题关注度较高。
数据挖掘是为了获取用户信息行为中隐藏的需求,图书馆等机构据此可以开展个性化服务以及制定对应的管理决策。如,图书馆常用的数据统计方法联机分析处理(On-LineAnalyticalProcess,OLAP),其最大的特征就是设定需要监测的数据维度,以达到动态获取分析结果的目的,其特点是基于数据库层的在线分析处理程序。OLAP与数据挖掘在适用性方面存在着差异,主要区别在于数据挖掘过程中产生假设,而OLAP用于对这些假设进行验证(见图2)。
图2 OLAP系统分析流程
OLAP是使用者为了满足某项业务的分析需要,假设一些问题或者场景,然后运用OLAP验证其假设是否成立。如,图书馆管理系统中的读者借阅信息分析,电子资源统计分析系统以及电子资源远程访问系统中访问量、下载量的统计分析等都是按照时间轴来呈现借阅量、访问量和下载量等读者使用信息的。[8]OLAP由业务管理者主导的假设也存在着一定的缺陷,如业务管理者由于主观限制,未能够从整体角度发掘数据的规律。基于多维度的大数据挖掘在不设定规则的前提下验证假设、探索规律、发掘未知信息、找出事物发展方向等,这些都是OLAP不能实现的。人们受到其教育背景、想象力等因素的限制,经验主义也不能够在创新领域得到更大的突破,由此,基于大数据挖掘体系的构建,能够改变经验性的归纳总结关系,并辅以OLAP确认关联性,才能在数据关系模型的创新性方面得以突破。智慧服务不仅需要OLAP的多维度统计支持,更需要图书馆业务数据的挖掘以获取智慧价值的协助。智慧服务建立在数据价值获取的基础上,数据价值与服务“智慧”性成正向关系。数据价值的获取离不开数据安全的稳定性与可靠性,其中数据安全涉及用户个人信息的隐私问题,即数据隐私,因此,一个稳定的智慧服务系统应包含完善的用户隐私保护框架。
数据挖掘是从数据中获取信息和知识的过程,最初的数据挖掘研究是基于数据库的知识发现。互联网技术的发展给用户的生活带来便利的同时,其服务模式也逐渐被用户接受。用户数据是挖掘的对象,高质量的数据能够提供准确的信息,但数据统计及分析会涉及用户隐私,而数据发布也可能侵犯用户的隐私。由此,学界致力于探索数据挖掘过程中对用户隐私保护的方法,其中,通过数据挖掘的方法制定相应的保护策略是目前采取的主要途径。如,针对数据挖掘中聚类分析的隐私保护方法,差分DPkmedoids算法,[9]以及在云计算中的运用基于格的隐私保护聚类数据的挖掘方法。[10]针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,可以在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。[11-12]聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,它是一种重要的人类行为。[13]图书馆业务的数据使用可以分为以下三个角度。① 资源角度,即纸质资源、电子资源等结构化数据。资源使用数据可以借助于图书馆管理系统以及互联网监测工具(如OLAP系统)完成多维度的统计,如基于网络监测的电子资源统计分析系统[14]和基于地址重定向的域外访问管理系统。[15]② 空间角度主要涉及图书馆空间管理方面的数据,包括读者进馆数据,使用无线网络数据以及座位使用数据等。空间服务的读者利用数据的获取可以通过相应的业务系统的统计模块获取。③ 服务角度包括文献传递、查收查引、查新等涉及读者直接需求的数据。对从服务角度获取的数据进行统计分析时可以利用OLAP来完成。当前,图书馆业务数据只停留在收集保存的阶段,其统计分析工作仍然需要人工完成。因此,图书馆业务的开展,需要OLAP系统对业务系统进行初始的统计分析,从而进一步驱动管理决策。
信息窃取者想要获取某一个数据集(除这段记录之外的其他所有信息),利用差分隐私保护模型能够保证窃取者不会利用其余的记录,从输出结果中获取额外信息。然而信息安全保护者所关注的是在聚类过程所公布的信息中,用户隐私不被泄露。在提交聚类查询信息过程中,返回的结果已经是被差分隐私处理过的结果。在每次发布真实中心点之前使用拉普拉斯机制对中心点加噪,再发布加噪之后的中心点,在一定程度上保证了个人隐私的安全性以及聚类的有效性。[9]但是在复杂多变的互联网环境下,其攻击方式也在不断变化,因此防护策略也需要动态、及时调整,才能避免由于数据隐私泄露造成的损失扩大。
在云计算的环境下,公有云为机构提供了数据存储的空间,提高了机构的效率,但是数据的安全性与稳定性问题也随之被业界质疑。公有云的建设者与拥有者承担着数据的安全问题,其规模与知名度直接影响到信任度。在视大数据为资源的背景下,如果由于用户隐私问题对数据进行保护,禁止对数据进行数据挖掘与分析,那么大数据将失去其价值。因此,在云环境下,相关学者提出了一种基于格的隐私保护聚类数据挖掘方法,用以平衡数据挖掘与隐私保护。[10]高校图书馆的存储数据提供了挖掘的“原材料”,基于格的隐私保护数据挖掘扩散了应用场景,如PPK-means(PrivacyPreservingK-means)以及隐私保护层级聚类等方法,提升了高校图书馆私有云到客户端的数据挖掘精确度。
数据安全性与稳定性是数据挖掘的前提,然而读者往往担心的是数据挖掘对隐私的侵犯。在用户隐私数据不暴露的前提下实现精确的数据挖掘任务,是当前学者较为热衷的数据挖掘方法。隐私保护序列挖掘问题的相关概念,如项集的布尔集合关系概念等,能够在数据的隐私保护性、挖掘结果的准确性与算法执行高效性方面得到很好的体现。[11]
智慧服务需要数据支持。对数据进行采集、分析,挖掘其中的应用价值,是提高图书馆精准服务的基础。然而数据应用过程关乎读者隐私问题,需要制定相关的策略和方法以完善数据应用。基于k-匿名保护模型是现在应用比较广泛的隐私保护技术。随着网络攻击技术的不断发展,新的攻击方式下传统的保护方法已经不再有效。从数据层中的数据表等相关内容中也能够挖掘分析出用户的敏感信息。以数据挖掘的聚类分析为例,在互联网搜索领域,基于关键词的搜索将结果聚类反馈并以简洁的方式呈现给用户。多维数据的挖掘可以提高数据价值的精度,然而维度越高,其敏感信息泄露的可能性越高。不同数据挖掘的方式原理不同,其保护策略也存在着差异,不同的数据利用方式需要不同的保护方式。数据挖掘方法与工具随着技术的进步而不断完善,这也给用户隐私保护带来了一定的困难。因此,隐私保护的策略与方法也需要时刻紧跟挖掘技术的发展而不断变革,以适应互联网智慧服务的实际需要。攻防理论是数据安全保护的基本策略,应用场景的不同,其保护的策略与方法也不尽相同。智慧图书馆处于复杂多变的互联网环境,其业务体系的构建、业务流程的重组使得数据安全保护策略需要时刻调整。总之,隐私保护的方法不仅是技术层面的,更应该是社会层面的,隐私保护技术作为工具被用于不同的业务系统,以保障业务的稳定实施。数据管理者对技术方案的规划、设计、选取与防护思路的制定都需要借助社会方法的参与。
互联网技术提供了许多工具可用于多种业务系统提升效率与改进流程。隐私保护技术工具的选取,需要管理者根据具体业务的运行规律进行科学规划,以达到提升与改进的效果。图书馆管理者掌握技术方法并实施于业务数据使用、数据安全与数据发布,并在此过程中贯彻读者隐私保护思想,该过程属于社会方法综合运用。基本的数据流循环将是整个业务系统运行的关键,而对症下药、动态监测具体业务数据也是隐私保护最精准有效的方式之一。
智慧服务的“智慧化”是在大量数据采集、分析、挖掘的基础上,有效感知读者的所想、所需而开展的精细化服务。服务“智慧性”的高低取决于数据维度的高低、数据的周期性等因素。高校图书馆的数据使用过程涉及读者的隐私数据,如读者姓名、学号或者工号、单位以及何时、何地访问哪种数据库、检索何种关键词等。数据使用的维度越高,涉及读者相关的数据就越多,分析结果越精确,隐私泄露的风险越高。数据使用隐私保护的关键点在于对前期采集数据的处理,如匿名化、模糊化的方法对读者信息进行预处理,是数据使用过程中保护读者隐私的一种较为直接的方法,也是高校图书馆掌握读者群体的动态信息需求,并以此开展智慧服务的有效途径之一。①匿名化数据能够分析出用于决策的信息,包括业务前期运行状况、规律,并以此探索后续发展状况等;②模糊化方法,提前预设采集、提取业务分析所需的数据,摒弃无关数据,此方法既可避免数据过载,也可避免核心隐私数据的关联分析造成读者信息泄露,如通过预设的时间段的资源访问量、检索词等数据用于挖掘读者资源需求。
数据安全隐私保护是根据不同的数据使用环境,选取合适的数据安全保护策略、机制进行防护。该方法的实施依赖于数据管理者能够宏观掌握最新的数据安全技术方法,并具有敏锐的数据安全规划与设计能力。国际标准化组织(International Organization for Standardization,ISO)对计算机系统中数据安全定义为:构建数据处理系统、并采用相应的技术和安全保护以保护计算机硬件、软件和数据不被偶然与恶意的原因遭到破坏、更改与泄露。[16]因此,数据安全可以理解为以各种技术与策略保证数据的可用性、完整性与保密性。数据安全是保证数据在传输与交换过程中不发生信息的增、减、修改、泄露等。数据安全隐私保护可以分为:① 防护技术包括数据备份、双机容错、数据迁移、异地容灾、数据库加密、硬盘安全加密;② 安全技术包括隐藏、访问控制与密码学;③ 实施策略包括网络分段、交换式集线器替代共享式集线器等。智慧服务的基础是依托互联网开展,数据的采集与使用过程涉及多个系统,系统之间的数据交互过程需要构建数据安全保护技术防止数据泄露造成侵犯用户隐私问题发生。数据管理者可根据不同的数据使用环境,制定相应的数据安全保护策略,避免读者隐私因数据外泄造成暴露。
图书馆以系统运行数据分析信息应用于业务效率的提升、运营的决策。由于系统多维度数据关联分析的需要,图书馆各项业务需要发布与共享部分数据。在传统数据库支持的业务系统中,数据发布以提出请求的方式调用相应的数据,但是在大数据时代,智慧服务通常是采用推送的方式授权给相应的主题。数据的发布过程不仅需要推送策略支持以保证数据的可用性,也需要隐私保护指南规范发布行为,如,基于隐私保护的数据挖掘 (Privacy-Preserving Data Mining,PPDM)概念的发布。传统数据发布的“匿名”与“模糊”等隐私保护模型,可以降低在数据使用过程中涉及用户“隐私”等敏感信息的泄露,但是对数据使用(数据挖掘)相关算法得出的隐私信息无法进行有效保护,这些信息也应该动态删除。PPDM的目标是实现一种改变原始数据的算法,让可能含有隐私信息的数据在挖掘过程中不被泄露。由此,即使发布、共享数据,也可以让数据窃取者无法通过这些数据获取读者隐私。高校图书馆拥有多样化的数据,为提升服务质量,运用数据挖掘与分析工具动态获取读者的需求,数据安全问题因此显得更加突出。随着智慧服务理念逐步被图情领域所接纳,智慧的数据性,数据的安全性,安全的保障性等问题需要得到重视以保证智慧服务健康、稳定的发展。
智慧离不开数据的支持,如资源数据、行为数据等,这些数据能够多维度显示图书馆的运行状态,包括读者的空间、资源、服务需求,而数据的挖掘分析能够得到读者深层次的学科需求。大量数据的采集、整理、统计、挖掘、分析,其过程周期较长,数据的安全性与稳定性在此过程中尤为重要。数据的管理者与利用者的数据素养,其数据意识、数据能力与数据伦理直接影响到数据应用效果与数据安全稳定。
高校图书馆运用互联网技术和理念开展学科服务、资源服务与空间服务,具体理念就是关联图书馆多系统的数据,实现服务管理的整合(见图3)。数据由不同系统进行多维度汇集,实现多维度的整合,提升了大数据的应用价值,为图书馆开展智慧服务提供了条件,在此过程中也提高了数据管理复杂度和数据隐私泄露的风险度。传统的隐私保护技术已经不适应智慧服务中数据挖掘、分析等应用环境。同时,读者还未意识到在自我隐私保护方面的重要性,如读者身份认证的读者卡常被他人借用,身份认证账号互借的情况也比比皆是。因此,智慧服务环境下的读者隐私保护,不仅是技术层面、管理层面的保护,也需要加强读者数据素养教育,提高用户有关数据意识、数据能力和数据伦理方面的数据素质,使用户隐私能够得到较好的保护。
图3 基于数据安全与隐私保护环境下的智慧服务体系
读者对个人数据的不可控性,不仅需要业务机构的行为自律也需要法律法规对个人数据加以保护。然而图情界至今尚未有完善的数据隐私保护法律法规来规避已经存在的安全风险。唯有借鉴国外先进经验,如欧盟的《一般数据保护条例》等,并结合图书馆业务的数据使用现状,制定数据保护行业规则。这些规则应包括数据使用目的、明确原则、明示告知原则、数据质量原则、数据安全原则、公开责任原则等。图书馆门户网站等平台在收集、使用读者数据行为时,应在其主要页面提供法律声明与隐私权政策等信息,让读者详细了解个人数据使用情况以及可能存在的风险等问题。
信息社会环境下,读者对图书馆的数据收集、使用等行为不知情、不了解,而且读者作为数据的主体对数据的控制力不强,由此会造成整个社会对机构数据使用缺乏信任。因此,增强读者作为数据主体的参与度,提升读者在涉及个人数据使用的透明度,是实现读者权利正当性的基础。[17]图书馆作为智慧服务的实施者,应该拥有干预自动化业务建设方处理算法黑箱的权利,并向读者公开算法决策对读者个人可能存在的影响,以此获取读者信任。图书馆作为公共服务机构,应该以维护读者利益为前提开展数据收集工作,在此过程中不可避免地存在读者个人与公共利益之间的权衡问题。因此,需要建立读者与机构之间的数据共享知情权,这样才能够更好地实现保护读者隐私的目的。
读者隐私保护需要区分一般个人数据与敏感数据,一般个人数据可以建立在默认同意的基础上,只需要读者个人没有明确的反对,便可以收集与使用。但是对于读者个人敏感信息而言,则需要图书馆等机构在数据收集与使用之前,征得读者同意。因此,对于一般数据的使用需要机构强化数据安全保护措施,而对于敏感数据的使用则需要调和读者数据保护与使用需求之间的矛盾,实现利益的均衡。
数字图书馆实时、动态收集读者信息,并且应用日志分析等大数据技术分析数据,进行精细化的智慧服务,在此过程中,对于读者身份判别与读者个体进行深入的掌握。因此,在图书馆智慧服务需求的背景下,政府、机构与读者都对用户隐私保护有了一定的关注。机构的数据收集、使用有了明确的定义,对业务数据自动化处理也必须有明确规定。图书馆应该有差异的对待各种读者数据,并对其加以保护,也可以根据不同环境、不同业务进一步细分读者数据保护规则,细分数据的收集主体与使用主体。
读者数据被收集后,图书馆等机构要对所收集的读者数据提供保护机制,防止数据在存储过程中被泄露。数据存储安全根据不同的环境,需要建立不同等级的保护制度。图书馆出于业务发展需要,收集读者数据,也要重视数据存储的安全问题,充分考虑业务发展与数据安全的关系。大多数高校图书馆依托数字化校园建设而成就的数字图书馆,已经具备了集中的数据资源库与数据中心体系,数据存储的安全性与稳定性也得到进一步提升。集中统一的业务管理体系避免了存储数据的泄露问题,也为智慧校园、智慧图书馆的建设提供了稳定的互联网环境。
由于目前针对读者个人隐私保护的法律法规欠缺,法律体系尚未做到有效的衔接,因此在读者隐私问题与现有法律的关联问题上,需要考虑到执法的适用性与可操作性。读者个人隐私问题取证、举证受到一定限制,特别是在大数据环境下,读者个人隐私泄露所带来的后果难以在短期内认定,所以执法机构只能够使用传统的名誉权处理方式对读者个人隐私进行保护。读者隐私不仅需要机构数据管理者从数据安全技术与方法手段等方面进行保护,也应从提升读者的数据素养中加以强化。读者只有从数据意识、数据伦理等角度全方位认识到数据使用、数据安全与数据发布的需求、流程以及在此过程中带来业务的便利性,才能逐渐消除读者“谈隐色变”的心理阴影。
图书馆服务的智慧性,必须有相应的工具配合实施,才能将数据的价值充分发掘,从数据层面予以业务实施的智慧化。目前,高校图书馆的数据驱动业务,大部分还停留在OLAP阶段,并没有利用数据挖掘来支持学科服务。其中数据驱动业务发展的数据安全与隐私保护问题,运用传统的“匿名化”与“模糊化”等方法是能够解决的。[18]由于馆员缺乏专业数据素养培养,使得支持图书馆数据使用、数据安全与数据发布等业务的制度、流程没有得到有效地制定、实施。以数据为基础的图书馆资源和业务系统,其安全性与稳定性是开展智慧服务的关键性前提,学科服务的平台化,使得读者的资源获取效率得到飞速提升。科技带来一系列变革,但是以人为本的宗旨不能改变,人的安全保护应该是全方位的,读者个人隐私与数据安全也应该是图书馆在大数据时代所要重点关注的问题。