赵天昀(郑州大学信息管理学院)
随着互联网技术、通信技术以及智能终端技术的迅猛发展,图书馆由传统的信息检索中心转变为知识信息服务中心,各种结构丰富的知识信息资源更是伴随着社交网络、语义网的发展呈现指数级增长。与此同时,用户对于数字图书馆的内容以及服务形式的需求呈现多样化,使得传统图书馆的服务内容和服务方式已很难适应时代的要求。此外,用户不同的需求促进了数字图书馆个性化服务方式的开展,即以用户为本,基于用户个体信息需求,包括使用行为习惯、爱好及个性化信息服务要求,并顾及用户的层次和需求的差异产生,向用户提供满足其个体信息化需要的一种信息服务,及针对不同的用户,提供差异化的信息服务形式和服务内容。
目前,个性化服务成为数字图书馆信息服务的主流,大致包括自定义服务界面设定、符合个人需求的内容定制、个性化信息推送服务以及智能的信息检索定制等。为了实现用户个性化的需求,图书馆不可避免地需要收集用户个人信息,对用户的信息进行深入的分析和挖掘,这种基于数据挖掘及个性化推荐的主动信息服务,导致用户个人隐私受到侵犯。尤其是在大数据时代,恶意攻击者通过外部数据源与图书馆所掌握的个人信息进行推理,极有可能导致用户个人信息外泄,产生不良影响。国外学者较早地意识到上述问题,2015年6月29日,美国图书馆协会(American library Association,ALA)知识自由委员会隐私小组组长Michael Robinson提出,图书馆伴随着现代互联网提供个性化服务,与目前图书馆一直以来的隐私保护之间形成鸿沟现象,一定程度上凸显了学术界对个性化服务与用户隐私之间关系的重视。因此,如何有效地保护数字图书馆个性化信息服务中用户的隐私,成为数字图书馆发展中亟待解决的一个敏感而重要的课题。[1,2]
通常来说,个人隐私是指不愿意告诉他人或者不愿公开的个人事宜。美国图书馆协会将图书馆用户隐私定义为图书馆有能力对用户的想法、情感、信仰、恐惧、计划、想象和控制等个人信息在不能与别人分享时给予保护。[3]国内的学者普遍将图书馆用户隐私划分为两类:用户信息隐私和用户活动隐私。[4]本文所涉及个性化服务中用户隐私包括读者的年龄、专业、性别和学历等个人基本信息,也包括读者为了享受图书馆个性化信息服务而被图书馆记录的读者过往阅读史、借阅及检索关键词以及日志、行为习惯以及学术偏好等内容,甚至严格来说,通过大数据分析和挖掘,进一步得到的用户所从事的行业、潜在的需求甚至工作单位等信息,都可以归为用户隐私的范畴。
由于数字图书馆的个性化信息服务是基于用户个人信息和需求开展的,因此收集、存储以及使用个人信息的过程中将有可能泄露用户隐私。本文将用户隐私数据的泄露主要划分为三种渠道。
(1)用户个人信息数据及个体活动的采集。用户在使用数字图书馆服务之前,需要填写个人姓名、电子邮件、研究方向、兴趣偏好、工作地点及联系方式等信息进行申请注册,一些网站还要求输入身份证号等,这些个人基本信息被数据集记录。除此之外,日志文件(用户使用数字图书馆各种服务的过程中产生记录文件,包括使用时间、频次、IP地址以及地理位置、用户终端类型、检索关键词,甚至浏览页面次序及鼠标悬停时间等)会被服务器采集并存储,一旦个人信息被过度采集,进一步被黑客获取或者被内部人员泄露,就使得用户毫无隐私可言。
(2)信息的传输和存储过程。目前,数字图书馆一般使用传统的存储系统,或者采用云储存系统,最常见的对数据进行安全和隐私保护的手段仍然是基于数据加密技术,即用某种加密技术,将加密后的数据存入磁盘或托管至云存储系统中。以云存储为例,由于云服务器存在“诚实但好奇”的特性,即诚实执行用户的要求,但存在窥探用户数据隐私的可能,即使数据在服务器中以密文的形式保存,服务提供商也可以在统计用户对密文请求次数的基础上建立用户与特定密文的关系,挖掘潜在的用户兴趣。如,2009年3月谷歌云计算服务系统发生用户数据泄露事件,之后微软、亚马逊等公司也出现类似的问题。
(3)滥用采集到的用户信息。个性化服务需要对采集到的一系列用户信息基于数据挖掘方法来分析和推理,预测用户的需求。服务方往往为了追求更加精准的服务,对用户各种敏感信息不加以清洗地使用。此外,随着效率和精度更高的机器学习、数据挖掘算法的投入使用,将使得用户更多的隐私信息愈发容易泄露。
(4)相关业务数据外包。图书馆业务外包是一种新型图书馆管理方法,尤其是在互联网+时代的到来,数字图书馆外包业务范围更宽,数据存储、数据分析等业务的外包也存在安全和隐私信息泄露风险。
郭明珠等[5]从广义的角度对图书馆用户信息的隐私保护进行了界定:防止第三方获取图书馆用户信息及当这种信息需要与第三方共享时,图书馆实施控制的能力。也就是说,用户隐私保护,应该既保证用户能够获取相应的服务,又能够最大程度地保护用户隐私。在当前的大数据时代背景下,图书馆提供精准个性化服务的同时,用户隐私保护面临着如下挑战。① 数字图书馆提供的个性化服务方式较多,仍然存在很多未知的泄露用户隐私的渠道。如,随着智能移动终端的普遍使用,通过移动终端来享受图书馆个性化服务越来越方便,但泄露个人隐私的途径就更多。② 用户隐私保护和个性化服务是一对矛盾体,服务质量越高,则用户隐私越容易泄露,如何设计一些准则来平衡用户隐私保护需求和图书馆收集用户数据并提供个性化服务的需求。同时,如何保证数据可用性和隐私保护程度的均衡,是图情研究领域隐私保护涉及的重点,同时也是信息学科隐私保护领域亟待解决的问题。③ 不同的用户对隐私保护的需求不同,甚至同一用户在不同时间段和场景下对隐私保护的要求也可能不同,如何更好地满足用户的个性化需求也是一个挑战。
作为图书馆,网站收集个人资料,利用数据挖掘算法对用户日志文件、Cookies文件等进行分析,甚至还存在将这些数据外包进行挖掘的情况。虽然,初衷是为了更好地为用户提供服务,但仅依赖于法律法规等政策层面上的保护还远远不够,需要信息安全和隐私技术的帮助。因此,本文从政策法规层面和技术层面提出构建用户隐私保护机制的方法。
将国家的网络安全和隐私保护的法律与行业法规相结合。首先,制定确保用户隐私权,就法律角度而言,界定用户网络隐私权,明确隐私权的概念及范围,完善与用户隐私权保护相关的法律、法规和政策,实现对网络环境中隐私权的专门保护。我国2016年11月刚刚颁布的《中华人民共和国网络安全法》,其中聚焦了个人隐私信息泄露问题,明确了网络产品服务提供者、运营者的法律责任。
其次,图书馆行业内部同步加快配套制度建设,加强基础支撑力量建设,确保政策法规有效贯彻实施。图书馆应制定并完善保护用户个人隐私的规章,如,美国图书馆协会知识自由委员会于2015年6月批准“图书馆隐私指南——给电子书借阅和数字内容供应商”,该指南指出了厂商保护图书馆用户隐私的最佳做法,旨在鼓励内容供应商和图书馆一起努力,为图书馆读者进行电子书借阅和数字内容交付制定有效的隐私保护策略和程序。[6]而我国在图书馆法规和政策制定方面还有待进一步加强。图书馆应对用户个人数据的收集、存储、使用以及销毁等环节的行为准则加以详细规定,使之成为工作人员处理用户个人数据的标准和流程。此外,对工作人员进行相应的安全技能培训,也能有效地防止其有意或无意的泄密。作为用户,也应充分知晓图书馆的隐私政策,包括图书馆对用户个人信息的掌握范围、利用程度及相关目的,从而提升用户对使用个性化服务的安全感和信任感。
在大数据时代下,恶意的攻击手段更加多样化,这对图书馆数据中心的安全保障提出了更高的要求,必须关注用户个人数据的完整生命周期,全方位构建完善的个人隐私安全体系。
在网络安全技术的防护下,对个人信息数据的采集、传输过程中,利用最新的数据加密、身份认证、访问控制等手段进行保护。针对数据挖掘等给用户带来的隐私问题,可以尽快地采用目前隐私保护数据挖掘方法。自从1999年Rakesh Agrawal在数据挖掘顶级会议KDD上提出,隐私保护数据挖掘作为数据挖掘领域研究的重点之一之后,学界目前已经取得了丰富的研究成果,其中,基于加密技术、数据失真和数据匿名三类方法分别针对不同应用目的而设计,可以根据图书馆提供不同服务的类型选择相应的隐私保护数据挖掘算法。[7]以个性化服务中常用的推荐系统为例,差分隐私模型的应用已经实现了较好的数据可用性和强隐私保护。[8,9]此外,云计算技术所提供的超级计算、海量存储、虚拟化和云资源供给动态伸缩的特点,契合了数字图书馆中大数据应用有效性的技术保障,使得云服务成为图书馆信息建设的另外一个重要选择,当然,对应于云服务的安全与隐私保护策略[10-13]可使得读者的隐私数据管理更上一个台阶。
关注并研究数字图书馆个性化信息服务中用户隐私问题,不仅仅关系到读者个人的合法权益,同时还关系到未来智慧图书馆的健康有序发展。不论在法律法规层面,还是在隐私保护技术层面,图书馆必须形成相应的长效机制,才可以让用户更放心地享受图书馆提供的各种高效的个性化服务。同时,作为个性化服务的对象,用户本身亦需要增强自我防范和保护意识,维护自身合法权益。
[参考文献]
[1]易红,任竞.图书馆大数据服务环境下用户隐私泄露容忍度的实证研究[J].图书馆论坛,2016,36(4):57-64.
[2]周姗姗,徐坤.大数据背景下信息服务中的用户隐私权保护[J].现代情报,2015(11):43-48.
[3]罗曼.论图书馆用户的隐私保护[J].大学图书馆学报,2005,23(1):63-65.
[4]王碧琴,等.数字图书馆用户信息隐私的安全威胁分析[J].图书馆学研究,2015(10):34-36.
[5]郭明珠,等.个性化信息服务中用户隐私保护对策探究[J].图书馆学研究,2010(8):62-66.
[6]李爱国,等.图书馆用户信息资源化过程中用户隐私信息保护问题与对策[J].图书情报工作,2015(13):26-30.
[7]张海涛,等.隐私保护数据挖掘研究进展[J].计算机应用研究,2013,30(12):3529-3535.
[8]鲜征征,李启良.差分隐私保护在推荐系统中的应用研究[J].计算机应用研究,2016,33(5):1549-1553.
[9]彭飞,等.一种基于群组推荐的用户隐私保护方法 [J].计算机应用研究,2015,32(3):869-872.
[10]季正波,等.基于用户行为记录的云服务隐私保护体系和算法[J].计算机科学,2015,42(8):185-189.
[11]祖红波.云计算环境中图书馆读者的个人信息保护初探 [J].图书馆工作与研究,2014,1(10):47-50.
[12]李晖,等.公共云存储服务数据安全及隐私保护技术综述[J].计算机研究与发展,2014,51(7):1397-1409.
[13]麦范金,等.云图书馆中移动用户隐私五维保护模型的构建[J].情报理论与实践,2014,37(4):92-97.