马晓亭
大数据时代图书馆个性化服务读者隐私保护研究
马晓亭
大数据时代,图书馆用户数据隐私保护成为重要问题。文章分析大数据时代图书馆个性化服务用户隐私保护的现状及存在的问题,从法律、技术和数据分析三方面研究图书馆在提供个性化服务过程中潜藏的用户隐私被侵犯风险,提出大数据环境下图书馆用户个性化服务隐私保护的对策与方法。
大数据时代 图书馆 个性化服务 隐私保护
大数据时代给图书馆的运营模式、服务理念、用户需求和市场环境带来巨大变革。如何有效采集读者阅读行为、身份特征、个人爱好与习惯和社会关系等隐私数据,并将所收集到的数据进行整合、分析与挖掘,实现对读者阅读需求和阅读行为准确、详细的跟踪、挖掘、分析和预测,成为图书馆根据读者需求转变服务模式和定制个性化服务内容,提高服务有效性、用户满意度和市场竞争力的关键。2013年6月,随着前美国中央情报局雇员斯诺登向媒体提供机密文件,致使包括棱镜项目在内的美国政府多个秘密情报监视项目曝光。信息安全和个人隐私保护引起各国政府、企业和团体的重视,成为大数据时代普遍存在并关系到人权和用户利益保护的重要问题。因此,图书馆在利用大数据技术提高用户服务能力和服务质量的同时,如何有效保护读者隐私权,已成为加强图书馆与读者之间信任感、用户阅读活动愉悦感和读者群忠诚度的重要保障[1]。
通过对人类社会行为和社会关系数据的采集、处理和分析,可对原本难以捉摸的人类社会行为、活动和关系,进行有效的解析、描述、量化、预测和控制。比如,在2012年美国总统竞选期间,奥巴马竞选团队利用大数据分析来预测选民的结构组成、政治需求、社交关系、行为特征、生活习惯与兴趣爱好,制定出基于大数据驱动的资金筹集和竞选决策,筹集到历史最高的10亿美元竞选资金,并最终获得竞选胜利。因此,在大数据时代,图书馆根据所收集到的读者阅读行为和社会关系数据,准确分析、预测未来读者阅读需求和行为发展,为用户提供具有较高个性化特征的推送式服务,是图书馆降低运营成本和服务模式复杂度,提高服务效率和用户满意度的关键。
大数据是推动图书馆服务模式和服务内容变革的重要因素。图书馆大数据信息采集的原则,应坚持与读者需求、用户服务模式与内容、图书馆未来发展与变革、读者阅读环境和行为相关的原则。读者信息采集的内容主要包括电子邮件、第三方增值服务、相关视频与图片信息、存储服务数据、语音数据、文件传输的内容与对象、读者服务系统访问与阅读行为数据、浏览习惯等。此外,为保证所收集数据具有较高的价值密度和可用性,在法律允许和征求用户同意的前提下,还应收集有关读者年龄、性别、婚姻状况、教育或者就业情况、社会关系等隐私数据。
数量和质量问题是关系图书馆大数据分析与应用有效性的两个关键因素。首先,大数据时代如果图书馆数据类型单一或者存储总量较少,则无法从简单、有限的数据中获取具有较高价值的信息。如果数据量过大,则会导致数据总量中垃圾数据比重过高和数据关系过于复杂,造成有价值信息提取困难。因此,只有当图书馆大数据平台数据总量达到适当的比例,才能真正显现出大数据的价值,才能根据不同数据之间的关联性而分析得出有价值信息。其次,数据的质量也是关系大数据应用有效性的关键因素。图书馆在数据收集过程中,应加强对所收集数据的服务针对性和质量控制,保证数据具有较高的价值密度和数据可用性[2]。
2.1 读者处于全天候全方位的监控之中
图书馆通过对大数据平台收集到的数据进行统计性的搜索、比较、聚类和分类等,分析、归纳,进而发现细微数据之间隐性存在的“相关”特性,为图书馆的运营、管理、服务和未来发展提供决策依据。因此,图书馆用户行为和社会关系数据采集的内容、数量、质量和全局有效性,是关系图书馆运营、管理和服务过程决策科学性的关键。
为保证图书馆收集到的用户数据全面、真实、易控和可用,必须对读者行为实施全天候、全方位的监控。大数据时代,图书馆主要对读者的用户注册、服务系统登陆、数字阅读行为数据、论坛与微博交流互动、服务需求等信息进行监控。此外,与第三方增值服务运营商共同为读者提供移动阅读、用户数据管理、个人图书馆服务等增值服务,是大数据时代图书馆服务的又一个亮点。图书馆可与第三方增值服务商实现读者监控数据的共享,更多地掌握读者的身份特征、地理位置、行动路径、社会关系和消费习惯等隐私数据,以提高所拥有读者数据的数量和价值密度。因此,大数据时代,读者处于图书馆全天候、全方位的监控之中而毫无个人隐私可言[3]。
2.2 读者的思想和行为发展趋势被提前暴露
图书馆通过对读者相关行为及社会关系数据进行海量采集、持久存储、全景分析和科学决策,能够精准定位到某个具体的读者身上,准确预测其思想、行为的未来发展趋势。因此,图书馆可利用大数据技术对未来的用户服务模式和读者需求发展趋势进行准确的预测,为用户提供基于定制的个性化阅读服务,确保读者具有较高的阅读收益率和满意度。
但是大数据技术对读者未来阅读行为和需求的超强全景洞察,无疑增加了读者隐私受到威胁和侵犯的概率。第一,图书馆会根据所预测到未来可能会发生的用户不安全阅读行为,提前制定相应的安全跟踪、防范和控制策略。这种基于所采集数据对用户未来阅读行为进行非法和不信任的判定,对于读者来说是不公平的。第二,图书馆可利用所采集的读者之间论坛、博客信息交流数据,以及读者好友圈子的关系数据,而准确预测读者的亲友、同学、同事和其它社会关系,让读者毫无个人隐私可言。第三,所采集的读者信息具有较高的复杂度和海量性,大幅度增加了读者隐私数据安全管理的难度和可控性。因此,读者隐私数据在采集、存储、管理、分析和传输过程中都有可能会被泄露[4]。
2.3 图书馆利用大数据分析结果制定的运营、服务策略可能会损害读者利益
利用大数据技术进行准确的数据分析,为读者提供安全、高效、经济和满意的个性化阅读服务,是图书馆大数据技术应用的价值体现和最终目的。但是,在一些特定环境和阶段下,图书馆为了获取最大服务收益,提高市场竞争力和保证拥有较大的读者群体数量,所制定的管理、经营、服务和发展策略,可能会侵害部分读者的个人隐私,损害部分用户的利益。
最典型的一个案例就是,华尔街有一位股票炒家利用电脑程序分析当时全球3.4亿微博账户的留言,以此来判断民众的投资情绪。如果多数人表现兴奋、乐观就买入股票,如果大家的焦虑情绪上升就抛售股票。这位股票投资者利用这个方法,最终获得了7%的季度收益率。同样,当图书馆服务商利益和读者隐私权利发生冲突,或者少数读者合法权益与大多数读者利益产生冲突时,图书馆很难保证其决策的制定和执行,完全从法律角度出发,维护全体用户的利益。此外,由谁来监督和如何监督图书馆行为,避免服务过程对读者隐私和权利造成损害,也是保障读者合法权利的又一个重要问题[5]。
2.4 读者个人隐私数据的归属权与监管问题
对于任何国家、企业和社会团体而言,读者个人隐私数据背后可能隐藏着巨大的政治、军事、社会与经济利益。因此,在有效采集、整合、分析与挖掘数据的同时,加强数据的安全管理与保密工作,对国家、企业和社会团体的快速发展,以及利益保障具有重要的意义。
第一,图书馆在采集、管理和使用用户隐私数据过程中,采集方法的合法性与监管标准、所采集数据的所有权归属、利用隐私数据进行分析与决策的限度、隐私数据共享的对象与程度、隐私数据使用监管的标准与维权方式等问题,是关系图书馆合法使用个人隐私数据和有效保护读者隐私的关键。第二,当个人隐私保护与国家安全、经济利益发生冲突时,各国政府可能会从维护国家利益出发,要求图书馆提供相关读者的隐私数据。第三,图书馆管理员在服务系统维护和数据管理中,通常会接触到读者隐私数据。部分缺少职业道德和法律意识的管理员,可能会为了获取非法利益而出卖读者隐私数据。同时,系统管理员不正确的数据存储、管理和传输方式,也提高了黑客窃取读者隐私数据的成功率[6]。
3.1 避免对用户信息无限制的采集和使用
大数据并不完全等同于大价值。只有当图书馆数据的存储量达到一定数值,并且具有较高的价值密度,才能通过数据的采集、挖掘和相互关系分析,得出具有较高价值的有用信息。因此,图书馆在用户数据采集、管理和使用过程中,应加强数据的安全管理和监控,避免对用户信息无限制的采集和使用。
第一,如果限制读者数据的采集,在某种程度上虽然保护了读者的隐私权利和信息安全,但是,也大幅度降低了数据的价值密度和可用性,最终将会影响决策的科学性和可靠性。因此,在不损害公众利益和用户隐私权的前提下,不应该限制图书馆采集读者数据的对象、内容、数量、方式和途径,应将数据安全管理的重点从限制数据采集转移到监管数据使用上。第二,图书馆在用户隐私数据采集和使用中,应保证读者具有知情权和控制权,对图书馆存储的用户隐私数据拥有管理、利用、修改、分发和删除的决定权。同时,图书馆应依靠科学技术手段和安全管理系统,在不影响数据可用性的前提下,保证用户隐私数据的采集、存储、管理、使用和决策过程具有较高的安全保密性。第三,图书馆应加强相关人员的法律、法规和职业道德教育,保证工作人员的行为符合相关法律与道德规范,避免读者隐私数据的过度挖掘、分析和使用。第四,图书馆业应制定相应的读者隐私保护行业标准或公约,从行业道德层面约束图书馆业的服务行为。同时,通过图书馆行业联盟制定科学、详细的用户阅读隐私保护规范,保证读者大数据阅读隐私保护科学、全面、高效、细致[7]。
3.2 通过立法规范政府、企业对用户隐私数据使用的行为
2013年6月,前美国中央情报局雇员斯诺登的叛逃,不但揭示了用户个人隐私可能受到政府、企业的监控,而且表明当个人隐私权和国家、企业利益发生冲突时,政府和企业可能会从维护全局利益出发,将个体用户隐私权利的保护放在次要的位置,这可能会对用户个人隐私数据产生一些新形式的侵犯。
正如美国总统奥巴马所说,“不能在保证百分之百隐私的情况下,而获得百分之百的安全”。因此,政府和企业可能出于维护广大人民和绝大多数用户利益的目的,通过立法使自己侵犯个人隐私的行为符合法律规定,这一行为本身无可厚非。但是,如何通过法律手段限制政府、企业对用户隐私的过度侵犯,以及防止这种侵权行为失去控制,是关系用户隐私权利保护的又一个关键问题。
第一,应从国家战略和维护人民利益的角度出发制定法律。法律制定的原则应坚持保障国家和人民利益不受侵害的前提下,在数据的采集、使用、分析和决策过程中,充分尊重公民的个人利益和隐私权。第二,图书馆在读者隐私保护中应规范自身行为,在为用户隐私数据管理提供可靠安全技术保障的同时,应加强安全管理制度的安全性和隐私性保障。同时,还可通过参加“用户隐私权利联盟”和发表相关《用户隐私数据保护自律宣言》的方式,自觉规范自己的行为并接受社会和用户监督。第三,数据作为国家、企业的战略资产,对国家利益和企业生产有着重要的意义。企业与企业之间,企业与国家之间的数据管理,已从最初的垄断向多用户共享发展。因此,必须制定数据共享的安全管理和读者隐私保护策略,保证可以对数据的采集、存储和多用户共享过程进行监控、追踪和说明[8]。
3.3 图书馆应加强对采集数据的清洗
图书馆在大数据应用过程中,既要保护读者个人隐私不受侵犯,又不能以降低数据的可用性和价值密度为代价,这样才能在数据挖掘和发挥大数据价值的同时,有效维护读者的隐私权。
在图书馆所采集的数据中,有很大一部分与用户行为分析、用户社会关系判定、图书馆建设、系统运营和读者服务过程是不相关的。这部分数据不仅造成图书馆大数据结构复杂度增加,而且也导致大数据平台数据处理负载激增。因此,必须通过有效的数据清洗,尽量删除与图书馆无关的读者隐私数据,提高图书馆大数据的价值密度和可用性。第一,图书馆应根据读者服务和运营需求,对所采集的数据进行过滤、清理、删减、一致化、匹配、连接和诊断。并对清洗后的数据进行价值密度和可用性评估,动态调整数据清洗的策略。第二,图书馆应根据自身建设和服务需求收集数据,提高数据的准确性和透明度,允许读者查看、审查、修改和删除图书馆收集到的有关自己的信息。应利用所收集的大数据信息分析某一读者群体的行为特征和需求,而不应针对单一读者进行分析、判断和决策,努力降低所收集信息的个体相关性。第三,图书馆与第三方进行读者隐私数据共享时,应先清洗出关系读者个人隐私和用户利益的重要数据,避免读者隐私数据泄露和受到侵犯。同时,应尽量通过图书馆服务开放平台采集读者数据,不要主动向读者索取数据和打扰用户[9]。
3.4 利用云计算技术保护读者个人隐私
大数据时代,云计算技术为大数据应用提供了基础设施平台和数据处理、分析服务,是帮助图书馆提高生产力和解决大数据问题最有效的手段。但是,大数据环境下读者阅读活动面临着许多新的安全威胁与问题,现有的云计算安全技术无法完全保护读者个人隐私。图书馆应根据大数据环境下自身建设、管理与用户服务的需求,结合自身特点与实际情况,鼓励隐私保护技术的研发、创新和使用,从技术层面来完善用户隐私保障体系,确保读者阅读隐私安全。
为了保证读者阅读行为、社会关系和服务需求等个人隐私数据具有较高的可获取性、价值密度和可用性,图书馆加强了对读者用户注册、服务数据获取、网页浏览、微博与论坛信息发布、增值服务商信息交互等活动的数据监控、采集、存储和处理。云计算技术的超级计算、海量存储、虚拟化和云资源供给动态伸缩的特点,恰恰是图书馆大数据应用有效性的技术保障。此外,保证云计算技术应用安全和利用云计算安全技术管理大数据平台,也是图书馆大数据平台安全管理的必要条件[10]。
第一,图书馆应选择具有较高安全保障能力和技术水平的云服务商签署云服务协议。大数据时代,图书馆数据具有体量巨大、数据类型繁多、价值密度低和处理速度快的特点,因此,图书馆必须通过租赁云服务商的云服务,保证数据采集、存储、处理和分析的效率和质量。图书馆选择云服务商时,应重点关注云服务商的安全管理水平、信誉度、技术实力和服务可靠性,并确保双方所签署协议的内容科学、可控、经济和可执行。第二,云计算平台在数据管理、处理和分析过程中,应坚持定制、定向和数据节制的原则,根据图书馆的需求划分数据范围和选择大数据处理方向,避免因过度处理和分析而侵犯读者隐私。第三,图书馆与服务商签署云服务协议时,应明确双方在读者隐私数据管理、使用过程中的权利、义务与责任。并根据数据敏感性设置不同的保密级别和管理策略,确保读者隐私数据管理安全、高效、经济、可靠[11]。
大数据时代,图书馆数据呈现存储海量、高速增长、结构复杂和品类多样的特点。通过大数据处理平台对数据进行采集、存储和分析,令图书馆有效洞察服务市场的竞争环境、读者需求、读者阅读行为特点和未来所面临的挑战。此外,从大数据中获得了全新的价值,为图书馆服务模式变革和用户服务质量保障提供了科学的理论依据和数据支持。为保证大数据具有较高价值密度和数据可用性,图书馆通常会对读者相关数据进行立体化、全方位的采集、处理、分析和挖掘,这些行为可能会导致读者个人隐私数据的泄露和侵犯。因此,图书馆必须从保障和维护读者权益出发,自觉遵守相关的法律、法规,形成保护读者个人隐私的长效机制。同时,还应提高读者隐私数据在收集、分析、传输和共享过程中安全管理的科学性和技术水平,并加强图书馆的自我约束和自我监督,才能为读者提供大数据时代安全、高效、放心、满意的个性化服务[12]。
[1]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[2]黄毅,霍峥,孟小峰.一种用户协作无匿名区域的位置隐私保护方法[J].计算机学报,2011,34(10):1976-1985.
[3]任建宝,齐勇,戴月华,等.不可信操作系统中用户隐私数据完整性保护方法[J].计算机科学与探索,2013,(5):1-11.
[4]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.
[5]李宁,朱青.大数据模式分解的隐私保护研究[J].计算机科学与探索,2012,6(11):961-973.
[6]Texas Department of State Health Services. User manual of Texas hospital discharge data public use data file[EB/OL].[2013-07-10].http://www.dshs.state. tx.us/thcic/Hospitals/HospitalData.shtm.
[7]Zhou Zongwei,Gligor V D,Newsome J,et al. Building verifiable trusted path on commodity x86 computers[C]//Proceedings of the 2012 IEEE Symposium on Security and Privacy.Washington,DC,USA:IEEE Computer Society,2012:616-630.
[8]王艳,乐嘉锦,孙捷,等.网络用户行为的隐私保护数据挖掘方法[J].计算机工程与应用,2012,48(13):138-143.
[9]Liu Bing.Web数据挖掘[M].余勇,薛贵荣,韩定一,译.北京:清华大学出版社,2009:327-329.
[10]张逢喆,陈进,陈海波,等.云计算中的数据隐私性保护与自我销毁[J].计算机研究与发展,2011,48(7):1155-1167.
[11]霍峥,孟小峰,徐建良.云计算中面向隐私保护的查询处理技术研究[J].计算机科学与探索,2012,6(5):385-396.
[12]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.
Study on User Privacy Protection for Library Personalized Service in Big Data Era
MA Xiao-ting
User privacy protection has been one of the main concerns and challenges for library in big data era.This paper first analyzes the current situation and major problems concerning user privacy protection in library personalized service,and then studies the risks for user privacy invasion in law,technology and data analysis.Finally,corresponding strategies and methods are proposed to protect library user privacy in the big data era.
big data era;library;personalized service;privacy protection
格式 马晓亭.大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014(2):84-89.
马晓亭(1974-),女,硕士,兰州商学院信息工程学院副教授。
2013-07-14