陆康 刘慧 任贝贝 杜健
摘 要:[目的/意义]数字图书馆逐渐向智慧图书馆转变。图书馆数据的收集、分析等数据使用行为不断被实践,并对业务管理与服务创新做出一定的贡献。然而,涉及用户隐私敏感数据的使用可能会带来安全方面的问题。[方法/过程]本文在分析传统的图书馆数据挖掘方法基础上,尝试引用PPDM(Privacy-Preserving Data Mining)的数据泛化、清洗、屏蔽、扭曲等方法,将数据挖掘与业务需求相融合,并以用户数据规范化使用为目标,探索智慧服务背景下用户隐私保护机制,构建业务实施与数据保护融合的可行性方案。[结果/结论]智慧图书馆数据收集、数据发布、数据共享、数据汇聚都可以借鉴PPDM方法对用户隐私数据加以保护。智慧图书馆只有紧密联系技术创新才能够保障服务创新,从而促进智慧图书馆事业的发展。
关键词:PPDM;智慧图书馆;用户数据;隐私保护;数据挖掘
DOI:10.3969/j.issn.1008-0821.2020.10.010
〔中图分类号〕G2520 〔文献标识码〕A 〔文章编号〕1008-0821(2020)10-0093-11
Research on User Privacy Data Protection of Smart Library Based on PPDM
Lu Kang1 Liu Hui1 Ren Beibei2 Du Jian1
(1.Nanjing Xiaozhuang University,Nanjing 211171,China;
2.Shanghai Institute ForIntegrated Application of Network Technology,Shanghai 200336,China)
Abstract:[Purpose/Significance]Digital libraries are also gradually transforming into smart libraries.The collection,analysis and other data usage behaviors of library data are constantly practiced,and make certain contributions to business management and service innovation.However,the use of sensitive data involving user privacy can raise security concerns.[Method/Process]Based on the analysis of data mining method based on the traditional library,try reference PPDM(privacy preserving data mining),the method of data generalization,cleaning,shielding,distortion,etc,and the integration of business requirements,data mining and the user data is standardized as the goal,to explore the smart service under the background of user privacy protection mechanism,build business implementation and data protection,the feasibility of integration solutions.[Pesult/Conclusion]The PPDM method can be used for data collection,data release,data sharing and data aggregation in a smart library to protect user privacy data.Only by closely connecting with technological innovation can smart libraries guarantee service innovation and thus promote the development of smart libraries.
Key words:privacy-preserving data mining;smart library;user data;privacy protection;data mining
智慧圖书馆概念提出至今[1],互联网智能技术支持书书互联、书人相联以及人人相联等[2],系统之间的关联构成了智慧图书馆数据汇聚的基础。在当今互联网社会高速发展的时代,无处不在的计算机设备产生大量的数据。互联网社会的数据分析有利于医疗卫生、金融银行、商业经济、交通运输以及网络安全等领域服务效率的提升。然而,数据源自于主体产生,数据主体大部分与公民相关,即收集的数据可能涉及个人的敏感信息。随着“棱镜门”等隐私泄露事件不断被媒体披露,人们对个人数据隐私问题的关注也逐渐提高。虽然个人层面隐私的概念没有明确的标准[3],而隐私权的概念在1948年提出[4],并且被公认为一项权利,但是仅限于个人方面。《中华人民共和国网络安全法》、GDPR(General Data Protection Regulation)等互联网法律法规先后被相关政府机构颁布实施,为用户数据隐私与互联网安全提供了执行标准,也为机构组织数据使用规则的制定提供了依据。隐私权—阅读、思考和发展思想和信仰的权利,不受政府或其他人的观察或不必要的监视—是知识自由的基石。它是行使言论自由、思想自由和结社自由的必要条件[5]。自从数字图书馆起,图书馆就依靠互联网技术实现服务创新。随着互联网社会中智慧服务概念的提出,“智慧城市”“智慧医疗”“智慧交通”等概念应运而生。互联网中的“智慧”主要依托数据。数据敏感性问题直接关系到用户的隐私。例如,静态数据方面:用户的个人身份信息等;动态数据方面:用户的互联网访问行为等。数据蕴含着价值,其中之一就是用户的核心信息与互联网行为,这也恰恰是图书馆想要获取的数据之一。人类在享受互联网技术成果的同时也逐渐意识到互联网社会其实也是一个充满悖论的空间。互联网技术应用的双重性以及产生的伦理问题越来越引起人们的反思[6]。所以,在互联网技术创新的背景下,如何将用户隐私保护与数据价值获取做到有效平衡,这也是图书馆开展智慧服务的关键。
1 图书馆隐私的文献回顾
互联网社会形成后,计算机系统产生大量的数据,数据被称为是重要的资源之一。互联网服务于人类社会,互联网数据与人类活动存在着重要的关联,也因此产生了数据隐私等问题。在世界范围内,“隐私”概念与范围的界定尚未形成统一的标准。1948年的《世界人权宣言》中对隐私权的定义,仅局限于家庭以及与家庭相关的信息交流。隐私范围的界定也是比较困难[7-8]。隐私可以分为:信息、主体(个人)、交流(通信)以及范围(领域、领土)等[9]。其中信息包括用户个人数据的收集与使用。主体容易因隐私泄露而受到伤害。交流则指任何形式的通信。范围则指所涉及的物理与虚拟的边界。信息在可控的传播范围内,Westin A F隐私的定义为:个人、机构或者团体为主体决定在时间和方式上以何种程度传达有关主体的信息,其中主体与隐私之间存在着“映射关系”[10]。这是从控制信息处理权利的角度定义的。Bertino E等从数据控制者角度做了相关定义[11],同时指明了隐私受到侵犯的风险。信息共享与数据汇聚产生了大量的互联网资源,数据流动让数据价值得以体现。图书馆数据开放与共享属于必然的趋势[12]。图书馆的精准化、个性化、智能化的服务成为智慧图书馆主要特征[13]。精准化、个性化与智能化的服务也需要通过数据来“感知”用户的需求。智慧图书馆的“感知”只能通过收集、分析用户数据来实现。用户的数据是用户互联网行为“痕迹”。数据隐私保护的传统解决方法一般通过修改原始数据来保护个人信息行为,隐藏“痕迹”,然而数据修改破坏了数据完整性,降低了数据价值维度,导致数据分析、挖掘等数据使用得到不准确的结论,该类数据无法满足精细化、个性化与智能化的智慧服务需求。IBM Almaden研究中心的Agrawal领导的研究小组,在2000年的ACM SIGMOD会议上首次提出了“隐私保护数据挖掘(Privacy-Preserving Data Mining,PPDM)”的概念[14]。PPDM主要考虑两个方面的问题:1)为了保证数据的控制者、处理者不威胁到数据主体(用户)的隐私,原始数据的敏感信息(姓名、身份证号、性别、Email、家庭住址、单位地址等标识符)被修改或者清洗掉。2)在数据挖掘过程中获取的敏感信息、知识也应该被剔除。PPDM主要是从挖掘算法层面对原始数据进行修改,从而让数据在挖掘前后都保持隐私状态[15]。PPDM主要是干扰、加密与匿名化等方法[16]。在大数据资源价值的背景下,PPDM最大化保护数据挖掘隐私,保障数据的实用性与价值性,为图书馆等领域的智慧服务提供技术支持。PPDM针对传统隐私保护技术不再适用大数据价值挖掘而逐渐被学者们关注。PPDM的多场景、多样化的模拟环境被开发、应用。有些则侧重于衡量与比较这些技术在隐私保护的级别、数据完整性与复杂性标准方面。PPDM不仅可以用来从数据中提取知识,同时注重数据隐私的保护,包括数据转换技术方案,平衡数据挖掘与数据隐私效用,以及分布式隐私技术,用于不披露本地信息而从分布式数据中挖掘宏观信息。大数据的非结构性特点增加了挖掘与分析的复杂度,数据隐私的关注与保护,使得原本复杂的应用体系变得扑朔迷离,PPDM为智慧服务提供了合理化、规范化使用数据的方案,也为智慧图书馆的发展奠定了基础。
2 传统的数据挖掘与隐私保护方法
沃伦和布兰代斯完全不能想象的科技,那些我们在相对较短的时间之前无法想象的科技,它们给信息隐私带来了前所未有的风险[17]。互联网的技术创新赋予决策新的理念与场景。决策是人们为了实现某一预设的目标,在拥有一定的信息与知识的基础上,根据主、客观条件的可能性,提出各种可行的方案,采用一定的科学方法,对所需解决的问题方案进行比较、分析与评价,并最终进行方案选择的全过程[18]。数据支持决策的过程,取决于互联网技术工具的保障,例如AI(人工智能)、机器学习、数理统计、数据仓储、模式识别以及可视化技术等。其中部分工具的组合使用可以实现对数据的自动化分析、归纳、推理,从中提炼出潜在的动态、模式,帮助决策者调整业务策略,达到提高运营效率的目的,这属于数据价值“提炼”的过程。数据的使用从传统的数值统计分析等显性使用到运用关联分析工具进行数据挖掘分析的逐步深入發掘数据的潜在价值,提高数据的使用效率。数据挖掘也成为大数据领域数据价值提炼的重要方法。而深度使用数据导致的一些问题,也让图书馆等以互联网为载体的服务机构有所担忧。随着对数据伦理、数据隐私、数据安全以及数据主体(用户),数据控制者(机构、组织)以及数据处理者(业务实施)三者权利与义务问题探讨的逐渐深入,数据研究从传统技术方法向人文应用方面的转变,实现技术保障、人文规范的融合模式。而数据挖掘方法的应用不断嵌入场景需求,使得应用越来越贴近实际需求。
21 图书馆等领域常用数据挖掘与保护方法
传感器、业务计算机等工具系统不断收集大量的数据。电子商务、公共服务等领域可以从数据中提取价值、信息、知识而受益。数据KDD中的知识发现与数据挖掘两种术语模糊不清。KDD的过程是由数据清洗、数据集成、数据筛选、数据转化、数据挖掘、模型评估、知识展现构成。其中数据挖掘则是以大数据集合的提取知识并展示与解释这些知识的过程。电子商务、公共服务领域的数据挖掘方法主要分为分类归并(聚类分析)、关联规则挖掘和分类组成。
211 数据的聚类分析(分类归并)
聚类分析也可称为分类归并,是根据研究对象(样品或者指标等)的特征,对其进行分类的方法,以降低研究对象的数目。其中该类对象(事物)缺乏可信的文献资源,无法判断其类别数量,而聚类的目的就是将相似特征的事物归纳到一类中。事物特征之间存在着一定的关联性。所以,聚类分析是以未知事物为研究对象,对具有相同特征(同质)的事物进行统计分析的方法。大数据世界的事物具有不确定性,聚类分析的方法能够帮助人类发现其中的规律,进一步提炼数据价值。聚类方法由于对象与需求的不同,也分为层次聚类与非层次聚类两大类方法。传统聚类能够解决低维度数据的聚类问题,但是大数据发展至今,数据的异构性、非结构化等多样性,使得传统聚类方法不能有效解决大数据价值的“提炼”问题。高维度的聚类分析已经成为大数据价值提炼的重要研究方向。物联网、人工智能等运用多样化的传感器工具,使得数据的收集变得越来越容易与及时,这也导致数据存储从传统的“数据库”向“数据池”“数据湖”乃至“数据海”转变,低维度的数据聚类分析已经不能够满足实际应用的需要,而高维度的数据聚类在市场调研分析、信息数据安全、金融趋势分析以及国家安全领域均有广泛的应用前景。
212 数据的关联规则挖掘
关联分析又称为关联挖掘,即以目标数据中的信息为载体,找出其中存在的项目集合或者对象集合之间的频繁模式(关系)、关联以及相关性与因果结构,通俗来说,就是分析目标对象之间存在的一切联系。该类规则的表示形式一般为:if(条件)、then(结果)。规律的发现,存在着一定的概率,即存在前提条件下,结果发生的概率。Apriori算法、FP-growth算法等是常用的关联分析方法。关联分析从大量数据中发现项集之间存在的关联与相关联系。在电子商务领域中,“购物篮分析”就是发现用户在放入购物篮中商品之间的联系,从中分析用户的购物习性。通过对用户的购物行为的分析,可以从中帮助电子商务机构制定个性化的营销策略,以提高商品的销售率。图书馆也是如此。图书馆管理系统可以通过用户借阅的纸质图书,以及使用的数字资源信息,分析用户的图书馆资源使用行为,可以帮助图书馆在学科的精准服务中提高资源的推送效率,从而提升图书馆资源服务的“智慧”性。机构、组织可以通过用户使用互联网的行为中发现其规律,运用关联分析等方法,挖掘用户需求、偏好,从而进行资源的推送,达到提升服务效率的目的。关联分析可以分为关联规则挖掘、关联规则分类。关联规则挖掘是为了寻找数据集合中变量之间的关系,而关联规则分类则是一种监督学习问题,其目的是创建一个模型,在一定的条件下,可以识别未知数据并进行分类、标签。关联分析也是一种探索未知数据的方式,随着数据集的增大,其分析模型结构也逐渐向适应海量数据环境进化。
Edward Bloustein在1964年写了一篇法律评论文章,对当地一家报纸刊登一张新生儿照片的行为进行了评价,认为无论是医院还是报纸都无权用这种方式介入私人生活[19]。社会对隐私问题的关注由来已久。而互联网时代的隐私事件不断被媒体披露,例如“棱镜门”等事件让已经适应互联网带来便捷服务的人们如梦初醒,重新回归对个人隐私的认识。大数据环境下的用户隐私问题不仅仅是静态信息(如个人姓名、身份证号、住址、电话号码等)的数据保护,也应该关注动态信息(如互联网使用行为的数据、可穿戴传感设备的数据、消费记录等)的数据保护。匿名化、脱敏技术等传统的隐私数据保护方法,对于静态数据保护仍然起到一定的效果,但是对于大数据应用价值发掘分析过程,却显得捉襟见肘。数据隐私问题不仅仅是技术问题,也应该是制度、法律、伦理方面综合探讨的问题[20]。传统的隐私保护是对数据控制者、数据处理者加以约束、规定,忽视对数据主体的数据素养的培养,这就使得数据主体(用户)由于自身原因使得信息泄露事件频繁发生,例如从电信诈骗到网络诈骗等。不论是传统的数据隐私保护还是大数据环境下的数据隐私保护,都应该是数据主体、数据控制者以及数据处理者等多方努力,规范数据使用行为,运用技术保障、制度规范、法律约束等方法,既保障了数据价值的发掘,又保护了用户的数据隐私,使得大数据价值促进社会的发展。
22 数据的隐私保护方法
互联网领域的隐私保护方法很多,包括数据存储安全防护,数据传输保护以及数据使用保护3种场景。其中运用较多的数据传输与数据使用方法,都是围绕数据失真、数据加密与限制发布3种方式设计不同模型、算法支持不同的业务环境。
221 数据失真法
数据失真原指原始数据经过计算机或者人为的原因,造成了数据的结果与真实数据发生偏差的现象。数据失真是一种损失和危害。然而在数据隐私保护中,采用一定的规则将数据失真,对真实数据进行隐藏保护是一种人为现象。数据失真与数据加密存在着一定的差异性,数据失真拥有一套“失真”规则,而数据加密也存在着“加密”规则,数据加密有一套对称的加密算法支持。所以,数据失真法是一种人为扰乱数据的行为,其目的就是为了对特定的数据实施保护。差分隐私保护就是在数据失真的基础上建立起来的一种隐私保护方法。
222 数据加密法
数据加密法(也叫数据加密算法,Data Encryption Algorithm,DEA)是一种对称的加密算法,目前广泛应用于密钥系统。其实数据加密是一种传统的技术,一般是指运用加密算法与密钥将明文转化成密文进行传输,接收方在通过解密的算法与密钥恢复成明文的过程,其核心就是密码学。IBM制定了数据加密标准(Data Encryption Standard,简称DES),并在1977年成为美国的官方标准。数据加密法在计算机等領域已经被广泛使用。在数字图书馆的业务中,用户身份认证,文献资源访问与使用等领域,也运用数据加密法对用户账号、文献资源(版权)进行保护。
223 限制发布法
限制发布,顾名思义是数据控制者、处理者或者第三方机构对业务系统中一些核心数据或者信息采取限定发布的措施。一般该类的数据或者信息属于关键数据或者包含一定的用户隐私信息。公布以后会对个人或者组织机构造成不利、不良的社会影响。近些年,图书馆热衷于将业务数据集中用大屏幕展示出来,如借阅情况、入馆情况等。然而涉及到个人借阅、进馆信息时,如需展示,也需要匿名化,这就属于限制发布一种形式。然而,限制发布在大数据环境下起到的效果不那么明显。多维度的数据汇聚后进行挖掘、分析,虽然在前期数据清洗过程中,已经采取了数据失真、数据加密,但是数据的二次挖掘、三次挖掘仍然有可能挖掘出与用户隐私相关信息,而数据处理者无法及时发现造成数据泄露现象的发生。
随着互联网技术的发展,“智慧”对数据的需求也越来越大,数据也逐渐成为一种重要的战略资源,数据的真实性、可靠性与稳定性也直接影响了智慧服务的效果。智慧服务也逐渐被图书馆所关注,其中既有涉及下一代图书馆系统的业务智慧化、功能模块化,又有专注于数据聚合的数据决策支持下的智慧服务系统。无论采用哪种方式实现图书馆服务的“智慧”性,都离不开图书馆对用户数据的收集、挖掘与分析。以数据为基础的决策系统,逐渐成为互联网领域服务机构提升服务效率的重要方法之一,而用户数据隐私等问题也随着用户个人数据的广泛使用而备受关注。用户数据的广泛使用导致了隐私泄露风险的增加,智慧图书馆领域也急需一种适应大数据应用的隐私保护方法对图书馆用户数据加以保护。传统的隐私保护方法已经被广泛用于数字图书馆各种业务中,无论是图书馆用户的账户保护,数字资源的版权保护与规范化应用中,都包括传统的数据安全保护技术。传统的常用数据挖掘方法,一方面通过降低挖掘对象的数目来达到目的(小数据挖掘),但是体量的降低也容易造成挖掘获取信息准确性偏低;另一方面,关联分析挖掘(多源大数据挖掘)虽然能够满足数据挖掘的需要,但是模型的针对性太强,应用的场景变换导致结果存在着很大的差异。虽然传统的数据挖掘与保护方法中包括匿名化、模糊化等方法对原始用户数据进行保护,传统数据挖掘的模式是由小数据转变而来,无法满足大数据环境下的数据挖掘与隐私保护要求。PPDM源自于大数据环境,可以被智慧图书馆作为用户隐私保护的方法加以实践,同时也能够兼顾“智慧”数据挖掘的需要。
数据发布的隐私保护方法是通过对原始数据进行隐私保护模型的修改实现,以防止用户隐私的泄露。不同模型的推论与实施方法各异,在身份与属性等方面都有各自的优缺点。相对于数据收集时的隐私保护方法而言,数据控制者(数据处理者)可以访问完整的原始数据,而数据发布隐私模型可以更好的对隐私级别的界定,以达到权衡数据隐私与业务实施的目的。
33 数据共享的隐私问题
数据共享是数据财产使用行为,也是数据开发与再利用的行为,也可能是个人信息的收集、储存、利用问题[24]。所以,数据共享并非单纯的数据财产的问题,其也涉及用户个人的信息权、隐私权等保护的问题。普及化的数据共享现象对人格权的保护提出了新的挑战,这也是互联网技术创新环境中大数据的发展所带来的新问题。原始数据集的显性访问,是传统数据共享实现的初衷。然而随着数据隐私、数据安全问题的顾虑与现实存在,数据挖掘算法与实际应用的紧密结合,使得数据共享对数据敏感信息的查询、推断具有一定的启发作用。图书馆的资源共享机制的建立,使得文献资源得到广泛的传播,达到知识推广与服务的目的。但是,当数据共享以服务于智慧图书馆的目的时候,却存在着一系列问题,其中用户数据的规范化使用问题成为关键点。对业务系统中汇聚数据的挖掘以及结果输出,是智慧服务实施的途径之一。挖掘结果数据的共享与保护技术借鉴了多种规则。例如:关联规则隐藏、分类器有效性降级、查询审核与推理控制等。
大数据的隐私问题主要是因为大数据技术的“第三只眼”留下的“数据足迹”引起的,因此要探讨大数据隐私,就必须从“第三只眼”和数据足迹出发[25]。数据足迹涉及隐私方面的内容就是用户的互联网行为。而在关联规则数据的挖掘中,一些规则的明确性可能对用户信息披露导致用户隐私泄露。关联规则隐藏是一种隐私保护技术:当敏感规则不被发现时,挖掘所有非敏感规则[26]。经过多年的实践,关联规则隐藏的方案被逐步扩展,其中包括精准的方法,即敏感规则的隐藏,非敏感规则的不隐藏,以提升关联数据挖掘效率,保障智慧服务的业务实施。例如:图书馆中文献资源的关联规则,即一站式检索,文献资源的聚合等,涉及较多的非敏感规则。而智慧服务涉及用户的业务使用行为日志数据,以及多系统之间的关联规则构建,属于敏感规则,需要隐藏。数据挖掘中数据分类需要运用到分类器,分类器应用程序有可能存在着用户信息的泄露问题。例如:集合中成员之间存在着推理攻击,这类攻击记录着数据训练集(原始数据)。为了保护分类器应用程序中的用户隐私,一般通过降低分类器精度的方法,这种方法被称为分类器有效性降级。查询与审计在数据管理中是重要的操作行为。其中查询推理控制的运用背景是原始数据受到干扰。查询审计则是查询过程被拒绝。查询审计问题根据数据呈现的情况分为脱机与联机两种方式。查询内容一般是已经产生的结果,查询审计的结果会反馈给数据主体(用户),用以评估查询行为是否违背了隐私保护原则。查询审计和推理控制技术在上下文的统计数据库安全中被广泛研究。
由于构建应用程序数据的实用性低于原始值,应用程序本身被降级或对数据的访问受到限制,智慧服务等应用程序效果会受到影响。因此,数据隐私保护和业务实用性之间也存在着平衡问题。
34 数据分布式隐私问题
数据汇聚多维度性能够提升数据挖掘价值。用户隐私问题背景下,数据控制者、处理者寻求以汇总统计数据的方法构建全局性价值而忽略局部(本地)信息,数据分布式隐私保护应运而生。这类问题在密码学领域研究较为广泛,其中安全多方计算(SMC)较为典型。SMC的目标是在不向其他各方透露此类输入的情况下,从各方的隐私输入中共同计算一个函数。也就是说,在计算结束时,所有各方都只会学习输出。这个问题是通过使用安全数据传输协议来解决的,该协议也适用于保护隐私的分布式计算[27]。SMC的情景假设是在各方都遵守协议的基础上,这类情况往往不是真实存在的。并不是所有的攻击者都遵守规则。所以,SMC的扩展中定义了两种攻击者:恶意攻击者与半诚实攻击者。恶意攻击者则偏离了协议,甚至可能与其他攻击者相互勾结。半诚实攻击者被称为诚实但是好奇的模型,这类是遵守协议规范,目的就是为了获取更多的信息(包括隐私信息)。半诚实的情况仍然被认为是一种实体的良好模型。
数据挖掘中数据分布分为集中式与分布式两种,其中分布式数据集可以分为水平与垂直两个分区。水平情况中(宏观),每个实体中蕴含着相同的属性集的不同记录,其目标就是挖掘相关数据的全局状态。例如:图书馆文献资源的用户使用情况,访问行为数据挖掘,通过该类数据决策图书馆下阶段的文献资源建设、规划。垂直情况中(微观),实体包含着与同一标识相关的不同属性记录。例如:图书馆用户使用各种系统获取相应的服务记录。水平分区数据集的例子是一个图书馆用户链,其中每个站点都有不同的用户,与每个客户相关联的属性对所有站点(如业务行为类型和用戶的QID)都是一致的。对于垂直分区数据集,具有互补项的存储可以由相同的用户按顺序访问,从而创建每个存储的数据库中不存在的模式。这两种分区都存在分布式隐私保护算法。
数据分布分布式集中式隐藏方法数据隐藏规则隐藏数据隐藏数据挖掘算法聚类、分类关联规则聚类、分类关联规则数据隐私保护技术数据加密技术泛化、清洗屏蔽、扭曲图1 PPDM挖掘算法分类 数据挖掘隐私保护问题离不开对数据挖掘技术的分析、探索。SMC作为安全协议,用于预先从实体之间的通信和/或计算中披露信息。对于数据的集合,描述了不经意传输协议和同态加密。水平与垂直分区则考虑了一组通常在许多数据挖掘算法中使用的原始操作,因此也适用于分布式隐私的保护,其中所描述的操作是安全和、安全集的并集、交集的安全大小、标量积和集交集等流程。第二种类型的协议也可以使用加密技术,例如:不经意的传输协议,以防止实体之间的数据信息的泄漏。PPDM方法的特征与具体业务实施环境息息相关,选取合适的PPDM模型与业务所需的数据挖掘算法结合,才能够形成行之有效的用户隐私与挖掘应用环境,为数据决策业务以及智慧图书馆业务的开展提供安全、高效的基础条件。
4 PPDM方法对智慧图书馆用户数据使用的启示
技术的变革速度已经超越法律的先例。大数据时代,数据源正在激增与互联,智慧图书馆将获得更多的数据,可以发掘更多有价值的信息。而智慧图书馆的“智慧”需要数据挖掘技术支持,而数据中必然涉及到用户隐私信息。数据挖掘技术在互联网中广泛使用,而用户对个人隐私保护意识也越来越强烈。数据共享与数据隐私的悖论越来越明显。虽然《网络安全法》《公共图书馆法》《信息安全技术个人信息保护》等法律、法规与标准被制定与发布,但是个人隐私保护法以及数据隐私保护法尚未立法,图书馆如何规范化使用数据,尤其是涉及用户的数据开展智慧服务的规则尚未形成统一的规定。智慧图书馆业务的开展伴随着互联网大数据技术引入、利用而逐步得以实践,且其趋势不可逆转。智慧图书馆业务的开展离不开数据挖掘技术的支持。智慧图书馆业务包括数据的收集、发布、共享以及数据的汇聚过程。而PPDM对智慧图书馆用户隐私的保护、业务的有效实施具有一定的借鉴作用。
41 智慧图书馆数据的收集方面
图书馆文献建设一直存在着数据的收集、整理,如图书馆的书目数据MARC等,只是这些数据属于文献资源类,包括数字图书馆的馆藏纸本资源的数字化,以及其他影像、音频等数字文献资源。图书馆文献资源的收集与保存,关注度较高的制度是版权问题。随着大数据技术的广泛使用,数字图书馆也逐渐使用用户数据,获取挖掘、分析用户需求,开展精准服务。数据决策等方法也被引入图书馆的营销规划与管理层面。数据的多维度收集,当然不可避免与用户数据相关。长期以来“以用户为中心的服务理念”成为图书馆服务宗旨。图书馆人为了更好地服务于用户,不断引入新技术、新理念以实施满足用户个性化需求的智慧服务。然而近些年来用户对隐私保护问题的重视,使得越来越多的用户(数据主体)不愿意提供给图书馆(数据控制者)自己的数据。这就给图书馆等数据控制者合理、合法获取用户数据开展智慧服务造成了影响。众所周知,数据维度越高,完整性越强,数据挖掘与分析的结果越精确。PPDM在数据收集过程中的随机转换,避免原始数据的存储等方法,在一定程度上能够为智慧图书馆收集数据的完整性和可信度提供保证,也能够降低原始数据泄露造成的数据隐私问题。
42 智慧图书馆数据的发布角度
图书馆一直都在尝试着运用自有数据开展文献资源建设,例如:图书馆支持数字人文研究等[28]。传统图书馆的数据发布采用“匿名化”的方式,如“张三”发布为“张某”等。而PPDM的数据发布,不仅从展示层面进行匿名化,也从挖掘、分析数据层面进行泛化、扭曲、清洗与屏蔽,进而对二次、三次数据的使用提供更加安全的隐私保护。智慧图书馆数据的发布,不再局限于文献资源的多维度、多平台的发布、展示与共享,模糊化的数据代表了群体信息,而精细化的数据发布则需要进行特殊处理,例如:空间管理数据展示,业务运行系统展示等也逐渐成为智慧图书馆数据发布、信息公开的常规化业务。智慧图书馆文献资源的多维度展示,有利于提升资源的利用率。然而管理数据、业务运行数据的发布与展示,可能存在着用户隐私泄露的问题。所以,PPDM的泛化、扭曲、清洗与屏蔽等技术方法的使用,能够对用户数据隐私起到一定的保护作用。
43 智慧图书馆数据的共享层面
互联网的信息共享理念,贯穿着图书馆的业务。从信息共享到数据共享,成为促进经济发展重要的动力源。然而互联网社会复杂的环境下,数据安全等问题让组织机构与用户都存在着担忧。数据控制者、数据处理者的责任更重,首先需要数据收集的流程做到规范性,其次数据存储的安全性保障,第三数据共享与挖掘与分析,需要再次考虑到用户的隐私信息问题。最后,数据发布信息也需要关注到用户隐私等问题。数据共享与整合才能提升数据价值,数据的共享也会带来数据隐私不可控,数据共享后的数据控制者随之发生改变。数据控制者的数据素养高低不同,也增加了数据安全风险。PPDM规则中,数据共享按需分享、提供数据,并且根据安全风险评估,适当采用敏感数据隐藏、规则隐藏等方法,以降低数据共享带来的风险。
44 智慧图书馆数据的汇聚实践
用户个人数据作为智慧图书馆大数据的重要来源,具有数据量大、数据结构复杂等特征,图书馆应该从数据管理角度对用户个人信息采用分类、分级保护的技术方法。例如:图书馆按照业务系统进行数据的汇聚,对用户个人身份信息定位个人信息,包括敏感信息。而额外的信息包括行为方面的,如电子资源访问、图书借阅、期刊查阅以及图书馆网站浏览等。这些除了公开信息外,其他的类型信息,都需要纳入到隐私保护范围之内。图书馆业务系统数据的汇聚[29],为智慧服务的开展提供原始的决策素材。数据挖掘、分析可以分为两个层次:宏观层面与微观层面。宏观层面的分析,可以让图书馆管理者、馆员动态掌握图书馆业务运行情况。微观层面的分析,让图书馆管理者与馆员动态掌握用户的文献资源、空间服务需求,让用户能够享受到个性化的服务。互联网发展至今,用户形成了个性鲜明的互联网思维,对大千世界的看法、认识各不相同,这也造成了图书馆等服务行业难以通过一种或者几种服务模式满足广大用户的需求。所以,多维度的数据汇聚、挖掘与分析,能够帮助图书馆感知用户所需,并因此开展针对性的服务,以提高服务效率,提高用户的满意度乃至忠诚度[30]。PPDM分布式環境,与图书馆业务系统环境接近,其中水平分区的数据挖掘、数据隐私保护,能够协助图书馆管理层,从宏观层面掌握智慧图书馆的空间、资源、服务等系统运行情况,以便动态调整业务内容与管理方式,提升服务质量。垂直分区的数据挖掘、数据隐私保护,则从微观层面以用户为分析对象,深度挖掘、分析用户的所想、所需,从服务“智慧”性角度,为其提供个性化的文献资源与空间保障服务。
数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势[31]。以数据为基础的智慧图书馆服务体系,数据价值发掘的效果与图书馆服务的“智慧”密切相关。复杂多变的互联网环境也给智慧图书馆发展带来了一些困惑与危机,例如:数据安全、信息安全、数据隐私以及数据伦理等。如何处理好这些问题成为智慧图书馆发展道路上重要的课题之一。智慧图书馆运用数据开展服务需要对自己数据使用行为加以约束与规范,这样既可以对用户、馆员和系统加以保护,也可以获取到真实、可靠、完整的数据以提升“智慧”服务的效果。现阶段PPDM方法虽然不能够与智慧图书馆数据使用做到全面的融合,但也从技术方法层面给未来智慧图书馆数据的规范化使用提供了一些启示(如图2所示),为智慧图书馆有关数据隐私、数据伦理、数据共享等问题的逐一解决提供一些思路与方法,从而促进智慧图书馆的健康发展。
智慧图书馆以大数据为基础开展的服务,除了进行知识发现以外,另一个最重要的用途就是实施感知用户需求的智慧服务。既然感知用户所需,必然涉及用户的个人信息以及“数据足迹”等,而涉及用户切身利益的数据存在着被泄露的风险,所以,智慧图书馆数据收集、数据挖掘、数据共享与数据发布等全流程都需要用技术手段对隐私信息进行匿名化等形式的处理,以保障用户的隐私安全(如图3所示),而具体数据处理的实施方案需要运用PPDM理念,并与其他隐私保护方法融合,完善智慧图书馆数据管理系统的隐私保护与数据安全体系。
5 结论与展望
智慧图书馆是一个复杂的系统,其中不仅涉及到互联网技术与方案,同时也是图书馆人文精神的一种聚合。智慧图书馆与互联网紧密联系,互动互鉴。图书馆也由传统的文献资源服务逐渐向空间服务等互联网服务创新理念的影响而转变。互联网用户的需求呈现多元化的局面,图书馆用户也是如此。然而图书馆用户在享受文献资源服务便利的同时,也对互联网中隐私泄露事件频繁发生而日益担忧。智慧图书馆为用户提供文献服务的同时,也应该对用户顾虑加以重视。PPDM方法改变了传统的隐私保护的理念,更加适应图书馆在大数据环境下用户隐私数据的保护,同时也满足了智慧图书馆数据使用的需求。智慧图书馆属于数字图书馆在互联网中的技术创新、服务创新,也是图书馆人对下一代图书馆的期盼。智慧图书馆也许并不是一个实体的空间,但是图书馆的智慧服务、以人为本的精神,是广大馆员时刻铭记于心的理念。虽然PPDM等单一的方法不能够完全解决智慧图书馆发展所面临的困境,维度问题不仅是PPDM和大数据挖掘共同存在的问题。构建完整的智慧图书馆服务体系,找出其中关键属性来降低数据的维度以及压缩属性,以此提升PPDM与智慧服务的效率。PPDM与差分隐私保护等方法以及智慧图书馆隐私保护制度共同作用,才能够构建智慧图书馆的用户隐私数据保护体系来促进智慧图书馆的健康发展。只有通过图书馆领域的专家、学者以及计算机领域的安全专家不断探索,才能够将数据安全、数据隐私、数据共享等互联网中普遍存在的问题得以逐一解决,集思广益、共同为智慧图书馆发展贡献力量。
参考文献
[1]严栋.基于物联网的智慧图书馆[J].图书馆学刊,2010,32(7):8-10.
[2]王世伟.未来图书馆的新模式——智慧图书馆[J].图书馆建设,2011,(12):1-5.
[3]Langheinrich M.Privacy in Ubiquitous Computing,in Ubiquitous Computing Fundamentals[M].Boca Raton,FL,USA:CRC Press,2009,(3):95-159.
[4]United NationGeneral Assembly.Universal Declaration of Human Rights[EB/OL].Available:http://www.un.org/en/documents/udhr/,2020-02-10.
[5]ALA Privacy Policy[EB/OL].http://www.ala.org/privacypolicy,2020-07-13.
[6]宋吉鑫.网络伦理学研究[M].北京:科学出版社,2012:42.
[7]Yu S.Big Privacy:Challenges and Opportunities of Privacy Study in Theage of Big Data[M].IEEE Access,2016:2751-2763.
[8]Acquisti A,Brandimarte L,Loewenstein G.Privacy and Humanbehavior in the Age of Information[J].Science,2015,347(6221):509-514.
[9]Banisar D,et al.Privacy and Human Rights:An International Survey of Privacy Laws and Practice[D].Global Internet Liberty Campaign,London,UK.,Tech.Rep.,1999.
[10]Westin A F.Privacy and Freedom[M].Washington Lee Law Rev.,1968,25(1):166.
[11]Bertino E,Lin D,Jiang W.“A Survey of Quantication of Privacypreserving Data Mining Algorithms”,in Privacy-Preserving Data Mining[M].New York,NY,USA:Springer,2008:183-205.
[12]葛燕君.圖书馆数据开放的内涵、价值、实施与隐私保护[J].情报杂志,2019,38(7):166-170,183.
[13]董同强,马秀峰.融入“双一流”建设的高校图书馆智慧型学科服务平台构建[J].现代情报,2019,39(5):97-103.
[14]Agrawal R,Srikant R.Privacy-preserving Data Mining[J].ACM Sigmod Record,2000,29(2):439-450.
[15]刘雅辉,张铁赢,靳小龙,等.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
[16]Ilavarasi A,Poorani S.A Survey on Privacy Preserving Data Mining Techniques[J].Int Journal of Computer Science and Business Informatics,2013,7(1):1-12.
[17]Schwartz,Paul M,Property,Privacy,and Personal Data.Harvard Law Review,2004,117(7):2055,Available at SSRN:https://ssrn.com/abstract=721642.
[18]于洪,何德牛,王国胤,等.大数据智能决策[J/OL].自动化学报:1-19.http://h-s.doi.org /10.16383/j.aas.c180861,2019-05-29.
[19]Edward Bloustein,Privacy as an Aspect of Human Dignity:An Answer to Dean Prosser,39 NYULRev.962,1964.
[20]陆康.网络信息环境下读者隐私保护策略研究[J].现代情报,2016,36(6):119-123,153.
[21]Aggarwal C C,Yu P S.“A General Survey of Privacy-preservingdata Mining Models and Algorithms”,in Privacy-Preserving Data Mining[M].New York,NY,USA:Springer,2008:11-52.
[22]Aggarwal C C.Data Mining:The Textbook[M].New York,NY,USA:Springer,2015.
[23]Dwork C.“Differential Privacy”,in Automata,Languages and Program-ming,vol.4052.Venice[D].Italy:Springer-Verlag,Jul.2006:1-12.
[24]王利明.數据共享与个人信息保护[J].现代法学,2019,41(1):45-57.
[25]黄欣荣.大数据技术的伦理反思[J].新疆师范大学学报:哲学社会科学版,2015,36(3):46-53,2.
[26]Atallah M,Bertino E,Elmagarmid A,et al.“Disclosure Limitation of Sensitive Rules”,in Proc[J].Workshop Knowl.Data Eng.Exchange(KDEX),1999:45-52.
[27]Lindell Y,Pinkas B.Secure Multiparty Computation for Privacypreservingdata Mining[J].JPrivacy Condentiality,2009,1(1):59-98.
[28]肖奕.图书馆支持数字人文研究进展[J].图书馆论坛,2018,38(4):25-30.
[29]陆康.数据圈背景下的智慧图书馆数据汇聚研究[J].现代情报,2019,39(10):102-109.
[30]刘慧,陆康.高校图书馆忠诚度体系研究[J].数字图书馆论坛,2015,(12):69-72.
[31]张兰廷.大数据的社会价值与战略选择[D].北京:中共中央党校,2014:1.
(责任编辑:郭沫含)