郭维嘉 郭少友
摘 要:开放政府数据所包含的个人数据给个人隐私的泄露带来风险。本文在分析个人隐私风险类型的基础上,提出了一种基于全生命周期的个人隐私风险动态消解机制,可对数据采集、披露、保存、访问、使用时期的个人隐私风险进行动态性的预防和消解。
关键词:开放政府数据;个人数据;个人隐私;隐私风险
中图分类号:G250 文献标识码:A 文章编号:1003-5168(2018)04-0021-04
Types and Resolution Mechanism of Personal Privacy
Risks in Open Government Data
GUO Weijia GUO Shaoyou
(School of Information Management, Zhengzhou University, Zhengzhou Henan 450001)
Abstract: Personal data contained in open government data poses risks to personal privacy. Based on the analysis of types of personal privacy risks, this paper proposed a dynamic lifecycle-based resolution mechanism of personal privacy risks that could prevent and mitigate personal privacy risks during data collection, disclosure, preservation, access and use.
Keywords: open government data; personal data;personal privacy;privacy risk
1 研究背景
開放数据是指允许任何人以任何目的免费使用、共享的数据[1]。各级政府所发布的开放数据可称为开放政府数据。现有研究表明,开放政府数据具有促进政府透明度、刺激经济增长、提高政府服务和响应能力等多种作用[2],同时也面临着侵犯商业秘密、侵犯个人隐私等风险,其中侵犯个人隐私是较为严重的一种风险。本文将对开放政府数据中的个人隐私风险类型进行分析,并在此基础上提出相应的隐私风险消解机制。
2 开放政府数据中的个人隐私风险类型
2.1 开放政府数据中的个人数据类型
个人数据是指任何与可识别的自然人有关的数据[3]。隐私是指不愿告人的或不愿公开的个人事宜[4]。从根本上讲,只有当开放政府数据中包含有个人数据时,才可能出现侵犯个人隐私的情况。讨论开放政府数据中的个人数据类型,有助于识别其中的个人隐私风险。
按照数据的敏感程度可将个人数据分为两大类,即低敏感度数据和高敏感度数据。其中,高敏感度数据主要包括个人的健康状况、犯罪情况、财务情况等数据。
按照对个人数据的加工程度,可将其分为原始数据、假名数据和匿名数据三类。假名数据用自动生成的唯一标识符来替代原始数据中的姓名。匿名数据是指采用匿名方法对原始数据中的姓名和身份证号等标识符、疾病和财产状况等敏感数据进行处理后所生成的数据。
按照是否应依法公开,可将个人数据分为依法应公开的个人数据、依法应不公开的个人数据。其中,前者主要是指政治人物的数据,以及企业、社会团体中依法应公开的个人数据。
开放政府数据中的个人数据类型具体见表1。
2.2 个人数据的隐私风险类型
隐私风险是指个人隐私数据面临的各种危险,可分为如下几种类型。
2.2.1 实名数据的披露风险
2.2.1.1 实名数据的未授权披露。从目前的实际情况来看,政府机构掌握着大量的个人数据,这些数据一般有两个来源。一是政府机构直接从个人那里采集的,例如,在办理身份证、驾驶证、护照、健康证及结婚证等由政府部门颁发的证件时,需要个人填写姓名、性别、家庭住址和联系方式等基本数据,有些还需要现场采集一些数据,如指纹、头像、血型等有助于识别个人身份的数据,以及辨色力、四肢活动能力、是否有传染病等身体状况数据。二是政府机构出于监管、服务的需要,从企业、事业单位获取的个人数据,例如,各级政府的卫生主管部门从医院、疾病控制中心获取的个人健康数据,公安部门从互联网公司、通信运营商获取的个人上网数据。
政府机构在披露上述数据时存在一定的隐私风险,主要是未经授权的披露。目前,很多国家都颁布了与个人隐私保护相关的法律法规,如我国的《中华人民共和国政府信息公开条例》第十四条明确规定,政府机构不得公开涉及个人隐私的政府信息,但经权利人同意公开或者政府机构认为不公开可能对公共利益造成重大影响的涉及个人隐私的政府信息,可以予以公开。该条例在实际执行过程中可能存在以下风险:一是在数据发布环节监管不力,导致未经权利人同意的个人数据被披露;二是对“不公开可能对公共利益造成重大影响的涉及个人隐私的政府信息”把握不准确,披露了实际上可以不披露的数据。
2.2.1.2 实名数据的低质量披露。如第一种情况所述,经权利人同意公开或者认为不公开可能对公共利益造成重大影响的涉及个人隐私的政府信息,政府机构可以对其进行披露,但可能存在披露数据质量不高从而导致用户隐私风险加剧的情况。两种数据质量问题可能会增加隐私风险:一是披露的个人数据不准确、不完整,如将个人的错误信息发布到经授权后公开披露的DUI逮捕数据库中,可能会对该人的就业、信贷和保险前景产生不利影响[5];二是披露的数据导致不公平,如果上述逮捕数据库中收录A地区的罪犯人数远远多于同一个城市中的B地区,而实际上两个地区的罪犯人数相差并不大,可能会导致A地区的房价下降,或居住在A地区的受害者被怀疑成罪犯。
2.2.2 匿名数据的重新识别风险。如前所述,除了经权利人同意公开或者认为不公开可能对公共利益造成重大影响的涉及个人隐私的政府信息外,政府机构不得发布涉及个人隐私的政府信息。为了在不暴露个人隐私的前提下向社会各界提供尽可能多的政府信息,以便提高政府透明度,政府机构往往采取某种手段对个人隐私数据进行匿名化处理,并将处理结果作为非个人数据加以披露。这种方式可能存在如下风险。
一是自发性的重新识别,是指外界在没有蓄意识别个人隐私的前提下从已披露的政府数据中识别出某个人,这种情况一般发生在匿名化后的数据中包含有罕见特征,外界能根据该特征推断出匿名数据的主体,重新识别的风险与特征的稀有程度成正比。
二是蓄意性的重新识别,是指蓄意地从政府披露的、已经过匿名化处理的数据中识别出某个人,采用的手段主要有在同一个数据集合中进行记录链接、属性链接、表链接、概率攻击、将匿名数据与其他公开可用的数据集或信息进行匹配等[6]。从事这种工作的人可能是研究专家、数据掮客等。现有研究已表明,这种蓄意性的重新识别完全可能实现,例如,Sweeney L[7]通过实验发现,美国政府披露的某个数据集没有将邮政编码、性别和出生日期进行匿名化处理,其中87%的个人可以根据邮政编码、性别和出生日期进行唯一性的重新识别。
以下两个趋势进一步增加了上述蓄意性的重新识别风险:一是智慧城市技术、重新识别科学、数据集市技术、大数据技术等科学和技术的不断发展和进步,使得从匿名数据中识别个人的可能性提高;二是随着开放政府数据项目的不断成熟,其数据工作重点逐渐从仅仅提供历史数据和统计数据转向提供关于公民及其活动的细粒度、可搜索、可访问和全面的“微数据”,使得重新识别的风险进一步提升[5]。
2.2.3 个人数据的使用风险。个人数据的披露及重新识别行为本身就存在风险,披露或重新识别之后的使用具有更大的风险性。无论是由政府机构依法或征得权利人同意主动披露的个人数据,还是从匿名化的政府数据中重新识别得到的个人数据,外界在使用这些数据时,都可能会对数据主体造成危害,而这些危害是个人数据使用风险的具体体现,至少包括以下几种情况。
①寒蝉效应。如果社会公众出于对政府的信任,积极地向政府提供所需的个人数据,而政府未能有效地加以保护,致使个人隐私泄露,则社会公众可能不愿意再将个人数据提供给政府,这种现象称为个人隐私领域的寒蝉效应[8]。当社会公众不相信政府能保护个人隐私并进而不愿意与政府机构提供的信息系统进行交互时,政府所提供的公共服务质量以及社会公众与政府之间的信任关系,都将受到一定程度的影响。
②过度使用。政府机构在收集个人数据时都有特定的目的,当将个人数据用于该特定目的之外的其他目的时,则称之为个人数据的过度使用。目的限制是欧盟数据保护指令(Data Protection Directive)的一项关鍵原则[3],按照该原则的要求,当政府机构个人数据采集的目的是A时,如果直接用于目的B或经过聚合后用于目的C或被其他机构用于目的D,即使后三种应用本身不存在违法行为,但由于改变了个人数据最初的采集目的A,则后三种行为也被认为违反了上述数据保护指令,属于过度使用,对个人隐私产生了威胁。
③其他危害。个人数据被外界获取并利用,可能导致个人的尴尬或焦虑。例如,某个数据分析中心对公安部门的犯罪记录进行数据挖掘,尽管数据中心从公安部门获得的是匿名数据,但仍然存在被重新识别的可能,相关人员可能会因为担心其犯罪记录被公安部门之外的人员获悉而焦虑不安。此外,个人数据及其所含隐私的泄露,可能会影响个人的就业或与他人的关系,影响个人获得服务(如保险服务)的能力,也可能造成财产损失或损害,可能导致被歧视、被频繁骚扰或人身安全处于危险之中等。
3 基于开放政府数据全生命周期的个人隐私风险动态消解机制
政府机构的开放数据项目涉及数据的采集、披露、保存、访问和使用等一系列环节,个人数据的隐私风险与每个环节都相关,需要在每个环节都建立相应的隐私风险消解机制。由于外部环境不断发生变化,如可用于重新识别匿名数据的外部数据集越来越多、国家的相关政策法规不断完善等,往往需要根据这些变化不断重复某个环节的工作,甚至修改相应的消解机制。基于此,本文在现有相关研究的基础上提出一种基于开放政府数据全生命周期的个人隐私风险动态消解机制,其基本原理如图1所示。开放政府数据的全生命周期主要由数据采集、数据披露、数据保存、数据访问和数据使用等5个阶段组成,其中数据保存阶段兼具销毁不宜再保存数据的功能。在图1中,空心箭头指明了全生命周期的过程,单实线箭头指明了各个阶段的消解机制,单虚线箭头描述了消解的动态性。
3.1 采集时期的隐私风险消解
政府机构可通过各种渠道采集个人数据,包括私营企业的社交媒体平台,如微信等。该环节的隐私风险消解可通过两项措施来完成:一是同意机制;二是公告机制。前者是指政府机构在采集个人数据时,必须征得个人的同意,后者是指政府机构必须将个人数据采集的类型、目的、范围及数据的用途、使用方式等相关内容以公告的形式发布在数据采集网站的首页,以便个人了解数据的最终去向及可能存在的隐私风险。数据采集中隐私风险消解的另一个常见机制是设置审查委员会来监督个人数据的采集,该委员会的职责是监督采集政策是否合理、同意机制和公告机制是否有效实施等。
3.2 披露时期的隐私风险消解
笔者认为,政府机构采集个人数据之后,即使不披露出去,也存在隐私泄露风险,但更大的风险来自披露时期。如2.2节所述,实名数据存在未授权披露和低质量披露的风险,匿名数据存在因去标识化不彻底而可能被重新识别的风险。为了有效降低这些风险,在披露之前应对这些风险进行评估,以决定是否披露、如何披露。如图1所示,隐私风险评估包括4个步骤:①数据评估,包括识别个人数据中是否存在直接和间接标识符、是否存在敏感属性、是否存在难以去标识化的信息、与其他数据集的可链接性等;②收益评估,包括可能受益的用户群体、潜在收益的重要性、潜在收益变为现实的可能性等;③风险评估,包括可能的危险用户群体、潜在的隐私风险及其严重程度、潜在风险变为现实的可能性等;④利弊权衡,在收益评估和风险评估的基础上权衡利弊,并根据权衡结果来决定是否披露个人数据,实名披露还是匿名披露。
针对隐私风险评估的三种结果,即不能披露、可以实名披露和需要匿名披露,应分别采用不同的风险消解机制。对于不能披露的数据,由于保存下来仍然会有隐私泄露的风险,因此,可以直接销毁。对于可以实名披露的数据,应采取授权审核机制来防止监管不力和判断不准确所导致的未授权实名披露,同时采取质量监控机制来防止数据不准确、不完整、不公平所导致的低质量实名披露。对于需要匿名披露的数据,可以采用数据加密、去标识化、数据统计的方法进行数据匿名化,其中去标识化方法可采用添加噪音、排列变更、差分隐私、数据聚集、K匿名等多种手段[6]。
3.3 保存时期的隐私风险消解
从数据所有者的角度看,包含着个人隐私的政府数据保存在政府机构或其代理机构中,隐私被泄露的风险并不比保存在其他机构中的风险低。实名数据或匿名数据披露之后,除了采用常规的数据保护措施来保障个人隐私安全之外,还应考虑本地原始数据的去留对个人隐私安全的影响。可采用删除机制和透明机制来降低原始数据的隐私泄露风险。删除机制用于保证在数据披露之后的规定时间点上删除原始数据。对于那些必须由政府机构长期持有的个人数据,可通过透明机制来保障个人的知情权,政府机构应允许个人通过某种手段(例如,电话查询、网站查询、手机APP查询)查询保存在政府信息系统中的个人原始数据。
3.4 访问时期的隐私风险消解
外界对包含个人数据的政府数据进行访问时,可以通过预设的访问控制机制来降低访问过程中的隐私风险,访问许可证、可视化是两个重要的举措。前者可在现有开放数据许可协议如Creative Commons Attribution、UK Open Government License等的基礎上添加一项“禁止重新识别个人隐私数据”,将其作为新的开放政府数据使用许可协议,并放置在开放政府数据网站的显著位置,以便禁止以重新识别个人隐私数据为目的的用户访问并获取数据。后者通过查询系统来限制外界对个人数据的访问行为,具体办法是政府机构通过API接口来开放政府数据,外界需要输入查询条件来获取检索结果,且该结果以可视化方式呈现,从而进一步降低了从中重新识别个人数据的风险。
3.5 使用时期的隐私风险消解
为了进一步降低个人数据在使用时期的隐私风险,可以建立必要的审计机制和问责机制。前者用于检查个人数据如何被利用和共享,以及是否存在滥用行为,后者用于对侵犯隐私权的行为进行民事或刑事处罚。如图1所示,在开放政府数据全生命周期的5个时期中,对个人数据隐私风险的控制都是动态的,当外部条件(如与个人隐私保护相关的国家政策、法律、法规,外部数据源)发生变化时,需要及时调整原有的隐私风险控制机制。
4 结语
开放政府数据中包含着大量的个人数据,应采取必要的措施来预防个人隐私的泄露。本文在分析开放政府数据中个人隐私风险类型的基础上,提出了一种基于全生命周期的个人隐私风险动态消解机制,可对采集、披露、保存、访问、使用时期的个人隐私风险进行动态性的预防和消解。
参考文献:
[1]Open Definition 2.1[EB/OL].(2017-12-16)[2018-01-01].http://opendefinition.org/od/2.1/en/ .
[2]Kucera J, Chlapek D. Benefits and risks of open government data[J]. Journal of Systems Integration,2014(1):30-41.
[3]Graux H. Open government data: reconciling PSI reuse rights and privacy concerns [EB/OL]. (2017-11-16)[2018-01-01].https://www.europeandataportal.eu/sites/default/files/2011_open_government_ data_reconciling_psi_re_use_rights_and_privacy_concerns.pdf.
[4]中国社会科学院语言研究所.现代汉语词典[M].北京:商务印书馆,1991.
[5]City of Seattle open data risk assessment[EB/OL].(2017-11-12)[2018-01-01]. https://fpf.org/wp-content/uploads/2017/08/FPF-Seattle-Open-Data-Report_Proposed-Draft-August-2017.pdf.
[6]Chen R,Fung B C M,Mohammed N,et al. Privacy-preserving trajectory data publishing by local suppression[J]. Information Sciences,2013(1):83-97.
[7]Sweeney L. Simple Demographics Often Identify People Uniquely[J]. Pittsburgh,2000 (2000): 1-34.
[8]Zuiderveen Borgesius F,Van Eechoud M,Gray J. Open data, privacy, and fair information principles: towards a balancing framework[J]. Social Science Electronic Publishing,2015(30):1-47.