面向公共数据融合的个人信息风险演化与保护机制

2023-02-22 00:35萃*
现代情报 2023年2期
关键词:公共数据个人信息部门

余 立 张 橦 黄 萃*

(1.浙江大学公共管理学院,浙江 杭州 310058;2.大连理工大学人文与社会科学学部,辽宁 大连 116024)

随着数字政府建设进程不断深化,跨领域、跨部门、跨层级的应用场景成为推动公共数据归集整合的重要手段。但海量公共数据的融合、开放与价值挖掘,往往催生出个人信息安全问题[1]。例如,涉及个人信息的碎片化数据经过汇聚共享、融合关联和深度挖掘,往往可以形成对个体行为轨迹、个性需求、价值认知等方面的具象认识[2]。这类数据一旦泄露或被非法利用,将严重损害个体利益与公共利益,对国家安全带来较高风险。2022年6月23日,国务院印发《关于加强数字政府建设的指导意见》明确指出,全面强化数字政府安全管理责任,加快构建制度、管理和技术衔接配套的安全防护体系,确保个人信息安全。因此,探讨数字政府建设中个人信息安全保护机制,推动公共数据安全有效融合,具有较强的理论与现实意义。

公共数据融合有助于进一步释放公共数据价值,但与此同时,也增大了个人信息安全的风险。当零碎的个人数据被广泛收集后,容易导致当事人隐私被泄露[3]。现有研究多聚焦平台经济中个人隐私泄露问题[4-5],防止市场主体进行数据标签化[6]、大数据杀熟[7]和算法歧视[8]等行为,从而降低数据融合带来的风险。仅有少部分研究指出,个人信息在公共数据的流动环节也可能存在被政府部门过度攫取、违法披露以及不当使用的风险[9]。事实上,公共数据融合涉及政府各部门间的协同与博弈,容易导致个人信息保护的职责模糊与追责困难[10]。因此,探究公共数据中个人信息风险演化模式和影响因素,构建与其相适应的保护机制,已成为公共数据治理的重要课题。

本文从公共数据分级分类标准和数据生命周期理论出发,构建了数据风险—数据责任的整合分析框架;结合杭州城市大脑实践的具体应用场景,进行案例分析并试图回答以下问题:①公共数据融合中的个人信息安全风险是如何动态演变的;②在公共数据跨部门、跨领域、跨业务流转过程,个人信息的安全问题的影响因素有哪些,如何清晰评估其安全风险;③个人信息安全发生风险演化时,如何建立相应部门的保护机制。

1 研究现状与问题

公共数据的大规模融合给个人信息保护带来了极大考验,如何建立与之适应的个人信息保护机制,不仅事关个体权益与公共利益,更影响国家安全与经济社会发展。然而,涉及个人信息的公共数据具有动态性、碎片化、海量性和公共性的特点[11],使个人信息保护面临较大困难。本文围绕现有公共数据治理模式、个人信息保护机制和数据融合的治理趋势这3个方面,对当前公共数据中个人信息保护所面临的问题进行系统化梳理和总结。

1.1 公共数据治理模式

随着公共数据的不断链接、融合与挖掘,个人信息泄露风险呈现“乘数效应”,公共数据传统的治理模式显得力不从心[6]。一方面,从管理机制上看,对公共数据开展目录编制、分类分级是当前个人信息保护的重要手段,例如,《广东省公共数据管理办法》提出,遵循“一数一源一标准”原则,应当从根源上对数据类型和数据敏感度进行标准划分。这在一定程度上有利于梳理数据脉络,保障公共数据时效性、可用性和安全性,但这种静态分类的数据治理手段,并未充分识别数据流转过程中个人信息安全风险的演变[12],难以动态感知公共数据共享、开放、融合和挖掘中非敏感数据有可能演变为敏感数据的问题;另一方面,从安全技术应用上看,当前主流的个人信息保护技术多为个人隐私数据的隐式化处理,例如,数据匿名、数据去标识化、数据沙箱、区块链留痕等[13]。这种隐式化手段,杜绝了个人信息的直接暴露,但通过数据挖掘等技术手段仍有间接获取个人信息的可能性[14]。由此看出,仅依赖单一的分级分类等传统静态规制方法[15],难以应对当前数字政府背景下的个人信息安全风险问题。

1.2 个人信息保护机制

本文研究重点是政府部门如何建立适用于公共数据融合的个人信息保护机制。已有的法律法规和部门制度通常是划定政府部门职责边界和保护方式的重要依据。由于公共数据权属等理论问题尚不明晰,政府部门在个人信息保护方面的相关制度供给仍处于底线约束、原则遵守层面[16]。例如,《个人信息保护法》明确了政府机关在处理个人信息时的角色定位,相关法条偏向原则底线的阐释;《浙江省公共数据条例》明确规定了“谁收集谁负责、谁使用谁负责、谁运行谁负责”的责任机制,并未细致性探讨数据多跨协同下个人信息保护的责任边界。应当指出,公共数据是政府履职产生的,本身具有公共性特征[17],但涉及的个人数据又存在明显私权特征,这一双重属性使得部门行为规制变得愈发困难[15]。为此,欧美国家采用数据隐私风险的审核技术(Privacy Impact Assessment)[18],由第三方数据公司专业评估政府机构相关活动对个人隐私造成的影响,界定部门机构的职责范围,减少隐私侵犯的发生。我国《个人信息安全影响评估指南》[19]部分借鉴了此思路,评估对象集中于各类互联网企业,较少涉及数字政府中的公共数据治理。总体来讲,厘清公共数据使用过程中政府部门的职责边界仍然是一个难点问题。

1.3 数据融合的治理趋势

公共数据融合往往意味着跨层级、跨系统、跨部门的现实情境。为此,个人信息保护不能只依赖单一的数据管理部门,更需要政府各部门间的协同配合与积极作为。近年来,各省市纷纷设立的数据管理机构被赋予了数据安全与个人信息保护的职能[20],统筹负责辖区内的公共数据归集整合和共享开发的安全问题。然而,传统的政府职能划分不能解决由于公共数据融合引发的责任主体漂移的问题[21]。一方面,数据管理机构对数据流、信息流和事件流实现“一管到底”并不现实,甚至其自身工作都不同程度依赖其他部门的协同配合上[22]。例如,由于数据管理机构对相关部门业务工作并不了解,其负责的数据安全检查工作,通常会变成依据宽泛指标展开的例行公事,或是核验安全记录台账的规定动作;另一方面,政府机构保护个人信息的能力往往存在“木桶效应”,整体水平取决于数据安全能力最薄弱的部门,只有各部门协同配合才能保障个人信息安全[23-24]。

总之,公共数据融合已经成为数字政府建设的常态模式,多跨协同场景使得部门间业务生态交错复杂,个人信息保护更加需要环环相扣,而现在单一部门统筹、业务部门配合的治理模式难以应对当前发展需求。目前在理论与实践中,对公共数据融合过程中的个人信息安全问题探讨还不充分,尤其是对个人信息风险的演变机制、影响因素与保护路径等方面缺乏实证分析探讨。

2 整合分析框架

为此,本文构建了公共数据治理下个人信息安全演化的整合分析框架,如图1所示,即考虑“数据风险”和“数据责任”的两个维度,整合分析公共数据融合过程中个人信息的安全风险演化以及相应政府部门的职责边界。

2.1 数据风险:基于数据敏感性—数据功能

数据分类分级是确保涉及个人信息的公共数据有序安全的重要方式[25-26]。本文基于“数据敏感性—数据功能”探讨公共数据的分级分类与动态风险演变。具体为,“数据敏感性”考量数据涉及个人隐私的程度;“数据功能”主要从数据的使用目标上进行划分,包括公共服务和监控监管两大类。分析框架借鉴了Zoonen L对公共价值与个人隐私关系的思考,他指出公众对个人隐私数据的保护意愿主要受到数据类别、数据收集目的以及数据使用机构的影响[27-28]。在数据敏感性上,公众通常关注能直接或间接标识到个人信息的数据类别,而常常忽略与自身信息不相关的公共数据;在数据功能上,公众通过衡量个人收益情况,决定是否让渡个人信息,进而形成让渡偏好[29],比如相比于用于监控功能的执法部门,公众更愿意让渡给重视公共服务的医疗、教育、金融机构及社会公益组织[24,30]。

在此基础上,本文对公共数据进行风险讨论,如图1所示:①第Ⅰ象限为高风险数据,是指可以直接关联个人特征并具有监控功能的一类数据,例如个体身份、生物识别信息等;②第Ⅱ和第Ⅳ象限为中风险数据,例如第Ⅱ象限中直接关联个人敏感信息的公共服务数据,比如学历、社保、医保等数据,第Ⅳ象限为具有监管功能但个体属性不高的数据,比如交通流量、物联感知设备等群体性识别数据;③第Ⅲ象限为低风险数据,即偏公共服务又与个体不紧密的数据,包括气象、环境、地理信息系统等数据。

2.2 数据责任:基于数据生命周期

数据生命周期作为公共数据治理的经典理论,通过考察数据采集、数据共享、数据挖掘、数据分析等环节,可以对公共数据状态和承载主体进行有效分析。事实上,公共数据融合过程中会涉及多个数据层[31]:基础服务层(IaaS)提供数据存储交互的网络和服务器等基础硬件;平台服务层(PaaS)提供数据管理运算和业务协同载体;软件服务层(SaaS)实现不同场景应用模块的开发设计。

当前,公共数据主要从技术上的数据服务层来界定职能边界[32]。一个常见方案是由数据资源管理机构将所有数字政府业务数据归集至IaaS和PaaS进行统筹管理,而各业务部门通过数据共享,进行调用开发各自的应用场景。这一数据管理策略,具有统分结合的权责体系,但在应对跨部门应用场景时,却很难厘清部门间的安全责任,个人信息保护的全部责任可能被集中在单个机构部门[20]。例如,业务部门调用了多部门数据进行SaaS的应用开发,数据融合产生新的数据,这些由业务部门产生的新增数据被存储在IaaS或PaaS,将不断增加数据管理机构的风险防范责任。因此,一个较为稳健的分析框架是将传统的数据生命周期理论与公共数据融合中对应的责任部门进行结合,在数据融合的各个环节中厘清个人信息保护的部门责任。

3 城市大脑案例分析与保护机制研究

本文结合调查访谈数据以及在政府数据管理部门的实际工作经验,基于构建的整合分析框架,对杭州城市大脑建设中所涉及的个人信息安全风险动态演化问题进行深入分析,试图厘清公共数据治理过程中政府相应部门的职责边界。在此基础上,归纳总结了4种个人信息保护机制,为公共部门降低个人信息安全风险提供建议。

杭州城市大脑作为研究对象,得益于它在数字政府建设领域具有较好的类型学分析意义。①就代表性而言,杭州市率先提出通过建设城市大脑推进城市治理现代化,截至目前,全球23个城市引入城市大脑,国内500多个城市正积极推进建设城市大脑[33];②在实践效果上,杭州城市大脑以公共数据归集、开放与共享为核心,累计融合公共数据837亿条,搭建48个应用场景[34],覆盖交通、城管、卫健、旅游、疫情防控等11个领域,习近平总书记考察杭州城市大脑运营指挥中心后对相关创新应用给予肯定;③在个人信息保护方面,不少学者提出杭州城市大脑在个人信息收集使用合法性、正当性和安全性等方面仍存在风险隐患[35]。

杭州城市大脑依赖于“统一地址库”场景的建设推进全市公共数据的归集融合。其具体模式是:将全市所有地址进行编码,如表1所示,以27位统一地址码为纽带,关联依附在地址上的相关社会治理要素,包括实有人口、组织机构、建筑物信息、重点场所等公共数据,进而融合人、房、企、事、物、通信等信息,通过数据全局调用、接口调用和接口推送核验等模式,实现公安、民政、人社、应急、测绘等跨部门数据的共享协同。

表1 杭州城市大脑公共数据融合模式——“统一地址库”

表1(续)

3.1 机制一:数据采集下的部门溯源

公共数据采集和分类是进行数据融合的首要环节。在统一地址库进行公共数据汇聚的基础上,杭州城市大脑形成了以城市治理为目标、跨部门协同为特色的数字政府应用场景集合。一个典型案例就是杭州市智慧安防小区(智安小区)。根据《杭州市智慧安防小区建设标准(试行)》和《杭州市智慧安防小区建设三年行动计划》等政策,该场景涉及的小区、住户、车辆、人防、设备、访客和门禁信息等8大类数据、44个字段。基于分析框架,识别每个字段的数据类别和数据流转情况,从而得出对数据采集的静态分析结果,如图2所示。智安小区这类安防应用,大部分采集的公共数据都具有个人敏感性高、监控监管的特征,例如“户主姓名”“身份证”“人脸标识”“房产信息”,都可以直接反映个人信息,是相关部门需要重点保护、公众应当审慎让渡的高风险数据;“门禁信息”和“摄像头设备信息”由于具有个人信息关联可能性,被列为中风险数据;而类似小区名称、小区地址这一类公示服务数据则属于低风险的公共数据。

在相应的政府部门职责边界方面,智安小区的个人信息保护策略是清晰的:该应用场景的公共数据来源和隶属部门都可以进行统一溯源,比如小区信息数据来自测绘,住户信息来自公安、政法和民政。虽然存在多部门的实时数据采集、调用和共享,但这种数据融合的信息增益并不明显,相应数据的敏感性和功能形态不会产生过多变化。为此,在这样一个静态分类视角下,任何一个环节出现个人信息安全问题都可以进行明确的部门责任界定,也方便政府部门制定对应的个人信息保护方案。

3.2 机制二:数据共享下的审慎授权

不同于上述静态视角,数字政府场景建设中公共数据风险演变的动态过程更值得关注。尤其是当公共数据融合后导致某些数据从中、低风险象限演化到高风险象限的情况。杭州城市大脑“垃圾分类”应用场景,就是一个非常有趣的案例,不经意的公共数据链接共享,使得大量低风险的公共数据演变成为与个体身份息息相关的高风险数据。

垃圾分类场景致力于用数字化手段推动生活垃圾分类处置的精细化管理。垃圾治理的难点在于需要全民自觉参与分类工作,而分类环节缺少监督考评。依托统一地址库汇聚的数据,垃圾分类场景建立了小区常态化的垃圾分类服务指导和监督评价平台,通过向社区住户发放“一户一码(二维码)”垃圾袋,实现居民垃圾源头可溯,结合基层网格员扫码巡检、按户评分,实时跟踪统计每户居民的垃圾分类情况,从而建立小区垃圾分类的信用档案。梳理该应用场景的公共数据发现,垃圾分类涉及的数据主要集中在第Ⅱ和第Ⅲ象限,静态分布如图3所示,包含“小区信息”“住户信息”“垃圾车辆信息”“人房信息”“垃圾分类设备”5大类目、29个字段。

图2 智安小区应用场景的静态数据分类

值得注意的是,当引入“一户一码”垃圾袋后,原本处于低风险的垃圾分类设备数据直接和高风险的住户信息数据发生链接,从个人敏感性低的公共服务类数据演变成为个人敏感性高的监控监管类数据。由数据共享导致的风险跃迁情况,普遍存在于强调跨部门业务协同的数字政府建设中,当第Ⅲ象限低风险数据演变为第Ⅰ象限高风险时,个人信息保护的责任界定也变得更加困难。

从部门职责边界上看,“住户信息”来自公安部门,而“垃圾分类设备数据”来自城管部门,一旦发生个人信息泄露等问题时,厘清两个部门责任的关键在于明确跃迁过程中部门的主体角色。此时,主导数据共享的部门机构应当承担主要责任,即垃圾分类评价平台的建设单位应当秉持审慎授权的原则,充分考量引入“一户一码”垃圾袋的个人信息风险变化问题,建立相应的安全责任与响应预案,重点保护发生跃迁后的相应数据。

3.3 机制三:数据挖掘下的事前告知

公共数据从中风险演变成高风险的情况往往不易察觉。随着人口老龄化形势越来越严峻,杭州市依托城市大脑先行先试“智慧养老”模式。智慧养老中如何实现预警研判及时响应老年群体的生活需求,是民政、社区、卫健等部门共同关心的问题。杭州智慧养老平台的一个高效做法是通过实时汇聚分析住所水表、电表、烟感等物联感知设备(IoT)数据,24小时了解老年群体的生活状态,尤其当独居老人用水用电突增或长时间无数据变化时,就会触发社区安全警报。针对该应用中的相关数据进行框架分析,如图4所示,水力、电力等国企提供的用水用电数据位于第Ⅳ象限,是个人敏感性低、用于监管供水供电情况的一类数据。当监测城市运营体征的数据用于预测个人行为分析时,第Ⅳ象限的中风险数据极易演变成为第Ⅰ象限的高风险数据。

从部门职责边界上看,这一情况普遍存在于基于IoT设备的数字政府应用场景中。私人领域与物理空间的固有边界被互联互通技术所打破,“隐私止于屋门之前”的原则不复存在,一定程度上讲,未提前告知而通过观察水电消耗情况,实时了解住户出行和安全情况,属于个人隐私侵犯[36]。在数据责任方面,水力、电力、交通等城市运营体征数据的采集部门,在共享此类公共数据时,应充分研判宏观数据用于微观个体分析的数据风险与法律责任,配套相应的数据使用原则;应用场景建设部门获取此类数据前,应当征求社会公众的事前认可,严守数据不另做它用,确保数据观测边界最小化。

3.4 机制四:数据标注下的伦理审查

当宏观数据用于分析群体共性规律时,同样也会导致个人信息风险的演变。疫情防控以来,杭州城市大脑搭建了“亲清在线”惠企政策兑付平台,实时提供政策兑现和政企交流的在线互动服务。亲清在线利用公共数据挖掘实现审批兑付自动化,进而减免线下申请、盖章审核、材料提交等传统流程,推动政策补贴从“大水漫灌”向“精准滴灌”转变。以“低收入企业员工500元租房补贴兑付”为例,该应用整合市场主体、从业人员、员工社保、婚姻状况等数据信息,通过数据算法标注,精准锁定符合申请条件的“低收入人群”这一标签数据,实现补贴精准发放。

如图5所示,政府利用数字化手段向公众兑现福利时,涉及的相关数据主要是个人敏感度高的公共服务类数据(位于第Ⅱ象限),比如社保、医保、公租房等。这些数据虽然与个体密切相关,但由于其多数关系到公共福利问题,公众往往对这类数据的隐私让渡较高[22],属于中风险数据。在上诉政策兑换环节,平台通过数据挖掘生成新的结果数据,即对“低收入人群”的聚类分析,这一聚类结果直接导致中风险数据跃迁成为高风险数据。

图5 “亲清在线”应用场景的数据分析与风险跃迁

在部门职责边界方面,“低收入群体”的结果数据使得公众个体被“算法标签化”,如果不对这类数据实行有效监管和保护,后续极易产生“社会分选”,甚至引发公共资源分配不公与数据歧视等问题。大数据时代背景下,数据挖掘产生的“增值数据”通常具有高风险的属性,对这类数据的个人信息保护也是当前数字政府建设的重点课题。当公共数据产生高风险“增值数据”后,相关应用的建设部门应重点关注“数据标签化”问题,同时从伦理角度考量由算法驱动产生该结果数据的必要性,加强此类结果数据的伦理审查与保护,避免数据歧视和社会极化的发生。

3.5 4种机制的特征比较

通过上述案例剖析可以看出,公共数据融合主要是为了发挥多源数据的整体信息效益以实现应用场景的建设需求。公共数据融合贯穿于整个数据生命周期各个阶段,相对应本文数据采集、数据共享、数据挖掘和数据标注的4种机制。

如表2所示,公共数据融合的不同方式将引致个人信息风险演化的不同路径与保护机制。从融合模式和治理技术看,根据公共数据融合过程中交互程度深浅,可以分为静态分类、动态链接、信息增益(异质性识别或共性规律聚类)3个层次。最浅层是数据采集下的静态分类,通过简单定性比较、分类分级实现数据归类组合,数据属性未发生本质变化;第二层是数据共享下的动态链接,采用特征匹配等方式,梳理数据之间的逻辑链条与共同价值,实现属性交互[37];最深层是数据挖掘或数据标注中产生的信息增益,例如:数据挖掘下通过差异化统计等技术识别异质性数据、数据标签中通过用户画像聚类共性规律等,这种分析技术手段催生了数据融合过程中的新信息。从风险态势上看,浅层的融合方式不易产生个人信息安全风险问题,部门溯源是与之相适应的保护策略,数据共享过程中容易导致从低风险向高风险的显著风险演化,但这种演化通常容易引起数据管理部门警觉,并配套审慎授权的管理规制;在深度融合阶段,个人信息风险演化并不显著,多为中风险到高风险的小幅度跃迁,此时事先干预是保护个人信息的关键,包括涉及个体权益的事前告知以及群体共同利益的伦理审查。

表2 公共数据融合中的4种保护机制

4 结 论

为探讨公共数据融合过程中的个人信息风险演化问题,本文基于公共数据分级分类标准和数据生命周期理论,构建了“数据风险—数据责任”的整合分析框架。结合杭州城市大脑案例,探讨了面向公共数据融合过程中个人信息保护的4种机制,即部门溯源、审慎授权、事前告知与伦理审查。从静态层面上看,在公共数据采集环节,可以通过部门溯源界定个人信息保护的职责归属,但在数据共享、数据挖掘和数据标注等动态环节,数据敏感性和数据类型都可能产生风险演变。当数据风险发生演变时,传统安全责任划分机制往往失效,需要适配更为精准的部门保护策略。本文对面向公共数据融合的个人信息保护提出如下建议:一是重视数据保护级别从“低风险”向“高风险”跃迁的定责问题,引发风险演化部门要进行审慎授权;二是强化数据保护级别从“中风险”向“高风险”演化下的事前告知机制,要针对数据提供方和使用方进行事前责任界定和规则配套;三是要通过伦理审查处理“增值数据”的高风险问题,避免数据标签与数据歧视。同时,本文仍存在一定的不足之处,例如,数据敏感性仅从个体角度出发,还需从场景效益、组织变革等整体权益上进行综合思考。在数据功能方面,某些公共数据兼具“公共服务”和“监控监管”的功能,应当综合权衡后进行数据归类。另外,数字政府建设中个人信息保护也应当倡导多元化参与,需要建立政府主导,市场组织和社会公众相互联动的局面,这些问题都值得进一步研究。

猜你喜欢
公共数据个人信息部门
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
论公共数据管控权的规范建构
公共数据开放许可的规范建构
警惕个人信息泄露
医改成功需打破部门藩篱
7部门
个人信息保护等6项通信行业标准征求意见