◆孙跃元
数据安全与云计算
《通用数据保护条例》框架内的自动化决策与数据保护
◆孙跃元
(中国政法大学研究生院 北京 100088)
大数据时代下的自动化决策已经在社会各领域朝着纵深发展,但目前关于自动化决策的法律规制仍处于滞后的状态。因此,本文旨在分析《通用数据保护条例》中有关自动决策的规则,包括自动化决策的本质及核心概念的分类;立法所授权的自动化决策及法律规定的保护措施。对相关制度进行梳理,发现其立法中主要存在的问题,包括算法解释权和算法透明度的理论和实践困境。并以此探讨其对我国如何对解决自动化决策带来问题的借鉴意义。
通用数据保护条例;自动化决策;算法解释权;算法透明度
随着现代信息科学技术的高速发展,人工智能有望成为“第四次工业革命”的主要导火索。这场深刻的革命将改变目前社会的运作方式和人与人的相互关系,甚至改变就业市场和就业需求,以及即将走上数字化道路的各个行业。近年来,机器人技术和娱乐软件领域的技术发展出现了前所未有的进步,从仿人机器人、自主和护理机器人、自主车辆、机器人保姆和玩具,到用于预测警务或医疗诊断的人工智能等[1]。人工智能飞速发展的同时,算法自动化决策也带来了严重的新生风险。纵观全球,欧盟在数据保护立法领域遥遥领先,并且随着科技水平的迭代更新而完善。因此,通过分析研判欧盟《通用数据保护条例》相关规定,以其对我国的自动化决策立法领域提供借鉴思路。
在《通用数据保护条例》(以下简称GDPR)中,自动化决策定义为在没有人为干预的情况下做出决策,自动个人决策是完全基于自动处理的决策。通常情况下可以向系统自动提供数据,系统自动输出决定。如果自动化决策对数据主体没有任何约束力,也不存在剥夺数据主体的合法权利的可能性,那么这种类型的决策的影响就很小。如果某种决策对主体有约束力并且影响权利,法律必须提供足够的安全保护来保护个人的权益不受侵害。此类对个体产生重大影响的例子不胜枚举,例如通过自动化决策决定客户是否应获得信贷、纳税申报表或被雇佣等等。自动化决策包括多种决策类型,例如高频交易,银行发放贷款的决定、行政决定和一定范围内的司法决定。随着技术的进步和社会的发展,自动化决策的概念并不是一个统一的概念,它是广泛、多面的。根据其性质不同可以将其分为三大类:程序性和实质性自动决策、算法性和非算法性自动决策,基于规则和基于法律的决策。
程序性和实质性决策的区分并不是指作出程序性或实质性决定,而是指自动决定的通过方式必须保证程序性和实质性的公平性和准确性。程序公正要求相同或可比事实有关的所有决定都是根据同一自动程序作出的。然而,程序性决定也必须在实质上是公正的。这是任何自动化决策都必须遵循的底层逻辑,即通过算法做出的决定不应具有任何歧视性。
算法决策是在算法支持下的自动化决策。算法的概念没有一个共同的定义。但是,在自动决策中,正在处理的计算机算法是指为完成一项任务的一系列步骤,这项任务被描述得足够精确,计算机可以运行它。随着大数据的日益使用和复杂决策的日益增多,算法干预已成为必不可少的手段。非算法决策主要是指不通过计算机算法而做出的,其涉及范围较小,因此不在主要讨论范围。
“基于规则”和“基于法律”的决策都是在规则的基础上做出的,但其规则来源是不同的。对于基于规则的决策,这种规则主要是某种商业目的的结果。此类决策已经在商业领域得到广泛应用。例如,为了精准的广告投放而分析得出的决策结果等。而基于法律的自动化决策,其规则来源于对每个人都有约束力的法律规则。生活最常见的例子如凡超过限速的人都将被罚款。自动化决策的前提是所适用的规则不易解释,决策者在作出决策时没有任何自由裁量权。但由于法律规则的特殊性质,此类决策同样带来难题。除非基于法律的规则非常清晰和精确,否则它必须面对法律开放性和解释性的挑战。
GDPR授权的第一类自动决策是在数据主体与数据控制者之间订立或履行合同的“必要”决策(第1款中的禁止“不适用于以下决定:(a)对于数据主体与数据控制者之间的合同订立或履行是必要的;(b)由控制者所遵循的联盟或成员国法律授权...;或(c)基于数据主体的明确同意)。根据必要性标准所指的内容,该规定可以有不同的解释,因此,关于“必要”的解读是模糊不清的,这种情况下做出的决定值得怀疑。例如,订立保险合同或贷款合同肯定需要对风险进行评估,但是这种风险是否一定需要通过自动化决策的方式进行评估,值得考虑。再比如,航班价格通常是通过动态定价来确定的,同时考虑到了潜在买家的用户画像的结果。用户画像是GDPR着重强调的自动化决策模型的一种。但是,这种通过分析用户的个体特征,以便自动确定价格,对于缔结或履行此购买合同是否必要也同样需要怀疑。
GDPR授权的另一种自动化决策是根据数据主体的明确同意进行自动决策。根据法律规定,“同意”的作出必须通过积极行为达到明示同意的效果。“明确同意”是指数据主体必须明确声明同意,例如签名的书面声明,填写电子表格或使用电子签名。目前各种的互联网产品的同意制度都或多或少打些擦边球。比较常见的问题是不明确的同意制度泛滥。例如许多App普遍存在预先勾选同意,或者要求用户针对不同的数据处理活动给出一揽子同意等,已经实质性的影响到了用户对其数据的控制力度,有极大的侵犯用户隐私的风险。因此,将数据处理活动作为用户使用其服务的前提条件、隐私政策冗长晦涩、网站上隐私政策极不明显、隐私相关内容过于分散、默认设置同意收集用户个人数据等种种情形下所做出的“同意”通常都被认定无效。GDPR为了真正使数据主体行使同意的权利,增强数据主体对个人数据控制力的效果,采取了非常严格的“同意”解释制度。但不得不承认,这种严格的同意制度同也在一定程度上造成了企业合规成本加大和生产成本加重的问题,势必会影响中小企业技术创新和变革
在信息量爆炸的大数据时代,自动化决策无疑是一种极为高效的数据处理手段,不仅能使我们的日常生活便捷有序,还有利于企业的精准投放和量化生产,这大大节约了社会的整体资源。但是由于算法黑箱等技术壁垒的存在,自动化决策不可能是完全公正、正确的。假如算法在运行中被人为地加入了歧视和偏见的因素,其运算结果也一定是不公正的,极有可能加剧社会不稳定[2]。因此,法律确有必要提供有效保护措施,包括提供拒绝自动化处理的权利和其他救济手段。
欧洲的数据保护立法已经走在了世界的前沿,并且不断地更新完善。关于反自动化决策权的立法保护在诸多法律文件上均有体现。欧洲议会和理事会于2016年4月27日发布的《刑事事项数据保护指令》第11条对自动化个人决策采取了类似的立场(《刑事事项数据保护指令》旨在规定有关主管机关出于预防,调查,侦查或起诉等目的处理个人数据的问题。内容涉及犯罪或执行刑事处罚等此类数据的自由流通问题),规定成员国有义务禁止“完全基于自动化处理的决策,包括对数据主体产生不利法律影响或对其产生重大影响的分析”。1995年的英国《数据保护指令》第15条规定,数据主体同样有权不受完全是基于数据的自动化处理的决策所产生的对其重大影响。《数据保护指令》的还列举了一些自动化决策的例子,即“评估与数据主体有关的某些个人方面的决策,如其工作表现、信誉、可靠性、行为等”。这些例子表明,《数据保护指令》的规定主要集中在基于数据自动处理的分析实例上,而不包括其他类型的自动决策。《通用数据保护条例》第22条延续了这种保护个人数据不受自动化处理的传统(GDPR第22条第一款规定:“数据对象有权不受仅基于自动处理的决定的约束,对他或她产生法律效力,或对他或她产生同样重大的影响),并且提供了一些自动决策的例子,即“在没有任何人为干预的情况下自动拒绝在线信贷申请或电子招聘实践”,这使GDPR在该条款的基础上增加了一些内容程序。
根据GDPR,数据主体有不受完全基于“自动处理”的决策的权利,而数据分析(profiling)是一种主要导致此类决策的处理类型。数据分析意味着对个人数据的处理,用以评估与自然人有关的某些特征,例如“分析或预测与自然人在工作中的表现、经济状况、健康、个人偏好、兴趣、可靠性有关的方面”。通常情况下,一个人的数据很难不经过分析直接导致决策。但有些自动化决策和预测并不直接来源于数据分析,例如高频交易或对司法判决结果的预测,它们不涉及对个人数据的处理,因此不属于GDPR的保护范围。
值得注意是GDPR第22条是被放在数据主体权利的章节中的,这说明权利的行使将取决于数据主体的自由意志和选择。如果数据主体选择行使此权利,并且要求决策不完全基于自动化处理,则数据控制者将具有三种选择:首先,它在人为干预下做出决策,即不基于完全依靠自动化处理的决策;第二,如果不适用第22条第2款的例外情况,则不得以自动方式做出最终决定;第三,在适用第22条第2款中的例外的情况下,它仍然可以做出自动决定。但为了使决定不完全基于自动处理,控制者将需要利用有能力更改自动决策的人工干预,即对“有权并有能力更改该决定的人”所行使的决定的监督。但是,如果不选择行使这项权利,则会导致可以合法地做出自动化决策。如果签订或执行合同时有必要做出自动化决策或基于数据主体的明确同意,则数据控制者有义务向数据主体提供保护措施。但是,如果没有适用例外情况,并且数据主体没有行使其反对自动决策的权利,就可以做出完全自动化的决策,对数据主体产生相应的法律后果。
根据GDPR,只要允许自动决策,就必须为数据主体提供适当的保障措施。此类保护措施的目的是防止错误、歧视性决定或不尊重数据主体权益的决定。GDPR明确规定了应提供最低限度的措施:(1)数据主体至少应有权申请具有人为干预权力的控制者;(2)数据主体有表达观点的权利;(3)数据主体有反对该自动化决定的权利。
数据主体始终具有权利获得人工干预,这意味着可以请求通过人工干预使全自动决策变为非自动化。例如,如果通过自动化方式评估保险风险,则数据主体可以要求对这种决策的结果进行人工评估。但是人为干预的权利可能给数据主体行使其权利和修改决策的人造成实际困难。这种方法在法律上是适当的,在社会上是可取的,但它可能在实践中存在巨大的困难。由于自动化系统可能不仅考虑了与决策相关的数据,还有许多其他复杂的数据集。并且,数据分析能力有限的人在实际操作中很难证明,最终决策需要与算法决策有所不同。如果自动化决策是与特定数据主体相关的简单数据总和,那么对自动化决策进行人工审核或许可行。但是,如果决策是基于大数据中数据之间的复杂关系,在审查此类决策时将面临更加艰巨的任务[3] 。最后,数据控制者是否愿意重新评估和修改该决定,很大程度上取决于其对最终决定的责任。并且不容忽视的是,责任制应始终考虑决策错误的原因,如果故意设计算法以区分特定种族,则责任归因于算法的开发者。而不是仅靠人工干预进行结果纠偏。
GDPR赋予了数据表达观点的权利。笔者认为,对此权利恰当的解释是,控制者在评估自动决策时应考虑数据主体的意见,并有义务对数据主体的观点做出回应。现实中,数据控制者可能通过不回答数据主体的意见,而将使该权利在实践中无效。因此,必须在这项权利与通过该决定的必要性之间取得权利的平衡。数据主体有权对决定提出异议,该权利与表达她的观点的权利并驾齐驱。在实践中,这意味着决策程序将变成对抗性的。这引出了无法回避的问题,谁应该对这种自动决策的结果负责。例如,如果某个数据主体明确同意对其信用等级进行自动评估,之后对这一决定结果提出异议,那么是否需要由处理该文件的银行官员或者该组织内的另一名独立监督员处理此异议?由于GDPR模糊的规定,很多实际操作中可能遇到的壁垒目前尚未有行之有效的解决方案。
数据主体获得解释自动决策的权利的问题一直是学术界争论的热点[4]。一些学者认为GDPR只需要对系统的运作方式进行事前解释,而无需对决定背后的原因进行事后解释。而另一部分学者认为自动决策的算法解释权具有实施的可能性,但在实践中可能会遇到巨大的困难。这引起了几个问题:到底需要向数据主体显示什么?这项权利的确切含义是什么,解释必须有多详细。
要注意的是,GDPR关于通知义务和获取的权利均未明确提及命名为“解释权”的权利。GDPR要求不论是从数据主体还是从其他来源收集个人数据,数据控制者向数据主体提供有关所涉及背后逻辑的“有意义”的信息,以及对数据进行自动化决策的意义和预期后果。在法院判例法中,为了解释数据主体的某些权利而对不同的数据保护条款进行结合并不少见。例如,在西班牙的Google案中,法院依靠95数据保护指令的访问权和反对权相结合来创建删除权(通常称为“被遗忘权”)[5]。鉴于此,笔者认为,可以通过对法律条文进行解释,确定解释权的核心要义是有权告知数据主体有关自动决策对其产生法律或重大影响的原因。
GDPR并没有明确给出算法解释的内容和范围。控制者告知数据主体“有关所涉及的逻辑的有意义的信息,以及这种处理对数据主体的意义和预期的后果”,即数据控制器需要向数据主体告知作出决定的原因。仅当数据主体可以理解决策所基于的因素和考虑因素时,自动决策所涉及的逻辑才是“有意义的”。对系统或算法功能的抽象理解对数据主体没有太大用处。如果仅仅披露算法整体运行的程序性规则,并不能回答为什么算法以特定数据集作为输入才能达到特定决策的问题。因此数据主体必须了解该决定背后的原因。
随着技术的进步以及算法在决策中的使用呈指数增长,法律法规和学术工作都要求更加透明的算法决策。算法的透明性是揭示采用特定决策的算法背后的逻辑。简单的自动化决策背后的逻辑解释不会产生特殊问题。例如,如果检测到驾驶员速度超过了速度限制,则自动发出超速罚单。决策背后的逻辑以及决策所依据的规则可以很容易地向数据主体解释:如果超出了速度限制,则发出超速罚单。与之不同的是,基于复杂算法的自动决策在解释决策基础的原因时会面临许多麻烦。在实践操作中,几乎不可能解释算法,因为即使算法开发人员也无法准确指出做出特定决策的原因。提高算法透明度的技术解决问题,例如显示源代码等等。但这必然会涉及商业秘密和技术保密的问题。算法开发者如果公开其核心技术,则会面临核心机密泄露等一系列损害公司利益的行为。
敏感数据的范围和类型目前并没有统一的标准。当涉及种族或民族血统的敏感数据参与决策时,决策可能具有歧视性,因为决策所基于的数据本身就是歧视性的。有偏见的数据集反而会导致算法结果歧视受保护的群体[6]。作为与决策相关的输入变量,敏感数据如宗教种族等,极有可能导致决策结果的歧视性。因此,原则上,自动决策不应基于个人敏感数据,除非数据主体明确同意出于特定目的进行处理或为维护重要的公共利益而必须进行此类处理。尽管在现有技术下,自动化决策往往都是从多个复杂数据集中获取数据,而非单一的数据集。经过大数据的分析比对,极有可能形成新的敏感数据集。因此,我国应建立并完善敏感数据收集制度,从源头对其进行监管。
尽管我们认为数据主体应有权了解自动化决策的背后逻辑和原因,但仍不清楚是否以及如何使用此权利。在实践中,为数据主体提供算法决策背后的逻辑的有意义的解释方面,存在技术障碍和知识产权障碍[7]。其中最难克服的是技术障碍。用来解释基于算法的自主决策的技术障碍的数量取决于算法的复杂性。基于简单算法运算做出决策的原因或许解释难度并不大。但是,如果决策所使用的算法是神经网络算法,使用非常快速的机器学习,必须开发进一步的技术以澄清具体的考虑因素以及权重是多少。因此,在AI领域和法律领域都需要进一步的研究,以找到理解自动化决策的最佳解决方案[8]。AI的研究人员需要设法找到技术解决方案来简化此类决策的解释,但是法律研究人员应该尝试在自动化决策涉及的不同利益之间找到适当的平衡。与此同时,数据控制者应了解其数据保护法规下的义务以及在未能向数据主体提供该法规要求的信息的情况下的责任制。
本文研究了《通用数据保护条例》关于自动化决策的法律规制问题,并在其原有的法律框架内,找出其立法缺憾及空白。在对比分析国内自动化决策现状后,提出了我国特有的解决路径思考,以期为我国未来在相关领域的立法研究提供借鉴和思考。
[1]张吉豫.人工智能良性创新发展的法制构建思考[J].中国法律评论, 2018.
[2]周文扬, 张天荣.生成、影响与反思:聚合类新闻客户端的信息茧房效应研究——以“今日头条”为例[N].传媒,2018.
[3]林洹民.自动决策算法的法律规制:以数据活动顾问为核心的二元监管路径[J].法律科学(西北政法大学学报), 2019.
[4]张建文,李锦华.欧盟个人数据保护法上的反自动化决策权研究[J].重庆邮电大学学报(社会科学版),2019.
[5]National Bureau of Economic Research, The Short-Run Effects of GDPR on Technology Venture Investment, https://www. nber.org/papers/w25248.pdf.
[6]欧姆瑞·本·沙哈尔、卡尔·E. 施奈德.过犹不及——强制披露的失败[M].法律出版社, 2015.
[7]杨芳.个人信息自决权理论及其检讨[J].比较法研究, 2015.
[8]许可.数字经济视野中的欧盟<一般数据保护条例>[J].财经法学, 2018.