从数据角度治理算法歧视

2020-12-29 01:50闫文光

五邑大学学报（社会科学版） 2020年1期

闫文光

(中国社会科学院大学法学系北京 100102)

在人工智能时代，社会的运行、经济的发展以及科技的进步都离不开三个基本要素：算法、数据与算力。我们的生活已经悄悄的被算法和数据所控制，算法与数据接管了整个社会。[1]虽然人们对算法和数据抱有巨大幻想，希望它们能够超越现有的决策形式，不再受人为因素影响，实现真正意义上的公平、公正与客观，但正如科技哲学家凯文·凯利在其著作《失控》中所指出，“人们在将自然逻辑输入机器的同时，也把技术逻辑带到了生命之中……机器人、经济体、计算机程序等人造物也越来越具有生命属性。”[2]在人类赋予人工智能以“智慧”的同时，也将人类社会中所固有的偏见与歧视带给了人工智能的灵魂——算法。根据美国白宫于2014 年发布的《大数据：抓住机遇，保护价值》报告，受多种因素的影响，基于人工智能算法和大数据的自动化决策可能会对使用者产生不可预测的偏见，将会给使用者带来不利影响。而大数据是训练算法、迭代算法的重要资料，更是算法分析、识别、挖掘信息价值的主要对象。如果算法作恶，大数据在很大程度上难辞其咎。因此从数据角度治理算法歧视具有重要意义。

一、算法歧视及其危害

(一) 危害群体权益，激化社会矛盾

这些权利的主体是不特定的多数人，权利被侵犯的程度无法统计，危害后果无法有效遏制且受害主体难以获得救济。[3]其中最典型的就是种族歧视。[4]种族歧视将导致就业机会不均、种族隔离以及贫富差距恶化，加深不同种族之间的矛盾与芥蒂，破坏民族团结，引发社会动荡。

(二)危害商业利益，加速市场垄断

算法带有强烈的技术属性，是高新技术的产物，其设计、训练、迭代过程都需要投入大量的人力物力，因而好的算法大都掌握在实力雄厚的企业或机构手中。在市场竞争中，大公司会利用自身掌握的算法来识别、打击竞争对手，尤其是实力较弱的企业，从而形成行业垄断。[5]

(三)危害个人权益，恶化分配不公

在日常预约网络出租车或者酒店的过程中，经常会出现同样服务不同价格的现象，这就是“动态差异化定价”机制，也称“大数据杀熟”。大数据杀熟其实更应该称为“算法杀熟”，数据只是分析提取信息的样本和载体，如何使用信息取决于算法所表征的程序设计思想，如果算法拥有者主观上存在“看人下菜碟”的故意，那么算法歧视的出现就不可避免。[6]

二、算法歧视的本质

在奇点到来之前，弱人工智能时代的算法在本质和底层架构上都是以神经网络、深度学习为核心的学习型算法。这一阶段的人工智能没有“生命”，不具备独立思考的能力，虽然能够在一定程度上实现自动化，但其主要工作是对数据进行分类、聚类操作[7]，基于此预测各变量下一步的状态，即“学习过去，预测未来”。算法对数据进行的类别处理与心理学上的社会范畴化理论大同小异，人类为了节省认知资源和减少信息处理成本，往往会在对新事物未深入了解的情况下根据经验形成预先判断，这种经验化判断实际上就是将信息分类(又称范畴化)的过程。[8]

算法的本质决定了算法歧视的本质。首先，基于范畴化处理的分类聚类，无法做到全面掌握数据所承载的信息，更无法认清数据的本质，正如著名心理学家奥尔波特在《偏见的本质》中所述，这种范畴化必将导致偏见的出现。其次，基于大数据而形成和运行的算法必然会“继承”大数据的价值观。牛津大学数据伦理和算法领域研究人员桑德拉·沃彻(Sandra Wachter)说：“世界存在偏见，历史数据存在偏见，因此，我们得到带有偏见的结果，不足为奇。”[9]大数据是人类社会的数字镜像[10]，是人类观察社会的表征形式，直观地反映并放大了人类的世界观与价值观。数字人类学家托马斯·克伦普在其著作《数字人类学》表明，数字的背后其实都是人，“数字系统以清晰的方式，和它们植根于其中的文化紧密地融合在一起”[11]。算法歧视的本质是大数据歧视，更是人类自身所固有的偏见，这种偏见通过数字介质全息无损的传递到了同构属性的算法之上，“大数据与世界本身是对等的，也可以说是同构的”[12]。

三、算法歧视的数据原因

(一)学习数据瑕疵

在计算机科学领域，有个很有名的“GIGO 定律 ( Garbage In，Garbage Out) ”，《自然》杂志曾用“偏见进，则偏见出( Bias In，Bias Out) ”来描述。[13]基于深度学习而产生的人工智能算法在初步编译完成后，还需要对现有的数据资料进行学习、训练，从而迭代出类人的“智能”。这一过程虽然能够产生人类需要的算法模型，但我们对于算法如何工作以及原始算法如何经过学习演化为最终算法的过程，都还是“一头雾水”，无法理解，这一现象又被称为“算法黑箱”。面对鱼龙混杂的大数据集和未知的算法黑箱等大量不可控因素，算法极易产生异化，形成算法歧视。

(二)交互过程中的数据带有歧视

算法在应用后需要无时无刻的处理大量的用户需求，根据实际情况为用户提供合理的解决方案。在应用过程中，算法也在不断地根据接收的数据而修正自己，以符合现实中的实际情况。因此从本质上来看，应用端是学习端的一个延伸。由于在应该过程中所接触到的用户价值观迥异，适用的场景也千奇百怪，算法自身修正的方向也就难以预料，歧视和偏见产生的几率将大幅增高，许多智能聊天机器人就是因为这样的原因而被“教坏”。

(三)数据未脱敏

大数据之所以称为“大数据”并不仅仅是因为其数据量巨大，更是因为其数据种类之多以及覆盖范围之广。基于如此全面的数据信息，即使设计者在算法形成到应用的全流程中都使用的是客观中立的基础数据，但算法还是能够从大数据中挖掘出不可知的属性，从而使合法的客观中立的数据组合在一起产生歧视性的后果。例如居住地址、名字等往往能够大概地反映出一个人的种族信息，如我国的少数民族自治区、美国某些城市的黑人聚居区以及我国少数民族中带有强烈的民族色彩的名字。通过分析数据中的敏感信息，算法同样会产生歧视性后果，其原因主要在于“冗余编码”，即受保护群体的敏感性数据恰好在其他可合法获得的数据中编码中[14]。

(四)不同场景下数据的正义属性不同

在数据领域同样需要具体情况具体分析。在不同场景中，同一类型的数据可能占有不同的地位，具有不同的意义。在刑事案件中，认定犯罪嫌疑人是否犯罪时要综合考量主观方面与客观方面，同一行为既可能是正当防卫，也有可能是故意杀人。与此类似，数据在的正义性也需要结合具体情况来考量。如在体力劳动中，性别与年龄应当是考量的主要因素；而在脑力劳动中，如果以性别与年龄作为主要的考量因素则可能构成歧视。

四、治理策略

(一)完善数据价值观

如前所述，算法歧视的本质在于数据及其背后的人，数据作为连接算法与人类的桥梁，在信息传递的同时应承担起信息过滤的功能，最大限度地排除人类社会中的偏见与歧视，建立起公平、正义与向善的价值观，为算法提供“绿色食品”。

从域外治理经验来看，美国国家及各州都会针对算法的规制做出基础性、原则性规定，无论是法律层面的《宪法》第十四条修正案、《公平信用报告法》、《民权法案》，还是政府政策方面的《美国白宫大数据白皮书》，都要求算法必须遵循平等保护的基本准则，保障公民平等权。欧盟委员会于2019 年 4 月 8 日发布《“可信赖人工智能”伦理指南》，指出人工智能系统的使用应当遵循多样性、非歧视性和公平性原则， 2018年正式生效的《统一数据保护条例》(GDPR)也为大数据处理与自动决策算法树立了“无害化”的核心价值观。

数据向善价值观的塑造“作为一个过程，不仅仅表现为外在强加，而有其内在根据；但这种根据最初主要以向善的潜能等形式存在，惟有通过教育、学习及道德实践的过程，内在的潜能才能不断获得现实的内容，并成为真实的德性”[15]。首先，科技应努力解决自身发展带来的社会问题，把技术规则体系纳入到由法律、伦理所构建的社会规则体系中，将公平向善的价值观融入到大数据产业的全链条中，在数据收集时预处理掉非正常来源的歧视性信息。其次，数据向善价值观的确立还需要多方主体的共同努力，不仅要涉及计算科学、法学、哲学等专业科学领域，更要注重来自不同阶层的意见建议。

(二)加强个人信息保护

由于无处不在的互联网，人工智能系统无时无刻不在收集我们的个人信息，如运动轨迹、手机品牌、购物习惯、IP地址、上网痕迹、地理位置等，甚至有些手机APP会在用户不知情的情况下对其日常生活录音。依靠强大的算力和严谨的逻辑分析能力，算法能够通过数据清洗、数据挖掘等方式整合、分析各数据之间的相互关系，对用户实施精准画像，全面掌握公民的身份信息与行为习惯，做到比公民自己还要了解自己。因此，凯文·凯利在对未来20年商业科技发展预测的一次讲演中提出，在大数据时代， “所有生意都是数据生意”，“个人数据才是大未来”。[16]

在个人信息保护方面，美国与欧盟一直走在世界前列。美国已通过出台多部个人信息保护相关法律，如第一部为保护个人隐私权而专门立法的《隐私权法》、规范个人信息采集与处理的《个人数据通知和保护法案》《消费者隐私权法案》等，目前已经形成了以隐私权为基础、分散立法与行业自律相结合的治理模式。欧盟自2018年《一般数据保护条例》(GDPR)正式生效以来，已经建立了最为完善和严格的个人信息保护制度，规制范围从欧盟内部企业扩展到向欧盟用户提供互联网和商业服务的所有企业。

为应对日益复杂的个人信息保护乱象与算法歧视逐步恶化的态势，我国也应该完善个人信息保护的法治体系，理顺立法要求与信息控制者内在激励之间的关系，探索利用激励与保护激励相容的个人数据治理之道。[17]同时还要兼顾企业发展与技术的进步，平衡好数据流动与权利保护之间的天平。首先，应强化公民安全防范意识，提高自我保护与尊重他人个人隐私的道德素养。其次，应科学化政府监管，明确各级各部门责任，建立分层监管机制，加强监管执法力度。最后，完善个人信息保护法律体系，以制定个人信息保护为源头，民法、刑法、行政法等多部门法综合治理。[18]民法层面上应明确事前防范与事后救济相关制度，明确责任承担；[19]刑法层面上要清楚界定“个人信息”概念，完善个人信息犯罪的相关罪名，强化落实力度；行政法层面上，法律应明确用户的知情权、同意权、被遗忘权等基本权利。在源头层面，应加快制定、出台统一的个人信息保护法，将个人信息保护的法条、原则、权利义务以及责任承担等各方面规定系统化、体系化，赋予其实践性、可操作性。

(三)建立数据审查与问责机制

当前算法治理的主流观点是要求算法具备“透明性”与“可解释性”，以便监管机构等相关部门能够对算法进行阅读和审查，从而鉴定其合法性。美国学者考尔德等人( Calders、Zliobaite) 认为，为了使计算机系统以规范的方式运作，算法审查必须从一开始就成为系统设计的一部分。[20]但在具体实施过程中，算法透明与可解释原则也暴露了缺陷，即算法作为企业的技术成果与核心竞争力，如果全部开源透明和可解释，则很容易被竞争对手剽窃算法架构与设计思想，给算法拥有者造成损失。因此，单纯的以算法透明及审查作为监管手段显然存在一定的不足，应将数据透明与审查作为算法审查的一种延伸而纳入算法治理的监管手段之中。此外，对于算法所涉及的各方主体还应设立合理的问责制，完善事后救济与责任承担制度。

2018年正式生效的欧盟《统一数据保护条例》(GDPR)提出，算法歧视的规制应确立数据无害化的原则。2016年1月26日，法国国民议会通过一项关于数字权力的新法案，法案明确了有关数据透明度、“忠诚”(或公平)的义务。

我国应当建立数据审查与问责机制。首先，数据来源、内容与处理过程可查。对于输入数据的来源应该明确记录并考核其合法性、合理性，可以引入区块链技术对数据内容做相应备份，保证原始数据的真实性。关于数据的应用过程、应用策略、应用比例等一系列处理过程，公司应当及时准确地予以记录，履行“注意”义务，在监管部门进行核查时应当提供相关资料，履行配合义务。其次，周期复查。原始算法需要不断地迭代更新与自我学习，在这个过程中算法会产生难以人为控制的变化，其变化方向难以预料。因此，应当建立周期的复查机制[21]，根据其在某一阶段的输入输出数据来校验其公正客观性，防止算法与数据的异变，同时应要求使用者定期自我复查，公布复查报告，将评估结果上传至国家企业信用公示系统。最后，建立数据问责制。法律应是确保规范性期望实现、疏解和救济失望之工具。[22]应从法律层面明确各方主体义务与责任，确定归责原则，对责任主体的行为进行规制，完善救济机制。

(四)建立专业数据监管机构

在人工智能、大数据、云计算等新兴产业领域，我国当前的治理模式以中央网信办(国家网信办)、工信部为主，市场监管总局、公安部、文旅部、交通部、广电总局、教育部、商务部等部门在各自职权范围内进行监管。多部门共管的模式虽然可以整合各机构的资源，增强监管力量，但更容易导致部门配合不协调、各自为政的现象，留下监管真空的同时存在监管重复交叉，降低了监管效率。更为重要的是，面对如此多的部门机构，企业和消费者难以分清各部门之间的联系与区别，更无法明确各部门的职权范围，将导致企业合规成本的提高与消费者事后救济的不能。随着大数据总量急剧扩大、数据类型逐步丰富、数据管理主体更加多元，商业平台的私权力将会剧增，利用数字鸿沟、算法共谋等手段建立算法霸权，形成一座越来越封闭的算法监狱，损害公民权益。[23]

在域外治理经验上，美英德等发达国家同样经历了类似的阶段，从被动处理到主动监管，从事后救济到事前预防，逐步建立了专业、统一的政府监管机构。2016年12月，美国奥巴马政府成立“联邦贸易委员会”，统一负责数据完整性与公民隐私保护。1998年，英国新版《数据保护法》设立“信息专员”负责数据保护与行业监管。德国《联邦数据保护法》作出规定，凡满足法定条件的公私机构都必须书面任命常设的个人数据保护顾问。个人数据保护顾问在编制上隶属于企业，是企业员工，负责监督检查机构的数据活动，保证其符合法律规定。在个人数据保护顾问行使职权过程中如若受到阻碍及压力，数据保护监管局会及时以国家公权力作为保障为其提供支持与帮助。这种二元化的数据监管机构设置方式，既维护了企业的商业秘密不被泄露，又保障了企业等数据处理与算法拥有者的合规发展，减少了算法歧视的发生。

因此，我国应当未雨绸缪，加强对大数据领域的监管与治理，建立统一且专业的数据监管机构与审慎合理的管理机制，保障数据的真实、客观，提高数据质量。我国可借鉴德国治理模式，建立数据管理顾问与数据保护局相互配合的二元数据治理机制，将企业也政府连接起来，保障企业核心利益的同时规范数据与算法，有利于政治系统中行政部门始终保持对算法发展的敏感度，有利于保护经济系统中企业的经营自由，也有利于降低裁判门槛，实现算法公平和正义。[24]

(五)构建多元参与的治理格局

算法的编译与应用、数据的收集与处理是一个涉及方方面面主体的产业链条，政府、公众、行业等都参与其中，发挥着不可或缺的作用。所以，算法歧视的治理不能只依靠政府部门的监管而忽略其他利益相关者，应逐步探索将公司、公众、行业协会等纳入算法歧视的治理体系中，合理界定各自的权利义务，划分职责范围，形成行业自律、政府监管、公众参与的综合治理格局。

《欧盟通用数据保护条例》特别强调数据行为的管理应当坚持行业主导、监管机构适度干预的理念。商业公司是算法的主要研发与应用者，好的算法能够给企业带来丰厚的回报，反之，带有偏见与歧视的算法也会给其商业信誉和业务带来不利影响，算法与企业相辅相成。商业公司应承担起社会责任，加强自律自查，制定完善的算法设计、训练以及应用规则，规范数据处理流程，保障元数据集的客观性、正当性、公平性，避免算法歧视的出现。2016 年，日本 AI 学会、英国标准协会相继出台人工智能设计伦理标准；2017年1月，美国计算机协会发布人工智能算法透明性与可责性七项原则，谷歌、微软等产业巨头也相继提出“机会平等( Equality of Opportunity) ”等技术规范，将“不作恶”作为公司发展的基本原则之一。[25]

被称为“人民的律师”的路易斯·布兰代斯有一句名言：“阳光是最好的消毒剂，灯光是最好的警察。”只有让更多的人参与进来，让算法与数据以合理的方式接受更多人的审视，才能更好地消弭算法歧视，维护社会公平。作为算法歧视的直接受害者，公众应主动参与到对歧视的治理中来。公民的普遍参与应以个人算法素养的提高为前提，要能够在一定程度上了解算法、知悉大数据技术的原理和歧视的发生机制，以免在遭遇算法歧视时既无从察觉又不知如何留证和自力救济。政府应出台政策和措施公民提高算法素养，提供必要的资源和平台。2016年，美国发布《为人工智能的未来做好准备》报告，建议全体公民准备接受人工智能教育。2017年，我国出台《新一代人工智能发展规划》，鼓励实施全民智能教育项目。未来，政府应持续加大政策制定力度，通过设置更加科学合理的方式培养公民的算法知识，缩小数字鸿沟，抑制算法霸权，打破算法暴政所营造的“技术监狱”，维护社会公平正义。