谢永江,杨永兴
(北京邮电大学 互联网治理与法律研究中心,北京 100876)
作为信息技术领域的开创性技术,人工智能对人类社会的发展与变迁产生了深远的影响。算法、算力、数据共同构筑人工智能的底层逻辑。其中,以算法和大数据驱动的算法自动化决策正悄无声息渗透政治、经济、社会等领域的各层面,这种算法决策在信息推送、招聘、警务、电商等方面的广泛应用正逐步取代长期以来由人类决策或者组织的工作[1]。人类社会俨然陷入算法社会的泥潭之中[2]。在理想状态下,鉴于人工智能的技术中立原则,算法的自动化决策不仅效率更高,还具有相对客观、独立、公正的优势。但在算法的具体应用之中,算法开发者内隐偏见于算法、数据偏差、算法黑箱等因素中,导致算法自动化形成的决策带有浓厚的歧视性色彩。除了担忧“大数据杀熟”等消费者权益被侵害的问题,更让人们惴惴不安的是透明度缺乏、监管失位的算法决策可能使社会陷入算法和数据滥用的泥沼之中。算法歧视带来的严重后果已引起不少国家的关注。本文拟对人工智能时代下的算法歧视及其治理进行探讨,以期对我国算法歧视治理制度的完善提出建议。
目前,不同学者对算法歧视的认知不一。理清算法歧视之定义需要从算法与歧视两个概念着手。
算法作为一项新兴的数字技术,已被广泛应用于自然科学领域,其主要是为解决某特定问题而采取的明确的操作方法[3]。在人工智能时代,算法与机器学习密切相关,以大数据为节点,可将算法分为两类:一为半自主式学习算法,即使用人类定义的模型分析数据的算法;二为自主式学习算法,即机器自动抓取数据并生成和选择模型的算法[4]。半自主式学习算法可以理解为在人类定义的算法下,机器对数据进行理解。人输入什么数据,机器就会按照既定模型输出相应结果。因此,如果输入歧视性数据,那么所得结果将不可避免地带有歧视性色彩。而自主式学习算法是指机器自动抓取数据并进行自我分析建模[5]的行为,那么基于技术受限等原因导致机器抓取的数据有偏差时,同样会导致算法歧视。
不同学科对歧视有不同的定义。(1)从语义学角度来看,歧视是指个人或者群体对其他个人或者群体的某些特点诸如性别、疾病、缺陷等又以不平等的眼光看待[6]。(2)从经济学角度来看,歧视是指基于偏好选择与信息不对称而做出的为满足特定个体利益最大化的区别对待[7]。(3)从法学的角度来看,平等与非歧视构成国际人权法的核心。在国际人权法上,构成歧视需满足三个要件:第一,实施差别待遇;第二,该差别待遇造成不良后果;第三,实施差别待遇的理由违法[8]。虽然我国现行《中华人民共和国宪法》《中华人民共和国劳动法》《中华人民共和国妇女权益保障法》等法律明确规定了禁止歧视条款,但未能清晰界定何为歧视。目前通说认为,歧视是指没有合理的依据而实施区别对待的行为。
综合上述算法与歧视概念,笔者认为,算法歧视是由不完全或不合理的数据分析所导致的对特定群体或个人实施的不公正待遇。
2015年7月,黑人程序员杰基·阿尔辛发现自己与黑人异性朋友的合照被谷歌图像标记为“大猩猩”[9]。该事件发生后,谷歌仅将“大猩猩”相关标签除去,并未就为何谷歌图像会将黑人照片识别认定为“大猩猩”这一行为做出解释,时至今日该问题仍未解决。研究表明,在谷歌上搜索“白人女孩”(Caucasian girls),得到的是相对正常的信息,而搜索“亚洲女孩”(Asian girls)或者“黑人女孩”(black girls),智能推荐算法推荐的往往是关于“约会”“色情”等方面的信息。与此类似,人工智能算法也被广泛应用于司法实践中。美国警察局在“预测警务”项目中,引入智能算法分析。在目标犯罪应呈平均分布的情况下,以大约两倍于白人社区的规模向黑人社区调配警力[10]。上述种种现象表明,智能时代运用算法进行种族歧视已不是简单的个例现象。而在国际公约方面,《消除一切形式种族歧视国际公约》《公民权利和政治权利国际公约》《经济、社会及文化权利国际公约》等均将对特定种族实施差别待遇的歧视行为认定为侵犯人权的行为[11]。
人工智能技术的变迁促进了电商产业的蓬勃发展。受逐利思想的驱使,电商经营者将算法的效用发挥到了极致,导致被人诟病的“大数据杀熟”问题。大数据杀熟即电商经营者通过算法程序,对平台内消费者的数据进行搜集、汇总、分析并对其进行精准画像,得到消费者最大支付意愿信息,进而实行千人千价[12]。2020年12月,美团被爆涉嫌利用大数据杀熟。有网友称通过美团购物时发现配送地点相同的外卖,使用会员账号登录的配送费是6元,而使用非会员账号登录的配送费却是2元[13]。就一般意义而言,老客户原本会获得新顾客享受不到的优惠,然而有报道称价值300元的酒店房间,老客户在APP上却要花费380元[14]。这种差异化定价使消费者在同等质量和数量的产品交易中并未获得公正的待遇,是对消费者公平交易权的侵害。除此之外,消费者在电商平台浏览过相关商品之后,打开其他APP时也会收到相关商品的广告推送,这实际上是平台利用算法将搜集到的用户数据在不同平台之间进行共享,借此进行相关推送,损害用户的隐私权。
谷歌公司开发出一款名为PageRank的算法。与淘宝类似,该算法根据卖家的信誉度、销量等因素对平台商品进行赋权,对产品从高到低进行排序,从而对网页进行筛选[15]。权重大的网页得到靠前推送的机会,权重低的网页自然排序在后。Google Shopping服务进入欧洲市场后,将自己的商品业务排除在PageRank算法的审核范围外,并且将自己旗下的商品信息置于搜索页面顶部。谷歌这种滥用市场支配地位,利用算法进行流量阻截以达排除、限制竞争效果的做法,已然构成对其他经营者竞争性利益的侵害。
Datta等[16]研究了求职者性别与广告推送的关系。研究发现,谷歌推送给男性求职者高薪职位的次数要远高于女性求职者。2019年,联合国教科文组织发布的建议书《如果我能,我会脸红》指出,性别歧视隐藏在亚马逊语音助手Alexa、苹果语音助手Siri等多数AI语音助手中,而且这些语音助手都被算法设计为千篇一律、谦卑恭顺的女性形象[17]。除此之外,Zhao等[18]研究发现,男性照片被识别为女性的原因是照片中的人物在忙家务。
前文所述的种种算法歧视,也间接产生了诸多不利后果。首先,算法歧视加剧了数字鸿沟。作为人工智能时代的特有产物,算法歧视将特定群体排除在人际交往之外,当这些群体在数字信息供给能力、获取能力、应用能力上分别或均处于缺乏状态时,他们会陷入数字贫困状态[19],继而进一步扩大社会贫富差距,加深既有偏见。其次,算法歧视不利于人工智能产业的长远发展。人工智能的健康发展有赖于人机关系的相互信任,而算法歧视将会破坏这种信任关系。
歧视并非算法社会的专利。作为人类社会的附属品,早在人工智能诞生之前,歧视现象就已广泛存在于人类社会[20]。步入算法社会之后,算法开发者的内隐偏见嵌于算法、数据偏差、算法黑箱中,为歧视持续注入生成动力。
内隐偏见是在信息匮乏、主体经验以及惯性思维等因素影响下,形成的可自动表达的对他人或者群体的片面的看法[21]。诚如一万个人眼里有一万个蒙娜丽莎,受所受的职业教育、所处的家庭背景等影响,算法工程师对同一事物形成的印象存在差异,基于个人主观的看法不可避免存有片面性。而出于维持积极的自我认同及维护尊严的需要,算法工程师倾向于将贬义的刻板印象赋予外群[22]。然偏见与歧视不可同日而语,内隐偏见需要以一定的方式外化方可构成歧视。如果算法工程师在进行算法的编写过程中将自己的内隐偏见以代码形式嵌于算法中,势必会造成严重的算法歧视问题。无论是算法引发的种族歧视还是就业歧视,归根结底都是人类思想所主导的算法歧视,而不是算法技术所带来的必然后果[23]。
数据偏差是算法歧视产生的另一途径。有学者称算法是机器学习的结果,而机器的学习远不能离开对数据的搜集,故数据偏差同样会引起算法歧视。
在大数据时代,数据通过被动、主动、自动三种途径产生[24],每个人都可能成为数据的生产者。根据艾媒数据中心《2020年中国主要网络直播平台用户年龄分布》,以哔哩哔哩视频网站为例,18岁以下用户占比25.1%,19~24岁占比56.4%,25~30岁占比4.9%,31~35岁占比2.3%,46岁以上占比4.7%[25]。据此可知,观看直播的用户主要为青少年,老年人较少。当这些直播电商平台利用算法搜集这些用户生成的数据自动化决策时,即使算法设计极具公正性,由于所选取的样本数据分配不均,也会出现自动化形成的决策对老年不公的现象。
此外,对于自主学习算法而言,人类开发机器学习算法是为了通过对数据的搜集与学习,提高机器在学习过程中输出结论的准确性与高效性。但目前市面上一些机器学习算法并不具备信息甄别与过滤功能[23]66,导致机器学习算法将带有歧视性数据也搜集起来,进而产生“偏见进、偏见出”的现象。意即其能解决提高效率问题,却不能避免历史数据本身造成的缺陷[26]。
黑箱理论源于控制论,是指在人类对系统开展研究时,不针对系统,而仅仅依据输入和输出结论分析相关规律,即人类把系统作为一个看不透的黑色箱子,该系统为人不知、不能打开也不能从外部查知[27]。在信息技术领域,黑箱是指当技术专业人员对计算系统进行理解或测试时,他们不知道且不能查看系统的内部运转情况[28]。因此,从这个意义上来说,算法黑箱是指算法运行过程中出现的复杂且专业性极强的环节,而部分人对此环节也无法得到解释。诸多企业将算法作为商业秘密进行保护,用户不能知悉算法运行的工作原理,由此推动算法黑箱的形成。当用户仅知悉算法结果,而对初始数据的搜集、自动化决策的算法运行规则并不知情时,此种严重的信息不对称现象会导致算法歧视更加隐蔽而不易被查知。
如前文所述,算法歧视带来了诸多不利后果。为了充分保护公民权益,促进人工智能产业健康发展,亟需对其规制。数据和算法为人工智能的两大核心,针对算法歧视的规制,欧盟形成了个人数据赋权的严格保护模式,美国形成了以算法问责为中心的模式,而日本建立匿名加工信息制度以对抗数据的滥用。
1953年,《欧洲人权公约》对个人数据的保护做出规定,其中第8条规定“人人有权享有使自己的私人和家庭生活、住所和通信得到尊重的权利”,这一条款后经欧洲人权法院解释将个人数据纳入隐私权的保护范围[29]。随着大数据的发展,传统隐私权保护路径已然不能应对数据滥用对公民个人数据保护的冲击。直到2000年,作为一种新兴的权利,个人数据保护权才被写入《欧盟基本权利宪章》,但其仅仅是原则性规定,此时个人数据保护权仍未与隐私权相分离。直到2018年5月25日,欧盟的《一般数据保护条例》(GeneralDataProtectionRegulation,GDPR)才彻底将个人数据保护权与隐私权相剥离。
GDPR在前言部分对算法歧视概念做出相应界定,并后续规定了一系列规制算法歧视的方法。GDPR规定“数据控制者应当采用合适的数学或统计程序进行数据画像活动,确保个人数据安全,防止因为种族、政治主张或者性取向等原因对自然人造成歧视影响”[4]67。基于此,有学者将欧盟GDPR规制算法歧视的基本原则称为“数据清洁”,具体规定见GDPR第9条,“揭露种族、宗教信仰等资格,及出于识别自然人身份目的,处理基因数据、或与自然人的健康、性生活等个人数据相关的个人数据处理活动应被禁止”[4]67。此外,GDPR赋予数据主体访问权、删除权、可携权、被遗忘权、算法解释权等权利,试图以个人权利限制算法权力的扩张进而达到对算法歧视的抑制效果。
为了更好地贯彻落实GDPR,欧盟通过了《关于自动化个人决策目的和识别分析目的准则》(GuidelinesonAutomatedIndividualDecision-MakingandProfilingforthePurposesofRegulation2016/679),其在附录一的“良好实践经验”中针对GDPR第22条的“适当安全保障措施”提出了算法审计,即“数据控制者应检测使用的和机器学习发展出的算法,以证明其是在按照实际运行,并且没有产生歧视性的、错误的或不合理的结果”(1)参见Guidelines on Automated Individual Decision-Making and Profiling for the Purposes of Regulation 2016/679:ANNEX 1-Good practice recommendations。在此需厘定的是该条款仅仅是对自动化决策的特殊规定,即对GDPR第22条规定的应当采取的安全保障措施做出的阐释,未脱离GDPR的个人数据赋权模式的范式分析。
1986年,美国《电子记录系统和个人隐私》已充分意识到治理算法歧视的必要性,其明确指出政府部门画像的使用引起了算法歧视等重要的隐私和宪法问题,但当时并未有任何针对此种问题的立法。1974年通过的《平等信用机会法》已包含禁止算法歧视的相关内容。该法规定,“在信贷交易方面,因种族、国籍、性取向等的差异而歧视相应信贷者即为非法”[30]。然而在相当长一段时间内,美国针对算法歧视的治理立法一直停滞不前。2014年,美国白宫发布《大数据:抓住机遇,坚守价值》报告。报告称,受数据偏差、算法设计者主观影响,算法自动化决策往往会对特定人群带来歧视损害,建议政府采取行动应对算法歧视[31]。2017年8月,纽约州率先通过算法问责法案,紧接着2019年华盛顿州亦通过相关的问责法案。2019年4月,美国国会引入《2019算法问责法案》,该法案的第一部分旨在规制算法黑箱中的歧视,具体路径即授权美国联邦贸易委员会要求受监管的企业自行审查算法歧视[4]69。2022年2月,美国几个民主党参议员推出《2022年算法问责法案》,该法案为《2019年算法问责法案》的更新版本。该法案要求科技企业在运用自动化决策系统做出关键决策时,对歧视性、有效性和相关因素进行自我审查。此外,该法案另规定联邦贸易委员会开发一个自动化决策系统的公共存储库,里面包括自动化决策系统的源数据、参数以及对算法自动化决策提出质疑的记录,并建议联邦贸易委员会增加工作人员,成立一个专门的技术局来执行该项立法。由此可见,美国针对算法歧视选择了以问责为中心的规制路径,成立专门的监管机构对被监管的企业具有审查追责的权力。虽然对算法进行问责尚未在美国全域展开,但美国的做法可为世界各国治理算法歧视提供宝贵的经验。
日本《个人信息保护法》并非以欧盟对个人数据赋权的路径对个人数据提供保护,而是在赋予数据某种公共物品的属性以促进数据资源流通时,建立“匿名加工信息”制度以兼顾保护与开发二者之间的关系。虽然对于匿名加工信息的使用不需经过相关主体的同意,但为了避免相关信息被用以实施歧视性算法决策,日本对数据控制者科以严格的法定义务:第一,妥善加工义务,如删除可识别特定自然人的特征信息;第二,安全管理义务,如防止匿名加工的相关信息泄露;第三,公示义务,如经营者应当将拟实施的匿名加工信息或者将此等信息提供给他人的情况予以公示通知;第四,禁止识别义务,即禁止反向清洗匿名信息—利用匿名加工所得信息实施识别特定自然人的行为[32]。
综上所述,欧盟、美国、日本分别基于各自的背景形成了各具特色的算法歧视规制模式。欧盟的“数据清洁”虽然可以防止基于种族、性别、健康信息等因素实施的直接歧视,但是其在面对算法基于关联数据实施的间接歧视行为面前则显得成效不足。日本的“匿名加工信息”制度与欧盟“数据清洁”模式有异曲同工之处,但日本对数据控制者科以严格的法定义务,在一定程度上可缓解基于关联数据实施的算法歧视行为。美国《2022年算法问责法案》规定的算法审查问责制度可以较好地解决基于直接数据及关联数据实施的歧视行为,但该模式不可避免地使公民在算法运用中处于被动的地位。
当下,我国人工智能产业尚处于新生阶段。规制算法歧视,除了参考借鉴域外模式,更重要的是立足于我国的基本国情,结合欧、美、日算法歧视治理的范式,形成算法治理多元规制的中国模式。
1.赋予数据主体算法解释权
抑制算法歧视首先应赋予数据主体算法解释权。由于算法黑箱的存在,算法平台与用户之间存在严重的数据差,为算法歧视注入生成动力。为了破解算法黑箱给用户带来的歧视性问题,应当肯定数据主体的权利:当数据主体认为算法决策与自己的预期存有偏差且该决策关涉自身合法权益时,要求对算法的工作原理进行解释的权利。姜野等[33]认为,算法解释权不仅使用户拥有知悉算法真相的权利,而且当算法存在不合理或数据偏差时民众有救济的权利。虽然我国《中华人民共和国个人信息保护法》第24条涉及算法解释权,但其规定过于模糊,适用起来较为困难。因此,赋予数据主体算法解释权需要明确其具体内容:算法解释权的权利主体应为自然人;义务主体应为算法开发者与算法应用者;权利内容为要求对不涉及商业秘密的算法运行原理进行公开解释。在人工智能时代,算法对于互联网企业来说极具商业价值。为了避免不法行为人滥用算法解释权而侵害他人的商业秘密,有必要对算法解释权进行一定的限制,即对于涉及企业商业秘密的核心算法代码,权利主体不能要求义务主体公开,否则既违反了公平原则,也容易滋生不正当竞争行为。
2.建构算法审查制度
规制算法歧视,更重要的是建构算法审查制度。美国在公布《2019年算法问责法案》之前,学界主张推动算法透明化以应对算法歧视行为。我国《关于加强互联网信息服务算法综合治理的指导意见》的第十三条(2)《关于加强互联网信息服务算法综合治理的指导意见》第十三条规定:推动算法公开透明。规范企业算法应用行为,保护网民合理权益,秉持公平、公正原则,促进算法公开透明。及《互联网信息服务算法推荐管理规定》第十二条亦规定推动算法透明(3)《互联网信息服务算法推荐管理规定》第十二条规定:鼓励算法推荐服务提供者综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响,预防和减少争议纠纷。。笔者不太认同此做法。根据2020年颁布的《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》的司法解释(4)《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》第一条规定:与技术有关的结构、原料、组分、配方、材料、样品、样式、植物新品种繁殖材料、工艺、方法或其步骤、算法、数据、计算机程序及其有关文档等信息,人民法院可以认定构成反不正当竞争法第九条第四款所称的技术信息。,算法、数据被认定为商业秘密。算法对于平台来说极具商业价值,如果强行要求企业公开算法,不仅会侵犯企业的商业秘密,还会滋生不正当竞争行为。构建算法审查制度将知悉算法的主体限定在一定范围之内,可以缓解商业秘密保护和用户知情权之间的矛盾。为此,美国《2022年算法问责法案》规定企业应自行对算法进行审核并报告给联邦贸易委员会。欧盟在《关于自动化个人决策目的和识别分析目的准则》中亦提出数据控制者要进行算法审计的实践建议。我国《互联网信息服务算法推荐管理规定》也规定算法推荐服务提供商应自我定期审查。笔者认为,受逐利思想的驱使,企业的自我审核对规制算法歧视恐怕难以起到良好的效果。
因此,构建完善的算法审查制度应包括三个方面:第一,企业的自我审查;第二,行业协会的自律审查;第三,行政机关的监督审查。首先,就企业的自我审查而言,其在开发应用新的算法之前,应主动审查该算法是否会造成歧视以及数据有无偏差,并将该审查报告向行政机关进行备案。其次,对于互联网相关行业协会而言,应制定该协会算法审查的相关规则,可以将通过行业协会算法审查作为协会的准入门槛。最后,对于行政审查而言,应由行政人员、算法技术人员、法律工作者、消费者等人员共同组建行政主导的算法审查委员会,不定期对市场运行算法进行审查,并将算法审查结果纳入企业信用系统[34]。
3.进行算法问责
对算法进行问责,即通过问责制,将由高交易成本造成的外部性内部化[35]。一方面,当用户因算法不公受到伤害时,应鼓励用户通过行使诉权的方式向法院提起诉讼进行救济;另一方面,通过对算法平台进行追责,对其科以赔偿责任以弥补算法用户受到的伤害。而当下,我国《中华人民共和国宪法》《中华人民共和国妇女权益保障法》等仅以宣示性条款禁止各种歧视,对算法歧视规制缺乏实际可操作性与可诉性。为了切实维护公民的合法权益,可以将公益诉讼制度引入算法歧视的规制体系中,即赋予检察院或者其他行政主体或组织在特定群体因算法歧视遭受侵害时向人民法院提起公益诉讼的权利。
此外,在对算法进行追责时,虽然我国《关于加强互联网信息服务算法综合治理的指导意见》指出企业应对算法应用的后果承担责任,但是此条款缺乏配套性措施,故需要明确算法歧视的责任主体、算法歧视行为与损害之间的因果关系、归责原则以及责任方式。首先,就算法歧视的责任主体而言,虽然歧视由算法造成,但是仍应由人来承担算法责任,即由算法开发者与算法使用者承担责任。至于算法开发者与算法使用者应当承担何种责任,则需要根据算法具体的应用场景不同而做出不同的规定。其次,针对算法歧视行为与造成损害之间的因果关系判断,应采取相当因果关系的认定标准[36]。再次,就算法歧视的归责原则而言,由于人机之间关系的不对等使算法用户处于一种弱势地位,应采取无过错责任原则。但是,为了平衡公民权益保护与人工智能产业发展之间的矛盾,应肯定算法责任主体存有免责事由。从这个角度来说,《中华人民共和国产品质量法》提供了值得借鉴的思路:如在算法设计之时,算法经过多方主体审核认证不存在偏见,而歧视现象在现有科技水平下不能发现的,那么算法开发者与算法运用者应当获得免责事由。最后,针对算法歧视的责任,需要根据歧视的具体场景决定责任主体的责任方式,包括但不限于民事责任、行政责任甚至刑事责任。
算法歧视是算法技术滥用所导致的不良后果,因此,利用技术手段规制算法歧视是另一重要的途径。技术规制不仅是一种理论,也具有具体实践的基础。欧盟GDPR在“控制者责任”部分要求数据控制者应采取适当的技术措施以决定处理方式[37]。就技术规制而言,首先,应扩大算法数据采集维度以应对数据偏差问题,利用技术从源头扩充数据的可选择范围,扩充数据搜集维度[5]48。其次,应推动开发具有反歧视意识的数据挖掘技术。再次,利用技术手段提高算法运行过程的透明度,避免算法黑箱的产生。最后,算法开发者在研发算法产品时应对相关算法应用类型涉及的数据安全、个人信息保护、消费者权益保护、反垄断等要求进行全面考量,并根据现行法律法规要求进行算法开发设计。鉴于算法工程师对法律要求的理解可能不符合法律的本意,则需要法律工作者与算法工程师通力合作开发出符合法律要求的算法技术。
罗尔斯[38]认为,社会公正是一个社会制度的首要价值,而公正亦是当下中国人民努力追求的崇高价值之一。党的十八大报告提出“倡导富强、民主、文明、和谐,倡导自由、平等、公正、法治,倡导爱国、敬业、诚信、友善,积极培育和践行社会主义核心价值观”[39]。规制算法歧视不能忽视社会主义核心价值观的引领作用,要大力弘扬社会主义核心价值观,积极引导算法工程师树立公正的算法意识,引导算法工程师将公正理念嵌于算法之中。算法使用者亦要牢固树立公正意识,不欺诈、不偏袒,从而构建信任的人机关系,推动人工智能产业的健康发展。执法人员亦要坚守法律底线,恪守公正道德,将公正理念贯彻落实于算法歧视治理的全过程。
作为人工智能核心技术之一,算法在造福人类的同时亦带来不可忽视的算法歧视问题。算法歧视给人类社会带来诸多不利后果,有必要对其进行规制。作为人工智能的先行者,欧盟、美国、日本分别形成了规制算法歧视的不同模式。由于我国尚处于人工智能的发展阶段,规制算法歧视要立足于我国的基本国情,借鉴域外模式,从法律、技术、社会规范三重维度形成具有中国特色的算法歧视规制范式。