(吉林大学 法学院,吉林 长春 130012)
我们正处于移动互联网加速向智能互联网时代转型的关键期。Gartner公布的 2017 年重大科技发展趋势也表明:“未来将是以智能为核心、通过数字化实现万物互联的时代”。[1]也就是说,借助人工方法进行智能操作的“互联网 +”时代升级到一个将人工智能与互联网结合更广泛地连接万物、更自主地捕捉信息、更智慧地分析信息、更精准地进行判断、更主动地提供服务[2]的互联网转型升级新时代——智能互联网时代。智能互联网本质上是人工智能技术强化支撑的互联网,自主算法将越来越左右着智能互联网,而悬而未决的算法治理难题,将在互联网的联结网状结构中迅速放大、无界扩展、问题歧生。
算法是人工智能决策的基础,进入智能互联网时代,算法将主宰着我们的生活并统治世界。在这种“算法时代”,在我们所能想象的任何领域,包括个人理财、医疗保健、招聘、住房、教育和政策等领域,算法都是人类决策的新权威,其影响力在互联网联结中将呈指数级增大,它决定着针对我们的新闻和产品的推荐、是否被雇佣或被解雇、贷款请求是否能得到批准,甚至帮助公共机构决定监视和逮捕潜在威胁安全的犯罪人员。然而,在“互联网 +”时代的针对目标广告和其他在线服务的系统中已经暴露多年的算法歧视诸问题,在人工智能接管的智能互联网时代,自动算法的不透明性、可解释性差和无问责性,加上互联网的万物互联功能的期待,算法歧视必然还是一个算法治理的重大问题。关键问题是很多国人对算法歧视还不甚了解,对算法还停留在算法是客观的、公正的,算法可以重塑一个更加客观的现实世界的观念层面上,这可能与我国是一个歧视低敏感度的国家有关。学界对此问题研究也甚少[注]现今人工智能研究学术热度高、热量大、热能扩散快,呈现出一哄而上、“土匪抢山头”的学术研究态势。而吊诡的是,学界对于现今人工智能领域面临的最大问题的原因所在算法歧视,却是炙热中“内部受冷”,这种“逐末舍本、钻天打洞”的学术悖反现象是值得深思的。学术期刊(包括人文社会科学期刊)应建立信息技术伦理和人权审查机制,坚持人性尊严本位原则,防止算法歧视。关于人工智能学术研究的“土匪抢山头”说,参见杨学科《论人工智能时代的法学教育新挑战、新机遇和新模式》,载《法学教育研究》,2018年第4期。,但这并不代表不是一个值得研究的学术问题,恰恰相反,在未来的智能互联网时代,“知识极易扩散,科技伦理失灵尤为严重”[3],这将是一个相当重要的问题。借用美国斯坦福大学人工智能专家杰瑞·卡普兰(Jerry Kaplan)的比喻延伸一下:“机器学习对于互联网而言,就像是鱼和水的关系一样,对鱼来说就是要在汪洋大海当中游泳。”[4]算法相当于鱼儿最重要的呼吸器官鱼鳃,鱼鳃要通过过滤数据海水来呼吸,算法歧视相当于水不干净了,鱼鳃黑了,这样鱼儿也不可能健康了。“养鱼先养水,治病先治鳃”,鉴此就可知道算法歧视治理的重要性了。
算法是计算机科学领域的一个专业术语,指的是“有限、抽象、有效并且符合规律的复合控制结构,在一定的规则条件下完成特定的目的”[5]。在一定程度上,算法就是一组用来产生输出的指令:用于决策的方法,用于寻找解决方案。在算法规则下,给定初始状态或输入数据,能够得出所要求或期望的终止状态或输出数据。智能互联网时代的算法更进一步,可以自主地根据统计模型或决策规则进行决策,而不需要明确的人工干预。这种智能算法的自主决策系统,被认为能够为人类社会生活中的各种决策和事务提供彻底的客观性、可靠性、公正性。但在理论和实践上几乎可以肯定的是,智能算法将会加速并放大现有的人类偏见、歧视观念。
讨论歧视的前提和研究共识是歧视在道德上是错误的,而且在广泛的情况下,也应该是被法律禁止的,算法歧视亦然。对于算法歧视的定义,笔者所及资料范围内尚未见到一个,为了后文讨论的必要,笔者不揣浅陋,把算法歧视定义为算法在编码、收集、选择或使用数据训练时,会出现直接或间接基于种族、肤色、性别、宗教、政治见解、民族、血统或社会出身等的区别、排斥或特惠的偏见现象。
世界范围内,对算法歧视最早的讨论应该始于1996年,美国学者巴蒂亚·弗里德曼(Batya Friedman)、海伦·尼森鲍姆(Helen Nissenbaum)基于实际案例探讨了计算机系统中存在的三种类型的偏见:现有的、技术的和紧急的。偏见的根源在于社会制度、实践和态度。技术偏见源于技术限制或考虑因素。紧急的偏见是在使用的环境中产生的。[6]2016年9月,国际权威学术刊物《自然》发表题为《大数据算法需要更多责任》的社论文章,文章指出,算法既带来了信息和方便,也造成了很多隐性的不平等,甚至是偏见,对算法简单过度的依赖存在严重缺陷。[7]2017年4月,美国《科学》杂志刊登的一项研究成果,通过词向量事实联想测验(WEFAT),从科学上证明计算机也可以产生偏见,尤其是当计算机向人类学习时。当智能算法通过分析处理人类书写的文本来学习词句的含义时,他们也会获得类似于人类偏见那样的刻板印象。[8]谷歌的照片应用程序曾将黑人的图像标记为大猩猩。谷歌的在线广告系统曾经更倾向于向男性展示高收入工作,且频率远高于女性。Facebook曾被指控其允许广告商在其广告中通过房屋进行种族歧视。哈佛大学的一项研究发现,网页搜索中搜索那些听起来很像黑人的名字比那些听起来很像白人的名字更有可能触发犯罪记录内容。[9]2016年非盈利新闻机构ProPublica的一项调查发现,用来预测未来罪犯的软件对黑人有偏见,白人被告比黑人被告更容易被贴上低风险的标签。[10]当算法存在歧视,会产生有碍人性尊严的后果,算法歧视治理也要循序渐进,我们没理由相信算法歧视会在智能互联网时代突然消失。鉴此,往下的探讨也就存有必要性和意义了。
上文已述算法事实上能够做出可能歧视特定人群的决策,理论上算法公平问题广受关注。对于产生算法歧视的原因,笔者认为主要包括内置性编码凝视,有限、不相关或不正确的训练数据,算法黑箱建模方法的歧视或三者的不同组合。按照引言部分的鱼儿比喻,内置性编码凝视,有限、不相关或不正确的训练数据相当于水被污染了,而算法黑箱建模方法的歧视是鱼鳃黑了。这种契喻尽管不甚完美,但有助于本文的科学术语理解。
1.内置性编码凝视
算法是编程人员的主观判断和选择,带有很强的意识形态成分,“本质上存在价值负荷,不同价值判断的人会设计出不同的算法来解决问题”[11]。算法的输出结果将始终反映出构建它们的人的设计选择。在算法中,数据的采集、标注和算法的设计往往负载着价值,可能会把设计者自己持有的偏见嵌入智能算法之中,所以,在某种程度上,算法是嵌入在代码中的观点,也内置性反映了人类的偏见。正如腾讯研究院曹建峰先生所言,在本质上,算法是“以数学方式或者计算机代码表达意见,包括其设计、目的、成功标准、数据使用等都是设计者、开发者的主观选择,设计者和开发者可能将自己所怀抱的偏见嵌入算法系统”[12]。而智能互联网时代的智能算法可能会固化或扩大歧视数据,即偏见进,偏见出,有偏见的数据可能又成为新的训练数据样本,污染的数据又产生了污染的结果,来回反复,形成“自我实现的歧视性反馈环”。这种将我们个人固有的偏见嵌入到代码系统中的偏见,也被称为编码凝视(Coded Gaze)。
一个有偏见的世界会导致有偏见的数据集,反过来,也会产生偏见的智能算法决策结果。内置性编码凝视可以是无意识的自我偏见添附,真正恐怖的是一种故意歧视、直接歧视,有意而明确地制定排除或偏好的算法,特别是个人的恶意歧视行为融入数据集,诸如对法律明文禁止歧视的“受保护的类别”(如性别、种族、宗教或年龄)进行歧视,还有就是掠夺性的借贷行为,住房供应的富人转向,拒绝银行或保险业务等。
2.有限、不相关或不正确的训练数据
正如《数学毁灭武器》的作者凯茜·奥尼尔(Cathy O’neil)认为的那样,“大数据过程将历史编纂成书。”[13]算法并没有发明未来,算法的大规模数据挖掘的一个关键假设是过去的趋势会继续下去,是基于识别模式和从已有的历史数据“学习”,历史数据用来告知未来的决策和预测。问题就恰恰在于这些历史数据。算法本身是定量的,有限、不相关或不正确的内在使用的数据源都可以反映甚至放大历史歧视。有限乃至缺乏的数据,代表着数据样本代表性不足或存在偏差,例如用不代表整个种群的数据而输出的算法结果,很容易将对历史上被忽视的少数群体、穷人和老年人的偏见持续化,2014年白宫大数据报告中承认了这种歧视的可能性[14]。不相关的训练数据,如在一些情况下,教育背景可能是“社会噪音”,因为申请人参加的学校可能无法准确预测特定职位的适合度或技能。不正确的训练数据,包括选择不当,如农村老人手机使用率调查数据集,只观察智能手机用户,不观察非智能手机用户。还有就是保持和促进历史偏见的训练数据,如对女性与护士、男性与医生、男性与建筑师、女性与室内设计师之间的刻板化等同,一些数据点我们认为是“中性”的,如住房状况、教育水平、信用评分、甚至犯罪记录等,实际上是假设忽略元素的种族不平等,这些歧视数据的输出亦为歧视性数据,将历史性的、持续的间接歧视固化或扩大。例如微软的Cortana、谷歌Now、苹果的Siri等智能语音助手几乎都默认为女性声音,这反映了一种危险的性别刻板印象:女性比男性更温柔、顺从和乐于助人。
基于有限、不相关或不正确的训练数据的算法歧视主要表现为间接歧视,这通常不是一种直接的声誉侵害灾难,但它可能是严重的法律和道德上的错误。可以借鉴的是,美国最高法院的格里格斯诉杜克能源案(1971年)产生的差异影响原则,仍然对此类算法歧视有重要甄别作用。
3.算法黑箱建模方法产生的歧视
当今的算法最难解的问题是算法的黑箱性质问题。迄今为止,学界没有任何理论完美解释算法黑箱问题,尽管不时有“信息瓶颈”[15]等有望打开算法黑箱的新理论出现,但智能互联网时代,人工智能越来越依赖的深度学习(主要是神经网络)的自主算法问题依然是复杂的、不可预测的、难以解释的,甚至包括开发操作人员也不能完全理解自主算法输出是如何产生的。像最热的智能算法神经网络学习算法,其非显式编程,而是隐藏的自我学习、自我编程,可以轻松拟合万维以上的函数,但超过了二十维函数人类就难理解了,所以,向我们解释这种算法的困难,就如同哥伦比亚大学的机器人学家胡迪·利普森(Hod Lipson)所比喻的那样,“在某种程度上,这就像是向一只狗解释莎士比亚是谁。”[16]
智能算法黑箱,中间过程不可描述,其通过关注不成比例的数据寻找相关性(哪怕是隐藏的),因降维挖掘,一些令人不安的隐性歧视也容易被智能算法捕捉。如将女性与家庭、艺术、人文职业关联,男性与数学、工程相连,欧美人与“礼物”等快乐词汇勾连,非裔美国人与不愉快词语相连。也就是说,智能算法黑箱可以从某些表面不敏感但存在某些敏感特性的数据中挖掘、勾连、建立相关性,如邮政编码可能与种族、大学专业、性别、健康和社会经济地位有很大关系。因为你的朋友和家人有犯罪记录,所以你很可能会被智能算法黑箱推算为一个惯犯。智能算法黑箱的歧视很难控制,正如梭伦·巴洛克斯(Solon Barocas)和安得烈·什比特(Andrew D.Selbst)在《加州法律评论》中发表的文章《大数据的不同影响》中写道:“即使在数据挖掘人员非常小心的情况下,他们仍然可以通过模型来影响歧视性结果,而这些模型在无意中会为受保护的类别挑选代理变量。[17]已诞生的微软推特(Twitter)机器人“泰”(Tay)即为显例,从与其沟通的人那里学习,在数小时内成为一名种族主义者。可见,即使指导算法的参数是完全合理的,算法歧视还会莫名其妙地产生,这是现阶段我们期待的数字科学主义的无奈与暗伤。
早在1999年,哈佛大学的劳伦斯·莱斯格(Lawrence Lessig)就告诉我们,“代码就是法律——系统的体系结构,以及运行它们的代码和算法,都可以对自由产生强大的影响。”[18]算法这种新技术,远非一种现代科学中立工具,其以特殊的决策形式、新的认识论的化身、新的意识形态载体的方式体现、表达和融入特定的文化,并塑造我们如何按照这些文化的假设来进行优先次序的生活。我们无时无刻都会感受到算法和以数据为中心的压力,特别是“编码凝视”或“数学毁灭武器”的力量正在暗里使劲——帮助决定谁被雇佣,能否获得贷款,给老师和学生打分,排序简历,评估工人,监控我们的健康,甚至决定某人在监狱里呆多久,最终输出结果会不公平地限制机会、限制服务,甚至产生算法红线[注]在美国,红线(Redlining)是指根据某些地区的种族或民族构成,直接或通过有选择地提高价格向这些地区的居民拒绝提供服务的做法。最著名的红线案例涉及拒绝银行或保险等金融服务等。红线的做法被美国国会定义为非法。算法红线(Algorithmic Redlining)是一种数字歧视形式,与长期的“红线”做法密切相关。它通常是在人们不知情的情况下通过数字化机制(算法、自动化和人工智能排序等),定位或排除不喜欢的对象。它会产生、维持或加深种族、族裔和性别歧视等,也会影响与社会中的商品和服务分配密切相关的教育、住房和其他公民权利。例如2016年亚马逊因未向许多社群提供Prime当日送达服务而受到指责,这些社群主要是非裔美国人,收入低于全国平均水平。。2018年“大赦国际”出台的《关于保护机器学习系统中的平等和不歧视权利的多伦多宣言》详细列数了算法(机器学习)系统歧视对人权的影响,认为其会影响广泛的人权,例如平等权、隐私权、言论自由权、参与文化生活权、获得救济权和生命权等。
在道德伦理上,算法歧视也是错误有危害的,尽管其可用机器经验主义的外表掩饰这种不公平,但结果会更糟糕。首先,算法越来越多地用于确定资源的分配,算法歧视恶化了分配不公。例如商业算法运作普遍推行“动态差异化定价”,表现在我们消费者身上就是算法杀熟,购买次数越多价格越贵,这是典型的消费歧视。还有我们浏览一个网页或商品后,算法会重复性推荐关联内容的网页,乐之者,以为天下如此甚好正合我意,实际上重复性内容已在信息茧房的基础上生成算法贿赂;恶之者,低俗下贱居然如此羞辱我意,实际上这种骚扰性内容已在腌臜不堪基础上歧视人格,两种都是典型的信息歧视,后者容易造成被互联网活动家伊莱·帕里泽(Eli Pariser)称为“过滤泡沫”(Filter Bubbles)的危害。其次,算法正越来越多地被用来做那些会严重影响人们生活的政府决策,特别是公共安全算法(作为规则的算法)所产生的算法歧视会造成难以弥补的实际损害。公共安全算法决定你是否有恐怖嫌疑,其依据可能只是你与某恐怖大亨同名,不幸的是你可能会无辜的因疑似恐怖分子被羁留检查,次数可能是屡次,此例美国已多次发生。这在预测性警务、累犯风险评估、刑事风险评估等公共领域表现尤为明显。最后,偏离核心文化和社会准则的算法歧视会自我强化,会形成恢复旧社会隔离形式的“算法身份政治”[注]算法身份政治恢复旧形式的社会隔离。在数字世界中,身份政治是模式歧视,通过识别输入数据中的模式,人工智能算法产生偏差并实践种族排斥,从而将权力关系铭刻到媒体中。 CLEMENS APPRICH,WENDY CHUN H K,et al.Pattern discrimination[M].Minneapolis:University of Minnesota Press,2018:118.,形成“黑箱社会”。凯茜·奥尼尔在《数学毁灭武器:大数据增加不平等和威胁民主》中警告,算法存在着不透明、可扩展且不公平的特点,可能会把我们引入歧途:强化针对穷人的歧视、强化种族主义和扩大不平等。[19]我们知道偏见引起歧视,只有在某些带有偏见的信念是正确的情况下,歧视行为才有可能被证明是正当的。问题的关键即在此,算法不会区别“无偏见的理由”,现阶段不存在道德想象力,其会产生基于污染的数据持续地强化、增强偏离核心文化和社会准则的算法歧视。
算法不是完美的,所以简单地服从于算法统治不能解决算法歧视问题。对于算法歧视的治理,域外已经从技术和制度两个层面展开,有丰富的经验可资借鉴。
域外技术治理层面上,通过算法反歧视、审计、监管工具的设立来关注算法所带来的潜在偏见和歧视风险。威斯康辛大学学者合作开发了用于测量和修复偏差的工具FairSquare[20]。卡内基梅隆大学的研究人员已经开发出一种用于检测不透明的算法偏差的新系统“定量输入影响”(QII)。[21]华盛顿大学计算机科学教授马可·图里奥·里贝罗(Marco Tulio Ribeiro)提出的“局部可理解的与模型无关的解释技术”(Model-Agnostic Explanations;LIME)框架,有助于理解不透明算法生成的预测。[22]前述的凯茜·奥尼尔推出了一个名为ORCAA的算法审计咨询公司。麻省理工学院媒体实验室公民媒体小组的研究员乔伊·不莱梅温妮(Joy Buolamwini)建立了算法正义联盟,并采用技术手段监测机器学习算法中的偏见。
在域外制度层面上,早在2014年5月,美国白宫就发布了《大数据:抓住机遇,保存价值》,呼吁重视自动化决策中的歧视问题。2016年1月26日,法国国民议会投票支持一项关于数字权利的新法案。该法案包括有关算法透明度和“忠诚”(或公平)、在线平台和算法决策的义务。2017年12月18日,纽约市议会通过了美国第一个解决城市政府算法歧视的法案,该法案将指派一个特别工作组来研究城市政府机构使用算法的方式,研究使用算法决策如何影响纽约人的生活,是否系统地出现基于年龄、种族、宗教、性别、性取向或国籍等歧视现象。2018年5月25日生效的欧盟《统一数据保护条例》(GDPR)为解决算法歧视问题,提出数据无害化和算法透明性两原则,并建立了算法解释权,欧盟国家公民将有权要求“审查某项特定服务中如何做出特定算法决策”,要求算法决策的透明化。美国威斯康辛州和德克萨斯州的法院已经开始限制算法,强制要求对犯罪预测的准确性进行“警告标签”,并允许教师挑战他们的算法成绩排名。2017年1月,在达沃斯世界经济论坛上,IBM的CEO罗睿兰(Ginni Rometty)宣布了认知时代的透明度和信任的基本原则。2017年5月25日,计算机协会(ACM)公布了算法透明度和问责原则。还有,像微软和谷歌这样的互联网独角兽都已经在道德委员会的形式下采取了反算法歧视和偏见的措施。
技术的问题,技术解决。算法歧视的纠偏有赖于技术治理,特别是公平感的数据挖掘、识别和发现,以及在算法系统中测试和纠正偏差的歧视预防算法的开发。本文认为,多样性加入、透明度、问责制是算法歧视技术治理的三个维度,将有助于尽量减少算法技术层面的歧视风险。
首先,多样性加入。歧视本质上是对“异己”的排斥,如前所述,算法歧视原因中内置性编码凝视,有限、不相关或不正确的训练数据两种原因中,如果能融入多样性,可以在一定程度上减少歧视诱发因子。我们此处所说的多样性,包括研发人员和数据多样性两种。多样性加入,最好是算法的每个阶段都融入多样性。例如,只由年轻的白人男性设计和创造的算法,总是能让年轻的白人男性被排除在所有其他人之外,而研发人员多样性,多样性的性别、种族或性取向等观点都可以被慎重考量、平等对待地纳入算法,特别是一系列关键算法利益攸关者(包括潜在的算法影响主体)的加入。在算法数据集里,少数群体通常是被低估的,这是一个普遍问题。数据多样性的加入,或采取主动的方式调整算法以纠正偏差,是确保不同种族的人得到平等对待的技术措施之一。
其次,算法透明度。算法歧视是缺乏透明度的直接后果。计算机协会(ACM)发布算法透明和问责性七项原则,致力于解决算法歧视,开出的药方是救济和解释:对算法决策提出质疑并获得救济。鼓励使用算法决策的组织和机构对算法所遵循的程序和所做出的具体决策进行解释。[23]IEEE提出,应将透明性和问责性作为首要目标,应向个体提供向人类申诉的救济机制。欧盟的GDPR则赋予个人要求解释的权利。算法的透明性,最简单的实现途径是仔细检查算法学习的数据,防止这种潜在的基于敏感属性的歧视或歧视结果。源代码的开源,被证明对审查和分类大量数据非常有效,但对于智能算法而言,一般不能完美解释算法过程的透明度问题,还涉及到商业秘密等问题,现实意义不大。但模型、算法、数据和决策应被记录,以便在怀疑有损害的情况下对其进行审查。再有对偏见算法洞察、监管透明性的途径可使用第三方审计,算法决策的准确因果理由是可靠的审计线索。前述的FairSquare、QII和LIME都是识别发现歧视的技术工具,还有了诸如ORCAA这样的算法审计公司。
最后,算法问责制。如前所述,算法透明度对于解决智能互联网时代的智能算法的深层偏见问题,并不总是必要的或充分的,此外至今科学上都没有完美解答算法黑箱歧视问题。所以,创建算法问责制,能使公民在遭受算法歧视的时候,知道自己遭受了歧视以及如何救济。可以说,现今算法创新与监管不同步调,算法监管远远落后于编程算法创新,并且对日益增长的(已经是歧视性的)数据集监管宽松,从经验主义看来,这是令人沮丧且需要做出行动的。
问责制意味着有义务报告和解释算法决策,并减轻任何负面的社会影响或潜在危害。在计算机协会(ACM)的算法透明度和问责性七原则中,指出必须有监管机制,以纠正对个人造成的损害和在算法中发现的偏见。还有,尽管他们无法解释这些决定是如何作出的,但各机构对其算法所作出的决定负有责任。[23]所谓算法问责制,即必须有人处理算法所造成的危害,相关责任主体有解释的义务和对算法决策负有责任。在技术治理层面,算法问责制的实现,相关监管主体可通过现有数据挖掘来发现算法歧视历史记录来实现监管。相关责任主体可通过开发在不需要透明度的情况下保证问责制的技术,利用算法监督算法,各大互联网公司正在朝此方向深入研究,有望开发出系统、科学、高效的监控算法的算法。
算法歧视治理的另一机制是制度化治理,算法制度化立塑集中在算法公正。算法公正的实现主要围绕着算法公正价值观、多元共治、算法素养三个方面来进行。
首先,算法时代的算法核心价值观应确定为公正。如今的算法不甚聪明,但其已经占领了世界,未来智能互联网时代的智能算法将会开启一个全新的算法时代。在这个算法时代里,价值观和美德的主宰者不能仅仅只有科技行业,更需要广泛的社会参与、全面实用的算法系统影响分析。如凯特·克劳福德(Kate Crawford)和雷恩·卡罗(Ryan Calo)在《自然》发表评论文章批评的那样,传统上对人工智能系统的社会和伦理影响的关注有三种主要模式:依从性、设计价值和思想实验。依从性主要是指行业在部署和执行上,采取的基本步骤,坚持一套行业最佳做法或法律义务,但主要是被动的一己之力,缺乏社会公众参与。在设计价值上主要是只停留在尚未实现的如价值敏感设计或“负责任的创新 ”这样的框架内,以帮助他们识别可能的利益相关者及其价值。思想实验上过多地关注了特殊情景下诸如电车问题的假设情况。[24]也就是说,算法时代的核心价值观确立,需要社会各阶层的全面参与,以便更全面、更综合分析其对广泛社会场域的影响,而非只是停留在计算机科学的试验场域。
算法的原初价值观是重视效率而不是正确性或公平性,在某种程度上,追求算法效用最大化目标,出现了算法歧视等不公平,尤其是对某些少数边缘群体。而今,算法的价值观开始转向算法公平,希望设计出能够在不同的人群中进行公平预测的算法。我们将算法的公平性重新定义为约束优化,目标是最大化公共安全,同时满足旨在减少种族差异等的公平约束。[25]在算法公平中,公平理念应纳入算法完整链条中,算法结果公平和过程公平同样重要。在生成算法前,预处理消除数据中任何不公平的来源。在处理过程中,将公平性调整作为算法构建过程的一部分,最好的是将公平的法律和伦理模型转化为代码融入。在算法应用后,它的性能通过后处理调整使它更公平。但现在问题就在于,计算机科学家和数学家对公平性还未形成一个良定义。
其次,多元共治算法歧视。治理已经成为一种社会领域重要的概念或思考方式,现代治理理论更是强调多元主体在治理过程中展开协同治理合作。对于算法歧视治理主体应该更多样化,应由行业、政府、社会、算法本身协同共治。行业自律层面上,科技行业可以采取内部反算法歧视原则、措施,这是行业自我规制、自我监管的反算法歧视的治理策略。比较典型的例子是谷歌,在企业文化中倡导“不作恶”,在算法学习中提出了机会平等的概念,还成立了道德委员会。算法日益在其覆盖领域变成支配和控制权力的结构,这种算法权力结构需要强有力的政府干预手段(特别是硬性之治),政府可以通过制度供给、公共服务供给、共同监管、信息教育等措施规制算法歧视,教育人民算法歧视危害并支持适当的反算法歧视救济措施。在政府层面,为了削弱或者避免算法歧视,前述的美国、法国、欧盟等都已在立法甚至司法层面先行一步。社会层面上,软法之治是算法歧视治理的柔性之治,“软法为互联网时代的法治发展提供了绝佳的治理工具,而互联网时代为软法充分发展提供了广阔空间”。[26]前述的USACM和EUACM共同发布的算法透明度和问责制七原则中关于算法歧视的规制原则,就是有效约束算法歧视的软法。
尽管上文讨论的算法歧视是狭义上算法中的歧视问题。在智能互联网时代,人工智能成为自治主体、享有权利,是理论上可证的,实践中已存在赋权,[注]理论上,从后人类主义的权利平权、扩权实践,人机相容的立场,人工智能的法律权利造反能力来看,赋权人工智能权利是理论可证的。实践上,2017年沙特阿拉伯抢占先机授予机器人索菲亚(Sophia)公民身份,随后,在人工智能强国日本,“男孩”涩谷未来(Shibuya Mirai)成为第一个获得居住权的机器人。参见杨学科《论人工智能机器人权利及其权利界限》,载《天府新论》,2019年第1期。这就必然还会出现人类歧视算法这一自治主体的问题。算法自治也是理解算法歧视的新角度,智能互联网空间是由它的代码来组成,最好也应由代码来规范。这里存在着一个悖论:我们的生活世界被算法统治着,我们却要去管理算法,似乎有一种我们“抵制、反对、歧视”它们的意思。算法自治,可以解决掉人类歧视算法的这种问题,通过前述技术手段算法自治道德(公正、不伤害他人等道德规范)代码化介入,就不会出现人类自治的地位受到威胁的问题,监测算法的算法开发来实现规避、规制算法歧视,算法治理算法,这也符合哲学家伊恩·金(Iain King)制定的“自治原则”:“让人们自己选择,除非我们比他们更了解他们的利益。”[27]
最后,公民算法素养的培育。算法素养,一般是指算法的研究者、管理者和使用者所应具备的算法意识、算法能力和算法伦理等。理解有助于信任,算法的功能必须让那些它们影响的人能够理解,但智能互联网时代智能算法的问题是对于算法怎样运作,普通人不可能理解,也无能力理解,即便是吃了算法歧视的亏,可能也无从知晓,即便知道也可能不以为然,所以我们必须从公民的算法素养教育开始,公民不能充当“被算法卖了还替算法数钱”的算法文盲。公民算法素养的培育需要“革命性”的教育努力,包括美国在内的很多国家已经着手将算法教育作为基础教育的一部分。例如2016年美国总统办公室发布的重要报告《为人工智能的未来做好准备》建议全体公民准备接受人工智能教育,建议对AI 从业者进行道德教育和技术培训。[28]政府应为公民提供可获得的算法教育材料和教育资源,让公民学习算法知识和了解算法歧视。公民也应该积极主动提升算法素养,缩小算法鸿沟,促进算法公正,提升算法获得感和幸福感。值得关注的是,我国也开始重视算法素养的培育,《新一代人工智能发展规划》鼓励实施全民智能教育项目,中小学阶段设置人工智能相关课程,逐步推广编程教育,建设人工智能学科等。