许亚飞
(天津商业大学,天津 300134)
算法的应用场景广泛,例如新闻推荐、搜索引擎排序、个人信用评分以及电子商务领域、司法裁判领域等,在数学与计算机科学领域中算法是一个专业术语,一般指用可数并确切的操作步骤针对性的来解决具体的问题。算法在其本质上就是解决问题的一种方式,它的运算机理是用数学语言建构数字模型来描述实际现象,是关于部分现实世界为某种研究对象的一种抽象的简化数学结构。[1]算法歧视其实在本质上与现实歧视差别不大,它是以算法为媒介在作出自动化的决策过程中产生的区别对待,且这种差别不具有一定的合理性,两者不同的地方在于算法歧视的结果具有系统性的特点。社会本身就存在的歧视通过数据和信息渗入算法这个数字结构当中,经过算法运行最终体现在算法结果中,即形成了算法歧视。现实歧视以算法为载体表现出不同的类型,如算法性别歧视、算法种族歧视、算法价格歧视等,它们与性别歧视、种族歧视、价格歧视等在本质上有共通之处,都是对个体进行不合理的差别对待。
1.就业歧视
就业歧视是指在就业、工作晋升和工资方面使用不合理的标准来规定,从而产生了差别对待,这些标准包括性别、民族、宗教等。[2]国内外法律对于反就业歧视都有明确的规定。但是在大数据时代算法深度学习技术广泛应用的情况下,算法也逐渐参与到就业招聘中来,这种新的招聘方式难免会带来就业歧视。用人单位根据算法进行招聘的面试、雇佣、解聘等流程,对于该行为有人认同,有人反对,认同者认为算法招聘可以节约时间,提高效率,但反对者指出算法也会产生偏见,原则上数据并不能完全摒弃偏见,甚至有将此偏见放大或固化的风险,实践证明这种情况是存在的。由此看来,在就业招聘中应用算法不能解决就业歧视,反而增加了新的就业歧视。
2.价格歧视
价格歧视是指在进行商品交易过程中,卖方将质量相同的商品以不同的价格出售给买方。价格歧视现象多发生在消费者身上,卖方也就是企业想要通过价格歧视获取利益需具备一定的条件,首先是企业在商品市场中具有一定的地位,拥有绝对的话语权,能够以自己的意愿确定商品的价格,如果企业无法掌握商品价格,那自然也谈不上价格歧视;其次是企业对消费者的消费能力和消费欲望有一定的了解,对消费者的接受价格有充分的信息,可以根据不同的消费者对商品进行差别定价,售卖商品时对支付能力高的消费者定价要比支付能力低的消费者定价高,这要求企业对消费者的支付能力有准确的预估;最后企业还要对消费者低价购买商品进行二次出售以赚取差价的行为有所防范,这种情况会导致企业失去支付能力高的那部分消费者,从而不能获得利益以实现价格歧视的目的。如此看来,掌握消费者的支付能力是构成价格歧视的前提条件,如果不能达到该条件就无法实现价格歧视,而数据收集和算法决策恰恰帮企业解决了这一难题。
先天性算法歧视是指算法设计者本身就带有歧视并把歧视体现在算法当中。有可能是算法设计者在设计算法模型的时候无意识的将个人主观选择带入到算法代码当中,使得算法设计者的某些偏见和爱好被算法继承从而产生算法歧视,也有可能是算法设计者恶意制造歧视性算法,故意使算法产生歧视后果。比如,在当前企业中应用广泛的“简历筛选算法”,如果企业想招聘更多的男性职员,那么算法设计者在设计该算法系统时就可能设定许多有利于男性求职者的计算程序。但仍有许多人认为利用算法可以帮助人类避免歧视,因为自动决策系统对每一个人的适用方式都是统一的,可事实却恰恰相反,如果从事系统开发工作的人员自身带有偏见和歧视,那么有可能在开发系统的过程中将偏见和歧视带入到工作中,尽管他们并没有歧视的意图,但在结果上仍然出现了区别对待。而引发这种问题的主要原因在于人,并不是算法本身,它是被人所操控的工具,事实上,这种情况的确是存在的,但发生的概率极低,因为一种算法系统的开发涉及多个人员,很难受个人主观的干扰,所以即便个人带有很强的歧视,但在最后的审查环节中,也很快能够排查出来,避免算法本身存在歧视的可能性。就当前对算法歧视的规制手段来看,对算法先天性歧视的规制从人入手比从算法入手要容易一些,可以培养算法程序设计员的社会责任感,让他们在设计算法之前有意识规避自我偏见以免对算法造成影响。因此,此原因并非造成算法歧视的主要原因,先天性算法歧视也不是法律进行规制的主要对象,本文将规制重点放在另一种类型的算法歧视上面,即深度学习的算法歧视。
深度学习的算法歧视指算法被设计出来后经过深度学习从而产生带有歧视的决策结果,包括数据输入导致的算法歧视和算法系统内部运行导致的歧视。数据输入之所以是造成算法歧视的一个重要原因在于算法是以数据为支撑的,数据是记录人类行为的工具,算法对未来进行高精度的预测前需要输入大量的数据进行训练。所以,当数据输入存在缺陷时,如选择的数据不恰当、使用不正确或失效的数据、数据集合表达片面等,数据输入将引起算法歧视。而算法系统的内部运行是导致算法歧视的另一重要原因,如果没有参与算法开发和设计,那么算法系统的内部就像一个“黑箱”,对它输入数据会执行的一系列复杂的指令,而输出结果却无法解释。受算法结果影响的个人或群体不理解算法的代码和模型,或者有所了解但因不熟悉相关内容也无法解惑,而算法系统的开发者或组织也不对公众披露,理由是这些技术涉及“商业秘密”,在这样的情况下,即便要进行质疑也因为不具备专业知识或没有经过专业的训练而无从下手,况且对算法结果负有解释说明义务的组织或个人正好借此来逃避相关责任。
在对算法歧视进行规制之前,需要明确算法歧视的基本原则,算法歧视的背后实质上是算法公平的缺失,所以其依据的基本原则和理念是算法公平,通过前文对规制对象算法歧视的分析,从两个方面来实现算法公平,分别是结果公平和程序公平。在此,与算法歧视问题相对应的是进一步确定公平的定义,以便在进行法律规制时有所体现。公平是社会重要价值之一,也是法律所追求的基本价值之一,公平的存在意味着能够在不带有偏见和歧视的情况下对法律行为作出评价并保证权利义务的平等。这也正是算法领域内公平的应有之义,即保证算法运算过程的公平公正和运算结果的公开透明,以此保持算法涉及到的多方利益的平衡和权力的对等。
算法运算结果公平也就是要求算法的输出结果公平,因为受算法决策影响的对象有个体和群体之分,所以从这两个角度来讨论算法运算结果公平是比较合理的。算法中的个体公平,是指算法进行个性化的探讨,其运行时使用并作出判定的数据内容分别来自条件相近的个体,再比较个体化之间的差异,该情况下的公平理论对个体之间的分类要求更高更严谨,需要根据行业规定的特定的标准对个体进行分类,并不是简单的依靠人口数量的比例及其相关性。算法中的群体公平则与算法的个体公平相反,不再从个性化的角度进行探讨,而是直接以人数的多少来确定各自的份额,对少数族群与多数族群以人口比例为标准作出与之相符的决定。所以群体公平主要强调群体之间概率上的公平,而个体公平着重于算法运算结果对相关个体产生的影响是否公平。
算法运行过程公平也称为算法的程序公平,这里的程序包括从输入到运行再到输出的整个过程,该过程具体来讲有输入数据之前对数据的筛选,输入训练数据后算法运行的透明度与可见性,运行结束后对算法决策的监管,这一系列操作均要以公平为原则。算法的这种理想状态需要其运行过程保持充分的透明性和可解释性,为算法决策的公信力保驾护航,值得注意的是,算法中的公平除了是对单个群体或者个体权利义务的调整和救济外,还要求整体利益的平衡,因为算法针对的不是某一个人或某一组织,算法决策也不仅仅关系到单个群体的利益,而是整个算法领域内的所有相关者。
算法结果涉及有关主体的具体特征,但如果对结果过度关注而忽略了过程中各个环节对算法用户的影响,那容易导致另外一种微观层面的不公平,所以,算法对公平性的要求不仅仅是群体特征筛选或人口统计,法律中公平的存在也不是狭义的人人平等,判断算法是否公平主要在于对算法决策做出后引起的一系列权利义务关系的变动提供具有公信力的证据,即证据来源可查,算法运行可解释,对算法结果不公正进行救济。而算法程序公平中涉及到的数据源头筛选、算法程序的可解释性、决策后救济的实现可能性对保障算法公平具有更高的可操作性,可以避免对个体结果的过度关注,实现算法程序的透明性。因此,要把算法公平原则贯彻于算法歧视法律规制的各个环节中,尤其是算法程序公平理念的实现,更加有助于避免算法歧视的产生。
1.数据清洁制度
算法的良好运行与数据的优劣有着重要的联系,甚至可以说是数据决定了算法,所以我们有必要在算法进行数据训练和决策之前处理好数据问题,而解决该问题的措施就是建立数据清洁制度。数据清洁主要包括以下几个方面:一是排除具有显著歧视性特征的数据。所谓显著歧视性特征是指诸如种族、性别、年龄等明显带歧视性的特点,这种类型的数据用于算法之中极易造成歧视的结果,所以排除具有显著歧视性特征的数据,有利于规避算法歧视;第二个方面是禁止使用含有隐形歧视的数据。隐形歧视通过算法分析仍然能够体现在决策中,应当进行清理,不允许其参与算法模型的训练。客观来说,数据清洁会对算法决策的准确性造成一定的影响,但该举措却可以减少算法歧视的产生,避免算法歧视对公民产生不利的影响,使公民享有平等保护的基本权利,不能以牺牲权利为代价来追求算法决策的准确性,算法设计的初衷也不是让人们遭受不平等的区别对待,我们在追求算法决策的准确性时应该把算法价值放在第一位,确保算法公平的基本原则。从这个意义上来说,数据清洁制度的建立至关重要,能够有效针对算法自动化决策中存在的差别待遇歧视,保证算法决策的公平。
2.保证数据的透明性和可查性
根据数据集的收集、筛选和处理过程,数据可查主要从三个角度着手,首先是数据来源。机器学习的训练数据获取方式主要有:爬虫抓取、数据库下载、数字化非电子数据和授权取得。[3]为了便于后期审查,算法设计者要对数据来源进行全面细致的记录,包括数据取得方法、数据类型、数量等,此外还要保证数据的合法性。其次是数据内容。对于获取的数据,要确保原始数据的完整性,不能出现缺失或丢失等现象,以便保证其客观性和真实性。最后是数据处理。收集到的数据不能直接用于算法训练,还要经过筛选、清洁、标注、特征选择等一系列处理过程,这些处理过程都需要算法设计者一一详细记录,包括处理的步骤、原因、方式等,以确保每一个数据处理过程都可查。
1.算法透明
算法不透明影响算法公平,这是因为算法不同于一般的不公平现象,对待一般性不公现象的措施不适用于算法当中,比如当人们认为政府的某些行为不公平时,可以采取行政诉讼的方法,当人们认为法官的裁判不公正时,可以提起上诉,这些不公平不公正的决策行为有正当程序来保证其透明度,可以得到一定程度上相当透明的审查监督,但算法却不能。而算法不透明之所以造成算法不公,主要原因在于算法的运行和决策是在一个“黑箱”中进行的,不仅使得普通人无法理解它的具体内容,就连相关的算法设计者都不能理解,人们对算法决策系统产生疑问的根本在于这一系统最后一般仅输出一个确定的数字或结果,却无从得知算法系统作出这一决策的具体过程和理由以及在过程中涉及到的有关材料等,而在传统的决策中即政府作出事件的处理结果、法官判决案件之前,都要公开具体的论证过程和鲜明的论点,公众也可以进行审阅,但是算法决策系统运行却与之相反,普通人对算法的原理和内容都不了解,算法决策系统的复杂性使得其在输出结果之前就连相关工作人员也不能完全掌握它的运行逻辑,更不用说一些涉及商业秘密和国家秘密的算法代码,企业将算法归于商业秘密或私人所有物,最终导致算法结果无从解释,从而算法歧视产生。
增加算法透明以降低算法歧视是可行的,可以通过多种途径来加强算法决策系统的透明度,如公开算法运行的具体过程,并且向公众披露使用何种方法设计该算法以及算法设计的最终目的,将算法从设计、运行、决策的各个过程都公开,以最大限度的提高算法透明度。但在算法公开时可能涉及到个人隐私、商业秘密或国家秘密,对于这种算法,可以允许其不公开,但必须有充分的理由说明不公开的原因。
2.算法审查
通过对算法的全面审查可以使其暴露隐藏的歧视风险,而算法涉及到的不是单一的利益,是各方面不同利益主体的纵横交错,所以审核制度的设定要满足各方的利益平衡,不仅仅是让平等公正简单的优先于效率、安全、经济效益等价值,而且需要努力平衡复杂的利益关系。算法审查重点围绕主体和标准进行规范。
算法审查的主体是相对独立的第三方机构,因为第三方独立机构进行算法审查比设计者的自我审查更加具有客观性,开发者的自我审查难以取信于公众,但面向公众袒露技术细节可能对公共安全、商业秘密等造成负担,[4]所以比较好的处理方法是找一个具有算法技术能力且没有利益冲突的第三方机构在算法投入使用前以及算法系统运行过程中进行审查,算法设计者或数据控制者只在必要的范围内对审查主体公开算法技术。算法审查的标准为差别性影响是否具有正当性。若算法运行结果具有差别性影响,应确认算法系统的运行逻辑是否合理,算法模型中使用的条件是否适合并且不超出合理范围。
3.算法歧视影响评估制度
不论是算法本身还是算法系统的决策场景,很难明显的判断算法歧视的存在与否,歧视的高度隐蔽性再加上算法模型的遮掩使得歧视的判断和识别愈发困难,算法歧视影响评估制度能够很好的解决这一困境,该制度是指对算法产生歧视的可能性进行评估,尤其是算法是否对特别群体差别对待进而作出不合理的决策。算法歧视影响评估制度的构建要结合我国算法歧视的规制现状和算法系统的运行原理,其中算法歧视影响评估的主体要确保评估价值,保持中立,不能偏颇,选择合适的专业评估机构进行评估;算法歧视影响评估制度要优先适用于核心领域;算法歧视影响评估指标要全面,结合算法的特殊性来确定,包括算法结构的复杂性、算法设计目的、影响主体、影响范围、影响程度、涉及数据和个人信息的敏感程度等,对高风险的算法应用场景类型进行评估;算法歧视影响评估报告要对外披露。算法歧视影响评估是为了避免算法歧视的产生,所以对某一算法模型以特殊方式进行评估的报告要向算法决策的影响对象披露;算法歧视影响评估需要多方协同。公众参与算法歧视影响评估是对算法评估活动公正透明的重要保障,在进行评估活动时,应以政府为主导,与高校和科研机构、非政府组织以及具有一定的专业知识背景并受到算法决策影响的公众一起展开协作,构建开放型的多元化评估协同机制。
对于算法歧视产生的结果,可以根据侵权法的有关规定来进行处理。在经济学中侵权行为必须赔偿的主要原因在于“给人们正确的诱因,不要做出对他人构成成本的事情”。[5]我们可以从受害者的救济和侵权者的追责两方面来讨论算法问责的具体内容。
1.受害者的救济
监管部门可以通过鼓励算法控制者采取合理举措来进行救济,以此保证受害者能够进行实际的反馈、质疑和救济,而不是出现无处救济的现象。更有学者指出,集体诉讼制度可以有效应对算法歧视的问题,并且其诉讼成本更小,诉讼效率更高,更能保护受害者的合法权益,所以可以引入集体诉讼制度。[6]由于算法歧视的影响群体广泛,在一些案件中受到影响的人数量比较多,而且与算法歧视有关的法律问题更加复杂,如果个人诉讼的话成本比普通案件的要高,集体诉讼可以帮助这些案件的受害者们挽回损失。集体诉讼制度是一种共同诉讼机制,相较于个人诉讼更加灵活,比如,每一个受算法歧视影响的个人都有提起诉讼的权利,而且在案件庭审中可以选举代表出席,没有出庭的人员可以自主决定对案件审判结果的接受与否,诉讼费用根据全体受害者损失的大小合理分配。[7]
当公民遭受到算法歧视时很难像其他侵权行为一样进行私力救济,因为算法歧视的隐蔽性和复杂性使得人们无法理解算法决策的运行过程,而且算法的应用范围广泛,应用模式呈现机制化,一个算法模型可以被用于多个不同的场景,从而造成了算法歧视的危害结果具有规模化的特点。而引入集体诉讼制度可以改变算法歧视受害者和算法系统控制者在权利方面的差距,平衡两者之间的数字鸿沟。当然集体诉讼制度的运用有前置程序的规定,即算法歧视受害者在提起集体诉讼之前要先向算法控制者书面请求其对引起歧视的算法进行解释,要求算法控制者对算法系统的运行过程和结果予以说明。若算法受害者和算法控制者之间协商和解,则无需启动集体诉讼程序,否则算法歧视的受害者向法院提起集体诉讼就正当合理。
2.侵权者的追责
在追责之前需要明确责任主体、归责原则、责任方式等问题,具体来讲:责任主体为算法设计者和算法使用者,他们要对算法歧视产生的侵权结果承担相应的责任。就算法设计者而言,数据公开和算法解释是其应负有的义务,尤其注重对数据内容和数据特征选择理由进行解释。而在与算法决策影响对象的联系上,算法使用者相比算法设计者更加紧密,更容易导致算法歧视的结果。在使用算法的过程中,禁止实施损害公众利益的行为,也不允许算法使用者明知算法具有歧视性,但为了自身利益仍然将其投入使用,从而致使更多的损害结果。
对于算法歧视的归责原则,本文认为选择无过错原则作为算法歧视的归责原则使算法歧视风险承担更具合理性。尽管我们已经采取多种方法来降低算法黑箱的影响,但依旧不能完全消除其影响,所以当算法系统的自动化决策产生歧视时,将原因直接归咎于算法开发者或使用者也难以实现。在算法模型的运行过程中,不论算法控制者主观上有无过错,注意义务履行与否,都不排除产生歧视的可能性,综合这种情况,确定算法歧视归责原则时不以行为人的主观过错为主要依据。
就责任方式而言,如果算法歧视对他人利益造成了损害,那么受害者有权向责任主体请求损害赔偿。若责任主体是算法设计者,算法使用者在承担赔偿责任后有权向算法设计者追偿,反之亦然。若是在算法歧视产生实质性损害的过程中发现问题,此时算法设计者和算法使用者要及时实施补救措施,如暂停使用算法、停止使用、对算法已经作出的决策不再执行等。如果不积极实施补救措施,那么算法设计者和使用者要承担相应的侵权责任。由于算法运行结果的产生以自动化为主要方式,所以设计者没有主观过错的,不承担侵权责任。