信息过载时代海量信息的碎片化很大程度上导致了信息接收利用的低效化,加之个体和群体的信息技术素养的鸿沟也在不断加剧社会撕裂,人类转而向大数据技术和智能算法寻求理性解决方案,拥抱算法社会。然而,算法社会终究还是人的社会,只有结合中国国情力求客观全面地对算法社会做到预判预防才能夯实未来社会稳定的基础。
算法的定义最早从Tarleton Gillespie 的假设开始,即“算法不需要是软件,在最广泛的意义上,它们是基于指定计算将输入数据转换为期望输出的编码过程。这个过程既指出了一个问题,也指出了解决这个问题的步骤”[1]。国内学者则指出,算法在本质上是“以数学方式或者计算机代码表达的意见”,算法偏见则是在算法程序自输入-学习-输出-应用循环闭环中由所产生的失去客观中立立场的表现,影响着公众对信息的客观全面认知。
虽然目前我们还处在弱人工智能(Artificial Narrow Intelligence,ANI)阶段,但是公众倾向于认为以数据和算法为基础的机器决策可以较大程度地克服人类因认知局限或主观任意而导致的偏见,促进结果的客观、准确和公平。这也正是今日头条的个性化智能推送、犯罪风险智能评估系统COMPAS 等人工智能产品广受追追捧的原因。然而,由算法主导的人工智能的价值观并不能完全中立,甚至非常隐匿地携带着人类社会所固有的劣根性——偏见。
就算法本身而言,“不存在价值中立的平等算法”这一观点的提出打破了人们的美好愿景。丁晓冬(2017)以美国联邦最高法院两个著名的教育平权案件:Grutter v.Bollinge 案和Gratz v.Bollinger 案,案件相似而判决不同的角度,验证论述了人工智能时代大数据算法同样难逃不中立难公平窠臼[2]。而随着人工智能技术的逐渐应用普及,越来越多的算法偏见事实也迫使人们理性关注这一现象,刘友华(2019)将算法偏见对公众权利的侵害表现分为3 类,损害公众基本权利如种族和性别歧视等、损害竞争性利益如利用算法设置贸易壁垒等和损害特定个体利益如大数据价格“杀熟”等[3]。更细化的行业表现则以新闻业和法律界最为明显,新闻算法推荐系统在提高信息获取效率的同时,也会成为偏见、劣质信息的传声筒和媒体负面效应的放大器。美国部分法院采用的犯罪风险智能评估系统COMPAS 被证明存在明显的种族歧视,或将强化司法不公的影响。
Batya Friedman 等人将计算机系统偏见按照来源的不同分为3 类[4],相似的算法偏见也可以分为先行存在偏见(Pre-existing Bias)如文化偏见、社会制度差异等、技术性偏见(Technical Bias)如计算能力、硬件限制等及突发性偏差(Emergent Bias)如新的社会现象和知识成果等变动。
人类根深蒂固的文化偏见存于与人类社会同构的大数据中,并且作为人类思维的外化物,偏见性也是算法的“生物学”表现。除了上算法偏见的内在成因,从技术角度看,偏见进偏见出,大小样本的悬殊以及像深度学习一类不能观察甚至不能理解的“黑箱”,加剧了信息的不对称性。
“期望算法、模型等数学方法重塑一个更加客观公正的现实社会”的“数学洗脑”式想法未免过于一厢情愿。正确认识算法偏见可能带来的后果才有利于我们采取正面积极的态度加以应对。
2018 年今日头条肆意挑衅《英雄烈士保护法》看似屡教不改无视警告,但深究其原因还是因为其协同过滤算法本身的缺陷——只要低俗、恶搞类新闻信息达到一定的用户热度而被算法选中,那么传播就会形成愈演愈烈的态势,而同时,大量优质UGC 却无法被展示在聚光灯下,被算法冷落,加剧了信息传播的偏态。同时,2016 年5 月“Facebook偏见门”中运营团队常规性地压制美国有意保守派信息,2018 年3 月“剑桥分析”事件都暴露出新闻算法的人为偏见的可操作性,严重违背了新闻客观公正的理念。
算法的本身如果用过去不准确或者有偏见的数据去训练算法,其输出的结果自然而然也是含有偏见的;然后再以其输出产生的数据对系统进行反馈,则会使算法偏见得到巩固,如果在司法判决的智能产品中会带来一系列类型案件的决策造成影响,长此以往会对司法系统造成系统性威胁。然而更值得关注的是隐匿的算法偏见所传播的歧视性信息,在潜移默化之中会一直携带着歧视性基因并在算法的“反馈循环”中被巩固加强,固话和限制了受众的思想,甚至形成极端的社会撕裂。
我们正在进入“算法统治的时代”,成为了“物联网时代”的“量化自我”或“可测量自我”,当算法应用于社会福利等资格审查监测当中,算法测量和建构出的公民画像是被圈定在原社会条件和位置上的,底层公民、劣势群体、少数族群拥有的通往更多机会和资源的的途径和几率愈来愈少(例如女性在求职网上受到高职位简历算法推送的概率要远小于男性用户),最终,算法偏见将导致社会资源的“马太效应”进一步被放大。
国内较大一部分学者的研究是结合相关行业背景对行业内智能产品所包含的算法偏见成因、影响及应对措施为切入点进行探讨的,在此基础之上需要站在更为宏观的角度结合中国特殊国情讨论在中国语境下算法偏见的应对挑战和监管措施。
良好可控的算法程序的编写实践除了需要有坚实的专业知识背景,同时还需要具备大数据智能伦理的意识,具备信息理论的基本规范。我国的中小学的信息伦理教育开始于21 世纪,相较于欧美日等国家相对较晚,为了从根本上培养年轻一代具备良好的信息伦理观念,需要结合国情适当增加基础教育阶段适龄学生的信息伦理教育内容,培养信息伦理教育的教育队伍。
此处的相关行业并不仅仅指信息编程类工作,而包括了绝大多数人工智能时代的产生大量可供分析的数据的行业,通过利益相关人的信息伦理意识的提高,以保证算法输入端的输入数据的客观公正性,从源头处提高算法运算的公正性。
针对算法黑箱问题,不仅仅存在着诸如深度学习等不可控,难观察,难解释的运算过程,还存在着由于商业利益,资本控制等等因素所导致的算法不公开,此时,需要政府颁布相关法律条例,以增加相关企业尤其是涉及到公众利益的企业的算法的透明度,并且要求企业将算法进行可解释性的注解,及时进行事前的审查,提前进行风险的防范。