哪些算法我们可以信任

2022-05-30 18:25:39蒂姆·哈福德

商业评论 2022年9期

蒂姆·哈福德

2009年，谷歌的一个研究小组在世界顶级科学期刊之一《自然》上宣布了一项了不起的成就。不用知道医院的就诊记录，他们就能够追踪到流感在美国的传播情况。更重要的是，他们的反应比美国疾控中心快，因为后者依赖医生们上报的信息。谷歌的算法是在疾控中心2003年～2008年的病例中进行数据搜索，找出规律，看看流感暴发期间，流感地区的人们在网上搜索什么，以此来建立流感病例和搜索内容之间的相关性。在发现了这种规律或模式之后，该算法就可以根据今天人们上网的搜索内容来估计今天流感的发病人数，这样做比疾控中心发布官方消息要早至少一周的时间。

“谷歌流感趋势预测”不仅快、准、省钱，还不需要高深的理论。谷歌的工程师们甚至懒得去筛选哪类搜索词与疾病传播有关联。虽然，我们也想象得到，搜索“流感症状”或“我附近的药店”是和流感沾边的，但搜索“碧昂斯”就和流感毫无关系了，但在谷歌团队眼里，这都无所谓，他们只管输入流感期间网上最常被搜索的5，000万个词，然后让算法自己去找规律。

谷歌流感趋势预测一炮而红，它的成功标志着商业、科技领域的热门新趋势——大数据和算法。大数据可以有很多种，我们把重点放在留痕数据上，它指的是人们在网络上的各种搜索、信用卡支付和手机搜索附近连接热点留下的上网痕迹，这还不算政府掌握的个人大数据。

留痕数据的类型可谓庞杂，数据收集起来成本较低，可以实时更新，但也杂乱无章。随着我们的通信、休闲和商业走向互联网，而互联网又正进入我们的手机、汽车甚至我们的眼镜，生活可以被记录和量化，而这种方式在10年前是很难想象的。商业和管理杂志上，铺天盖地都是关于這方面机会的文章。

除了这些“抓住机会上车”的口号外，大数据的拥趸根据谷歌流感趋势预测的成功还提出了三个令人激动的观点。第一，数据分析能做出精准的预测。第二，每一个数据点都可以被捕获到，这就显得统计抽样模式过时了（这里指流感趋势捕获到每一次人们在网上的相关搜索）。第三，科学建模也已经过时：根本没有必要建立和验证“流感症状”搜索或“碧昂斯”搜索可能与流感传播相关或不相关的公式，因为，引用2008年《连线》杂志中一篇煽动性文章的话，“有了足够的数据，数字能说明一切问题”。

这种模式很有颠覆性。然而，在《自然》那篇文章发表4年后，《自然新闻》却传来一个不幸的消息：最近的流感暴发还造成了一个意外的受害者——谷歌流感趋势预测。在准确地预报了几个冬天的流感疫情后，这个无须建模、数据丰富的模型对流感突然失去了嗅觉。谷歌的模型预测了流感要大暴发，但疾控中心不紧不慢，说它的数据证明谷歌高估了流感暴发的可能性，还有，谷歌的数据一度比真实数据大了一倍多。不久，谷歌流感趋势项目团队就解散了。

问题出在哪儿？部分原因在于上面说的第三个观点：谷歌当时不知道，也不可能知道，它的算法中有哪些搜索词是与流感暴发相关联的。谷歌的工程师没有自己做筛选，他们让算法自己在数据中寻找流感暴发的相关统计模式。后来，谷歌的研究团队分析了这些算法算出的模式，发现了一些明显的错误相关性，而他们本可以指示算法剔除这些错误关联。例如，算法会将“高中篮球赛”搜索与流感关联起来。原因并不神秘：流感疫情和高中篮球赛都在11月中旬开始。但这意味着流感趋势部分探查的是流感，部分探查的是冬季球赛。当2009年夏季流感暴发时，这又成了一个问题：谷歌流感趋势预测仍然在搜索冬季球赛，自然一无所获，也就没预测出来这次非常规季节的疫情，导致他们预报的发病人数只是实际发病人数的20%。

有人说找出算法出错的原因是不可能的。但是找出两个东西是怎么关联起来的不难。一些数据发烧友，比如《连线》杂志那篇煽动性文章的作者克里斯·安德森也说过，除了相关性，讨论别的都没意义。他写道：“先从数学的角度处理好数据，然后再为数据设定好语义环境就可以了。”数据自然会呈现一定的规律。如果真是这样，我们是不是可以这样解读安德森的话，“如果高中球赛和流感疫情同时出现在搜索结果中，二者会关联在一起的原因并不重要”。

但这当然很重要，因为这种没有数学建模的简单关联明显不堪一击。所以如果我们不清楚建立关联的逻辑，那么这种关联迟早会出问题。

我书架上最显眼的位置放了两本很棒的书，讲述的是我们对大数据的看法在短短几年内是如何演变的。

一本是2013年出版的《大数据时代》，作者是肯恩·库克尔和维克托·迈耶·舍恩贝格。书中举了许多例子，像物美价廉的传感器、大数据集和模式识别算法，正如这本书的副标题所示，“大数据改变了我们的生活、工作和思维方式”。你猜作者在书中用的什么例子开篇？就是那个谷歌流感趋势预测。不过两位作者没料到的是，这本书付印之后，谷歌算法就彻底失灵了。

《大数据时代》出版三年后，凯西·奥尼尔的《算法霸权：数学杀伤性武器的威胁与不公》于2016年问世。你可能也猜到了，作者对大数据非常不看好，书的副标题告诉我们大数据“加剧不平等，威胁民主”。

两本书看大数据的视角不同：库克尔和舍恩贝格的视角是数据时代人怎么利用数据；奥尼尔的视角是数据时代人怎么被数据利用。视角不同，看法不同。这就好像一把榔头，对木匠来说，它是个有用的工具；但对钉子来说，它就是敌人。

两本书的不同观点正好也反映了2013年～2016年人们对大数据看法的转变。2013年，了解大数据的人还比较少，人们常常把自己想象成木匠，觉得可以利用大数据，大有可为。到2016年，许多人意识到自己就是颗钉子，逃不出大数据的掌控。大数据从备受推崇的划时代技术变成被人诅咒的技术灾星，有些人甚至为此在报纸上大声疾呼（比如美国有线电视新闻网上的一篇报道——“算法有种族主义”）。大数据还掀起了一场政治上的轩然大波。剑桥分析公司是一家和特朗普竞选团队有瓜葛的咨询公司，它被指控利用脸书在用户隐私规则方面的漏洞，在用户不知情或未授权的情况下，窃取了大约5，000万人的信息，并向他们精准投放拉票广告。大吃一惊的评论员甚至怀疑就是这些精准投放的拉票广告送唐纳德·特朗普坐上了总统的宝座，尽管事后经过冷静分析，人们认定剑桥分析公司的能力还没有达到精神控制的水平。

我们每个人都在网上留下了点点滴滴的数据，而这些数据被悄悄地收集起来，汇成数据的海洋，这样算法和大数据编织成了我们生活的天罗地网，从匹配对象到法律援助，它们似乎都可以帮到我们。所以，我们需要了解这都是些什么样的数据，以及我们该怎么利用它们。我们到底应该喜欢大数据还是害怕大数据？我们想当个木匠，但会不会无意中成了钉子的角色？

答案是，这都取决于我们自身，我希望能告诉你怎么才能让大数据为人所用。

2012年，人們还坚定地认为大数据给我们提供了无限遐想。记者查尔斯·杜希格敏锐地捕捉到这个迹象，他在《纽约时报》上发表了一个发生在美国塔吉特百货公司的故事，为大数据时代的到来拉开了序幕。

在杜希格的报道中，他说塔吉特公司收集了客户的大量数据，而且会认真分析这些数据，所以显得这家公司特别能洞悉客户需求。这个让人印象深刻的故事是这样开始的：一名男子冲进明尼阿波利斯附近的一家塔吉特公司，向经理大发雷霆，问该公司给他十几岁的女儿邮寄了妇婴用品优惠券是什么意思。经理忙不迭地道歉，后来又专程打电话再次道歉，结果却被告知女孩真的怀孕了。她父亲当时不知情。

其实塔吉特在分析了她购买无味湿巾和维生素补充剂等数据后，就已经洞悉这个事实。

统计真的这么神奇吗？数据专家和统计学家听了这个故事，眼皮都不抬，他们认为不用对此大惊小怪，这太稀松平常了。

首先，让我们想一想，根据一个人在商场买的东西来推测她是否怀孕是不是件很难的事：应该不太难。请参考国家卫生局关于维生素补充剂叶酸的建议：建议所有准备生育的女性在备孕期间和怀孕前12周每天补充400微克叶酸。如果你在怀孕前没有服用叶酸补充剂，发现自己怀孕后请马上开始服用。确保你摄入适量叶酸的唯一方法就是服用补充剂。

看到了吗？有这个常识的人，如果听说有个女人开始购买叶酸，除了她可能怀孕了，你还能联想到什么？这很好猜出来，不需要大数据告诉你。所以大数据没那么神。

杜希格关于塔吉特算法的故事以另一种方式让我们认识到我们高估了计算机的数据分析能力。

数据学家冯启思多年来就是为商超和广告公司开发类似算法的专家，他说：“这个故事其实反映了一个似是而非的问题。”他的意思是有些没怀孕的女性也收到了母婴优惠券，只是我们不知道而已。我们不能天真地认为塔吉特的电脑有读心术，还需要想一想他们天女散花般地发优惠券，射击目标错误的太多了。

其实购买叶酸不一定怀孕：这个女人可能因为别的原因需要服用叶酸，或者她可能在替别人买，或者她可能怀孕了但孩子没保住（这样的话她在看到母婴优惠券时该有多难过），或者她想怀孕，但没怀上。你觉得塔吉特的算法能神机妙算到把这些例外都剔除掉的地步吗？这是不可能的。

在查尔斯·杜希格的故事中，塔吉特商场提供的母婴优惠券里其实还混有其他商品的优惠券，比如酒杯优惠券。如果真有孕妇想喝酒，当意识到商场电脑连这个都能算出来，她们会不会感到害怕？但冯启思是这样解释的：塔吉特给顾客寄某种优惠券的同时还附带上其他商品的优惠券，不是因为给孕妇只寄一些母婴优惠券会显得突兀，而是因为公司知道，收到母婴优惠券的未必都是孕妇。

所以，当时那个接待女孩父亲的经理应该这样说：“您不用担心，我们的很多顾客都会收到那样的优惠券，不是只针对您的孩子。”他没那样说，是因为他和我们普通人一样，都不知道商场算法是怎么算的。

情况很有可能是这样的：通过顾客购买的商品，怀孕的顾客很容易被甄别出来，因此塔吉特的大数据肯定比盲猜的准确率要高一些。然而，毫无疑问，它肯定不是百发百中。孕妇大概率出现在15～45岁的女性中，如果让你盲猜谁是孕妇，你也有大约5%的命中率。如果塔吉特算法能把命中率提高到10%或15%，那也很值。因为即使某商品的优惠券投放精准度提高一点，也有助于提高商场的利润，但商场绝不应该为了利润率去深挖顾客的隐私。

因此，有必要给这些炒作降降温，不要认为剑桥分析公司已经掌握了人的思想，然后以为机器统治世界的时代来了；也不要昏了头，认为大数据轻松取代烦琐的老式统计方法（如疾控中心对流感的调查）就万事大吉了。

当我第一次与大数据打交道时，我给剑桥大学教授大卫·史匹格哈特爵士打了个电话——他是英国顶尖的统计学家之一，也是一位杰出的统计知识传播者。电话里，我总结了那些看好大数据的人的观点：不可思议的准确性；全数据覆盖把抽样统计比了下去；建模可以抛弃了，因为“数据自然会呈现一定的规律”。

他觉得没有必要用专业术语来表述以显得高大上。他说，那些说法都是胡扯，没一句对的。要让大数据发挥作用，说起来容易做起来难。200年来，统计学家们一直都很警惕，当我们试图通过数据来了解世界时，数据会给我们设什么样的误区。如今数据更大、更快、更易得，我们不要以为误区消失了。不，它们一直都在。

史匹格哈特说：“小的数据问题在大数据中比比皆是。并不是数据多就不会出问题，有时数据多了，问题更大。”

像查尔斯·杜希格写的塔吉特商场精准投放母婴优惠券那个故事，读者信了也就算了。但要是当权者也被他们不懂的算法吓到，并依靠这些算法做关系民生的重大决定，那就麻烦大了。

凯西·奥尼尔在《算法霸权：数学杀伤性武器的威胁与不公》一书中列举的最典型的例子之一是华盛顿特区用来评估教师教学质量的算法IMPACT。书中是这样描绘的：该市各个学校中，许多受学生爱戴的教师因为在系统上打分很低，突然被解雇了。

IMPACT算法声称衡量的是教学质量，也就是以考试成绩为准，检查每个教师在班上带的学生是进步了还是倒退了。其实，衡量教学质量很难，有时学生成绩高低与老师无关，原因有二。第一，不管老师教得如何，学生的成绩都会因人而异。所以一个班30个学生里，肯定有一些是算法应该排除的干扰项。又或者，如果有那么几个孩子，在开学考试中，运气好，蒙对不少答案，得到了高分，到了期末考试，运气差，得分低了，就把老师坑了，因为这样老师排名就会降低。所以，这种排名有运气的成分在里面。还有一种情况，孩子的学习还受其他因素影响，这些因素也是老师不可控的。譬如，孩子生病了，或在学校里被人欺负了，或者家里爸爸妈妈因故被监禁了，等等。这与学生运气好、蒙对题得高分不同，这是由某些具体原因导致的，可能是造成学生成绩下降的真正原因。所以，在评估老师的教育质量时，将这些课堂外的因素也考虑进来才是有意义的评估，而不分青红皂白地把学生成绩下滑都归咎于老师，这种做法不仅愚蠢，而且不公平。

IMPACT算法不公平的第二个原因是，不想公平竞争的老师也可以用算法作弊，这样就是老实人吃亏。譬如，六年级的老师在改卷时，如果故意给他的学生放水，那么他会得到嘉奖，但接班的七年级老师下一年就惨了，因为她的新班将都是些高分的孩子，除非她也找到作弊的方法，否则这些孩子的高分已经没有进步的空间了。

因此，奥尼尔的观点是可信的，即如果数据里干扰项太多，我们不能指望算法可以公平地评估教师的教学质量。如果强行这么做，自然会出现算法结果和学生口碑结果不符的现象。但有什么用呢？华盛顿特区的教育局还是我行我素，2011年还是开除了206名未达到算法标准的教师。

到现在为止，我们讲的问题主要是我们过于相信算法的结果了。其实还有一个相关的问题：我们也过于相信数据集的质量或完整性了。

谷歌流感趋势预测记录了谷歌上的每一个流感相关的搜索，但不是每个得流感的人都会在谷歌搜索。预测的准确性取决于流感患者“一定会上谷歌查流感知识”，但这是不可控的。

数据集因偏差导致统计失灵的问题很容易失察。2014年，世界上市值最高的公司之一亚马逊开始用算法筛选简历，希望电脑对比以往录取者的相似性，从大数据中找到模式，挑选出最适合的求职者。实际上，亚马逊以前录取的绝大多数是男性，可是算法不会意识到这个问题，它只会按程序来——找出模式并运行。所以算法找到的模式就是既然过去录取的大多数是男性，那就优先考虑男性吧。亚马逊在2018年弃用了该算法。

还记得“算法有种族主义”的标题吗？算法不会种族歧视，也不会厌恶女性，或仇视同性恋，或有其他偏见。倒是人会有这些偏见和歧视。人类现在正努力消除这些偏见，但如果电脑还在用那些含有偏见的旧数据，这些偏见就会借尸还魂。

我希望我前面的例子已经说服了你，就是我们不应该急于把我们的决定权托付给算法。但我也不希望矫枉过正，完全拒绝算法，因为我们现在还没有找到可靠的替代方案来做决定。我们必须在算法和人类之间选择，人会有偏见，会疲劳，会受到干扰，会力不从心，会受很多主观因素的影响，这是人类的特性。

20世纪50年代，心理学家保罗·米尔做了一个实验：电脑依据以往的数据统计，给人看病，看它的诊断准确率能否超过有经验的医生。例如，一个病人到医院时主诉胸痛，那这是消化不良还是心脏病引起的？电脑问诊程序是这样的：胸痛是主要症状吗？有心脏病史吗？以前用过硝酸甘油来缓解胸痛吗？心电图有异常吗？米尔将有经验医生的诊断结果和电脑这种简单的层层排除法结果进行了比较。结果令人不安，电脑诊断得更准确。这不是唯一的例子，米尔发现，与电脑的层层排除法相比，医生们在大多数情况下，判断得都不如电脑准确。

所以，看问题要公平，我们可以比较一下，同样的情况下，现在的算法和人做出决定，哪个错误率更高。我们就以汉娜·弗莱的《你好，世界：在机器时代如何成为人类》一书中的一个例子开始。

故事发生在2011年伦敦骚乱期间。商店会在下午早早关门，守法的市民会赶紧回家，因为他们知道，随着天色渐暗，趁火打劫者就会上街。在3天的骚乱中，警察逮捕了1，000多人，其中包括尼古拉斯·罗宾逊和理查德·约翰逊。在混乱中，罗宾逊顺手从伦敦一家被敲碎玻璃的超市里拿了一包瓶装矿泉水。而约翰逊开车去了一家游戏店，蒙了块头巾，跑进去抱了一大堆电脑游戏机出来。约翰逊盗窃的物品价值更高，而且是有预谋的，不是一时兴起。然而，罗宾逊被判了6个月的徒刑，而约翰逊根本没有入狱。这是法官做的奇葩裁决。

法官依据案件的一些情节做出不同判决也是常有的事，但对于这两个人的不同处理，最有可能的原因是，罗宾逊是在骚乱发生两周后被审的，当时大家都还神经紧绷，政府要严惩骚乱分子，以起到警示作用。等几个月后，约翰逊被审时，人们对骚乱的记忆已经逐渐淡化，甚至都想不起来当初骚乱的起因是什么了。

但一个以数据为根据的算法会不会免除这些干扰，给出更公平的判决呢？我们无从得知，大概率会吧。有充分的证据表明，法官们的标准并不十分统一。有这样一个测试，有人假设了一个案子，让不同的法官审，看看他们的裁定是否一致。结果是：都不一样。此外，法官甚至自己的标准都不能保证前后一致。2001年，在英国的一项研究中，被测试的法官被要求对各类不同案件做出判决。有些案件（为了掩盖测试的真实目的，不同案件时间相隔很远）其实是重复案件，就是把名字和不重要的细节改了。法官们毫不知情，对同一个案件，他们甚至做出了和自己之前完全不同的判决。这样的失误对计算机来说是不可想象的。

经济学家森迪尔·穆莱纳坦和他的4位同事最近在美国进行了一项研究，他们分析了2008年～2013年纽约市的75万多起案件。在一些案子中，一些被告被拘留，法官对这些被告做了不同的裁定，有些被释放，有些被羁押，有些被允许取保候审。然后，研究人员核查了这些被告后来的犯罪情况。此后，他们利用这些案件中的其余一部分（22万件）让算法来裁定，看是释放，还是羁押，或者保释。他们用这些剩下的案例来检验算法相较于法官是否能做出更好的裁决。

结果是：机器再一次表现得更好。算法对一群被告裁定为羁押，这将犯罪率降低了近25%，因为案宗显示，这群被告的确是释放后马上又犯案了。还有，算法也准确裁定了另一群人可以释放或保释，而这些人的确没有再滋事端，也就是说，算法的准确率可以将拘留人员减少40%。以22萬件案件来算，意味着成千上万宗的犯罪本来可以被提前终止，或者成千上万的人提审前无须拘留。在这个例子里，算法的表现远远优于法官。

法官们常犯的一个失误是法学家卡斯·桑斯坦所说的“现行犯罪误区”，也就是说，在是否允许犯罪嫌疑人取保候审时，法官们的注意力主要集中在被告目前被指控的罪行。即使被告的犯罪记录表明他们是惯犯，但如果他们这次被指控的罪行轻微，那么法官仍把他们视为危害不大的罪犯，准予保释；另一方面，如果一个被告当前罪行严重，但他的犯罪记录不多，法官也仍视他为危险性大的罪犯，拒绝保释。在判案时，算法会将一个案件的所有有用信息作为考虑因素，但是法官们，尽管他们训练有素，有头脑和经验，也往往会考虑不周。

考虑不周似乎是人类无法避免的。正如前文提到的尼古拉斯·罗宾逊和理查德·约翰逊的案子。我把两个人的犯罪事实都说了，也没有提供罗宾逊和约翰逊的其他信息。或许，对你我来说，不用来龙去脉，长话短说，只要把他们两人的犯案情况简明扼要地说出来就好。但算法会去搜寻两人更多的信息，并将其列为考量因素。人类可能做不到这样。

对于重要的事，到底是相信算法，还是相信人类，许多人都有直觉的判断。有些人对算法顶礼膜拜，有些人还是全然相信人类的智慧。事实是，有时算法会比人类做得更好，有时则不然。如果我们想释放大数据的潜能，让它更好地为人类服务，我们需要对具体算法具体评估。但实际操作的难度总是比我们想象的要大。

譬如这样一个例子。警察局或社会救助机构接到某人的电话，称有孩子处境危险，打电话者可能是孩子的邻居、爷爷奶奶、医生、老师，或其他担心孩子的人。有时报的警是实情，有时是虚惊一场，有时是想象过头，有时甚至是恶作剧。最好的情形是，警察对任何报警电话都不敢掉以轻心，他们会立即拉起警报出警。但现实是，警力有限，不可能每个报警都出警，所以就要考虑优先出哪些警。这样一来，他们对真正紧急的报警错失率就很大了：美国官方数据显示，2015年有1，670名儿童因父母虐待或失职而死亡。这个数字很惊人，但相较针对儿童的400万人次报警电话，这只是个很小的比例。

那么到底哪些报警电话需要出警，哪些不用呢？许多警署和社会救助机构求助于算法来做决定。伊利诺伊州引进了这样一种算法，叫作“Rapid Safety Feedback”（快速安全反馈，简称RSF）。它对每一次报警进行数据分析，和以前的案例结果进行比对，将儿童可能死亡或受到严重伤害的风险用百分比的形式做了预测。

预测效果很一般。《芝加哥论坛报》报道说，该算法给369名儿童打了100%的概率，也就是说，这些儿童一定会受重伤甚至死亡。但是，我们说，即便一个家庭的环境很恶劣，如果算法预测儿童一定会死亡也过于悲观了。这样的算法还可能产生连带的不良影响，譬如，无辜的父母被控虐童或失职，这对父母和孩子都会造成可怕的后果。

也许算法是出于谨慎，夸大了伤害的风险，目的是不遗漏任何一个可能的风险？并非如此。因为也存在一些可怕的案子，由于算法打的风险分值低，没有出警，结果幼儿死了。所以，最后伊利诺伊州认定这项技术没用，甚至会让情况更糟糕，于是停止使用了。

这个故事的寓意并不是说算法不可以用来评估儿童伤害报警电话。我的意思是最后一定还是由人来做决定要不要出警。错误在所难免，为什么算法没有比人工客服判断的正确率高也无法解释。这个故事的寓意在于，因为这个特定算法给出了明显荒谬的数字，让我们知道了这个算法的局限性，从而对它的正确性警觉起来。

统计学家安德鲁·盖尔曼解释说：“算法给出的是数字概率，这是好事，因为这暴露了它判断上的失误，让我们警惕起来。”

所以问题不在于算法，也不在于大数据集。问题是算法需要审查、有透明度和允许讨论。

当错误的算法让好教师丢了饭碗，将宝贵的救助服务资源导向错误的家庭，或者女性求职者被打分過低时，这就是大问题了，我们必须让它们接受审查。

但是怎么做呢？

一种方法是由茱莉娅·安格温领导的ProPublica调查记者团队使用的。安格温的团队希望仔细研究一种被广泛使用的算法，称为COMPAS（罪犯惩戒管理分析，用于替代制裁）。COMPAS使用含有137个问题的问卷来评估罪犯再次犯罪的风险。它起作用了吗？公平吗？

调查困难重重。COMPAS的技术由一家叫Equivant的公司（前身为Northpointe）拥有，该公司没有义务分享其工作原理和细节。因此，安格温和她的调查小组不得不不辞劳苦地从佛罗里达州的布劳沃德县警署调取资料，该州的警署很公开透明，安格温的小组可以通过调取算法分析结果来判断算法的公平性。

以下是“以人民的名义”调查小组如何开展工作的自述。

我们向佛罗里达州的布劳沃德县警署申请调阅监狱记录并获准。我们获得了2013年和2014年两年共计18，610人的COMPAS打分情况。COMPAS给每个被告出庭前打了至少三种分数：“累犯风险”“暴力行为风险”和“拒不出庭风险”。每个被告的COMPAS分数是1到10之间，以10为最高风险。COMPAS将1到4分标记为“低风险”，5到7分标记为“中风险”，8到10分标记为“高风险”。从COMPAS得分数据库开始，我们要评估的是每个被告在得分前后的表现和得分预判的一致性。我们又从布劳沃德县警署办公室网站下载了截至2016年4月1日本地所有的案件记录，大约8万宗犯案记录，然后以姓名和出生日期为准，将我们数据中的被告和下载的犯案记录进行比对。我们数据中的被告不在狱时间平均为622.87天（标准偏差为329.19）。

这项工作量很大的调查工作就按这样的程序展开了。

调查结束后，他们发布了调查结果。尽管COMPAS算法没有以违法者的种族作为预测指标，但是预测结果有明显的差异性。算法更容易给黑人违法者打高分（预测他们会再次犯罪，但事实上他们没有），而给白人违法者打低分（预测他们不会再次犯罪，但恰恰相反）。

这不免让人担忧：人类有种族歧视的劣根性，但已经将其视为不道德也不合法的行为；如果算法也会导致这种行为，我们同样不能容忍。

但随后，四位专业技术人员萨姆·科贝特·戴维斯、艾玛·皮尔森、阿维·费勒和沙拉德·戈尔指出，问题没有那么简单。他们利用ProPublica调查小组辛苦整理的数据，通过另一个重要指标证明了算法是公平的，即如果算法给一个黑人、一个白人两个违法者打的是相同的风险评级，而实际表现中，这两个人的再次犯罪概率也的确是一样的，从这个角度讲，算法并没有种族歧视。

此外，技术人员还指出，算法不可能同时在两个方面对所有种族都公平，要么在错误率的比例上平等，要么在风险评分上平等，但不可能两个同时兼顾：数据没法平衡。

因此，要看这个算法打分是不是公平，唯一的方法是忽略违法者群体的年龄、性别、种族、发色、身高等差异，纯粹看他们的实际行为和算法得分的匹配度。但算法如果以这种标准打分，出来的结果势必在年龄、性别、种族、发色或身高等方面有不稳定的表现，就会被视为有失公允。所以，不管算法是否将以上因素考虑进去，都会顾此失彼，难以平衡，这是事实。换作法官也是如此，所以这是一个取舍的问题。

茱莉娅·德莱塞尔和汉尼·法里德都是计算机专家，他们一直关注这场COMPAS是否产生了有种族偏见结果的辩论。德莱塞尔对科普作家埃德·扬说：“大家在争论COMPAS的时候，潜意识里似乎都认定这个算法比人预测得准，但我找不到任何证据证明这一点。”

由于有了ProPublica调查小组的基础工作，德莱塞尔和法里德也可以就他们的疑惑展开调查。即使COMPAS的算法还是个秘密，但ProPublica已经公布了足够多的算法预测数据，允许人们再调用它，用其他变量进行有意义的测试。其中之一是一个简单的数学模型，只有两个变量：罪犯的年龄和以前犯罪的次数。德莱塞尔和法里德发现，双变量模型和广受吹捧的137个变量的COMPAS模型的准确率是一样的。最后，他俩做了人与算法准确率对比的实验。他们测试了一些普通人，给他们看了每个违法者的7条相关信息，让他们预测这些违法者是否会在两年内再次犯罪，结果是其中一些普通人的预测平均值高于COMPAS算法。

这个结果有点让人猝不及防。正如法里德说的，如果算法将一个违法者评为高风险者，法官可能会听信，但如果我们告诉法官“我们在网上进行了20个人的采访，他们都说这个违法者会再次犯罪”，法官不大可能会考虑我们的意见。

要求COMPAS算法的准确率高于20个来自互联网随机网民的判断过分吗？这个要求高吗？然而COMPAS算法居然没有达到这个水平。

既然COMPAS预测的公共数据已经是公开的了，那么其他技术人员就可以对它进行技术解剖了，找出它的缺点也就不难了。

就像人一样，算法也分可以相信的算法和不可轻信的算法。这与区别对待他人一样，不要问：“我们应该相信算法吗？”我们应该问：“我们可以信任哪些算法，我们可以把什么东西交给算法去做？”

奥诺拉·奥尼尔认为，如果算法要证明它的可信度，首先要证明“它的智能经得起检验”。为此，她列了一个清单，即智能经得起检验应该具备的四个属性。首先，数据应该是可访问的，这意味着它们不被深藏在某个秘密数据库的深处而不能为公众所用。其次，数据结果应该清晰易懂。再次，算法结果应该以可利用的形式呈现，也就是说，結果应该是标准的数字格式的。最后，算法结果应该是可测评的，即任何有时间和专业知识的人想要严格测评算法有效性，都可以调取算法的详细资料。

奥尼尔的原则很有道理，毕竟很多算法都事关人命，例如，是否应该释放一个案犯，接到虐童的报警电话是否出警。所以我们应该引进外部的专家来测评算法的有效性。人类有法律保证，例如，禁止种族歧视和性别歧视，我们需要确保算法也不能出这样的纰漏，至少在法庭上不会被找到这样的漏洞。

《算法霸权：数学杀伤性武器的威胁与不公》的作者凯西·奥尼尔认为，数据专家应该像医生一样，成立一个专门的组织，来规范职业道德。至少，这可以为有问题要举报的人提供一个去处。“这样，当老板（比如脸书）要求我们做一些自己认为有违道德标准的事情，或者至少这种做法伤害了客户对我们的信任，就有可以投诉之处了。”

算法与医学实践还有一点类似，重要的算法也应该使用随机对照试验进行测试。如果一个算法的程序员声称他的算法可以测评出老师是否应被解雇，或者犯罪嫌疑人是否应被保释，我们的回答是“证明它”。医学发展史告诉我们，很多理论听起来无懈可击，但操作起来就不是那么回事了。算法不是药物，简单地克隆FDA这样的组织是行不通的；我们需要在更短的时间内进行试验，并从不同的角度看待知情同意（临床试验对于批准新药用于人类的标准很高；我们也还不清楚能否将这些标准运用于教师或犯罪嫌疑人评估的算法上）。不过，任何对他们算法有信心的人都应该欢迎公众的检验。所以，除非那些算法可以证明自己，否则我们是不能把学校和法院这样重要机构的评估托付给算法的。

当然，不是所有的算法都值得被如此关注。让外部专家去审核塔吉特母婴用品优惠券的算法，就小题大做了。需要审核哪个算法要看具体情况，对算法可信度和透明度的要求也要具体情况具体分析。

例如，我们对YouTube（油管）的视频推荐算法和网飞的电影推荐算法要求就不一样。YouTube上有大量不良视频，其推荐引擎也因经常推荐这些不雅或暗黑的视频而遭人诟病。目前，是否有证据证明YouTube引擎的激进主义还是个未知数，但如果没有更多的算法透明度，就很难说清它不是这样的。

网飞的问题是另一个类型的：担心竞争。它的推荐算法是依据客户以往观看过哪些电影这样巨大的秘密数据库而搭建的，亚马逊也有一个类似的巨型数据库，但它们都不公开这些数据库，这无助于算法的提高。假设我是一个很有想法的年轻企业家，想根据人们以前的观影习惯，用一种新的算法来预测人们会喜欢哪些电影。如果没有大数据来检验，我的好点子永远无法付诸实践。是的，亚马逊和网飞的观影推荐算法没有什么可指责的，但是有没有办法强迫它们公开自己的数据库，促成算法设计方面的竞争，最终让消费者受益呢？

这当然涉及隐私问题。你可能认为这是一个很容易解决的问题：只需从记录中删除姓名，数据就成匿名的了。没那么简单：有了一个丰富的数据集，并通过与其他数据集进行关联，很容易就可以知道#961860384是谁了。网飞曾经举行了一个寻找更好推荐算法的竞赛，为此向技术人员发布了一个匿名数据集。不幸的是，结果发现它的一个会员在网飞上发表了对一部家庭录像的评论，但又以真实姓名将同一评论发布在互联网电影数据库网站（IMD）上。这样网飞用户就知道她是谁了，要命的是她的评论表明她是个女性同性恋者，这是她的死穴，也是不希望别人知道这事。

此事闹得沸沸扬扬，她起诉网飞“暴露”了她的隐私，最后双方私下和解了结了此事。

尽管公开数据库这个问题十分棘手，但是必须找到解决方法。方法之一是允许被授权的技术人员接触数据库。另一种方法是发布“模糊”数据，即所有单个数据都模糊处理，但不影响整个数据结构的完整性。因为不解决数据库公开的问题，就难以保证商业上的公平竞争。像谷歌和脸书这样的公司，因为它们拥有巨大的数据库，从而获得了绝对的竞争优势，可以轻易把小的竞争对手扼杀在萌芽状态，或者使用一个服务（如谷歌搜索）的数据来推广另一个服务（如谷歌地图或安卓系统）。如果这些数据中的一部分被公开，其他公司就能够从中学习借鉴，并提高或改善算法，以更好的服务向大公司发起挑战。不仅商界人士，科学家和社会学家也可以从大数据库中受益。一种可能的模式就是要求私人“大数据库”在若干时间后公开，并提供适当的匿名保护。三年前的数据对于许多商业用途来说是过时的，但对科学研究可能仍然具有巨大的价值。

这有一个先例可以借鉴一下：专利发明人必须先同意专利到期后开放其技术，才可以得到知识产权保护，也许对拥有大数据集的私有企业也可以用同样的思路来要求它们公开数据库。

大数据正在改变我们周围的世界，如果电脑以人类不能理解的方式代替人类做决定或预判，自然会遭到排斥。我认为人类的担心并不多余。现代数据分析可以产生一些奇迹般的结果，但大数据往往不如小数据可信。小数据通常可以被核实，大数据往往被深藏在硅谷的地库里。分析小数据的统计工具也容易检验，但模式识别算法则容易成为商业领域敏感的神秘黑匣子。

所以我认为我们既要抵制人们对大数据和算法的炒作，也要警惕对它们的全盘否定。涉及要紧的事情，我们应该就事论事地不停追问：底层数据是否可访问？算法的性能是否进行了严格的评估？例如，通过随机试验，看看人们是否在没有算法帮助的情况下做得更好。是否允许外部专家对算法进行评估？他们的结论是什么？我们绝不可以把算法和人都绝对化，认定一个怎么都比另一个好，这样一刀切的想法才是个大大的陷阱。