破解人工智能的迷思

2020-12-30 07:49北京张炜卓李静
网络安全和信息化 2020年2期

■北京 张炜卓 李静

人工智能可以定义为“通过调用各种计算、数学、逻辑、机械甚至生物学的原理和设备来理解,建模和复制智力、认知过程的跨学科方法”。随着数学、信息技术相关领域近30年的快速发展,AI博弈、图像识别、AI翻译、语音识别等应用系统呈井喷之势。但究其技术背景,无不依赖机器学习理论。

实际上,大多数机器学习方法使用的是最初相当简单的模型的复杂组合,例如决策树或广义线性模型。不幸的是,尽管它们可能非常高效,但它们经常爆发难以理解的风险,而肇因难以解释,并且在某些情况下几乎不可能检测到错误或偏见。

算法具有的本质困难在于,无法自行选择参数或选择模型,因此最终多是根据经验或开发者的主观印象进行参数或模型的选择。换句话说,机器学习需要专家的干预。他们非常准确地告诉机器它需要学习什么以及应该如何学习。因此,机器的作用往往仅是进行人力不及的计算。

神经网络代表了机器学习的一个很好的例子:它在非常复杂的模型中结合了相当简单的算法操作,这些模型经过训练可以学习重现现有数据集。当然神经网络也承袭了一般机器学习方法的主要优缺点:一方面,它可以准确地对复杂情况建模,并自动检测迄今为止人类和机器都无法理解的模式。另一方面,即使开发它们的研究人员也往往对其输出结果难以预料。人们还需要进行大量的微调才能找到最佳模型。所以深度神经网络绝不是机器自行学习选择最佳模型的神奇方法。相反,算法需要研究人员的专业知识和不断的监督。

对当下AI技术现状常见的误解

误解1:人工智能已经能用计算机代替人的智力活动

简单结论:这是美好愿景,但现实还远远达不到。人的智力活动是建立在大脑神经生物学基础上的系统而复杂的人类活动,目前最新的技术水平也只是达到类推理的部分学习功能。具体地说,表象上类似婴儿对语音、语义、图像等的辨识学习过程,虽然冠以神经网络这种拟人化的名称,但其统计学原理却与人脑的神经学原理完全不同。因此对于实质上的概念语义理解从而进行有效沟通等思维活动,现有技术没有给出可行方法。

不过我们也看到另一种思路指导下的欧洲人工大脑研究项目采用了与现有统计学机器学习理论完全不同的研究方法,试图从结构上重建人类生物大脑,进而实现模拟的神经活动,最终达到仿生意义上的人工智能。不幸的是,这个研究计划20多年来似乎进展很不顺利。

因此当前的热潮反映了确实技术在进步,但也止于模仿特定领域的人类学习能力。不过这一进步带来的应用确实可以解决很多现实问题。

误解2:人们对现有的人工智能系统拥有完全的理解和掌握,至少这些系统的开发者可以做到。

从神经网络算法的原理上讲他们不能,任何人也不能完全理解算法黑箱中隐藏层所代表的含义或者人为掌握控制这些隐藏层。隐藏层是完全产生于统计学意义下的抽象神经节的网络,人们力所能及的只是对参数做调整,使得系统输出尽量满足人们预期。AI系统经历越多的训练和调整就越能符合人们希望其实现的功能:分类、识别、翻译等。其实这种所谓的满意程度也是以数字形式体现的误差函数,简单说就是以数值达标作为系统功能的实现目标。

虽然人们无法理解算法黑箱内部,但是好在当下AI系统实现的功能已经足够好和吸引人。比如街谈巷议的围棋称雄、人脸识别、自动驾驶等。

另外提到完全掌握也不免令人疑虑。人们一早就发现神经网络的AI系统存在脆弱性:对于输入数据的微小扰动就会使成熟的AI系统出现不可接受的错误。《自然》杂志2019年10月的一篇文章就深入的讨论了这一问题。例如一幅贴有小广告的交通牌可能使自动驾驶的AI系统误将停止图像识别为限速图像从而酿成车祸。

误解3:目前的AI算法建立在数学理论基础上并且运行在精准的计算机硬件上,所以这些系统产生的结果应该是中立、客观、公正的。

又是一个美好的愿望。深度神经网络算法确实是基于统计学理论发展起来的,但这个算法的实现依赖于对大量已标签化数据的“学习”。这种标签化全部由人类完成,不可避免的带有这些训练者的主观意见。这就如同来中国学习的福原爱学到的纯正中文带有东北口音。

这种由于输入数据和训练过程产生的倾向性称为算法偏见,再加上统计学本身也存在有偏抽样的问题,使得隐藏在高科技外衣下的人类主观偏见得以借由AI系统表现出来。

这一缺陷有解么?可以渐进式优化么?很难。当下机器学习的原理决定了功能上AI系统严格依赖人类的调教,训练过的AI系统可以高效地像人那样依据学习做事情,但并不会离开人们做事情的标准和方式。

目前在人力资源筛选和法律事件处理领域,我们正看到新兴的AI系统带着同行前辈类似的价值观以客观之名进行决策。谨慎的研究者发现它们充其量只能与人类过去一样“公平”。在某些情况下,它们甚至可能通过选择现有模式并过度利用它们来改善结果,从而导致歧视加剧。这是因为所使用的训练数据可能会被错误地标记或受到历史偏见的污染。例如AI招聘系统,雇主本意依靠绩效衡量指标,但提供学习数据的人类编码员会系统地低估有色人种或女性的绩效,或者采用对某些群体代表性不足的数据,仅仅因为从历史上看公司雇用这样的人数较少。AI模型可能迅速了解这些模式的偏见并使之加强。看看亚马逊公司的AI招聘工具,该工具学会了低估包含“女性”一词的简历。

值得警惕的是像法律这种需要做价值判断的工作,不容许出现算法误判,而这种误判在现有AI系统中由于固有的脆弱性无法避免。所以在基础理论产生“少数派报告”之前,我们应该时刻铭记:当前的AI不完全可靠,最佳发挥也就是达到人类已有的价值判断水准。

误解4:目前AI离不开人,超不过人(能力范围)是受限于技术条件,很快技术进步就会突破现状。

目前AI采用的理论基础决定只能从能力上模仿人类智力活动的特定功能,真正突破恐怕还是依赖于理论基础的进步。这种进步可能诞生于生物领域或者信息技术领域或者任何新兴科学领域。

这里我们不妨回顾人工智能发展史上的前一个重要节点。1956年达特茅斯会议上,参会者提出了这样的理论:学习或者智能的任何其他特性都能被精确地描述,使得机器可以对其进行模拟。也就是说,人工智能需要经过特征提取、模型训练和数据预测三个阶段。

当然,人工智能在发展过程中也遇到过非常多的挑战。20世纪70年代,人工智能的发展遇到了计算资源上的瓶颈,当时的大型机器无法负担这一切,同时,在数据积累方面也才刚刚起步,人工智能在很长的一段时间内都受限于计算能力以及数据量的不足。

到了21世纪,互联网呈现出井喷式的发展态势,互联网已经变成了一个大数据仓库。许多有远见的公司或个人纷纷将注意力投向数据挖掘领域,大家开始用一行行公式和代码挖掘数据背后的价值,这些代码和公式的主角就是机器学习算法。数据的积累就像是一块块肥沃的土地,需要机器学习算法在上面耕种。

因此在底层理论领域和当今互联网架构的技术领域没有发生种子萌发那样发展的情况下。在目力所及的中短期内,我们看到的主要是现有AI技术出现在更多应用场景下,那种质的飞跃还在等待时机。

误解5:当下已部署的AI技术对社会个体有百利而无一害

AI是当前科学武器库中的一把利器,同时也是双刃剑。以下仅就业已出现的针对社会个体的危害简单罗列。

Deepfake 泛指以现有图像、语音、视频作为基础素材,由机器学习算法进行修改合成产生现实中不存在的高可信度影音资料,从而实现诈骗、欺骗、构陷等目的。

人脸识别、语音识别、步态识别等个体识别技术系统构成对社会个体隐私的侵害,个体往往处于被动强制采集隐私信息状态。不当使用可能造成人身威胁。

AI系统脆弱性造成误判,可能酿成事故。例如Google 自动驾驶汽车的AI视觉错误造成骑车人事故死亡事件。某些AI安防系统错误导致发出恐袭假警报造成混乱。

当今网站的AI推荐系统会集中推荐符合个体用户口味的信息、产品、社交关系。久之,用户会落入自我设定的信息孤岛,人际关系也陷入意见相近的社交孤岛。以上是形成网络偏见甚至极端主义的温床和沃土。

AI系统由于需要海量数据进行训练,又需要高成本的硬件计算资源进行部署实施,这就使AI资源自然集中在商业寡头或极权政府手里,对普通消费者或社会个体形成数字压迫。个体始终处于被跟踪、被建模、被筛选、被操纵、被预测、被剔除的不利地位。

误解6:目前 AI已经可以进行创造性活动

最近越来越多的AI系统走近我们身边,使我们误认为这些应用系统已经拥有创造性。Deepfake 如前文所述只是将已有素材按照特定意图进行修改与合成,它可以制造不存在的情景,但并没有创造任何不存在的视觉或听觉元素,这只是高级造假绝不是无中生有。有趣的是当我们浏览https://generated.photos/ 生成的AI人像时,经常会碰到算法脆弱性导致的令人啼笑皆非的错误。

另一个很火的系统可以把任何图片转换成特定艺术家绘画风格的合成绘画图像,这里图片是现成的,艺术家绘画风格是经训练模型化的。所以该系统并没有创造新的绘画风格,而只是模仿这种风格重绘了所给图片。

那些AI作诗、编小说、讲鬼故事的系统所产生的貌似原创内容更像是以算法所学素材标准对随机语言要素进行的筛选结果,与其他AI输出一样只能做到“看上去像传统作品”,却无法创造出“出圈”的东西。

上述误解可能带给我们的不良影响

前文所述的关于当下人工智能技术的各种误解其实具有一定代表性,这些误解可能给我们现实生活带来不良影响。这些影响包括:

1.迷信人工智能带来的确定性神话而回避应有的思辨和讨论。

2.算法偏见继承了训练数据已有的偏见,AI系统可能使这种偏见被自然化而易于接受。

3.由于社会整体对AI算法内核理解的困难性,对于算法开发者和厂商应承担的责任容易被忽视,甚至在必要时难于追究这种责任。人人都可以说这问题是AI的责任,不是我的责任。

行文到最后笔者想再度重申:指出并澄清当下我们对现有AI技术的误解,只是帮助大家更清晰准确地了解事实真相。只有当我们全面了解目前AI技术的能力和局限性,才能更准确地理解AI产生的决策来源和依据以及可靠性。能够做到不迷信才有继续追求技术进步的需求和动力,对于可能出现的来源于AI系统脆弱性的事故和风险我们才能有所准备。

希望未来的AI更美好,希望有AI的未来更美好。