编译 许林玉
近十年来,许多令人印象最深刻的人工智能系统都使用大量带有标记的数据进行学习。例如,一幅图像可能被标记为“虎斑猫”或“山猫”,以便“训练”人工神经网络能够正确区分虎斑猫和山猫。这种策略极其成功,但同时也存在严重的缺陷。
这种“监督式”训练需要人工标记数据,极为费力,而神经网络通常会走捷径,学会将这些标记与最少的信息相关联,而这些信息有时只是表象。例如,神经网络可能会根据是否有草来识别奶牛的照片,因为在拍摄时,通常会让奶牛待在田野中。
加州大学伯克利分校的计算机科学家阿列克谢·埃夫罗斯(Alexei Efros)介绍说:“我们正在培养新一代算法。它们就像整个学期都没有上课的大学本科生,然后在期末考试前一晚临时抱佛脚。他们并没有学习这些资料,但也可以在考试中取得好成绩。”
此外,对于关注动物与机器智能交叉领域的研究人员来说,这种“监督学习”在揭示生物大脑工作原理方面可能会受到限制。包括人类在内的动物并不是通过标记数据集进行学习。在大多数情况下,他们会自己探索环境,进而全面、深刻地了解世界。
目前,一些计算神经科学家已经开始使用含有少量甚至没有人工标记的数据来训练神经网络。这些“自监督学习”算法在建模人类语言以及识别图像方面已经颇具成效。在最近的研究中,与监督学习得到的模型相比,使用自监督学习算法构建的哺乳动物视觉和听觉系统的计算模型更接近大脑功能。在一些神经科学家看来,人工网络似乎开始展现人类大脑实际使用的一些学习方法。
大约在10年前,受人工神经网络启发而构建的大脑模型就已经成熟。与此同时,一个名为AlexNet的神经网络彻底改变了未知图像的分类任务。与所有神经网络一样,该网络由多层人工神经元构成。这些计算单元相互连接,但强度或“权重”可以有所不同。如果神经网络无法正确对图像进行分类,学习算法就会更新神经元之间连接的权重,以降低下一轮训练中出现错误分类的概率。该算法对所有的训练图像多次重复这一过程,并调整权重,直到网络的错误率低至可接受水平。
加州大学伯克利分校的计算机科学家阿列克谢·埃夫罗斯认为,大多数现代人工智能系统都过于依赖人类创造的标签,它们并没有真正地学习
与此同时,神经科学家使用AlexNet及其衍生网络等神经网络,开发了灵长类视觉系统的第一个计算模型。这种结合看起来前景光明。例如,当猴子和人工神经网络看到相同的图像时,真实神经元和人工神经元的活动表现出有趣的对应关系。检测听力和气味的人工模型也随之出现。
但随着该领域的发展,研究人员意识到了监督式训练的局限性。例如,2017年,当时任职于德国图宾根大学的计算机科学家莱昂·盖蒂斯(Leon Gatys)和他的同事拍摄了一张福特T型车的照片,然后在照片上覆盖豹皮图案,生成了一张奇异但易于辨认的图像。一个行业领先的人工神经网络正确地将原始图像分类为福特T型车,但将修改后的图像视为豹子。它专注于纹理,对汽车(或豹子)的形状却一无所知。
自监督学习策略旨在避免这些问题。通过这种方法,人类不用给数据贴上标签。“标签来自数据本身。”瑞士巴塞尔弗里德里希·米舍尔生物医学研究所的计算神经科学家弗里德曼·岑克(Friedemann Zenke)介绍道。自监督算法本质上是在数据中制造空白,然后让神经网络填补空白。例如,在一个所谓的大型语言模型中,训练算法会向神经网络展示句子的前几个单词,并要求它预测下一个单词。当使用从互联网上收集的大量文本语料库进行训练时,模型似乎学会了语言的句法结构,并展现出极其出色的语言能力——所有这些都没有施加外部标签或监督。
计算机视觉领域也正在开展类似的研究。2021年底,脸书的人工智能实验室研究科学家何凯明和他的同事展示了他们的“掩码自动编码器”。该编码器以埃夫罗斯团队在2016年开创的技术为基础。这种自监督学习算法随机对每张图像的近四分之三使用掩码。掩码自动编码器将未使用掩码的部分转换为隐层表示——包含关于物体重要信息的压缩式数学描述。(就图像而言,隐层表示可能是捕捉图像中物体形状等信息的数学描述。)之后,解码器将这些表述重新转换成完整的图像。
自监督学习算法对编码器和解码器组合进行训练,以将掩码图像恢复为完整图像。真实图像和重构图像之间的任何差异都会反馈到系统中,以帮助系统学习。该过程对一组训练图像重复进行,直到系统的错误率降至合理程度。例如,当一个经过训练的掩码自动编码器碰到一张之前没见过、几乎80%的图像使用掩码的公共汽车图像时,该系统成功地重构了该公共汽车的结构。
“这一结果令人印象深刻。”埃夫罗斯说。
相比起先前的算法,此类系统创建的隐层表示包含更深层信息。例如,该系统可以学习汽车或豹子的形状,而不仅仅是它们的图案。埃弗罗斯说:“从下至上构建知识,正是自监督学习的基本理念。”再也不用为了通过考试而临时抱佛脚。
这类系统让一些神经科学家想到了人脑的学习方式。加拿大麦吉尔大学和魁北克人工智能研究所的计算神经科学家布莱克·理查兹(Blake Richards)表示:“毫无疑问,大脑90%的学习活动都是自监督学习。”人们认为,生物大脑一直在不断做出预测,如一个移动物体接下来的位置,或者句子中的下一个单词,就像自监督学习算法试图预测图像或文本片段中的空白一样。大脑也会从自己的错误中学习——在大脑的反馈中,只有一小部分来自外部,其他基本上都是“错误答案”。
例如,参考人类和其他灵长类动物的视觉系统。所有动物感觉系统得到了最充分的研究,但神经科学家一直在努力解释为什么它们包含两个独立的通路:用于识别物体和面部的腹侧视觉流和处理运动的背侧视觉流。
计算神经科学家布莱克·理查兹帮助创造了一种人工智能,可以模仿活体大脑中的视觉网络
理查兹和他的团队创建了一个自监督模型来寻求答案。他们训练了一种结合两种不同神经网络的算法:第一种称为ResNet架构,用于处理图像;第二种称为回馈式架构,它可以跟踪一系列先前的输入,从而对下一个预期的输入做出预测。为了训练联合人工智能,该团队从一个序列开始,例如从一个视频中的10帧画面开始,让ResNet逐一对其进行处理。然后,回馈式架构预测第11帧画面的潜在表示,而不是简单地匹配前10帧画面。自监督学习算法将预测值与实际值进行比较,并指导神经网络更新其权重,使预测更加准确、合理。
理查兹团队发现,使用单一ResNet训练的人工智能擅长识别物体,但不擅长运动分类。当他们将一个ResNet拆分为两个,在不改变神经元总数的情况下创建两条通路时,人工智能将其中一个用于识别物体,另一个用于运动分类,从而能够像我们的大脑一样对这些属性进行下游分类。
为了进一步测试人工智能,该团队向其展示了一组西雅图艾伦脑科学研究所的研究人员此前曾给小鼠播放的视频。和灵长类动物一样,小鼠的大脑也有专门处理静态图像和运动的区域。艾伦的研究人员记录了小鼠观看视频时视觉皮层的神经活动。
同样,理查兹团队也发现了人工智能和活体大脑对视频的反应方式具有相似之处。在训练过程中,人工神经网络中的一条通路变得更类似于老鼠大脑内检测物体的腹侧区域,而另一条通路则变得类似于专注运动的背侧区域。
据理查兹介绍,研究结果表明,只有一条通路是不够的,因此我们的视觉系统有两条专门的有助于预测视觉的未来的通路。
人类听觉系统的模型与此相似。2022年6月,由Meta AI研究员让-雷米·金(Jean-Rémi King)领导的团队训练了名为Wav2Vec 2.0的人工智能。该人工智能使用神经网络将音频转换为隐层表示。研究人员隐藏了其中的一些表示,然后将其输入到另一个被称为转换器的组件神经网络中。在训练过程中,转换器预测被隐藏的信息。在这个过程中,该人工智能学会了将声音转化为隐层表示——不需要标签。金介绍说:“团队使用了大约600小时的语音数据来训练网络,这大约相当于一个孩童在最初两年接收的语音信息量。”
该系统完成训练后,研究人员就用英语、法语和普通话给它播放有声读物中的部分内容。然后,研究人员将人工智能的性能与来自412人的语音数据进行了比较。这些人由上述三种语言之一为母语的人组成。在他们听取同一段音频的同时,用功能性磁共振成像扫描仪对他们的大脑进行成像。金说,尽管功能性核磁共振成像图像有干扰信息而且分辨率低,但神经网络和人脑不仅相互关联,而且以系统的方式相互关联:人工智能早期层的活动与初级听觉皮层的活动一致,而人工智能最深层的活动与大脑中较高层(即前额叶皮层)的活动一致。“这些数据真的很漂亮,”理查兹说,“虽然它们不具有决定性作用,但这是一个令人信服的证据。它们表明,我们在学习语言时,很大程度上是通过预测接下来要说的话实现的。”
让-雷米·金帮助训练了一种人工智能,它可以模拟大脑对音频进行加工—部分是通过预测接下来会说什么
这种说法并不能让每个人都信服。美国麻省理工学院计算神经学家乔希·麦克德莫特(Josh McDermott)利用监督学习和自监督学习对视觉和听觉感知模型进行了研究。他的实验室设计了一种合成音频和视频信号(他称之为“metamers”)。对人类而言,这些信号只是难以理解的噪音。但对于人工神经网络来说,它们与真实信号几乎没有差异。这表明,即使是自监督学习,神经网络深层形成的表示也与我们大脑中的表示不相匹配。麦克德莫特说,这些自监督学习方法“在某种意义上是一种进步,因为你不需要任何标记就可以学习支持多种识别行为的表示。不过,这种方法仍然存在许多监督模型的缺陷”。
该算法本身也有很多需要改进的地方。例如,在Meta AI的Wav2Vec 2.0中,人工智能只能预测几十毫秒声音的隐层表示,这比发出能够在感知上区分的噪声所需的时间还短,更不用说一个单词了。金说:“要想让人工智能像大脑一样工作,依然任重而道远。”
要想真正了解大脑功能,需要的不仅仅是自监督学习。一方面,大脑充满了反馈连接,而目前的模型几乎没有这种连接。显而易见,研究工作的下一步是使用自监督学习来训练高度循环的网络——这是一个艰难的过程。此外,还要观察这类网络中的活动与真实的大脑活动有多大的可比性。另一个关键步骤是将自监督学习模型中的人工神经元的活动与单个生物神经元的活动相匹配。金表示:“将来,我们的研究结果也有望通过单细胞记录得到证实。”
如果大脑与自监督学习模型之间被观察到的相似之处同样适用于其他感官,那么这将更有力地表明,无论我们的大脑有什么魔力,都需要某种形式的自监督学习。金说:“如果我们能在截然不同的系统之间找到系统上的相似之处,那就意味着也许没有那么多方法能够以智能的方式加工信息。至少,这正是我们想要寻根究底的一种美好假设。”
资料来源 Quanta Magazine