深度学习进化编年史：一路走来，几十年的风风雨雨

2017-08-09 23:01编译房晓楠

机器人产业 2017年4期

编译/房晓楠

编译/房晓楠

人工智能的概念提出已有60多年之久，而关于人工智能、机器学习与深度学习三者之间的关系，在许多人看来一直都是扑朔迷离。本文编译自 Import.io官方博客，作者Andrew Fogg将对这三者之间的关系进行梳理，继而讲述深度学习的成长史，了解深度学习几十年来所历经的风风雨雨。

人工智能自1956年在美国达特茅斯大会提出至今，已经走过了60多个年头，而关于人工智能的定义一直是众说纷纭。一种流传较广的定义是“所谓人工智能，就是与人类思考方式相似的计算机程序”。一般来说，根据应用范围的相应大小，可以将人工智能分为通用人工智能和应用人工智能。近年来，随着技术的发展，人工智能、机器学习和深度学习一直都是业界的热门话题，而这三者之间又具有怎样的关系？

2015年9月，谷歌搜索中机器学习的热度超过人工智能

Google Trends数据显示，自2015年起，机器学习的搜索热度远超过人工智能本身。什么是机器学习呢？一般来说，机器学习（Machine Learning）是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。决策树学习，归纳逻辑编程，聚类，强化学习或贝叶斯网络等算法都有助于它们对输入数据进行理解。现如今，机器学习在诸如数据挖掘、计算机视觉、自然语言处理、生物特征识别和搜索引擎等领域已经具有十分广泛的应用。可以说机器学习是人工智能的一大跨越式进步，但是并不能伴其走向终点线。

深度学习趋势图

如果机器学习是人工智能的一个分支，那么深度学习就是机器学习的一个分支。而三者之间的关系可以表示为：人工智能>机器学习>深度学习。

简言之，深度学习（Deep Learning）是实现机器学习的一种方式，它是在人工神经网络（ANN）基础上发展而来的表示学习方法。它通过构建多层表示学习结构，组合原始数据中的简单特征，来实现更高层和更抽象的表示。

可以说，深度学习是目前人工智能领域最振奋人心的发展，纵观其发展历程，可以领略深度学习一路走来所展示的传奇风采。

1943年：首个神经网络的数学模型诞生

（推进者：Walter Pitts和Warren McCulloch）

显然，想要解决机器与深度学习的问题，我们首先要做的是建立一个理解人类大脑的神经网络。

1943年，逻辑学家W alter Pitts和神经科学家M cCulloch在创造首个神经网络的数学模型时解开了这个谜题。他们合著了《神经活动中固有的思维的逻辑运算》一书，在书中他们提出将数学和算法相结合的想法，旨在模仿人类思维活动。

他们的模型——通常称之为M cCulloch-Pitts神经元（M-P神经元）在今天仍然是标准模型。

1950年：机器学习的预测

（推进者：阿兰·图灵）

图灵是一名英国数学家，因在二战中破解了德国的Enigma密码而出名。但他在数学和科学界的成就并不止于此。

1947年，他预测出机器学习的发展趋势。而他的这个预测在70年后的今天看来，仍然具有一定的指导意义。

1950年，图灵提出了一种机器算法，甚至暗示了遗传算法。他在论文《计算机器与智能》中精心设计了一种他称之为模仿人类的游戏，据此判断机器是否会“思考”，这就是后来流传甚广的图灵测试。

简单来说，图灵测试就是让计算机以文本方式与人类进行时长为5分钟的聊天，如果人类无法确定对方是机器还是人类，则该机器通过测试。

虽然一直以来这个测试的有效性颇具争议，但不得不说，这是60多年来研究人员一直努力的目标。

1957年：感知器神经网络模型问世

（推进者：Frank Rosenblatt）

1957年，心理学家Rosenblatt向康奈尔航空实验室提交了一篇题为《感知器：感知和识别的自动机》的论文。

在论文中，Rosenblatt首次提出了感知器（Perceptron）的概念。这是首个用算法精确定义神经网络的数学模型，是之后许多神经网络模型的始祖。

他宣称，自己将构建一个电子或电动机械系统，以此来学习识别不同光学、电学或色调信息模式之间的相似性。从某种程度上说，这与生物大脑的感知过程非常相似。

他的这种想法虽然看起来不具备很强的实现性，但确实埋下了自上而下学习的种子，同时也被认为是深度神经网络（DNN）的基础。

1959年：

简单细胞和复杂细胞的发现

（推进者：David H. Hubel和Torsten Wiesel）

1959年，神经生理学家和诺贝尔获得者David H. Hubel与Torsten N. W iesel联手发现初级视觉皮层中的两种细胞：简单细胞和复杂细胞。

可以说，许多人工神经网络（ANN）的发现都是启发于诸如此类的生物学观察。而此项研究虽然不是深度学习里程碑式的研究成果，但对该领域的后续研究有着重大影响。

1960年：提出控制论

（推进者：Henry J. Kel ley）

Kelley本是弗吉尼亚理工学院的航空航天和海洋工程专业的一名教授，1960年发表了论文《最佳飞行路径的梯度理论》。

他提出许多关于控制理论的观点，比如输入系统的行为以及系统行为的反馈修正等，都已在AI和ANN中得到了直接应用。它们通常用于开发训练神经网络中连续反向传播模型(也称之为错误的反向传播)的基础。

1965年：

首个有效深度学习网络的诞生

（推进者：Alexey Ivakhnenko和V.G. Lapa）

数学家Ivakhnenko及其同事Lapa等在1965年创建了首个有效深度学习网络，首次将理论和想法付诸于实践。

Ivakhnenko提出数据分组处理 (Group M ethod of Data Handling，简称GMDH)的核心技术：这是一种基于计算机数学模型的多参数数据集的归纳算法系列，能够自动建模并优化参数。此后他将其应用到神经网络中。

基于此，很多人认为Ivakhnenko是现代深度学习之父。

他的算法使用的是深度前馈多层感知器，逐层通过统计方法来寻找最佳的特征，并将其传递给系统。

1971年，Ivakhnenko在当时计算条件有限的情况下，使用GMDH创造出一个8层的深度网络，并成功演示了计算机识别系统Alpha的学习过程。

Hopf ield网络图片来源：维基媒体

1979-1980年：

ANN学会识别视觉模式

（推进者：Kunihiko Fukushima）

作为神经网络领域公认的创新者，日本的福岛邦彦（Kunihiko Fukushima）于1980年提出了“新认知机”（Neocognitron）的概念。

这是一种学习如何识别视觉模式的人工神经网络。目前，这项技术已经广泛应用于手写字符和其他模式识别、推荐系统甚至自然语言处理等任务中。同时，他的研究成果促进了首个卷积神经网络（CNN）的发展。

1982年： Hop field网络的创造

（推进者：John Hopfield）

1982年，Hopfield创立并推广了一个以他的名字命名的系统——Hopfield。

Hopfield网络是一种循环神经网络，同时也是一种综合存储系统。即使到了21世纪的今天，它仍然是一种流行的深度学习实现工具。

1985年：程序开始学会读英语单词

（推进者：Ter ry Sejnowski）

1985年，计算神经科学家Terry Sejnow ski基于他对人类学习过程的理解创建了NETtalk。

该程序学习英语单词发音的方式与人类孩童无异。同时，随着时间的推进，该程序将文本转换为语音的质量也在逐步提升。

1986年：

形状识别和词汇预测水平提高

（推进者：David Rumelhart，Geof f reyHinton和Ronald J. Wi l l iams）

1986年，Rumelhart、H inton和W illiams提出“反向传播误差算法”（BackPropagation Error Algorithm)，即现在所说的BP算法。这项算法至今仍在形状识别、词汇预测等任务中有着广泛应用。

Hinton是公认的“深度学习之父”，他对神经网络有着许多贡献，诸如分散表示、延时神经网络、专家混合系统和亥姆霍兹机等。目前H inton任职于多伦多大学与Google。

1989年：机器读取手写数字

（推进者：Yann LeCun）

LeCun是深度学习领域中的另一个“摇滚明星”，他发现了如何在光学字符识别和计算机视觉上使用卷积神经网络 (CNN)，因此被称为卷积网络之父。

1989年，他将卷积神经网络和反向传播理论相结合，创造出能够“读懂”手写数字的学习方法。他的系统最终用于读取NCR和其他公司的手写检查和邮政编码。

1989年：Q-learning的诞生

（推进者：Christopher Watkins）

1989，W atkins在他的博士论文《延迟奖励学习》中，提出Q-learning的概念，提高了强化学习的实用性和可行性。

这种新算法表明，可以直接学习最优控制，而不需要对马尔可夫决策过程的转移概率或预期回报进行建模。

1993年：

“非常深度学习”任务难题得以解决

（推进者：Jürgen Schmidhuber）

德国计算机科学家Schm idhuber在1993年解决了一个“非常深度学习”的任务难题，从而允许循环神经网络中包含1000个以上的层。

这是神经网络处理复杂性问题能力上的巨大飞跃。

1995年：支持向量机（SVM）

（推进者： Corinna Cor tes和VladimirVapnik）

支持向量机（SVM）自20世纪60年代问世以来，经过了数十年的改进。

目前的标准模型由Corinna Cortes和Vladim ir在1993年设计，并于1995年问世。

简单来说，SVM是一种用于识别和映射类似数据的系统，可用于文本分类、手写字符识别和图像分类。

1997年：LSTM的提出

（推进者：Jürgen Schmidhuber和SeppHochreiter）

1997年，Schm idhuber和Hochreiter提出了一种循环神经网络框架，称之为长短型记忆网络（LSTM）。

LSTM解决了长期依赖性问题，提高了循环神经网络的效率和实用性，也就是说LSTM网络可以“记住”更长时间的信息。

随着时间的推移，LSTM网络在深度学习领域中有着广泛的应用。最近，谷歌还将其应用于Android智能手机的语音识别软件中。

1998年：提出基于梯度的学习

（推进者：Yann LeCun）

1998年，Yann LeCun发表了一篇具有开创性意义的论文——《基于梯度学习的文档识别方法》，标志着LeCun在深度学习领域取得了又一大进步。

随机梯度下降算法（又称基于梯度的学习）与反向传播算法相结合，是目前常用的深度学习方法且日益表现出优良的性能。

2009年：Im ageNet的创立

（推进者：李飞飞）

2009年，斯坦福大学人工智能实验室（SAIL）的教授兼负责人李飞飞创立了ImageNet，即如今全球最大的图像识别数据库。

这是一个免费的图像数据库，里面涵盖了超过1400万张图像，为研究人员、教育工作者和学生提供了有标签的图片。

数据库中的图片被打上标签并通过英文词汇数据库W ordnet管理。

2011年：AlexNet的问世

（推进者：Alex Krizhevsky）

AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的，是卷积神经网络的一种。借于此，Alex Krizhevsky在多个国际机器学习和深度学习竞赛中获得胜利。

AlexNet改进了LeNet5(早些年由Yann LeCun创建)。它最初只有8个层，包含5个卷积层和3个全连接层，并通过修正线性单元来加强速度和dropout。

自AlexNet问世以来，相继出现了许多更多更深的神经网络，它甚至为后续的CNN甚至是R-CNN等其他网络定下了基调。

2012年：关于猫的实验

“关于猫的实验”？这听起来是不是令你感到很困惑，但是又很可爱，其实这些都不重要，重要的是，这个实验确实使深度学习向前迈进了一大步。

实验团队同时在数千台电脑上使用一个神经网络，将1000万张从YouTube视频截来的未标记图片上传至系统，并运行。

当这种无监督学习完成时，程序已经学会如何鉴别并从中识别出猫，该程序的运行正确率约为70%，相较于以往的无监督学习程序，这个结果要好得多。但它并不完美。这个网络仅能识别出约15%的表示对象。也就是说，距离真正的智能，它仅仅迈出了很小的一步，而接下来，还有很长的路要走。

2014年：Deep Face的诞生

（推进者：Facebook团队）

Facebook团队在2014年首次公布了DeepFace的研究，通过神经网络将人脸识别的正确率提升到97.35%。这在人脸识别领域具有重大突破性意义，准确率提高了27%。谷歌也在使用类似的程序来进行人脸识别，如下图所示。

2014年：

生成对抗网络（GAN）的发现

（推进者：Ian Goodfel low）

自从2014年蒙特利尔大学的Ian Goodfellow等人提出GAN的概念以来，GAN呈现出井喷式发展。同时也因其自身魅力吸引着Yann LeCun的注意，“深度学习最近出现了很多有趣的进展。而我认为最有意思的就是生成对抗网络。GAN和它的变体是机器学习领域最近十年来最有趣的想法”。

简言之，GAN里隐含了两个互相对抗的网络：生成网络与鉴别网络。生成网络负责获取样本并尝试创建能够以假乱真的样本，而鉴别网络则需要判断每个数据点是真实的还是生成的。

2016年：

各种强大的机器学习产品纷涌而出

2016年被称为人工智能的元年。在这一年里，涌现出很多基于机器和深度学习的产品和解决方案。

谷歌使用类似的程序来进行人脸识别

Cray（克雷公司），在其XC50超级计算机上使用微软的神经网络软件，和近千个英伟达Tesla P100 GPU，便可以在几个小时内完成过去几天才能完成的深度学习任务。

总结

在过去的60年里，人类在人工智能、机器学习和深度学习领域都有了不小的突破，如果将这些进展整理成一条粗略的时间线，就会从其中看到整个发展进程。

20世纪60年代：浅层神经网络；

20世纪60年代至70年代：反向传播出现；

1974年至1980年：第一次人工智能的冬天来临；

20世纪80年代：出现卷积的概念；

1987年至1993年：第二次人工智能冬天再次降临；

20世纪90年代：无监督学习的问世；

20世纪90年代至21世纪初：监督学习

重回大众视野；

2006年至今：现代深度学习流行。

如今，也许你还没有意识或感受到，却不得不承认，深度学习早已遍布在我们生活中的多个角落——它是Google的语音和图像识别，是Netflix和亚马逊的推荐引擎，是苹果的Siri，是电子邮件和短信的自动回复，是智能聊天机器人……

深度学习的下一步发展方向是什么？它会给我们带来什么？这些都是很难说的。也许就在下一个路口，也许是在几年后。对于如此复杂的学习，很难去预测它的发展时间表。

但有一件事是可以肯定的，那就是：未来一定会是非常有趣的。

房晓楠本刊编辑