机器真智能与现行机器学习技术

2019-04-09 03:28张军英

新教育时代·教师版 2019年1期

张军英

摘要：使机器具有真智能是人工智能的终极目标。本文通过考察机器学习的内涵、发展历史以及存在问题，指出现行机器学习技术是不具有任何智能的，尽快在解决大数据驱动的大量工程问题上取得了巨大成功，但在解决大数据驱动的大量科学问题时，出现了大量的错误结论。机器的真智能需要有对数据分析的革命性工作才有可能。

关键词：人工智能机器学习机器真智能

机器真智能（强人工智能）是让机器具有像人一样的智能，而机器学习技术在人工智能中的应用则只能使机器具有弱智能。其实，机器的这种弱智能实际上是机器完全没有真正的智能，那么真智能离我们还有多远？

一、人工智能能做什么不能做什么

现在的人工智能能做什么呢？通过机器学习技术，现在的人工智能已经非常发达，可以做很多人类可以做甚至做的不够好的事情，比如，人脸识别、指纹识别、虹膜识别、掌纹识别、目标识别、车牌号识别、手写数字识别、语音识别、说话人识别、图像识别、姿态识别、疾病辅助诊断、文本识别、自动推荐、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学、自动驾驶、语言和图像理解、遗传编程、甚至下围棋这样需要高智商的任务等等等等等。人工智能在解决大量模式识别等工程问题上取得巨大成功，达到甚至超出人类的能力，包括各种识别系统的结果是又快又准，但要让机器拥有真正的智能，还存在遥远的路途。[1]

一个显著特点是：机器学习技术在用于科学发现问题上，“大部分的研究发现是错的”，请注意，这竟然是2005年发表在Plos Medicine上被引用4000余次的论文[1]的标题（Why Most Published Research Findings Are False），即“它们的重复性差甚至没有重复性。标榜其为科学发现的结果必然导致对现象本质的错误认识”。这是不是与目前机器学习没能使机器具有真智能有关，是需要研究的问题。[2]

机器学习、人工智能在解决工程问题上的巨大成功和在解决科学问题上的失败形成了鲜明的对比。我们认为，机器学习技术在解决工程问题的性能上是否还有进一步提升的余地，以及是否可以用其解决数据驱动的科学问题，让机器拥有真智能是解决问题的关键。

二、机器真智能的含义

首先，什么是真智能？我们认为，真智能就是意识、思考、好奇心、思念、抽象能力、理解力、创造力、想象力以及区分事实与假象的能力等等。这些与真智能相关的能力，目前还没有确切的定义和认识，这是让机器拥有真智能的第一个难题，特别地，这些能力之间有怎样的关系，以及它们在底层有怎样的共性基础，目前仍是完全未知的，这给让机器拥有真智能带来了最大的障碍。

三、机器学习技术的现状与问题

机器学习是研究怎样使用计算机模拟或实现人类学习活动的技术。机器学习是机器获得知识的途径，是机器具有（弱）智能的重要标志。从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。从实践角度讲，机器学习是一种利用数据训练出模型、并使用模型达到预测目的的方法。

机器学习的核心是学习。学习是人类特有的一项能力，如何让机器像人类一样做事，能够通过外界环境的影响来改善自己的行为，是机器学习研究领域的重点。机器学习的过程是一个从未知到已知的过程。如果一台机器拥有这样的程序，随着机器解决问题的样例的增多，在该程序的作用下，机器的性能或解决问题的能力就会逐渐增强，我们就说这台机器就拥有学习的能力。但是学习只是人类能力中的一种能力罢了。问题是：真智能一定仅仅来源于学习吗？

1.机器学习的发展历史

机器学习的发展历史，可以认为分为热烈期、冷静期、复兴期、蓬勃期几个典型阶段：（1）热烈期，从上世纪 50 年代中叶到 60 年代中叶。研究“没有知识”的学习，其主要目标是研制各类自组织和自适应系统，诸如自组织网络等。（2）冷静期，从上世纪 60 年代中叶到 70 年代中叶。主要研究模拟人类的概念学习过程，即符号学习。使用的工具主要是语义网络和谓词逻辑。（3）复兴期，从上世纪 70 年代中叶到 80 年代中叶。研究的目标仍是概念学习，但从学习单个概念扩展到学习多个概念，探索不同的学习策略和各种学习方法。（4）蓬勃期，从上世纪 80 年代到现在是机器学习的新阶段。神经网络的复苏，带动着各种非符号学习方法和符号学习方法并驾齐驱；学习方法、学习系统开始走出实验室，进入实际应用领域。特别是近期出现的alphago和alphago zero，人机围棋大战中机器赢得比赛，使人们看到了一丝“智能”的曙光，并以此担忧机器智能取代人类智能从而统治人类，但是目前的人工智能，其自我学习、举一反三的能力还不如一个5岁孩子。有谁会担心五岁的孩子来统治人类？[3]

2.机器学习解决的主要问题

机器学习总结起来，其基本技术无外乎解决以下几类问题：有监督学习（supervised learning）、无监督学习（unsupervised learning）和强化学习（reinforcement learning），其中有监督学习是将输入模式标识为预定义的几个类中的一个，无监督学习是将输入模式标识为一个未知的类，而强化学习则是在不断尝试的过程中学习在特定的情境下选择哪种行动可以得到最大的回报。

3.机器学习的主要策略

正如人类有各种各样的学习策略，机器学习也有很多策略。按照学习中使用推理的多少，机器学习策略大体上可分为五类：类似于“死记硬背”的机械学习（联想神经网络）、类似老师教学生的归纳学习（如前向神經网络、深度学习等）、类似于逻辑推理的演绎学习（如专家系统等）、类比学习（如迁移学习）和竞争学习（如alphago和alphago zero）。

建立在大数据驱动基础上的机器学习技术，与优化计算、统计分析、Bayes理论、投影、变换等有千丝万缕的联系。例如与优化计算的联系表现在：在求解一个问题（输入X，输出什么？）时，假设问题的模型结构已知，而模型的参数未知，需要从数据中通过学习获得，这一参数寻优问题一般可以归纳为一个约束条件下的最小化问题或最大化问题，目标是求出最优参数。显然这是一个在假设空间中的寻优问题，但是假设是否符合客观情况，却仍是一个疑问。同样，学习过程实际上是高维参数的训练过程：一遍一遍的学，直到收敛到最优参数上，而这个过程也同样可以转化为一个优化问题，以保证每一次学（训练）都能学到“最多”，从而使训练过程收敛最快。

4.机器学习技术存在的主要问题

目前的机器学习，都是在假设空间中学习，比如深度神经网络，其结构本身就已经设定了假设空间，而众多参数的超高维空间学习问题本身，则是在这个超高维空间中的超大规模搜索问题，就目前的优化技术（比如遗传算法、蚁群算法、和声算法等），仍难于保证搜索到全局最优点上。

机器学习的目标函数设定也不尽人意，目标函数本身目前仍不能处理欠学习和过学习问题。机器学习的目标，说穿了是用对训练数据（seen data）处理所获得的知识（尽管难于解释）来最大限度地处理新来的没有见过的数据（unseen data）。这一目标的评价，目前更多的是用交叉验证，而交叉验证的结果（比如交叉验证所获得的平均识别率）实际上是不能真正检验对未见过的数据的处理性能的，因为识别率的方差有可能很大，从而平均识别率实际上可能只是一个偶然现象。对科学问题则常用P值评价，然而P值同样存在不稳定性。

结语

本文对机器学习进行了简略介绍，指出了其存在的主要问题。机器学习发展到今天，其与解决科学问题、实现可重复性还相去甚远。相信机器学习会在解决工程问题上更进一步提升性能，并期待在机器真智能问题上尽快出现革命性的工作。

参考文献

[1]IoannidisJP.（2007）Whymostpublishedresearchfindingsarefalse. PlosMedicine， 4（4），773-773.

[2]HalseyLG，Curran-EverettD，VowlerSL，DrummondGB.（2015）Theficklepvaluegeneratesirreproducibleresults. NatureMethods， 12（3），179-85.

[3]JeffHawkinsandSandraBlakeslee（2005）. On Intelligence，TimesBooks，HenryHoltandCo. ISBN 0-8050-7456-2.