+ 张钹
大家“金句”
· 满足这五个限制条件的工作,总有一天会被计算机取代,也就是那些照章办事,不需要任何活性的工作。
· 现在的人工智能基本方法有缺陷,我们必须走向具有理解的AI,这才是真正的人工智能。
· 只依靠深度学习很难到达真正的智能。在决策系统里不能使用这样的系统,因为它会犯大错人类最大的优点是“小错不断、大错不犯”,机器最大的缺点是“小错不犯,一犯就犯大错
我们现在离真正的人工智能还有一段很长的路。为了清晰地阐述这个思想,必须回答下面三个问题:
第一,什么叫做真正的人工智能?我们的目标是什么?
第二,为什么我们需要真正的人工智能?
第三,我们如何走向真正的人工智能?
如何评价目前人工智能取得的成果,主要针对下面的五件事:①深蓝打败人类国际象棋冠军;②IBM的Watson机器人在电视知识竞赛中打败了美国的前两个冠军;③2015年微软在ImageNet上做图象识别,它的误识率略低于人类;④百度、讯飞都宣布,在单句的中文语音识别上,人工智能的误识率略低于人类;⑤AlphaGo打败了围棋世界冠军李世石。这五件事情都是机器在一定的范围内超过了人类,我们如何来评价?
大家一致认为,这五件事得以发生的三要素是:大数据、算力的提升和非常好的人工智能算法。但我认为大家忽略了一项因素,就是这所有的成果必须建立在一个合适的场景下。这五件事虽然领域很不一样,但是它们都满足完全一样的条件,必须有丰富的数据或者丰富的知识,如果没有或者很少,要实现人工智能相当于“无米之炊”。或满足下面的五个限制条件:确定性信息、完全信息、静态的、单任务和有限领域。任何一个条件不满足,现在的人工智能就会遇到很大困难。
这五个限制条件下的应用场景是什么?就是照章办事,不需要任何灵活性,这显然不是智能的核心。
下象棋是完全信息博弈,信息完全和确定;其次,它遵循着完全确定的游戏规则演化,满足静态条件。Watson机器人也是这样,知识竞赛提的问题都没有二义性,所以这样的问答对机器人来讲是非常容易的;它涉及的领域虽然比较宽,但也是有限的。围棋也完全符合上面五个条件,所以对计算机来说也是很容易的。目前计算机打麻将就不行,因为牌类是不完全信息博弈,所以比棋类要难。总之,对目前人工智能取得的成果要有一个正确的评价。
目前的人工智能技术在交通、服务、教育、娱乐等等领域开展了应用。但这些领域里面只有满足上述五个条件的事情,计算机的工作才会容易。如果不满足这些条件,计算机的工作就困难了。
大家常常关心什么样的工作会被机器所替代,满足这五个限制条件的工作,总有一天会被计算机取代,也就是那些照章办事,不需要任何灵活性的工作,比如说出纳员、收银员等等。不满足这五个条件的工作,不排斥有一部分会被计算机取代,但不可能被完全代替,例如老师、企业家。
为什么有这五个限制条件?原因在于现在的人工智能是没有理解能力的人工智能。
首先看符号模型,理性行为的模型。Watson是个对话系统,我们现在所有做的对话系统都和它近似。但是Watson做得更好些,它有知识库、有推理机制。它的知识库包含百科全书、有线新闻、文学作品等等,所有的知识用纸质来表示有2亿页,用存储量表示达到了4TB。它能回答什么问题呢?第一个问题,1974年9月8日谁被总统赦免?这对美国人来讲很好回答,同样对计算机来讲也非常容易,用这几个关键字“1974年9月8日”、“被总统赦免”,就能在文献里查出来是尼克松。也就是说根据问题中的关键字,可以在已有的文献中直接找到答案。第二个问题,荧光粉受到电子撞击以后,它的电磁能以什么方式释放出来?用“荧光粉”、“电子撞击”、“释放电磁能”等关键词,也可以找到答案:光或者光子。这种方法就是平时网络搜索的原理,应该说没有什么智能。
回答下面的问题就需要“智能”了:智利陆地边界最长的是哪个国家?跟智利有陆地边界的国家可以检索到,它们是阿根廷和玻利维亚,但是谁的边境长?通常查不到。Watson具备一定的推理能力,它从边界间发生的事件、边界的地理位置等等,经过分析推理以后就可以找出答案,是阿根廷。
下一个问题也属于这类性质:跟美国没有外交关系的国家中哪个最靠北?检索可知,跟美国没有外交关系的国家有4个。哪个国家最靠北,没有直接答案。但可以从其它信息中推导出来,比如各个国家所处的纬度、气候寒冷的程度等等分析出来,答案是朝鲜。
又如全球有名的索菲亚机器人,她的对话是面向开放领域,人可以随便提问,这样问题就暴露出来了。大家在电视上看到索菲亚侃侃而谈,问什么问题都能答得很好。其实这些问题都是预先准备的,有明确答案,以便在电视上演示出最佳效果。
如果临时提问题,索菲亚的缺陷就暴露了。一个中国记者给索菲亚提的四个问题中,它只答对了一个。“你几岁了?”这个问题很简单,但它答不上来,它的回答是“你好,你看起来不错”,答非所问,因为它不理解所问的问题。只有第二个问题“你的老板是谁”它是有准备的,所以答得很好。第三个问题,“你能回答多少问题呢?”它说“请继续”,没听懂!第四个问题“你希望我问你什么问题呢?”它说“你经常在北京做户外活动吗?”
索菲亚(Sophia)是美国公司Hanson Robotics制造的机器人,拥有橡胶皮肤,能够表现出超过62种面部表情,“她”的“大脑”中的计算机算法能够识别面部,并与人进行眼神接触。她甚至在2017年10月,获得了沙特阿拉伯授予的公民身份。
智能体现在推理能力上。但是很不幸,以上两个例子充分表明,当前的对话系统推理能力都很差,基本上没有理解能力。Watson系统稍好,但也比较有限。换句话说,我们现在的对话系统离真正的智能还很远。
为什么会这样?也就是说现在的人工智能基本方法有缺陷,我们必须走向具有理解的AI,这才是真正的人工智能。什么是真正的人工智能?与目前的“强人工智能”概念有什么区别?首先,我们都试图去准确地描述人类的智能行为,希望人工智能跟人类的智能相近。但是强人工智能只是提出概念,并没有从方法上提出怎么解决。这一理念提出的最核心的概念就是“通用人工智能”,怎么个通用法?没有答案。现在我们提出“有理解的人工智能”,是可操作的,不只是概念。
人机对话的时候,机器为什么不能理解人们提的问题。看一个例子就可以知道。在计算机的知识库里把“特朗普是美国总统”这个事实,以“特朗普-总统-美国”三元组的形式储存。如果提的问题是“谁是美国总统?”机器马上回答:“特朗普。”但是如果问其它有关的问题,如“特朗普是一个人吗?”“特朗普是一个美国人吗?”“美国有没有总统?”它都回答不了。
机器为什么回答不了后面的三个问题呢?因为这个系统没有常识,也没有常识推理。既然特朗普是美国的总统,美国当然有总统,但是它连这一点常识的推理能力都没有。所以要解决这个问题,必须在系统中加上常识库、常识推理,没有做到这一步,人机对话系统中机器不可能具有理解能力。
但是大家知道,建立常识库是一项“AI的曼哈顿工程”。美国在1984年就开始建造这样的常识库,现在还没有完全实现。可见,要走向真正的人工智能,有理解的人工智能,是一条很漫长的路。
我国在这方面也已有研究进展,基本做法是建立一个常识图谱,用图谱帮助理解提出的问题,同时利用常识图谱帮助产生合适的答案。结果表明,有了常识以后,系统性能有了显著的改善,对话的质量显著提高。
另一方面是准符号模型。深度学习、神经网络主要用来模拟感性行为,感性行为一般很难采用符号模型,因为感性(感觉)无法精确描述。
比如,如何告诉计算机什么样才叫做“马”?说马有四条腿,什么叫做腿?细长的叫做腿,什么叫细?什么叫做长?非定量的概念机器是无法识别的。
目前的解决办法是神经网络或者准符号模型,也就是用与人类相同的模式去学习、训练。不告诉机器什么叫做马,只是给它提供不同的马的图像进行训练。然后再用其它马的图片给它看,如果回答正确就是识别正确。如果90%是对的,就说明识别率是90%。
目前,浅层的神经网络已发展到多层的神经网络。从浅层到多层有两个本质性的变化,一是输入信息的不同,深层网络一般不需要人工选择的特征,用原始数据就可以。所以深度学习的应用门槛降低了,操作者不需要有专业知识,只需要把原始数据输进去。二是多层神经网络与浅层相比,性能有明显提升。因此深度学习得以大量应用。
通过数据驱动建立的系统能不能算是有智能呢?这是存疑的。即使人脸识别系统的识别率比人还高,也不能说它有智能。因为这种通过数据驱动实现的系统,性能与人类智能差别非常大,鲁棒性很差、容易受干扰,会发生重大的错误,需要大量的训练样本。
前文说到,给定一个图像库,机器的识别率比人还要高。但是这样的系统,如果输入噪音,就会把马识别成为知更鸟,换一个噪音又可能把马识别成为猎豹。这样的系统只是一个机械的分类器,根本不是感知系统。尽管把各种各样动物分得很清楚,但是它不认识这个动物,只到达了“感觉”的水平,并没有达到“感知”。
我们的结论是,只依靠深度学习很难到达真正的智能。这是很严峻的结论。在决策系统里不能使用这样的系统,因为它会犯大错。人类的最大的优点是“小错不断、大错不犯”,机器最大的缺点是“小错不犯,一犯就犯大错”。
人们一度对自动驾驶很乐观,但目前发现存在不少问题。一般的实现方法是通过数据驱动的学习方法,学习不同场景下的图象分割,并判别车辆、行人、道路等,然后建立三维模型,在三维模型上规划行驶路径。现在用硬件已经可以做到实时。如果路况比较简单,行人、车辆很少,勉强可以实现自动驾驶。但复杂的路况就无法奏效了。很多人总结经验说,行人或者司机都会有意无意地破坏交通规则,无论国内国外都一样。这就使得数据驱动方法失效。
如何解决这个问题?实际上就是要解决从“Without”到“With”理解的问题。人工智能现在有两种基本方法,一种是用符号模型来模拟理性行为。但是非常不幸,离散的符号表示很难用上很多数学工具,所以发展很慢。在模拟感性行为的时候,使用特征空间的向量,可以使用所有的数学工具。所以数据驱动方法这几年发展非常快。但是它有一个非常大的缺陷,它是在特征空间里,缺乏语义。我们用数据去训练一个模型,即所谓“黑箱学习法”,如果数据质量不高,很难学出有用的东西。什么叫概率统计?重复多了就是真理。如果数据质量差,充满了“谎言”。谎言重复多了,就变成真理了。
我们现在给出的解决办法是,把这两个空间投射到一个空间里,叫做语义的向量空间。也就是说把符号变成向量,同时把特征空间的向量变成语义空间的向量。具体方法,一是通过Embedding(嵌入)把符号变成向量,尽量保持语义不变,但现在的方法都会引起语义的丢失。第二方面就是Raising(提升),把特征空间提升到语义空间去,这主要靠学科交叉,靠跟神经科学的结合。只有这些问题解决以后,才能够建立一个统一的理论。但是这项工作是非常艰巨的。
为什么人工神经网络不能得到语义信息,而人脑的神经网络可以呢?差别就在于目前的人工神经网络太简单了,人们正设法把脑神经网络的许多结构与功能加入人工智能。
还可以把数据驱动跟知识驱动结合起来。加上知识,让人工智能有推理的能力和决策的能力,这样就能解决突发事件。
“我们正在通往真正AI的路上”,现在走得并不远,在出发点附近。而人工智能永远在路上。这些问题一旦解决了,人类的社会进步、人类的生活就会发生本质上的改变。
人工智能刚刚起步,离真正的AI还很遥远,我们任重道远。