彭健
人工智能在过去的60多年时间里,经历了起起伏伏的发展历程,到目前为止取得了突破性进展。本文旨在梳理人工智能发展的主要历程,分析当前人工智能突破的主要关键性技术和原理,并进一步讨论相关技术在未来发展中可能面临的挑战。
人工智能的发展历程
历经了60多年的发展,人工智能领域的研究因为不同的困难经历了起起伏伏,呈螺旋式前进的发展态势。起初仿造动物神经元,希望打造强人工智能的人工神经网络(Artificial Neuron Network),先是经历了机器无法应付计算复杂度的困境,更是一度因为无法获得研究经费而停滞;同一时期另一脉络的弱人工智能,则发展出博闻强记、分辨率随数据质与量逐步提升而快速进展的机器学习路径。随着近年来技术的快速发展,人工智能已经在多学科、多领域得到了广泛应用,并产生了巨大的经济效益和社会效益。
第一次高潮阶段(起源阶段)。二十世纪四十年代末,随着科技的发展,三论(即系统论、控制论、信息论)的出现为人工智能的探索奠定了理论基础。1950年,英国数学家图灵发表题为“计算的机器与智能”的论文,提出图灵测试、机器学习、遗传算法和强化学习等概念,直接推动人工智能早期的发展;1955年,麦卡锡在达特茅斯学院会议上首次提出“人工智能”的概念;1957年,第一款神经网络Perceptron由罗森布拉特发明,人工智能研究迈向第一个高峰。
第一次低潮阶段。该阶段的人工智能又被称为经典符号时期。1970年,受限于当时的计算能力,机器无法完成大规模数据训练和复杂任务,人工智能进入第一个低潮。此后的1973年,詹姆斯·莱特希尔针对英国人工智能研究状况的报告给出了严厉的批评,指出“人工智能无法实现其‘宏伟目标”,直接影响了人工智能领域的研发资金投入。
第二次高潮阶段(初步产业化阶段)。这一阶段的关键词是“专家系统”——即具有专门知识和经验的计算机智能程序系统。专家系统旨在通过对人类专家解决特定领域某些问题方法的建模,进而采用人工智能技术让计算机模拟解决上述类似问题的能力。1980年,卡内基·梅隆大学设计了XCON专家系统。1982年,霍普菲尔德神经网络被提出,该网络的最大优势是可以解决很多模式识别问题,此外还可以给出一类组合优化问题的近似解。1986年,BP算法的出现极大地推动了大规模神经网络的训练,将人工智能推向一个新的高度。
第二次低潮阶段。人工智能再一次进入低潮期,这一阶段该领域技术成果较少,但以神经网络、遗传算法为代表的技术得到关注。1987年,苹果和IBM生产的台式机性能超过Symbolics等厂商生产的通用型计算机,专家系统风光不再;1990年,人工智能计算机DARPA没能实现,政府投入缩减;1991年,日本人设定的“第五代工程”的失败,人工智能研究再次遭遇经费危机。
第三次高潮阶段(快速发展阶段)。随着大数据、云计算以及认知技术的快速发展,深度学习技术在人工智能领域开始“崭露头角”,尤其在语音识别、图像识别等细分领域,人工智能技术加速成熟并成功地实现了产业化。2006年,Hinton发明了“深度学习”神经网络,人工智能得到加速发展;2013年,语音识别和图像识别领域运用深度学习算法取得了很好的效果,识别率分别超过99%和95%;2014年,无监督学习算法取得突破,Facebook使用无监督学习将脸部识别率提升到97.25%;2016年,运用深度学习技术的机器人AlphaGo 以4:1击败人类围棋冠军李世石,成为了人工智能发展史上一大标志性事件。
人工智能发展的关键性技术
人工智能本身就是一个多学科交叉融合的产物,此外,其在具体应用时还需要大数据、云计算、物联网等其他信息技术的支撑,因此人工智能体系通常会涉及众多的学科门类和技术种类。本文主要从推动人工智能发展的内在技术出发,以人工神经网络、机器学习和自然语言处理三大关键性技术为重点,简要阐述其工作原理。
关键技术一 :人工神经网络
对于人工智能,计算机科学家可以直接模仿生物的神经元运作,因此设计数学模型来仿真动物神经网络的结构与功能。所谓人工神经网络是一种仿造神经元运作的函数演算,接受外界信息输入的刺激,且根据不同刺激影响的权重转换成输出的反应,或用来改变内部函数的权重结构,以适应不同环境的数学模型。
1951年,科学家马文·明斯基第一次尝试建造了世上第一个神经元仿真器:Snarc(Stochastic Neural Analog Reinforcement Calculator),能够在其40个“代理人”和一个奖励系统的帮助下穿越迷宫。6年后,康乃尔航空工程实验室的罗森布拉特设计、发表神经网络的感知器(Perceptron)实作后,人工神经网络学者曾经一度振奋,认为这个突破终将带领人工智能迈向新的发展阶段。
20世纪70年代,人工智能领域的研究因为缺乏大规模数据、计算复杂度无法提升等问题,导致科研预算无法得到充分保障而陷入了困境。直到80年代,科学家首先通过思考上的突破,设计出新的演算方法来模拟人类神经元,迎来神经网络发展的文艺复兴时期。物理学家约翰·霍普费尔德在1982年率先发表Hopfield神经网络的相关论文,开启了神经网络可以递归设计的思考。4年后,加州大学圣地亚哥分校教授戴维·鲁梅尔哈特提出了反向传播法(Back Propagation),通过每次数据输入(刺激)的变化,计算出需要修正的权重回馈给原有函数,进一步刷新了机器“学习”的意义。科学家更进一步把神经元延伸成为神经网,通过多层次的神经元缔结而成的人工神经网络,在函数表现上可以保有更多“被刺激”的“记忆”。
关键技术二 :机器学习
要让机器有智慧,并不一定要真正赋予它思维能力,只要拥有大量阅读、储存资料并具有分辨的能力,就足以帮助人类工作。上世纪70年代,人工智能研究人员开始思考是否一定要让机器真正具有自我思维能力,才能称之为人工智能?因此,人工智能出现了不同的分支:弱人工智能與强人工智能。弱人工智能一般希望借鉴人类的智能行为,研制出更好的工具以减轻人类智力劳动,类似于“高级仿生学”。强人工智能则是希望研制出达到甚至超越人类智慧水平的人造物,具有心智和意识、能根据自己的意图开展行动。
机器学习可以视为弱人工智能的代表。通常需要预先设定问题,并搜集相关数据(数据通常包含原始数据与标准答案,例如人像图片与该图片内人物的相关信息),然后再将数据分为训练用与验证用两组。以训练用数据进行学习,通过特定的分类算法抽取特征值,优化设计数据的数学模型,然后再将验证用数据输入该数学模型,比对计算的分类结果是否与标准答案一样,如果该数学模型能够达到一定比例的正确率,则认为该机器学习模型有效。这种具有标准答案,并以计算出的预期结果进行验证的机器学习,通常被称为监督式学习。相对于监督式学习,非监督式学习则强调不知道数据该如何分类的机器学习,换言之,我们提供计算机大量数据,但不告诉它这些数据该用什么方式进行分类,然后计算机通过算法将数据分类,人类只针对最终数据分类进行判别,用数据寻找规律就是机器学习的基础。
机器学习的发展方向,是在设计、分析一些让计算机可以自主“学习”的算法,让机器得以从自动分析数据的过程中建立规则,并利用这些规则对还没有进行分析的未知数据进行预测。过程中,时常运用统计学技巧,并转化成计算机程序,进而计算出资料里的分界条件来做预测。弱人工智能作为人工智能领域的一种演进路径,无论是监督式学习或非监督式学习,在大数据、物联网、云计算等新一代信息技术高速发达的今天,用机器学习来解决人类基础的问题变成一种趋势。目前机器学习也是人工智能商业应用最广泛的一种技术。例如搜索引擎、图像识别、生物特征识别、语音与手写识别与自然语言处理、甚至是检测金融诈欺等等,都是典型的应用。
关键技术三:自然语言处理
对人类来说,如何让这些制造出来的机器们能够听懂人类语言,并与人类“合作”,对于今后进一步探索未知宇宙有着重要的意义。自然语言处理(Natural Language Processing,NLP)的研究,是要让机器“理解”人类的语言,是人工智能领域中的一项重要基础技术。英国雷丁大学的演化生物学家马克·佩葛认为,最早的一种“社会科技”是人类的“语言”,语言的发明让早期人类部落通过加强“合作”在进化上占有优势。自然语言处理可以简单理解分为输入和输出两种:一种是从人类到计算机——让计算机把人类的语言转换成程序可以处理的结构,一种是从计算机反馈到人——把计算机处理的结果转换成人类可以理解的语言表达出来。
无论是从人类到计算机,还是从计算机到人类,语言处理通常会使用到我们学习语言一般要具备的听、说、读、写等技能。其中:听与说主要使用到听觉与发音,对计算机而言就是能够通过麦克风“听”到人类说话,把听到的声音转成文字(语音识别),或把计算机想要表达的意思转成人类可以理解的语句(自然语言生成),再用发声设备“读”给人类听(这是语音合成)。科学家与工程师们同样致力于图片文字辨识,图片来源可以是扫描的图像文件,也可以是手机拍摄的照片,目标的文字体则可以是一般印刷品或打印的文件,也可以是手写文字。人类互动最重要的途径就是语言,无论是文字或语音,语音智能助理让人能和机器之间对话,无疑是智能终端普及后最令人兴奋的突破创新之一。
人工智能关键性技术发展面临的挑战
自然语言处理
一是不确定性。目前在词法、句法、语义、语用以及语音等多个维度都存在不确定性问题,导致最终结果有偏差;二是不可预测性。在数据大爆炸的今天,新的词汇、术语、语义和语法层出不穷导致了不可预测性;三是数据不充分的长尾现象。数据资源覆盖语言现象存在盲区,导致了长尾现象的出现;四是语义的非线性特质。语义本身就存在很强的模糊性,并且在不同的语境下还附带错综复杂的关联性,这些非线性特质使得简单的数学模型难以奏效,增加了庞大的非线性计算量。
深度学习
一是对数据依赖性依然很强。深度学习不具备通过语言描述的清晰定义来学习抽象概念的能力,需要成千上万乃至上亿的学习样本,才能达到较好的效果;二是无法自然处理层级结构。当前大多数基于深度学习的语言模型都将句子视为词语的序列,当遇到陌生的句式时,循环神经网络无法系统地展示、扩展句子的递归结构;三是开放式推理能力欠缺。目前还没有深度学习系统能基于已有知识像人类那样准确地进行推理;四是与先验知识结合度不够。从深度学习的原理看,先验知识很难整合到深度学习系统中;五是难以稳健地实现工程化。机器学习与经典的编程相比,仍然缺乏渐进性、透明性和可调式性,这让它在实现稳健性方面面临巨大挑战。
计算机视觉
一是在具体的应用场景中,计算机视觉与其他信息技术的融合度仍有提升空间。虽然基于大数据技术的计算机视觉在解决一般性问题时已经取得了很好的实践效果,但在某些问题上的精准度还不是很理想,需要与其他信息技术深度融合;二是开发计算机视觉算法的时间成本和人力成本居高不下。海量数据样本是目前计算机视觉算法实际应用中的基础,并且其中大量的数据还需要人工标注,这导致在复杂的应用场景下需要增加研发周期并提高人力成本预算,才能达到最终要求的精准度;三是新型算法的设计开发速度有待进一步提速。当前计算机视觉的硬件环境不断完善,例如人工智能芯片、新型摄像头等不断推陈出新,需要针对不同的硬件设备设计和开发与之相适应的计算机视觉算法。
另外,当前深度学习的算法出现了一定的瓶颈,还需要进一步的突破。人工智能在技术上还被认为是一個黑盒子,技术人员对其中算法的具体过程还不够了解,在这方面也需要进行相关的研究。要继续加强人工智能与其他学科的融合,实现下一轮发展。要积极加强大脑科学和心理学的研究,酝酿下一步的突破。