机器人智能化背后的“灵魂科技”

2022-09-14 06:12:29

电脑报 2022年35期

计算机科学和密码学的先驱艾伦·麦席森·图灵在1950年撰写了《计算机器与智能》一文，提出了一项经典的测试：如果一台机器与人类展开对话，超过30%的测试人类误以为在和人类说话而非机器，那么就可以说这台机器具有智能。这就是人工智能行业知名的“图灵测试”，图灵预言在20世纪末一定会有电脑通过这项测试，但事实上直到2014年，人工智能软件“尤金·古斯特曼”才第一个通过了图灵测试。这也从侧面反映出一个事实：虽然早在70多年前就已经有科学家进行了猜想，但赋予机器人“灵魂”，却仍然任重道远。那么问题来了，目前的人工智能处于相对高速的发展阶段，我们有哪些能让机器人与我们交互呢？

第一步：让机器人“看见”世界

作为地球上最有智慧的生物，人类获取信息的渠道83%来自视觉、11%来自听觉、3.5%来自嗅觉，而1.5%来自触觉、1%来自味觉，而既然要模拟人类的思维方式，其核心就是让机器通过深度学习，根据所收集的数据信息做出相应的反馈，考虑到我们大部分信息的来源都是视觉，所以，让机器人“看到”物体和场景，进而对图像内容给予解释就成了机器人灵魂的核心。

目前随着人工智能视觉技术的不断进化，包括物体识别、目标追踪、导航、避障已成为各类智能设备的前端通用技术，我们在工业生产自动化、流水线控制、汽车自动驾驶、安防监控、遥感图像分析、无人机、农业生产以及機器人等各个方面都能找到很多案例。

而对于移动机器人来说，就需要使用多种不同传感器来实现环境感知，比如大家在饭店餐馆可能会看到自动传菜机器人，抑或是在工厂里很常见的运输机器人，它们会通过搭载激光雷达、立体视觉摄像头、红外以及超宽频传感器来“分辨”环境并构建地图，从而拥有识别、感知、理解、判断及行动能力。

环境感知能力是机器人最基本的功能，这意味着这类机器人更适用于服务型工作，目前来看这类机器人还可以通过模块化装备，完成人员异常行为监测、人员检测及记录、异常高温或火灾报警、环境数据异常报警等功能，甚至通过远程监控模块，可以代替人员进入危险场所，完成勘察任务。

人形双臂机器人通过摄像头识别和算法精准定位匹配，可实现拧瓶盖等操作

工厂里最常见的机器人也同样有着丰富的感知传感器

看似简单的对话，却蕴含了多个解析步骤

第二步：让机器人“开口说话”

如果只是通过环境感知来完成工作，这样的机器人算得上“聪明”么？站在人类的角度来看不过也都是自动化的工具而已，离咱们想象中电影里那样的智能化机器人有着非常明显的差距，其实很大程度上产生这种感觉的原因在于，服务型机器人大多都不会与人进行交互，而我们人类交互的核心方式就是说话聊天。70多年前提出的图灵测试还是通过文字形式来验证，而现在如果要重新定义的话，语音交互应该是必考项目，比尔·盖茨就曾说“人类自然形成的与自然界沟通的认知习惯和形式必定是人机交互的发展方向”。

人机交互技术主要包含语音识别、语义理解、人脸识别、图像识别、体感/手势交互等技术，其中语音人机交互过程中包含信息输入和输出、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。

就目前来看，人工智能语音技术可以分为近场语音和远场语音两个分类，近场语音基本上是为了满足一些辅助使用需求，比如苹果Siri和微软小冰就是近场语音产品，而很多智能音箱则可以实现远场语音，用户能在5米外的距离语音指示它控制智能家居设备。这些看起来似乎很简单的工作，事实上对准确性的要求非常高，从处理过程来看先要通过声学处理我们的声音和周围环境，再通过语音识别技术将听到的声音翻译成文字，语义理解技术则会分析这些文字的意义，最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。

但在真实环境下，受噪声等环境因素影响，机器仍然无法完全准确识别自然语言，机器将听到的语音翻译成文字时，重音、口音模糊、语法模糊等又很影响成功率，而且人类语言太复杂，受到单词边界模糊、多义词、句法模糊、上下文理解等影响，再加上中文存在大量的方言，语义理解是一个巨大的障碍。

所以，现阶段的人工智能语音系统更多用在垂直使用场景，比如汽车的车载智能语音系统、儿童娱乐和教育软件、人工智能客服等等。尤其是人工智能客服，很多人应该都接到过银行或金融机构的智能客服电话，大多数情况下它的表现都跟真人没有太大差别，但严重缺乏变通能力，只能在相对狭窄的范围内进行沟通，准确率也并不高，但它一则可以实现客户需求的快速响应，二来在一定程度上能够节约时间和人工成本，所以在未来也一定会随着渗透率的不断加深而继续进化。

机器人的语义理解能力目前仍处于较低水平

机器人抓取姿态判别深度学习方案

姿态识别也是机器人视觉学习的关键点之一

第三步：让机器人更“聪明”

既然我们说到了机器人的智能进化，可能有读者朋友会问：那它是怎样进化的呢？最知名的方法就是深度学习，早在2011年，谷歌一家实验室的研究人员就从视频网站中抽取了1000万张静态图片，把它“喂”给谷歌大脑，目标是从中寻找重复出现的图片，而在足足3天后，谷歌大脑才完成了这一挑戰，而谷歌大脑就是一个由1000台电脑、16000颗处理器组成的10亿神经单元深度学习模型。

深度学习的概念源于人工神经网络的研究，本质上是构建含有多隐层的机器学习架构模型，通过大规模数据进行训练，得到大量更具代表性的特征信息，从而对样本进行分类和预测，提高分类和预测的精度。比如抓取姿态判别，对于人类来说，想要拿起一个东西只需要看几眼就知道该用怎样的手势去拿，而对机器人来说这却是一个不小的挑战，涉及到的研究包括智能学习、抓取位姿判别、机器人运动规划与控制等，而且还需要根据抓取物体的材料性质来随机应变，调整抓取姿势和力度。

不过，创造一个强大的神经网络需要更多处理层，这就需要很强的数据处理能力，所以深度学习的背后往往都有上游硬件大佬的“撑腰”，这些年图形处理器、超级计算机和云计算的迅猛发展，让深度学习脱颖而出，NVIDIA、英特尔、AMD等芯片巨头都站到了人工智能学习的舞台中央。

深度学习技术建立在大量实例基础上，给它学习的数据越多，它就越聪明。因为大数据的不可或缺，所以目前深度学习做得最好的基本是拥有大量数据的IT巨头，如谷歌、微软、百度等。与此同时，深度学习技术在语音识别、计算机视觉、语言翻译等领域，均战胜传统的机器学习方法，甚至在人脸验证、图像分类上还超过人类的识别能力，比如短视频时代很热门的人工智能“换脸”，就是将原视频里的人脸逐帧导出，再通过大量想要替换的人脸照片来进行模型训练，训练的过程你会直观看到替换的人脸从模糊逐渐变得清晰，根据电脑配置的不同，在训练数小时甚至数十小时后就能得到一个相当不错的替换结果，这就是深度学习的典型过程。

对于机器人来说，深度学习的应用面除了图像识别之外还有很多，比如工业或安防机器人需要用到的复杂环境路线规划和室内导航，教育机器人识别学生坐姿、举手、摔倒的人体姿态判断等。在未来，计算方法可能更趋向于与大数据、云计算相结合，使机器人利用云平台更好地存储资源和自主学习，同时在大数据环境下，数量庞大的机器人共同分享学习内容，叠加学习模型，更有效地分析和处理海量数据，从而提高学习和工作效率，发展智能机器人的潜力。

当然，这些发展还存在很多隐藏的问题，比如在机器人与云平台相结合时，因为技术还不够成熟，在资源分配、系统安全、可靠有效的通信协议，以及如何打通各大上游厂商之间的技术壁垒等都是下一步研究中需要关注的问题。