打开未来之门:三大枢纽型创新

2021-10-12 07:58李晓鹏
科学与信息化 2021年25期
关键词:计算机人工智能人类

一、中国进入5G 革命下半场

5G,也就是第五代移动通信技术的简称。它同互联网革命一样,会给经济活动带来“底层逻辑”的变革,比3G、4G技术的影响力范围更广。

3G、4G 技术的主要影响局限在生活消费领域,作为消费者的我们已经强烈地感受到了,但这些技术对经济运行的基本构架影响还不算大。5G 跟4G 相比,不仅速度加快了10 倍,它的超大带宽、超低时延和超可靠性等特点,使它可以直接影响工业生产、公共服务等众多领域,其应用场景的广度和深度都会得到极大拓展。

要正确认识5G 的意义,我们必须先了解几个基本技术概念。

业界一般将5G 的应用场景分成三大块:高速移动宽带(eMMB)、高可靠低时延通信(URLLC)和大连接物联网(mMTC)。

如何理解5G 三大应用场景的分类呢?

相对4G,5G 带来了更快的速度、更短的延迟、更强的稳定性、更低的能耗,以及能支持更多用户。正好是5 个“更”,我们可以将其称为5G 的5 个G(Geng,更)。大部分人只关注第一个G(更):“更快的速度”,也就是让手机的上网速度更快。但对后面几个G(更)的关注比较少。

“更短的延迟,更强的稳定性”对应的是高可靠低时延通信(URLLC)。4G的响应速度大概为10~50毫秒,而5G可以控制在1毫秒以下(实测数据是平均0.64毫秒)。而且,这种低时延的可靠性相当高,可以达到99.999% 的可靠度。

5G 通信在终端高速运动和不断切换基站链接的情况下,仍可以保持信号的稳定和低延时,这是它强稳定性的一个体现——即使以500 千米/小时的速度运动,5G 终端仍可以稳定地从一个基站切换到另一个基站,信号时延和可靠性仍可以得到保证。

超低延迟和高可靠性让5G 的应用范围比4G 更广阔,它将对以下领域影响较大:工业控制、交通安全、远程制造、远程手术等。

关于稳定性的应用意义,我们可以举两个例子。

第一个例子,称为“空客320 计划”——用5G 设备在飞机上替代所有的信号传输电缆和光缆。这个研究项目一旦成功,可以让空中客车(Airbus)这样的大型客机重量减轻接近17 吨。

第二个例子,一家全国知名的大型化纤集团企业,在“中国制造业企业500强”中排名200 余位。化纤长丝是他们的主打产品,每一根长丝需要72 根细丝绞合在一起才能做出来。每根细丝的直径只有7 微米,也就是只有头发的1/10 那么细。在机器加工过程中,经常会出现“飘丝”的现象(也就是有的细丝飘到别的长丝上去了),这样就会出现残次品。

类似的问题每年会给工厂带来几千万的损失。以前只能是工人拿着手电筒巡检,每半个小时就把所有的机器检查一遍,但这样做效率很低,因为细丝太细,而且在机器上传送速度很快(4000米/分钟),肉眼观察十分困难。

但在5G 技术成熟以后,公司采用8K 高清摄像头结合巡检机器人,利用5G技术的低时延特性大大提升了产品的优品率,彻底解决了长丝卷绕工艺中的“飘丝”检测难题。该系统可以在几百根微米级的细丝以4000 米/分钟的下丝速度通过多孔轨道过程中,发现卷绕中出现的飘丝、漂杂等问题,彻底解决了质检环节中的人工成本高、漏检误检率高、次品率高等问题。

飞机的信号传输对可靠性要求极高,化纤检测则要求是24小时不间断地监控机器运转。在这两种情况下,所需的网络传输速度虽说4G 和WiFi 也能达到(当然5G 更快、更有保证),但是在高速传输过程中的可靠性却很差,无法保证接收端与发射端长期且不间断地连接。这种不可靠性在我们日常使用中不会存在什么大的问题,比如,我们在玩手机时,信号中断几秒钟,大部分情况下我们是察觉不到的,即使是在线看视频或听音乐,也会因为缓存而感受不到卡顿。

但在飞行安全和工业生产领域,4G 的这种低可靠性就是不可接受的。正因如此,4G 和WiFi 技术在生活消费领域得到了广泛应用,但在工业等其他领域中的使用率就相对较低了。

此外,像远程视频会议,虽然4G 和WiFi 信号也勉强可用,但其稳定性较差,如果参与人数较多,则对实际会议的替代能力就相对较差。而在5G 的高速及高可靠性支持下,远程会议才有可能较大规模地替代面对面的交流,进而彻底改变以往的商务沟通模式。

所以,我们才说,5G 技术会给我们的生产生活带来颠覆性的改变,这也是它超越4G 技术的地方。

“更低的功耗,支持更多用户”对应的是物联网(mMTC)。5G 的连接密度相对4G 提高了10 ~ 100 倍,可以达到每平方千米数百万个。例如,城市规划的标准是每平方千米1 万人,热门景区在节假日期间的人流密度不会超过每平方千米100 万人,所以,4G 基站的接入密度用来给大家玩手机是没问题的。但如果要实现物联网,其连接数量就很容易突破上限——水表、电表、燃气管道地下管网,天上飞的、地上跑的、身上穿的、家里用的各种智能设备——假如要实现“万物互联”,如此大的接入密度,仅靠4G 技术是撑不住的。

物联网的特点是信号小、数量大,而且芯片植入以后长期不用更换,很多场景要求在不更换电池的情况下芯片能连续使用十年以上,因此能耗必须控制到极低。“数字地球”的概念早在2004年就被提出来了,中国从2008年开始就力推“智慧城市”建设。好多想法在当时看来近乎科幻,到现在也只有很小一部分实现了,主要就是遇到了通信技术瓶颈。随着5G 时代来临,技术瓶颈被一一突破,物联网和智慧城市的概念将会迎来新一轮爆发。

5G技术的研发、制造,十多年前就开始了。开发5G 编码的时间是2008年;而5G 的基础设施布局,是商用牌照发放前后的一两年;5G 的场景应用,则是基础设施布局之后十多年甚至是更长时间。然而,从2019年下半年5G 牌照正式发放开始,“5G 革命”就进入了下半场,以场景应用来带动其他产业全方位进步,将会成为驱动这个下半场的核心动力。

5G革命进入商业应用和产业化阶段以后,我们就可以按照商业和产业的逻辑,来对5G 应用场景进行新的分类,如表1 所示。

表1 5G 应用场景与初步实践

从这张表格,我们可以看出,5G 正在深入渗透进社会运行的方方面面,对生产、生活、公共服务等方面产生巨大的影响。这就预示了——今后,在这每一个场景中都会产生巨大的投资需求和产业空间,无数的机会等着我们去挖掘。

纯粹从技术的角度来讲,从1G 到5G,是通信技术发展的5 个阶段。但从互联网的角度来看,我们认为可以分为3 个时代:第一代互联网是有线网络时代,电话线、网线、光纤线都算,而1G 和2G 通信还不算互联网技术;第二代互联网是移动互联时代,从3G 时代开始,移动通信才算融入了互联网,3G 和4G 都属于第二个时代;第三代互联网是万物互联时代,标志就是5G。

在第一个互联网时代,欧美企业发展了很多年以后,我们才开始跟进,进而出现了腾讯、阿里巴巴、百度、新浪、搜狐等一大批互联网科技公司,基本上都是模仿国外的应用场景和商业模式。

第二个互联网时代,是由美国的苹果公司和谷歌公司为代表开启的,但国内很快就跟进了,涌现出了微博、滴滴打车、抖音、移动支付、饿了么等新的应用创新以及一大批智能手机生产商,在发展后期基本实现了与国际创新的同步。其中,抖音短视频和移动支付更是走在了世界前列。

而在第三个互联网时代,以华为为代表的中国公司开始掌握主动权,中国很有可能会成为高科技企业变革的“领头羊”——在硬件和软件领域都将如此。这时候,高科技企业创新的空间会更加广阔,也必然会有更多颠覆性的创新技术出现。

二、深度学习:第四代人工智能取得关键突破

在表格“5G 应用场景分类”中——“场景技术特征”这一列,除了eMMB、mMTC、URLLC这3 个5G 技术特征以外,AI这个词也经常出现。

AI,也就是人工智能(Artificial Inteligence)技术的简称。5G的诸多关键应用场景都必须要有人工智能技术的支持才能实现,比如自动化生产、个人智能助理等。由于5G 的传输数据量极大,这些数据如果不能得到高效的分析处理,5G技术的意义就会大打折扣,难以取得相对于4G 等上一代通信技术的革命性优势。

1.人工智能的代际差异

人工智能是一种软件技术,跟芯片和控制器等硬件结合起来,可以用来组织生产,驾驶汽车飞机等交通工具,给病人诊断疾病,解决各种数学、物理难题,等等。

无线通信技术分为一代、二代、三代、四代、五代,分别对应1G、2G、3G、4G、5G。人工智能技术也可以分为好几代,目前主要是四代,技术上可预见的还有第五代,本书所关注的人工智能技术主要是第四代。

人工智能的四代划分,主要以其所解决问题的复杂程度为标准。

第一代,是简单组合的电脑控制系统,只比人工控制模式复杂一点儿。比如,家庭常用的洗衣机,它的人工控制模式就是:按一个键放水—再按另一个键洗衣服—再按一个键脱水—再按一个键烘干,人为干预每一个环节。后来,人们在洗衣机中植入芯片和软件程序,只需按一个键,洗衣机就可以自动完成放水、洗衣服、脱水、烘干的全过程。而且,洗衣机还可以根据衣物的重量来自己决定进水量和洗衣的时间。

把一步一步的人为操作,变成由电脑程序来一次性完成的工作,再让机器自己根据一些简单的变量做出选择——这就是第一代人工智能。严格来说,它并不“智能”,只是实现了控制步骤的整体整合,它在任何方面都无法跟人类的智力水平相提并论。

第二代,可以在某些方面达到或者超过人类思维速度的复杂决策程序,也可以在某些方面与人类交流。比如,电脑可以跟人下象棋,一般人下不过电脑,但专业棋手却很容易赢过电脑——这比全自动洗衣机的程序复杂多了。我们玩电脑单机游戏,以电脑为对手,一般会称之为AI 对手——指的就是第二代人工智能。

在生活中,扫地机器人这种更复杂的家电出现了,它基本上可以在扫地这个方面代替人类——程序设定好之后自动充电、自动清扫,全程不需要人工参与。电脑可以实现基本的语音识别,并根据语音命令行动,还能够根据历史数据分析总结出用户的一些偏好。现在,大部分贴着AI 标签的消费品和应用软件,基本都是采用了第二代人工智能技术。

第三代人工智能,是使用了概率算法并可以进行简单机器学习的人工智能。在规则清楚的情况下,这一代人工智能已经可以在某些特定方面超过人类最顶尖的专业选手。2016年3月,击败韩国围棋选手李世石的谷歌软件阿尔法狗(AlfaGo) ,就是第三代人工智能的产物。它计算棋路的方式还是人类给它设定的,也就是基于决策树的“蒙特卡洛方法”——把穷举问题变成概率问题,突破了计算机决策的计算速度上限,因此看起来更加智能了。另外,汉字的手写输入和扫描识别技术,也是基于第三代人工智能才得以实现的。

第四代人工智能,是可以进行自主深度学习的人工智能。人类并不需要告诉电脑该怎么做,只需要给出目标,而且是人类自身体力和智力都难以达到的目标,人工智能自己就会去学习并找到达到目标的方法和路径,帮助人类更有效率地完成目标,甚至完成以前人类无法达到的目标。谷歌公司研发的新一代围棋软件阿尔法元(Alpha Zero)就是基于第四代人工智能做出来的。在它面前,横扫一切人类围棋大师的“阿尔法狗”就是幼儿园水平。“阿尔法元”对局“阿尔法狗”100 盘,连胜100 盘。而且,“阿尔法元”的下棋风格已经跟人类完全两样,纵观人类上千年围棋史,也找不出这个风格的布局方式。

所以,只有第四代人工智能,才算得上是比较完善的人工智能,也才能够支撑一次真正意义上的产业革命。

第四代之后是第五代。第五代人工智能可能是基于量子计算的人工智能,但目前还停留在理论研究阶段,何时可以实现不得而知。这个阶段的人工智能不仅可以在某一项具体工作方面代替人类,还可以通过深度学习在诸多方面代替人类,甚至可以把一项完整、抽象而且持续时间长、场景变化复杂的任务交给它去完成。比如,可以在数年的时间内独立照顾小孩或者老人起居,科幻电影中的智能机器人助手在这一阶段会成为现实。

当下,“5G+ 人工智能+ 物联网”产业革命尚不能指望第五代人工智能来支撑。有很多关于人工智能技术与人类最终命运的哲学化思考,比如人工智能会不会统治人类、人脑能否与机器大脑融合等,至少也要到第五代人工智能发展成熟之后,才真正有去思考的意义。

自从计算机发明以后,人类掀起过三次人工智能热潮,前面两次浪潮分别发生在20 世纪60年代和20 世纪80年代,但最后都“退潮”了,因为人工智能技术没有产生预期的革命性影响。原因是这两代技术和人类的思维能力差距太大,无法胜任大规模的、复杂的工作场景。只有在以深度学习为代表的第四代人工智能技术发展得比较完善以后,人工智能才能对我们的生产生活产生颠覆性的影响。

2.深度学习以前的人工智能

第四代技术和第三代技术的关键差别在哪里呢?

首先,为了更好地理解第三代技术的原理,我们以大家熟悉的棋类运动来举例。

早期人工智能的技术,是利用计算机的计算能力实现“穷举”(在研究对象是由有限个元素构成的集合时,把所有对象一一列举出来,再对其一一进行研究), 算法完全是由人类程序员编制好的。比如下五子棋,只需要把五个棋子在棋盘上连在一起就可以获胜,它的变化数量比较少(相对于现代计算机而言)。所以,只要把所有符合规则的落子方法都列举出来,计算机就能找到可以获胜的下棋方法。

同样的办法用来下象棋的话,难度就大多了。因为象棋的变化远远超过五子棋,棋子更多,规则也更复杂,按照21 世纪初期及其以前的计算机运算能力,根本无法实现穷举。计算机跟人一样,也就只能看几步棋,不可能把所有的可能性都穷举完。1997年击败国际象棋大师——卡斯帕罗夫的计算机“深蓝”最多也就可以看12 步棋。

那怎么办呢?以中国象棋为例,只能根据人类下象棋的经验来“打分”。比如车是最厉害的子,给它打分是10分,炮和马差不多,各6分。如果计算机能算出五步棋之内的所有下法,其中的一种是自己丢掉一个车,吃掉对方一个马,那么就是丢掉10分的同时得到6分,最后算下来不划算,失去了4分。它就不会采用这种下法。而另外一种是自己丢掉一个车,同时能吃掉对方一个炮和一个马,那就是自己丢掉10分的同时得到12分,这样是划算的。

为什么车是10分,马和炮是6分呢?计算机并不知道,这是人类根据经验给打的分。

除了对棋子打分以外,人类还可以根据经验对某些局面打分。比如,当头炮是有利的局面,可以得5分,而一个卒的得分是2分。为了架起当头炮,丢掉一个卒就是划算的,而丢掉一个炮就是不划算的。沉底炮可以得6分,卧槽马也可以得6分。还可以再复杂一些,引进一些象棋口诀,比如“三子归边必赢棋”,也就是把车马炮三个棋子都放到敌方棋盘的同一个方向,赢棋的概率就非常高。那么这个局面就可以打7分,为了实现这个局面,可以丢掉一个炮或者马,等等。

通过人类经验打分,并设计出一套计算规则,让计算机对不同的局面打分。这样,计算机就不用计算到最后,而只需计算未来的五六步棋即可,然后评估得分,选择得分最高的那种走法就可以了。

这种方法被很夸张地称为——“神经网络算法”,听上去很唬人,很多人声称它是对人类神经元决策方式的模拟,但本质上就是对不同要素或事件进行综合决策,然后进行函数计算,得到一个数值,并根据这个值的高低来做最终决策——打分、函数和决策的标准都是人类定的。如果把“神经”两个字去掉,叫“网络算法”更符合其技术本质。

神经网络算法——也就是“多要素打分算法”,在一开始,由于打分规则存在漏洞,还不能囊括棋局的全部变化,所以,人类象棋高手同计算能力不太强的电脑下棋时还有获胜的希望。但随着打分技术趋于完善以及计算机能力的提高,如今,在象棋领域,人类中的顶级高手基本上也无法战胜电脑了。

到了围棋这里,问题就更加复杂。围棋规则简单,但是棋子数量众多,变幻无穷,人类现有的计算机技术根本无法实现穷举——围棋的落子可能性有1.43×10768种,可观测宇宙范围内的原子总数也不会超过1080。所以,围棋的变化比全宇宙所包含的原子数量还要多上十多倍——围棋的变化是如此之多,以至于计算机不仅无法穷举,即使用打分的办法,也会因为局面变化太复杂而漏洞百出。

为了解决这个问题——“蒙特卡洛方法”被引进了。

所谓“蒙特卡洛方法”,就是把穷举法变成随机抽样法。“打分法”只能提前预测几步棋,但这几步棋却实现了穷举,本质上就是保留穷举的同时牺牲计算的步数。而蒙特卡洛方法,就是不牺牲步数而放弃穷举。当计算机面临选择的时候,它不会把所有的可能性都计算完,而是随机选择一种可能,一口气把棋下完,然后再看是输还是赢。所以,计算机可以利用自己强大的计算能力,进行数量巨大(比如十万次)的随机选择,看输和赢的概率,最后选择赢的概率最高的那种方法来下棋。

比如,计算机执白棋,人类对手执黑棋。假设在某一步的时候,计算机面临A、B、C、D四种落子选择,它该选哪个呢?

首先,它假设自己把白棋落在了A点。然后,在符合围棋规则的前提下,它开始随机模拟落子A点以后的局面变化。它会根据围棋规则一步一步地落下黑棋和白棋,一直到最后黑棋和白棋把整个棋盘填满,这一局结束。这一次随机落子的结果,假设是黑棋赢了,计算机就记下来:黑棋赢了一次。接着,计算机再来模拟另外一种落子方式,只要遵守围棋规则而不管每一次落子是好棋还是烂棋——然后一直下到最后。这一次,可能是白棋赢了,计算机又记下来:白棋赢了一次。

由于每一次都是随机落子,模拟接下来的整局所需要的计算量只有几百次,这对计算机而言可谓微不足道。对一秒钟可以运算3 亿次的计算机来说,它一秒钟就可以模拟出约100 万个不同的棋局。

它在统计完这100 万次随机棋局后,发现有30 万次是白棋赢了,70 万次是黑棋赢了。于是计算机得出结论:把白棋落在A点的获胜概率是30%。

用同样的办法,计算机再模拟100 万次把白棋落在B点以后的随机棋局,黑棋赢了50 万次,白棋赢了50 万次,胜率就是50%。

再继续模拟白棋落子C点和D点的随机棋局,得到结论:白棋落子C点的胜率是80%,落子D点的胜率是60%。

最后,计算机决定把白棋落在C点,因为胜率更高。

由于计算量巨大,即随机样本大,这种对胜率的预测相当准确。而且它不只是算一次——对手每下一步,计算机都会重新预测下一步棋所能取得的胜率,然后再选择随机胜率最高的下法。一直到最后,棋盘上的空间越来越小,计算机已经可以穷举所有可能性,就不再用随机概率预测,直接选择胜率百分之百的方式走完残局就可以。

战胜围棋名家李世石的围棋软件——阿尔法狗,用的就是这一原理。当然,它也同时采用了“神经网络算法”的打分法:由一些专业棋手来根据围棋理论对当前局面打分,将一些明显不应该落子的地方排除掉,以提高计算机的计算精确度。此外,它还使用了简单的机器学习技术,让计算机自己根据实战经验对打分法进行改进。

这就是第三代人工智能技术。机器学习还得依赖人类经验,只不过加入了概率计算,突破了计算机的穷举极限。

第三代智能技术还有一个很关键的问题没有得到解决:它表现的好坏,主要还是取决于人类自己进行经验总结的质量。围棋是一个规则比较简单的事情,非常适合采用经验打分加概率计算的方法来解决,但在一些具体的生产生活场景中,人类自己总结的经验都不可靠。在这种情况下,第三代人工智能也就很难发挥作用了。

比如,在人脸识别领域,我们人类一眼就能分辨出图片中的人脸。但要我们去写出一个描述人脸特征的算法公式却非常困难。人脸有什么特点?椭圆形的物体,上面盖着一层黑色?那剃个光头就不是人脸了?有两个黑色的小圆圈,左右是白色的三角形,而且左右基本对称?那人脸和猫脸、马脸如何区分呢? 人类根据自身经验可以快速得到一些结论,但这些结论要想总结清晰并改编成计算机语言,则非常困难。

在汽车自动驾驶领域,人类可以经过训练变成合格的驾驶员。但道路情况千变万化,要把所有可能的变化都变成精确的计算机语言,其复杂程度就太高了。

人类之所以具有智能,很大程度是因为我们具备从具体事物中抽象出概念的能力,然后用概念去应对一些变化的具体事物。这种能力要想变成计算机所能执行的程序,在围棋这种规则简单的场景中尚可实现,但在复杂的生产生活场景中,就大大超过了人类程序员所能承担的工作量。

3.基于深度机器学习的人工智能

同第三代相比,第四代人工智能技术就有了质的改变。深度学习可以让计算机自己从大数据中发现和定义特征。

如何理解这句话呢?

深度学习,就是让计算机通过实践来自己寻找打分标准和函数。比如下中国象棋,一个车的价值是10分还是9分还是11分?“马后炮”的局面应该得几分? 这些都是人类经验结论。现在人类不再告诉计算机结论了,只告诉它象棋的规则,让它自己跟自己下象棋,不断地下,然后自己总结出规律,给每个棋子打分,给每个不同的局面打分。计算机自己将规律总结出来,然后再用这个规律去跟人下棋,或者跟别的人工智能下棋,或者对照之前的象棋谱比较……总之,通过各种办法来测试它总结的规律是不是“靠谱”。

每下一盘棋,计算机都会根据胜负修正自己所总结的规律。随着下棋的次数不断增多,规律就越趋于完美——这也就是“机器学习”的最大特点。计算机总结的规律数量巨大,但缺乏指向性,需要海量的实践数据才能让其所总结的规律最终优化到可以战胜人类高手。

计算机的计算速度极快,而且它可以24小时不间断地下棋来改进自己总结的规律。因此,在棋类运动方面,通过机器学习成为高手是比较容易的。“阿尔法元”(Alpha Zero,即谷歌的DeepMind 系统)就是让电脑自己和自己下棋来总结规律。

机器学习可以用于更复杂的领域。我们以图片识别为例来说明。

第三代人工智能技术,是人类程序员先输入一些判别各种物体特征的程序和算法,然后计算机再根据这些特征去判断图片上有没有符合这些特征的,最后识别出来。由于图片千变万化,识别率长期以来都非常低,之前无数专业人员的努力,也就能让计算机的识别率每年提高1% 左右。在2012年之前,顶级的算法最多也就能实现大约75% 的识别率。

2012年,这个局面被彻底改变了,电脑识别率一下提高了10 个百分点。此后,人脸识别等技术才具有了真正的实用性,被普遍应用到各个领域。

这个突破性的技术,就是深度学习。

同下围棋一样,人类给计算机设定了识别图片的规则,然后让它自己去尝试。这个规则很简单,就是让它把一张图片压缩。比如,将一张1000 万像素的图片压缩成100 万像素,然后,再把这张100 万像素的图片还原成为1000 万像素的图片。同时,给计算机设定一些人类已知的各种数学工具,以供其使用。刚开始,计算机会随机压缩图片,不过,如果没有找好规律,压缩之后会丢失掉很多图片信息,最后还原出来的图片同原图对比差别较大。

慢慢地,经过万亿次的计算之后,计算机会自己发现一些规律。比如,某些图片的某个部分A 与另一个部分B 是完全一样的,那么它就可以只记录A 部分的像素,然后记录B 部分在图片中的位置,删掉B 部分的像素数据就可以了。 这样就把图片压缩了。

再进一步,计算机可以找到一些概念性的总结,比如正方形的图案、等边三角形的图案等。这样,就只需要保留一条边的数据,然后加上“这是一个正方形的图案的一条边”或者“这是一个等边三角形的一条边”这个标志,就可以把这个图案完整复原出来。如此,可以节省很多的空间,提高压缩图片的速率。

计算机不会有“正方形”和“等边三角形”的概念,它只会把这些概念显示为一串特征代码,比如正方形是它发现的第一万个图形特征,它的代码就可能是——10011100010000。这个时候,当人类看到计算机总结的这个图案特征其实就是我们说的正方形,就输入一个指令,告诉计算机,这个编码为10011100010000 的图案特征,我们人类叫作“正方形”。这样,计算机就掌握了正方形这个概念。以后再输入“正方形”的搜索指令,计算机就能快速地从无数图片中找到正方形图案。至于计算机自己是如何定义正方形特征的,人类可以不用管,人类只需要把计算机自己找到的这个特征的编码和我们人类语言给它的定义连接起来就可以了。

运用这样的原理,谷歌让每秒钟可以进行几百万亿次计算的计算机反复对1000 万张图片进行“压缩、复原、对照”。通过三天的运算,终于让计算机发现了“人脸”这个特征。只要它在图片中发现符合“人脸”这个特征的图案,就会用一组特殊算法对这部分图案进行压缩,比如人的眼睛左右部分是基本对称的,只需要记录一只眼睛的数据,然后记录另一只眼睛的不同之处,就可以将图片信息压缩差不多一半。但计算机并不知道这个特征叫作“人脸”,它只是发现这个特征对压缩图片很有用,就对它进行编码处理。这个时候,人类只需要告诉计算机:你发现的这个特征,我们叫作“人脸”。以后,我们只需输入“人脸”搜索的指令,计算机就可以从无数的图片中快速地把符合指令要求的人脸找出来。

“输入—压缩—复原—对照检验—改进”,对这5 个步骤反复进行,就可以让计算机像人一样,找到海量信息数据中的关键特征,并对其进行编码处理。用这样的办法,我们就可以不用将人类的经验特征一条一条地总结成计算机语言输入电脑了,只需要编码计算机自己总结出来的特征中与人类所总结的特征相符的东西就行了。

这个学习过程有时候需要人去监督修正,有时候不需要,如此也就分出了有监督的机器学习和无监督的机器学习。计算机发现的压缩规律本身还可以再作为输入结果,进行再压缩和再复原对照检验,变得更为抽象和精炼,这就是第二层的学习。层数增加到三层以后,就可以称之为“深度机器学习”。谷歌的人脸识别技术,就是经过多层机器学习之后才逐渐趋于完善的。

4.深度学习的革命性意义

目前,人们对新一轮人工智能的看法大体比较一致,主要有以下两个看法。

第一,第四代人工智能还是有局限的人工智能技术。从技术上来看,要发展到人类水平智能(即通用人工智能或强人工智能)仍然存在巨大的障碍,达成该目标还很遥远。

第二,人工智能已经具备广泛的实用价值,将极大地改进人类认识世界和改变世界的模式,同时还会取代很多重复性高、技能要求不高的岗位。在这一轮人工智能技术的冲击下,财务会计、客服代表、股票交易员、律师助理、司机、流水线工人等职业将会逐渐消失。

从产业经济的角度来说,我们只需要考虑第二个方面,而无须期待或担心人工智能超过人类及其之后的影响。诸如机器控制或者统治人类、人类通过电脑实现意识永生之类的事情,这些都还属于科幻小说家的工作领域,不在本书研讨的范围之内。

尽管如此,深度学习的革命性意义仍然不容小觑。它让计算机掌握了总结抽象规律的能力。这道关键的门槛迈过去之后,人工智能的应用范围必将得到极大拓展。

人类不再需要代替计算机去总结规律,只需要给计算机提供足够大的样本数据,然后告诉计算机需要什么样的结果,剩下的绝大部分工作,就可以交给计算机来完成了(学习过程的一些关键节点还需要人类监督干预,这样可以保证学习结果精确可用)。这样,人工智能所能解决问题的广度,就可以超过人类程序员的总结能力和代码输入的工作量,几乎是可以无限扩展了。

尽管在不同行业、领域的具体应用过程中,需要做的改进和有待突破的技术细节还有很多,计算机经过深度学习以后并不一定会得出肯定有意义的结果,整个过程仍然需要人类的监督和辅助,但对于这些困难,只要消耗人类一定的人力、财力就可以完美解决了。

驾驶汽车就是典型的被人类所掌握的重复性工作。如果需要人类一条一条地输入注意事项,告诉电脑该如何开车,需要海量的时间以及人类输入的代码,才能穷尽千变万化的道路情况。但运用机器学习,只需要在足够多的汽车上安装图像、距离、声音和汽车状态传感器,然后不断地搜集数据进行深度机器学习,让计算机自己整合安全驾驶与各个传感器指标数据的关联。只要数据量足够大,计算机就可以自己找到正确的驾驶方法。

人类的主要工作并不是告诉计算机如何判断行驶的安全距离,如何确定刹车力度,如何应对突然出现的横穿道路的行人,或者各种稀奇古怪的障碍物,而是搜集足够庞大的数据和提供足够大的计算容量,并在关键问题上帮助计算机完善修正由它自己总结出来的规律,确保深度学习向着有意义的方向发展。

深度学习算法最终不会发现绝对意义上的完美驾驶规则,但可以随着数据量的增加和计算能力的提升无限接近这个目标,并最终让电脑驾驶的安全性大大超越人类驾驶汽车的安全性。

在几乎所有可以搜集到足够多数据的领域内,这一算法都是可以运用的。

2020年12月,在“阿尔法狗”战胜李世石四年之后,谷歌公司运用“阿尔法狗”的人工智能深度学习技术,在生物学的一个重要领域“蛋白质结构预测”取得了关键突破。这是一个困扰人类数十年的科学难题,按照传统的科研方法几乎就无法解决。但谷歌公司让人工智能程序自己去对蛋白质结构的数据进行学习,人工智能程序在没学过生物学的情况下,仅仅根据这些数据,就自己找到了“蛋白质结构预测”的方法。这是人类运用深度学习解决关键科学问题的一个经典案例。它也说明第四代人工智能绝不仅仅是用来玩围棋这种简单规则游戏,而是人类科技研究方法的根本性突破。

以前,人类科学研究总想知道“为什么”,通过因果关系来推导科学结构。但第四代人工智能则可以完全抛开这种传统思维模式,不需要知道“为什么”, 只需要对数据进行超大规模学习,就能找到问题的解决方案。而对方案背后的原理,计算机不知道,制造计算机和编写计算机程序的人类也不知道。这是我们认识世界的方法论的一种根本性颠覆和创新。

在未来的数十年里,深度学习将对人类科研体系产生巨大的推动力,人类科学技术将会掀起新一轮的创新浪潮,并逐步向产业和商业领域转化渗透,从而推动一场持续数十年的新兴产业革命。其深远的影响甚至可能会持续数个世纪。

三、智能新世界:物联网、大数据与数字孪生

在深度学习算法突破以后,这一轮人工智能的主要问题就从算法问题变成了数据问题。也就是说,在搜集数据越多、数据质量越高的领域,人工智能的替代率就会越高。

目前,人工智能替代人类做得最好的领域,并非大多数人想象的生产流水线或者汽车驾驶等一些看上去不太需要很多智力和知识的领域。实际上,生产线和汽车驾驶所需要的人类经验相当复杂,尤其是要把这些经验转变成可以由机器自主学习的大数据非常困难。这一代人工智能技术对人类工作替代最广的领域是金融领域——一个看上去技术含量非常高、需要极高智商和复杂知识的领域。

之所以如此,是因为金融领域的信息化基础最好,数据最多也最丰富,而且质量很高。这是因为,金融决策所需要的信息几乎全都数字化了。相比于人类,人工智能的优势更显而易见。早在2014年,高盛便联合谷歌开发了一款由AI 驱动的大数据智能分析处理引擎:肯硕(Kensho)。当肯硕被问到:“iPhone6 发布后,哪些股票会涨”的时候,它只用了不到一秒钟就给出了精确的答案。

根据商业智能公司“联盟(Coalition)”提供的数据:2011—2016年,在全球10 家领先的投资银行中,从事固定收益业务、股票和银行投资业务的交易员从业人数下降了20%以上,而这一趋势还在继续。

交易员逐渐被替代,说明华尔街的传奇景象已成为历史,而这只是金融领域变革的一个缩影而已。新闻写作在人工智能技术的影响下,也发生了翻天覆地的变化。大多数人不知道的是,绝大部分新闻是可以用一些固定的模板来写作的。比如,股市行情、政府新闻发布会的内容、足球比赛的结果等。它可能会比财务数据要复杂一些,不过文字信息的数据化不会太难,计算机通过阅读大量的新闻报道,再加上人工监督修正,就可以快速掌握即时新闻的写作技巧。而且,计算机写作速度极快,人类新闻记者根本无法企及。

早在2014年,美联社与提供自动化写作服务的公司“自动洞察(AutomatedInsights) ”达成合作协议,让机器人“文字工匠”(Word Smith)读取公司的新闻稿,分析报告和股票表现等信息,按照编辑预先提供的构架,自动生成偏于数据分析的财经新闻。经过3 个月的训练,AI 技术便掌握了新闻写作的基本规范,并且比人类写作错误率更低,极大地提高了新闻文章的质量。

腾讯公司所开发的自动化新闻撰写程序“梦想写作者”(Dreamwriter)在不到一分钟的时间内就可以撰写一篇商业文章(包括分析师的评论)。2017年,“梦想写作者”在财经领域以及科技领域的发稿量超过2000 篇/ 天,体育稿件500 篇/ 天,内容涉及每天行情报盘、上市公司公告精要报道以及体育赛事每轮每场的消息。如今,人工智能已经能够代替20% 的传统新闻写作工作,其主要代替领域集中在金融和体育新闻领域,并还在迅速扩展中。

金融交易、财务会计和新闻写作领域的进展及其差异体现了新一代人工智能技术的特点:人工智能替代人类工作的能力,并不是由这项工作中的智力劳动含量所决定的,而主要是由这项工作的可重复程度和数字化程度所决定的。

即使是一些看上去很简单的劳动,如果数字化程度不高,人工智能在该领域的推广就会遇到极大阻碍,比如照顾老人的家政服务;而一些看上去很复杂的工作,如果能实现高度的数字化,人工智能就会很容易通过深度学习来掌握技巧代替人类,比如金融交易。

人类眼中的简单工作和复杂工作的差异,在计算机强大的运算能力面前其实微不足道,只要不包括创新能力,年薪百万的工作和年薪十万的工作所需要的计算量几乎没有差别,只需要满足两个条件,人工智能就可能实现替代。

第一,此项工作是可重复的,不需要创造性。

第二,工作的所有环节都可以数据化,可以提供海量的人类操作历史数据供计算机进行深度学习。

第一条是本轮人工智能革命的技术上限,即人类的创造性思维仍不可被替代。第二条则需要通过物联网和大数据,并配合5G 技术来实现。

跟5G 革命一样,这一轮人工智能革命差不多已经进入下半场——底层算法基本趋于完善,接下来最重要的就是比拼应用场景的数字化能力。谁能够快速地在具体领域实现全环节高质量大数据提取,谁就最有可能在该领域的智能化浪潮中取得先机。

负责大数据提取的,就是物联网建设。

基于物联网的大数据采集,是当下产业变革的基石。

物联网的关键技术,除了5G,就是传感器,也就是在各种物体上感知动作、图像、速度、力度、温度、味道、形变等各种信息的终端芯片。

在当下的产业革命中,物联网传感器就好像人的末梢神经,5G 就是人的传输神经,第四代人工智能就是中枢神经。传感器将万物的多维度特征通过5G 输送给大脑——高速运转的人工智能,进行决策和控制。同时,人工智能还可以根据控制的反馈结果来进行深度学习,改进自己的决策模式,从而变得更“聪明”, 并不断提高控制效率。

从物联网衍生出来的是产业技术概念非常庞杂,如大数据、数字孪生、虚拟现实等。物联网传感芯片将万事万物的状态转变成为数据信息,通过网络上传到服务器,然后由电脑进行分析。这个数据量非常庞大,早在2011年,人类刚刚步入4G 时代的时候,81 天内所产生的数据量,就已经超过人类几千年文明的所有信息数据总量。

在物联网时代,所产生的数据量将会是指数级增长,每两年翻一番。这些数据在人工智能完善以前,大部分很难发挥作用,因为人类没有时间和精力来对它们做详细的分析,发现其规律和意义。

在人工智能技术全面成熟后,大数据就可以帮助我们建立一个与现实世界对应的“孪生”数字化世界。在这个“孪生世界”中,一切都会遵照现实世界的规律运行,我们可以借此来预判现实世界的发展,进行不限次数和几乎无成本的实验。例如,我们可以在机器出现故障之前就发现隐患,提前维修或替换……现实世界造出来的汽车、飞机、火箭、宇宙飞船等,都可以在这个“世界”里进行测试,确保安全以后再进行实测,从而降低成本。这就是“数字孪生”技术。

人工智能通过对大数据的深度学习,可以发现很多人类目前的研究手段无法找到的联系。比如,人工智能在分析了大量X 光片以后,可以计算一个人在未来一年猝死的概率,准确度高于人类的顶级专家。尤其是一些在人类专家看起来根本没问题,人工智能却发现其中存在问题的X 光片。事后证明,人工智能的分析是正确的,但我们并不知道它到底是依据什么做出的判断。有了深度学习人工智能的帮助,人类只需要提供足够数量且正确的数据,很多难题就能得到解决,比如,通过对气候和地壳的数字孪生场景模拟,精确的天气预报和地震预测将不再是难题。

“5G+ 第四代人工智能+ 物联网”,构成了一个完善的新一代人类社会神经系统,智能化从感知到传输到决策的链条完全被打通了。目前,这三大枢纽型技术的关键难题都已经被突破,而且开始了产业化应用,这也意味着,我们讨论多年的智能化时代真的要来了。受制于第四代人工智能的技术局限,我们不应该把它想象得太科幻,但颠覆性的变革一定会在各个领域显示出来。在这个过程中,很多产业会被颠覆,很多人的工作也可能会被“颠覆”,如果无法跟上这股时代的潮流,个人可能会失去众多机遇,国家则可能失去一个时代。

例如,在教育行业,很多传统意义上的教师可能会失业——远程教育早已变成现实,山区或偏远地区的儿童也可以享受顶级名师教学。人工智能会把所有学生的学习情况进行分析,然后推荐给最适合他水平的老师进行远程教育,甚至这个老师也可能是人工智能模拟出来的虚拟人物——现在人工智能模拟人类的表情和发音已无技术性上的困难。

并且,人工智能还能监督学生在听老师讲课的时候有没有专心听讲,这个技术通过图像识别已经得到实践应用:一个班,一个摄像头,就能统计所有人在上课时有多长时间在开小差。然后,人工智能会根据每个人的学习水平布置不一样的作业,以确保难度和强度合适,还可以负责批改作业和一对一讲解习题。在未来,体育老师可能比语文、数学老师更多,因为对人工智能而言,体育教学的难度更大。

在广州,自动驾驶的出租车已经开始试运营;在美国波士顿,四条腿的、能翻跟头的机器狗已经开始取代警察进行日常巡逻;在北京和杭州,海底捞、五芳斋等企业的“智慧餐厅”开业了,从配菜到上菜的大量劳动力已经被机器人取代。

在华为和小米手机的生产线上,完全无人的“熄灯工厂”正在以每秒钟一部的速度生产着最新的手机,而且还是不同型号的手机混合生产,不需要跟传统流水线一样只能规模化而牺牲个性化。要看到,智能制造的前景并不是机器换人,而是机器人换机器——人工智能控制的机器人可以像人类一样,随时根据工艺、材料、设计的不同,变换工作方式,生产不同类型的产品,而不是像机器一样,只能重复一套固定的动作。

行业变革的新闻每天都在发生,科技进步的速度太快,本书中的案例注定是在它刚一出版的时候就落后了。未来还会有什么更新奇的东西?我们无法知道。但现在,我们最应该做的并非毫无边际地放飞想象力,畅谈人类命运,而是认真地思考“怎么办”。

作者简介:李晓鹏,经济学博士,中兴大城首席经济学家。著有《中国崛起的经济学分析》《城市战略家》《中国的产业政策》《中国的产业规划》《从黄河文明到“一带一路”》(第1-3卷)等书。

文章摘自:《人工智能5G和物联网时代的中国产业革命》

出版社:天津科学技术出版社有限公司

销售链接:

猜你喜欢
计算机人工智能人类
人类能否一觉到未来?
人类第一杀手
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
1100亿个人类的清明
2019:人工智能
人工智能与就业
信息系统审计中计算机审计的应用
数读人工智能
下一幕,人工智能!