许成钢
第四次产业革命正在快速兴起。人工智能是这次产业革命的核心内容之一。构成产业革命的创新都是革命性创新。这类的创新具有特别高的不确定性。人工智能前沿工作的发展,包括基础研究、应用研究、初创企业,都属于这类性质。
这类创新的未来酝酿在大量的研究成果和初创企业成果里。最后通过市场优胜劣汰的过程,产生出来技术上和市场上最好的结果。在此之前,即便是在相关领域里成功的专家和企业家,也很难预测未来的结果。因此,了解未来,最重要的在于了解学术界在研究什么、初创企业在做什么,以及数量。
为了了解中国人工智能的现状和展望未来,我们构建的人工智能指数,集中在三个方面,对比中国和国际前沿国家。这三个方面是,人工智能的初创企业、学术成果、开源软件的应用。从初创企业这个维度,可以勾勒出人工智能作为一个产业的现状和最近的未来。通过初创企业不同发展阶段的国际对比,我们可以看到中美人工智能企业之间的差异。以融资机制为例,融资机制本身就是初创企业的发展机制。融资机制其实是优胜劣汰机制的核心。中国过去是计划经济,现在仍然还保留着相当一部分计划经济的制度。所以,中国和美国在制度上的差别是,中国有两大类不同的机制,一大类是优胜劣汰的市场机制,另一大类是命令式的机制,即自上而下的命令或者计划。
因为我们的主要目的是从产业革命的角度来看人工智能,因此在学术领域,我们关心的是产业长远的未来发展。今天的学术工作就是明天的人工智能产业。在这个维度,我们观察的是学术论文的定量和定性的指标。
第三个维度是开源软件的开发和应用,这是学术与产业高度连接的部分。从应用研究的角度讲,这是一个非常重要的指标。
绝大部分的人工智能方面的开创性研究,都是从学术上开始的。学术研究和应用研究是产生革命性创新的必要条件,没有它们就没有后来的一切。所以学术研究的成果是最重要的。但仅仅是学术研究的成果仍然并不充分。比如专利。看上去非常优秀的项目是不是最后能够在商业化的过程中成功?在商业上没有实现之前,没有人能回答这个问题。所有在学术上和专利上非常优秀的内容,在商业实现之前仍然都面临着巨大的挑战和非常高的不确定性。因此,人工智能这个行业是不是能成功,整个行业在一个国家在一个地区是不是能够成功,除了取决于当地的学术和应用的研究成就之外,还一定取决于当地的制度。与创新技术发展相关的最重要的具体制度,就是所谓的硬预算约束的制度。
面对高度的不确定性,在没有人知道某一个项目是不是能成功的情况下,必须有大量的创新想法在最早期的时候就能获得投资。需要强调的是,是不是能获得投资和是不是获得大规模投资是两回事。这是第一点,即是不是有大量的新想法能获得投资。第二点,获得投资的这些项目,当被发现没有前途的时候,是不是能够及时地被中断。硬预算约束指的就是是否能被及时地中断。因为硬预算约束决定了不在失败的项目上浪费资源,使得更多创新项目可以得到试一试的机会。
在中国,特别需要认识到,跟计划经济相关的软预算约束,缺少停止不成功项目的能力。因此在软预算约束下,被迫依赖在没有投资之前的、事先的审查项目,用这个方法来减少投资创新项目。这是计划经济的一个重要特点。但是,一旦事先减少了投资的项目,就减少了最终成功的机会。
当说到融资制度,风险投资是行之有效的非常重要的基本制度,它的核心是阶段性的硬预算约束。阶段性的投资,最重要的就在于它能够及时地中断这些不成功的项目;或者换句话说,它是硬预算约束,用这个方式来降低失败的风险。风险资本制度高度依赖股市和独立的司法制度。
在人工智能的初创企业方面,中国的投资不仅数量巨大,而且从增长速度来看,在过去几年里,初创企业的增长速度是世界上最快的。特别是从2014年以后,投资急剧加速。从总投资额来看,位居于全世界第一的是美国,第二就是中国。创新具有高度不确定性,其中非常重要的一个机制是投资的数额要大,这个数额指的不仅仅是投资的总量,而是指项目的总量。
第一个特点,从项目看,无论是初创企业的总数还是交易总数(所谓交易总数指的是有的企业可能有不止一个项目,它有不同的阶段,因此交易总数和企业总数不是一回事,交易数字会更大)。從这两个方面来看,中国的总投资额排名世界第二,但是企业总数或者交易总数,那么中国不是世界第二,而是世界第三,和居于世界第二的英国距离不是很大。更详细的信息我们在后面来介绍。
第二个特点,中国人工智能初创企业的融资高度依赖对外开放的。我们的发现是中国总投资额全世界第二,那么这些投资从哪里来的?从统计数字来看,将近40%的交易是来自国内的,而其他的超过46%是完全来自国外的,还有超过14%是国内外联合的。这组数据可以很清楚地看到,超过一半以上人工智能初创企业的融资是来自国外,这是非常重要的一个特点。不仅仅中国的研究跟改革开放高度相关,跟国际间的融合高度相关,即便在融资方面也跟国际的融合与开放是高度相关的。
中国人工智能初创企业的投资主体是风险资本,而不是中国传统的金融机构。前面我们讲硬预算约束,硬预算约束主要来自于风险资本。在中国,74%的交易来自风险资本,将近16%的交易是来自私募,私募股权的性质跟风险资本是高度相近的,所以我们把这两者合并在一起。也就是说,将近90%的人工智能初创企业的投资来自于风险投资。这是极端重要的一个信息。
前面讲到2014年以后,中国加速了人工智能初创企业的投资,而且投入早期项目的资金总量非常之巨,但是有个重要的特点是值得关注的。虽然投入的资金量非常的大,但是投入的初创企业的总数字以及总的交易数字,没有相应的那么大,导致了一个初创企业的早期,平均获得的投资额非常高。不同的人对此可以有不同的解释,我们的解释留待最后的分析之中。
初创企业融资情况的统计数字,来源于VC Experts和Crunchbase这两个数据库。这两个是世界上最大的风险投资融资的数据库。两个合并在一起,基本上概括了全世界的所有的风险投资的融资情况。中国跟世界的对比数据,全部从这里获得。
我们首先关心是跟IT相关的领域,然后在数据库里搜索公司简介,使用了近20个与人工智能各个方面相关的关键词。如果这个企业涉及到这些方面,我们就把它定义为人工智能的初创企业。用这个方式,我们找到全世界所有初创企业的情况。美国的总数是4600多个,占全世界的比率超过45%;英国有846个,占全世界的8.2%,中国有730个排第三位,占全世界的7.11%。从初创企业的总数来看,中国在全世界是相当的领先,但是和美英相比,还有显然的差距。
融资方面,美国的融资额是1273亿美元,占全世界的59%。中国是487亿美元,占全世界近23%。从企业总数来对比,中国的比例远没有这么大,但是从投资总额上看,中国的投资总额已经快要接近美国的一半了,排到全世界第二。排到全世界第三位的是英国,跟中国相差很远。
平均每个初创企业获得的投资是多少?美国跟世界上其他的发达国家比,没有显著高很多,只是稍微高一点点。而中国自从2013年之后开始起步,2014年拉开距离,平均每个企业获得风险投资的数字远远高过世界上其他国家。这其中有两个可能性,一个可能性就是我们前面讲到的软预算约束机制。在面对高度风险、高度不确定性的项目的时候,尤其是在早期,投资的数字一定是非常小的,因为越小就越便宜。等到有相当的把握以后,扩大你的投资,这样才能保证你以最小的代价获得更大的成果。如果在早期投了很多钱进去,有相当的一部分可能是浪费,这个是从机制上的一个解释,另一方面也有一种可能的解释,早期阶段的初创人工智能企业,它的不确定性没有那么高。这一点我们的数据没有办法告诉我们,行业里面的同事们,可能会比我们更清楚。
在面对高度不确定性的时候,关键问题在于在最早期的时候是不是有足够多的探索性的项目。在探索性项目的数字这个方面(种子期的交易量),美国远远高于世界上所有其他国家。排名第二的是英国,排名第三的是中国和加拿大。在这个方面,中国只有英国的一半多一点,只有美国的大约七分之一。由于探索面对很高的失败的风险,有效配置资源的方法是,在启动探索的阶段,每一个项目投尽量少的钱。但是在这方面,中国的情况与发达国家非常不同。与发达国家相比,中国初创企业在种子期,对每个项目的投资量都很大。
到创业的晚期,从风险投资的角度,人们对项目的成功已经有相当的把握。从我们的数据来看,晚期的投资交易总额,也就是有多少项目获得了融资,美国排第一,中国排第二,英国排第三。从趋势上可以看到,从2016年之后,中国和其他国家之间拉开很大距离。就是说从2016年之后,晚期的投资额明显比其他发达国家要多,但是与美国相比还是有显然的差距,这个差距似乎有一点缩小的趋势但也不是很确定。但是比起其他发达国家来,中国显然是领先的。排第三的是英国。英国和其他发达国家之间的距离并不大,但是中国和美国之外的所有发达国家之间的距离拉开很大。
从晚期的平均投资额来看,平均每一个项目的投资,中国远远高于世界上的其他国家,美国排第二,英国排第三。中国比排第二的美国高很多,而美国和其他发达国家之间没有显然的距离,发达国家在平均的时候基本都差不多。这是一个很重要的信息,說明对发达国家来说有一些规律性的内容,这些规律性的内容决定了它们认为什么时候合算,基本上大家的做法都差不多。但是中国在讨论到平均的时候,明显的非常高。
怎么解释这个现象呢?有两种可能的解释,一种可能的解释就是前面讲的软预算约束和硬预算约束。中国可能仍然存在着一定程度的软预算约束问题,因此导致它的平均投资额更高。另一种解释是,可能中国的市场规模超级的大,包括在人工智能相关的应用领域里。因此,即便在每个项目都投入很多,成本很高,总体上仍然能盈利。有可能这两个解释同时都成立,都是一部分的原因。
2021年5月21日,2021RoboCup机器人世界杯中国赛暨亚太机器人世界杯天津国际邀请赛在天津空港体育中心举行。图/中新
从学术论文的发表量和论文被引用的指数来看,在最近几年里,中国整体上在世界上排名第二。在大体上,和美国的差距在缩小,但仍然有一些重要的方面,差距还是相当明显。
首先来看一下在期刊和会议论文的发表情况。在期刊和会议发表论文的总数方面,中国在世界上排名第二,其中包括最近20年里积累的总数,以及最近几年的年度的发表数字。很重要的一点是,自从2017年之后,中国年度发表的总数和美国的差距是在逐年缩小之中。如果我们把期刊跟会议分开、单独看期刊的话,中国在期刊发表的总数是世界第一。在期刊的被引用总数也是世界第一。所以,如果我们单纯看期刊的话,中国现在已经超过了美国,位居世界第一。这也是为什么有相当一些报告会认为中国在人工智能方面超过了美国成为世界第一,其实指的是在期刊发表的论文方面。但是,如果我们把这个引用分成类别,分成高引用的论文和普通引用的论文和低引用的论文,我们就会发现,如果我们看被引用1000次以上的,那么中国在期刊方面仍然是排得很高。
在会议论文方面,中国的排名就不太一样。如果看加总,中国在会议上发表的论文总数大体上是世界第二,被引用的总数也大体上是世界第二。如果我们看会议论文的引用次数,被引用千次以上的甚至百次以上的,中国都在世界上排名第二,但和世界第一的美国之间的差距没有清楚地缩小的趋势。
在开源软件的无论开发和使用方面,中国都跟美国有显然的差距。值得关注的一点是,与期刊和学术论文的情况非常不同,中国和美国在开源软件方面的差距是在扩大之中,而不是在缩小之中。这背后说明什么问题,还需要更深入的讨论。
我们的数据来源是Scope数据库,包括学术论文,期刊和会议的,全部都来自这个数据库。搜索方法基本上是和斯坦福大学制作的人工智能指数的搜索方法是相似的,使得我们和他们有高度的可对比性。
具体来看,积累的学术论文的总数,美国排第一,中国排第二,英国排第三。从积累的总数看,中国和美国之间差距还是相当大的。从时间的趋势变化来看,虽然中国仍然排第二,但是和美国的差距是在逐年缩小之中,尤其是在2016年、2017年之后。
排名第三的是英国,可能实际上排名第三的已经是印度了。英国和印度这两个国家处于不相上下的一个状态,和排名第二的中国的差距是很显然的,这是期刊和会议论文的总量。如果只看期刊的话,中国在2012年之后就已经超过了美国,是世界上在期刊上发表人工智能论文最多的国家。
从2012年之后,长期以来排名第二的是美国,但是现在也被印度超过。所以现在已经是印度排名第二,美国排名第三。这背后有一个重要的内容,就是由于人工智能这个领域本身在加速发展,使得很多的研究者为了快,更多地把论文发表在会议上,而不是在期刊上。这是为什么我们在期刊上见到这样应该状况的部分解释。一方面是中国的论文增速非常快,另一方面美国作为人工智能最发达的国家,在期刊上发表论文的数字不长进了,原因是大量的论文转移到会议上去了。
从会议论文加总的数字我们可以看到,美国排最前面,中国排第二,英国排第三。中国和美国之间的差距似乎有缩小的趋势,但不是很清楚。但是中国和其他发达国家之间的差距是在拉开。中国超过其他的发达国家,而且超过的越来越多。
只是看论文数字,可能还不能说明论文的质量。质量更多地反映在引用次数上。可以看到自从2014年以来,在引用的方面,中国超过美国,成为期刊论文被引用的总数在世界上排名第一的国家,而美国是仅次于中国排第二的,其他若干的发达国家合在一起排第三位。中国和美国跟其他的国家相比,后者是有显然的差距的。
从大型的人工智能学术会议论文的年度被引用情况来看,美国远高于其他国家排名第一,中国排名第二。中国和美国之间是不是差距在缩小,目前还不是很清楚,其他的发达国家和中国之间的差距似乎在拉开。
小型的、更专业的人工智能学术会议发表的论文,加总之后的年度被引用的情况,可以看到中国和发达国家之间已经没有清楚的优势了。美国排名世界第一,英国排名世界第二,德国曾经排世界第一,现在连第三也排不到了,现在排名第三的是法国。为什么会这样?这背后是什么原因?需要专家们来解释。
再来看一下最高的被引用论文是怎么分布的。首先我们来看期刊上最高的被引用论文,也就是在人工智能领域里影响最大的论文,美国曾经高度领先,到了最近几年,中国、美国、以色列似乎是不相上下。
再来看会议论文的加总情况,可以看到美国在最有影响力的论文方面遥遥领先,其他几个国家中国、英国、德国,在最近几年里不相上下,可以认为并列第二。
对于影响力比较低的论文,我们分成几个等级:被引用1000次和以上的、几百次到几十次的、几十次到十次的、个位数的以及零引用的。限于篇幅,我着重介绍低引用率论文的情况。在期刊论文上,低引用率的论文,中国一直是世界最高的,美国是世界第二的。但是如果我们看低引用率的会议论文,跟高引用率论文的情形相似,美国遥遥领先。中国和英国并列第二,但是和美国相差甚远,和其他发达国家相差无几。
最后我们来看一下中国和美国研究者使用人工智能开源软件平台的相关情况。从加总的数据来看,从2015年到现在,我们可以看到中国和美国在使用和开发人工智能开源软件方面都在增长,但是美国的增长速度更快。2019年,美国使用开源软件平台的总量已经多达十几万,中国的数字是3万左右。为什么是这样?留给专家们去讨论、去分析。
小结一下这份报告的核心发现。首先我们看到在人工智能初创企业方面,中国的总投资仅次于美国,大体上相当于美国规模的五分之二。趋势上来看,中国跟美国总投资额的差距在缩小。如果我们集中看项目晚期的投资情况,中国和美国的差距缩小的更快。这是第一个总结的内容。
第二个总结的内容就是人工智能作为一个全新的行业还正在兴起,还没有真正建立起来,具有非常高的不确定性。当面对如此高的不确定性的时候,它的种子期和早期的数量,即包括项目数量和企业数量,是最终优胜劣汰出成果的关键。如果我们集中看种子期和早期的话,无论是企业的总数还是交易量的总数,中国都在英美之后,而且和英美的差距不是在缩小,反而是在增大。这是值得高度关注的问题。
在学术方面,中国发表论文的总量仅次于美国。其中,在期刊发表的总量和引用量总量都是位居世界第一,超过了美国,而且早就超过了美国。而会议发表的总量排第二,和美国的差距仍然非常大,和英国德国等等的差距并不大。在会议论文中,高引用量特別是最高引用率的论文,中国和美国有显然的差距,而且这个差距没有清楚地缩小的趋势。
在人工智能开源软件方面,与美国的研究者相比,中国的人工智能的研究者开发和使用的要少很多。从趋势上看,这种差距在增加,而不是在缩小。
(编辑:王延春)