基于科学计量的中国人工智能区域知识创新生态系统研究

2021-08-21 11:08岳晓旭PhilipShapira谢其军

中国科技论坛 2021年8期

岳晓旭，苏竣，Philip Shapira，谢其军

(1.清华大学公共管理学院，北京 100084;2.曼彻斯特大学联盟商学院，曼彻斯特 M13 9PL；3.佐治亚理工学院公共政策学院，亚特兰大 GA 30332-0345)

0 引言

近年来，人工智能 (Artificial Intelligence，AI)无论是实践方面还是政策方面引起各行业广泛关注。在已有研究中，学者对AI的定义不同，但它被广泛认为是计算机科学或者智能科学的一个分支[1-3]，包括机器学习 (Machine Learning)、深度学习 (Deep Learning)、机器智能 (Machine Intelligence)和数据处理算法 (Algorithmic Data Processing)等概念[4-5]，被用于执行人类可完成的任务或者之前无法完成的任务。人工智能技术已逐渐被应用到各个领域，被认为是促进经济和社会发展的关键技术之一，它代表了未来的产业竞争。因此，许多发达国家和地区 (如美国、欧盟、日本和韩国)相继启动了国家人工智能创新计划[6]。

创新生态系统 (Innovation Ecosystem)被定义为 “企业通过协作安排将各自产品或方案组合成一致的、面向客户的解决方案”[7]。在区域层面，创新生态系统则被定义为 “可以支持一个产业中的新产品或者改进产品、业务或生产过程的参与者网络”[8-9]。另外，创新生态系统包括两个子生态系统：知识生态系统和商业生态系统[10-11]。其中，知识生态系统是由基础研究推动，旨在为企业、大学和研究机构创造科学基础知识。

近几年，中国政府相继发布《新一代人工智能发展规划》《促进新一代人工智能产业发展的三年行动计划 (2018—2020年)》等重要文件。在论文和专利方面，中国分别排名世界第2位和第4位，见表1。制造业和其他高科技领域在区域层面进行的创新研究表明邻近性具有促进创新合作的作用[12-14]。《中国新一代人工智能科技产业发展报告 (2019)》显示，从地域分布看，京津冀、长三角、珠三角和川渝四大都市圈人工智能企业占比分别为44.8%、28.7%、16.9%和2.6%。那么，在AI领域，中国人工智能研究的区域分布呈现出什么特征？每个区域的核心参与者有哪些特点？创新集聚是否明显？有何特点？这些集群是如何形成的？

表1 AI及相关领域专利和论文国家分布

当前有学者对中国或其他国家 (地区)的人工智能创新发展进行研究。Gao等通过对中国人工智能相关论文研究，将中国人工智能发展分为初步探索、稳定上升和快速发展这3个阶段[15]。周伯柱等分析全球人工智能的产出和区域分布[16]。耿喆等梳理创新生态系统研究的4个层次，结合产业生态理论及人工智能产业自身特点，研究人工智能产业创新生态系统生物成分及非生物成分中各构成要素[17]。李悦等分析近15年世界人工智能的研究热点和趋势。这些研究多集中在国家层面，涉及区域层面的较少；多分析发展进程和研究热点，分析创新过程中参与者的研究较少[18]。

为此，本文尝试从区域层面分析新兴技术知识创新生态系统，采用科学计量法和社会网络分析法，分析和比较京津冀、长三角和粤港澳的AI知识创新生态系统。本文将识别出重要区域AI知识创新的核心参与者及他们之间的关系、区域知识创新集群以及这些集群的形成过程，以期为中国人工智能创新发展政策的制定提供参考。

1 数据与研究方法

1.1 数据库构建

本文以曼彻斯特大学Philip Shapira教授研究团队构建的人工智能论文数据库为数据源，该数据库通过核心关键词和专业期刊收集人工智能相关关键词，之后通过benchmark方法构建备选关键词词库，最后经专家筛选确定最终检索关键词词库。将该检索方法与其他最近3种人工智能检索策略[5,15,19]进行比较，表明该检索策略在查全和查准两个方面均具有一定保证。按照该检索策略在Web of Science (WOS)数据库进行检索，文献类型为article，索引数据库为SCI-E和SSCI，时间窗口为1991—2020*(2020*指2020.1.1—2020.5.24)。最终收集到464373条记录，检索时间为2020年5月24日。

本文从该数据库中提取中国参与的记录，即在地址字段中，至少有一个地址来自中国。提取的中国记录包括中国大陆、香港和澳门的记录。采用Vantagepoint作为数据处理和分析工具，最终数据库包含117735条中国人工智能相关记录。

1.2 数据标准化处理

由于不同期刊对作者机构地址标引要求不同，以及作者在发文时标注地址的要求和习惯不同，导致收集到的论文记录作者地址格式不一。比如，有的作者地址把省级行政单位标注为二级行政地区 (一级为国家)，而有些则标注为城市。因此，在数据分析前，需要对数据进行标准化处理。对数据的标准化分两种情况：①对于只标注了城市的地址，按照国家行政区域划分，定位其省级行政单位；②对于只标注省份的地址，根据机构名称，定位其城市，如浙江大学的二级行政单位被一些作者标为浙江省；记录大多数为第一种情况。

1.3 研究方法

在完成数据收集和处理的基础上，采用科学计量和社会网络分析方法分析中国人工智能知识创新发展情况和中国3个主要城市群 (京津冀、长三角和粤港澳)的AI区域知识创新生态系统，研究框架主要包括以下4个部分。

(1)关键参与者识别。采用科学计量方法，借助Vantagepoint分析工具提取出中国3个主要城市群人工智能知识创新的主要参与者。

(2)评估分层。AI研究产出的地区差异不仅反映科学研究能力失衡，也反映经济水平和创新水平失衡。对各省份按产出贡献进行层次评估。

(3)区域划分。参考《长江三角洲城市群发展规划》《京津冀协同发展规划纲要》和《粤港澳大湾区发展规划纲要》，将长三角地区界定为3省1市 (浙江省、江苏省、安徽省和上海市)，京津冀地区包括北京、天津和河北省，粤港澳地区为广东省和香港、澳门两个行政特区。

(4)区域内外部核心参与者社会网络分析。为了分析邻近性是否会影响这些高数据密集产业 (如AI)知识创新参与者创新伙伴的选择和创新集群形成过程，使用Ucinet作为分析工具对区域内外部核心参与者进行社会网络分析，并参考 “五年规划”对数据集进行时间的划分，但由于1991—1995年时间段的数据非常少，因此将1991—1995和1996—2000这两个时间段合并，即分为1991—2000、2001—2005、2006—2010、2011—2015和2016—2020*共5个时间段进行时序分析。

2 结果与分析

2.1 中国人工智能创新发展态势

科研工作者往往以撰写必要的科学文献来作为知识或技术创新的科研成果的具体体现，因此本文以公开发表的论文为数据，从发表论文数、国际合作论文数、主导论文数、国际合作率和国际合作论文主导率等指标分析中国人工智能创新发展态势。在本文中，定义合作论文为论文作者数>1的论文，国际合著论文为论文作者国家数>1的合著论文[20]；将通信作者确定为主导作者，定义一个国家主导的论文为该国国际合著论文中通信作者地址字段为该国家地址的论文，也就是说，该国家在这项科技合作中承担主导者角色[21]。一个国家的国际合作主导率即该国在国际合著学术论文中担任通信作者的百分比。

从论文数和占世界论文数的比例看，在人工智能领域，中国是后起之秀，2006年以后发展迅猛。由1991—2000年的1291篇、占比2.49%增长到2016—2020*的73324篇、占比37.59%，是第一阶段的约15倍。国际合作论文数也随之增长，但国际合作主导率比较稳定，为25%～30%。不同的是，中国人工智能创新的主导地位逐步提升，国际合作主导率由1991—2000年的37.30%增长到2001—2005年的54.11%，之后呈上升趋势，最终稳定在70%左右。由此可见，中国人工智能创新发展态势迅猛，主导地位逐步提升，但是国际合作率趋于稳定，见图1和表2。

图1 中国人工智能创新发展态势 (1991—2020年*)

表2 中国人工智能创新发展态势 (阶段对比)

2.2 中国人工智能知识创新区域分布

通过论文数对中国33个省级行政单位进行分层分析，识别出该领域创新的核心参与者，见表3。由表3可知，位列第1层的11个区域中，北京的论文数远超其他地区，占23.05%，也就是说，有23.05%的论文中至少有1位作者来自北京。江苏居第2位，在1991—2020*期间，发表中国人工智能领域13.50%的论文 (约为北京论文产出的一半左右)。居第3位和第4位的上海和广东，均贡献了约9%的人工智能论文。从发展趋势看，在大多数区域，论文数呈稳定或者增长趋势，增长较快的有江苏 (由8.83%增至14.12%)、广东 (由2.17%增至10.89%)、陕西 (由4.65%增至8.53%)、湖北 (由4.34%增至7.64%)、浙江 (由3.80%增至6.65%)，其中最为明显的是粤港澳地区的广东省，但是同一地区的香港的人工智能产出在1991—2000年为20.53%，居第2位，仅次于北京 (21.61%)，并在2001—2005年增至30.48%，领先于北京 (22.38%)，但却在后面3个阶段以减半的趋势大幅度下降 (分别为15.21%、6.5%和3.84%)，至2016—2020*为4.93%。为了探究导致这一现象的原因，提取香港的记录，即至少有1个香港作者参加的记录，发现香港地区的人工智能产出在2006年之后有增长趋势，但增幅不大，已逐步趋于稳定，但与大陆地区合作的论文数增长迅速，与距离最近的广东合作最为频繁，但是和北京、江苏合作较早，2006年左右已经频繁合作，与其他地区如广东、上海、浙江、陕西、湖北等的合作论文数是在2011年之后迅速增长。可见，香港的人工智能创新发展早于大陆地区，并已至成熟阶段，并通过合作方式在某种程度上带动了大陆地区人工智能的发展。

表3 中国人工智能创新区域分布比例单位：%

人工智能论文产出的区域差异不仅反映科学知识创新能力的不均衡，也反映中国不同地区经济活动和科技资源的不均衡。尽管近年来政府为实现区域发展均衡而出台大量区域协同创新的相关政策，但仍存在很大差异。《中国研发经费报告 (2018)》的数据表明，中国各省 (市、区)研发经费支出规模前3位的是广东、江苏和山东，均超过1500亿元；支出强度前3位是北京、上海和天津，均超过3%。中国各省 (市、区)研发经费支出差异明显，排名前3位的研发经费共计5628亿元，占全国研发经费的1/3。在人工智能领域，中国科学院1991—2020*发表论文12407篇，占中国全部人工智能论文产出的10.54%，中国科学院总部位于北京，其下属研究机构也多在北京。此外，许多优秀的研究型大学也在北京，如清华大学发表人工智能相关论文3742篇，占全国总数的3.18%；北京航空航天大学2541篇，占比2.16%；北京大学1890篇，占比1.61%。距离北京较近的天津大学也贡献了1.74%的人工智能研究论文。除京津冀外，人工智能创新的关键参与者还集中在长三角和粤港澳地区，长三角地区的核心参与者有浙江大学 (占比3.27%)、上海交通大学 (占比2.92%)、东南大学 (占比2.46%)，粤港澳地区则有香港理工大学 (占比2.33%)、香港城市大学 (占比2.28%)和中山大学 (占比1.65%)，见表4。人工智能知识创新在大学聚集的湖北武汉、陕西西安和四川成都也存在集聚现象。

表4 中国人工智能知识创新的关键参与者 (前20名)

2.3 中国人工智能核心区域创新集群的形成过程

为了进一步分析中国人工智能的区域创新生态，选择中国人工智能创新领先的3个核心地区，即京津冀、长三角和粤港澳地区，在识别出关键参与者的基础上，采用社会网络分析法，借助Ucinet分析工具，绘制出3个地区1991—2020*期间不同时间段的合作网络，从时间和空间多维度进行对比，以揭示中国人工智能知识创新的区域协同程度和人工智能知识创新集群的形成过程。

2.3.1 中国人工智能核心区域关键参与者

采用科学计量的方法，分别提取出长三角、京津冀和粤港澳3个地区人工智能知识创新的关键参与者，由于篇幅限制，本文只列举每个地区的前20个机构，并区分区域内、外参与者。

长三角地区人工智能创新参与者前20的机构中，10个来自江苏，其中7个来自南京，另3个是徐州的中国矿业大学、无锡的江南大学和镇江的江苏大学；位于其后的是上海，有5所机构跻身地区前20；浙江和安徽则都只有两个机构跻身区域前20，且来自省会城市，浙江的机构是排名第1位的浙江大学和第17 位的杭州电子科技大学，安徽的机构是中国科学技术大学和合肥工业大学。长三角人工智能知识创新的关键参与者还有来自区域外部的北京的中国科学院的机构，与长三角地区合作1455篇论文。长三角地区人工智能集群的形成依赖于研究型大学地理上的集聚。

相对于长三角地区分布广泛的特征，京津冀地区的关键参与者则相对集中，主要集中在北京，12所研究型大学 (机构)和1所企业研究院 (微软亚洲研究院)；天津和河北则比较少，天津有两所 (天津大学和南开大学)，河北有1所 (燕山大学)；此外还有区域外的上海交通大学、香港城市大学、哈尔滨工业大学和新加坡的南洋理工大学。

正如区域分布得出的结论，香港地区人工智能创新能力已日趋成熟，在粤港澳地区，香港有6所大学位列前10，其中前5名中有3所机构来自香港，分别为香港理工大学 (第1)、香港城市大学 (第2)和香港中文大学 (第5)；广东省有7所大学位列其中，主要集中在广州和深圳；澳门地区则只有澳门大学位列其中；另外还有区域外6所机构，中国科学院 (北京)和清华大学，长三角地区的浙江大学和上海交通大学，武汉的华中科技大学以及哈尔滨的哈尔滨工业大学，见表5。

表5 中国人工智能核心区域关键参与者 (前20名)

总体看，京津冀地区对周边地区的推动作用不明显，长三角和粤港澳地区则相对均衡。粤港澳地区与外部合作明显，如通过设立分校区的方式 (哈尔滨工业大学)。

2.3.2 中国人工智能核心区域知识创新集群形成

区域内、外部的合作可以促进知识交流以推动新兴技术知识创新[23]。尽管合作方式有多种，但是由于本文研究的人工智能领域的合作，近年来中国大力推进人工智能发展并且以各种方式支持人工智能的科学研究，因此人工智能领域的合著论文可以作为知识创新合作的体现方式。

假设科学合作可以促进知识创新，在区域视角下，促进区域创新集群形成。因此使用Ucinet软件绘制3个人工智能核心区域内外部核心参与者的合作网络，并分时间段以揭示其演进过程。节点大小表示在该区域该阶段该参与者贡献的论文数，两个节点之间的连线表示两个机构合作的数量，每个子图中节点的大小与论文数呈正比，线的粗细与合作次数成正比，在每个区域的每个阶段，按论文数分布选择了核心参与者。

如图2所示，在长三角地区，第一阶段 (1991—2000)，人工智能创新的主要核心参与者均来自区域内部，以浙江大学，江苏南京的东南大学和南京大学，上海的复旦大学、上海交通大学和中科院在上海的研究所，安徽的中国科学技术大学为代表，但是除江苏南京的两所大学 (东南大学和南京邮电大学)外，无论是省 (市)内部还是区域内不同省 (市)的参与者之间合作并不明显。第二阶段 (2001—2005)，同一省市(上海、江苏南京、安徽)内部的机构之间频繁合作。另外，香港与北京的机构频繁与长三角地区的机构进行人工智能的合作创新，一些紧密的合作关系也初步形成。地区合作创新团队多为双边，有两个香港—江苏南京合作组合 (南京理工大学、香港理工大学和香港城市大学，东南大学、南京邮电大学和香港中文大学)，1个香港—上海合作组合 (上海交通大学、香港城市大学和香港大学)，1个香港—浙江杭州合作组合 (浙江大学、香港理工大学、香港城市大学和香港大学)，1个北京—江苏南京合作组合 (中科院北京的研究所和南京航空航天大学)。但是，区域内部不同省 (市)之间的合作并不明显。第三阶段 (2006—2010)，上海的创新集群已初步形成，上海交通大学在集群中的表现最为突出。同时，长三角区域人工智能国际合作创新态势明显，上海与江苏南京的国际合作更为突出。第四阶段 (2011—2015)，澳大利亚和沙特阿拉伯的研究机构也开始参与长三角地区人工智能的国际合作创新中，江苏的创新集群也初具规模，但主要集中在省会南京，东南大学、南京理工大学和南京大学比较突出。安徽合肥的中国科学技术大学、安徽大学和合肥工业大学的三角合作关系形成。最后阶段 (2016—2020*)，也是长三角地区人工智能迅速发展的阶段，区域内、外部的越来越多机构参与进来，以北京的机构最为明显。浙江大学与浙江工业大学、杭州电子科技大学的合作紧密起来。另外，在国家大力推动区域协同创新的大环境下，区域内部跨省 (市)合作创新初见成效，江苏的东南大学和安徽的中国科学技术大学，浙江的杭州电子科技大学和上海的复旦大学均已形成紧密的合作伙伴。可见，在长三角地区人工智能创新发展过程中，香港地区的大学起到不可替代的作用。上海地区的人工智能发展集群形成最早，其次为江苏，安徽和浙江的集群还在形成中。区域协同发展战略有助于推动长三角地区的人工智能知识创新集群的形成。

图2 长三角地区人工智能区域创新集群形成过程

如前所述，京津冀地区的人工智能创新主要集中在北京。如图3所示，北京的人工智能创新集群初步形成于第三阶段 (2006—2010)，2011年以后迅速发展。新加坡和澳大利亚与北京的人工智能创新研究机构合作较多。与长三角地区相同，香港地区的大学也为北京的人工智能创新发展做出一定贡献。另外，在天津大学和南开大学这两所一流大学的带领下，天津的人工智能创新能力也有了一定提升，但集群尚未形成，自2011年起，与北京地区的合作也逐步增多。

图3 京津冀地区人工智能区域创新集群形成过程

如图4所示，粤港澳地区人工智能创新模式比其他两个地区更加开放，在第一阶段 (1991—2000)的创新核心参与者中，已有5个机构来自区域外，甚至其他国家或地区。由于香港的人工智能发展较早，粤港澳地区香港的人工智能创新早于中国其他地区，因此在第一阶段 (1991—2000)，香港地区的香港理工大学、香港城市大学和香港大学已形成了紧密的三角合作关系。但直到第三阶段 (2006—2010)，广东地区的人工智能知识创新活动才活跃起来，主要集中在广州和深圳，主校区在其他地区的大学在深圳设立分校区这一方式对深圳的人工智能创新有一定推动作用，如清华大学深圳研究院、哈尔滨工业大学深圳校区、香港科技大学深圳研究院等。粤港澳地区人工智能创新的区域协同程度也优于其他两个地区，早在第一阶段 (1991—2000)，香港地区的大学已经开始与广东的华南理工大学合作，从第二阶段 (2001—2005)起，合作日趋紧密。受科技资源分布的影响，澳门地区人工智能的核心参与者只有澳门大学和澳门科技大学，分别在第四阶段 (2011—2015)和最后阶段 (2016—2020*)成为区域内人工智能知识创新的核心参与者。澳门大学与区域内的广东工业大学、华南理工大学，以及区域外的北京的中科院的研究所建立了稳定的合作关系。

图4 粤港澳地区人工智能区域创新集群形成过程

3 结论与讨论

3.1 结论

分析结果表明，中国人工智能知识创新集群已经广泛出现，并为中国的人工智能发展做出了贡献，中国人工智能创新发展态势迅猛。人工智能知识创新的区域分布反映了科技资源分布的不均衡，首都、省会和经济特区这些行政属性在人工智能创新方面具有一定优势。香港的人工智能发展早于大陆地区，并通过合作的方式推动了其他地区人工智能的发展。

人工智能知识创新在长三角、京津冀和粤港澳地区均出现了集聚现象，并对地理邻近具有一定依赖性，但仅在同一行政区范围内明显。近年来中央政府倡导的区域协同发展战略和地方政府的创新发展政策有助于帮助区域打破行政界限，实现创新共同体内部创新要素的流动。

3.2 研究贡献与不足

本研究贡献主要是制定了基于科学计量学和社会网络的新兴技术区域知识创新生态的分析方法，并选取了中国的人工智能作为案例进行实证分析。在数据收集和处理方面，虽然尽了最大努力，但本文仍有一定的局限性。

本文分析中国人工智能知识创新的区域分布和人工智能核心区域的知识创新集聚情况，但仅采用发表的SCI和SSCI论文并不能完全反映知识创新情况。本文作者进一步收集人工智能相关专利，试图补充其他相关产品的数据。在后续研究中，将继续探讨中国人工智能的创新生态，而不局限于知识创新方面。本文也将进一步探讨政策对新兴技术创新集聚的推动作用和区域不均衡差异的原因。但是合作论文也是知识创新合作的一种测度方式，因此本文构建的方法对相关研究可提供支持，分析结论对现实也具有一定指导性。