陈超群 邓三鸿 刘思远
(1.南京大学信息管理学院,江苏南京 210023;2.江苏省数据工程和知识服务重点实验室,江苏南京 210023)
人工智能(AI)是由McCarthy 于1956 年在Dartmouth 学会上正式提出的,在当前被人们称为世界三大尖端技术之一[1]。人工智能是关于人类智能活动的模拟、扩展和延伸的主要理论、方法和应用,其应用领域包括机器人、语音识别、图像识别、语言处理和专家系统。人工智能旨在了解智能的本质以及设计出可以仿照人类活动的智能机器。自1956年达特茅斯会议以来,人工智能领域吸引了不少研究者在其理论以及设计原则上进行研究[2]。自20世纪60年代以来,世界各地相继建立了许多实验室。然而,20世纪70年代中期和80年代初期却是人工智能发展的两个停滞期。到20世纪90年代,人工智能广泛应用于物流、医疗诊断等各个行业[3],取得了巨大的成功。
作者同被引方法(ACA)在1981年由美国德雷塞尔大学图书情报学的两位学者H D White和B C Griffith[4]提出以来,已经发展成为一种研究学术领域的知识结构和学术交流社区的著名文献计量学方法。作者可以被视为一个分析单元绘制出某一学科领域的知识地图,两个作者间的共被引次数显示出二者之间的距离。一般而言,两个或者两个以上的作者共被引的次数越高,他们的研究点越相似,联系越紧密。该方法将为数众多的作者按照被引征的关系聚集成一个个群体,从而揭示学科研究人员之间的联系和结构特点,反映了他们所从事的学科专业之间的联系以及发展变化趋势。作者数量和结构的变化,在一定程度上反映了学科的兴衰起伏、分化渗透等趋势。在共被引关系网络中,作者数量和结构方式的变化可以作为判断学科变化动态的一个依据,定期分析这个变化,可以跟踪和推测学科或者专业的发展趋向。许多不同领域的学者使用该方法进行了实践[5-6],利用作者同被引方法分析一个给定学科领域的知识结构[5,7]。例如,White[8]在1998年利用该方法分析了图书馆学和情报学科的知识结构,并指出图书馆学情报学领域主要分为两个研究方向:领域分析和信息检索。
目前,虽然已经有不少关于人工智能领域的综述性文章,但是大多数都局限于人工智能在某一个领域的应用研究[9-10]或者从理论角度对人工智能进行介绍[1,11],很少有文献对人工智能领域的整体发展状况进行分析。本文将作者同被引方法运用到人工智能领域,分析近15年人工智能领域的发展状况,以求获得人工智能领域较为全面的知识。笔者以Web of Science数据库中主题包含“artificial intelligen*”的论文为数据来源,时间范围是2001年到2015年,以此研究人工智能领域作者同被引关系的变化,探讨人工智能在这15年间的发展趋势。
本文选择了Web of Science数据库中的SCI、SSCI以及A&HCI查找有关人工智能研究的论文,检索式是“TS="artificial intelligen*"”。
在数据处理过程中使用的工具有Bibexcel(抽取参考文献的第一作者,构建作者同被引矩阵)、因子分析(SPSS)和聚类分析可视化(VOSviewer)。
本文从Web of Science数据库查找到2001一2015年有关人工智能的学术论文8423篇(检索日期:2017年2月28日),包含228786篇参考文献,总的被引用频次是296153篇次。Web of Science数据库中参考文献只标引了第一作者,因此本文构建的是人工智能领域第一作者的共被引网络,共有120551位作者的文献被引用,去除1828个没有标注作者姓名的参考文献的被引频次,平均每位作者被引是2.44次。由于参考文献中标注的作者姓名大多是简写,同时还存在着大小写不一致、格式不一等原因,因此本文利用Bibexcel进行处理,以避免重名统计。此外,中国作者的人工智能英文文献占比比较低,对分析结果影响不太,因此文中没有对中文的同名异人进行处理。
根据参考文献统计结果,被引次数超过120次的作者(表1)共有48位,占所有作者总数的0.04%;总共被引频次达11529次,占所有被引频次的3.90%。这些高被引作者平均被引次数是235.28次。高被引频次证明,这些作者对于人工智能领域的发展作出了重要的贡献,他们所代表的学术群体是人工智能领域的领军人物,所代表的研究方向是人工智能领域的研究热点。需要指出的是,SAGE出版社发现前台湾屏东教育大学学者Chen C Y通过颠覆同行评议过程造假学术成绩[12],存在同行评审和引用问题。2014年SAGE出版社将该作者在过去4年发表在《Journal of Vibration and Control》(JVC)上的60篇学术论文一次性撤回,这些论文的合作者大多涉及Chen CW和Shih BY,因此本文在后续的讨论分析中,对这三位学者不予以考虑。
1990年,McCain发表了作者同被引方法(ACA)的技术概述,总结并列出了适用于ACA的3种多变量分析方法,即因子分析、聚类分析和多维尺度分析。White和 McCain[8]认为,在某个因子中排在首位的作者如果在其他因子中系数超过了0.3,那么可以认为该作者对多个研究领域都作出了贡献。一般认为,相比于聚类分析与多维尺度分析,因子分析能够更加清楚地看出学者对于人工智能领域的贡献大小[13],通过因子分析可以揭示某学科的知识结构以及作者在各个研究领域中的关系,开滨[14]在对2006年至2015年《情报科学》的作者合作网络分析过程中利用因子分析对重要合作团体的构成进行了探究。因而,笔者在本文采用因子分析来发现人工智能领域中的主要研究学者。首先利用Bibexcel生成被引次数超过120次的45位第一作者的原始共被引矩阵。尽管一个作者因为不同的文献,在同一篇文章中可能被引用多次,但在数据统计过程中,在同一篇文献中对于被引用的作者均视为一次引用,即仅关心文献中是否引用了该作者,而不是在单篇文章中被引用的频次[15]。接下来,笔者将原始共被引矩阵在Spss 22.0中通过因子常规转换为Pearson相关系数,并且通过主成分分析用Varimax旋转提取因子,最终得到10个因子(表2),本文的因子载荷阈值设为0.50。
表1 被引次数超过120次的作者
通过因子分析表明,Jang J S R、Russell S J和Takagi T这3位作者同时出现在2个因子中,体现了这3位作者在研究群体中具有联结作用,也说明人工智能具有跨方向研究的趋势。此外,Haykin S和Goldberg DE没有出现在因子载荷表中,说明他们在人工智能领域的研究处于孤立地位。同时,通过因子载荷表可以发现在每个因子中起重要作用的作者,例如在因子1中,Hagan M T贡献较大,Hornik K、Mellit A和Bishop C M的研究也有一定的影响。在因子9和因子10中,均只有1位作者,可见这2位作者的研究比较孤立,没有与其他作者形成关联。分析各个因子下作者的研究领域,可以发现在因子1下主要是神经网络,Bishop C M、Hornik K、Hagan M T、Kohonen T等都是神经网络领域的专家。此外,在因子1中还有两位水文学的专家Chau K W和Kisi O,他们主要是研究如何用人工智能解决水文学上的问题。而因子2主要涉及认知学和哲学问题,在因子3中作者的研究方向是遗传算法和蚁群算法等。
表2 因子分析结果
在引文分析中,常用5年作为一个分析时间单元,因为5年时间的文章基本可以覆盖所有的出版物[17]。本文将2001一2015年以5年作为时间间隔划分为3个时间段。2001一2005年在人工智能领域共有30658位第一作者的论文被引用,总被引频次是59826次,去除114个没有标注作者姓名的参考文献的被引频次,平均每位作者被引1.95次;2006一2010年有45049位作者,总被引次数是86010次,去除363个没有标注作者姓名的参考文献的被引频次,平均每位作者被引1.90次;在2011一2015年,达到了73317位作者,总被引频次是147553次,去除1351个没有标注作者姓名的参考文献的被引频次,平均每位作者被引1.99次。由此可见,越来越多的作者进入了人工智能领域,证明人工智能正处于发展繁荣阶段。笔者对比了这3个时间段被引次数排在前30位的作者,如图1所示。
图1 不同时间段被引次数排在前30位的作者对比
从图1可以看出,3个时间段被引用作者列表有较大的差异。比较被引次数排在前30位的作者,发现在3个时间段被引次数均排在前30的有11位作者(图1 中连线所表示的作者),包括Zadeh L A、Goldberg D E、Kohonen T等,可以初步认为这11位作者是人工智能领域的核心作者,他们的著作是人工智能领域权威的以及最有影响力的作品。学者Zadeh L A在3个时间段被引次数始终排在第一位,他最著名的成就是提出由模糊相关概念组成的模糊数学:模糊集[18]、模糊逻辑[19]、模糊算法[20]等。这一现象表明模糊理论是人工智能的坚实基础,而且他随后提出的“软计算”概念[21]从某种意义上讲是传统人工智能的补充,在2005一2015年得到了大量引用,可以说Zadeh L A在人工智能的发展史上扮演着不可或缺的角色。在被引次数排在前30位的作者中,2001一2005年和2006一2010年有19位作者相同;2006一2010年和2011一2015年有16位作者相同。在一定程度上,某个时期高被引作者的研究领域体现了该时期的研究重点。3个时间段高被引作者的变化体现了人工智能领域在近15年的研究趋势。
比较同时还出现,在3个时期的作者排名中排名上升比较快的学者有:Mccarthy J、Haykin S、Jang J S R和Russell S J,他们均是计算机科学家。其中,美国学者Mccarthy J于1956年在达特茅斯会议上提出了“人工智能”这一概念,从1978年到1986年,他提出了一种非单调推理的界定方法[22],对计算机学科的发展产生了深远的影响,并从哲学层面[23]对人工智能进行了阐述,研究具有跨学科的性质。美国学者Russell S J是《Artificial Intelligence: A Modern Approach》的作者之一。这是一本被世界上116个国家1300多个高等学校使用的人工智能教科书,目前已印刷了3个版本。这两位作者被引次数排名的上升,表明人工智能已引起越来越多的学者密切关注,研究层次也在不断加深,从技术应用层面延伸到伦理道德以及理论研究层面。台湾大学教授Jang J S R在1993年提出了ANFIS(自适应神经一模糊推理系统)[24],并在随后发表了大量相关的文章,为人工智能的发展作出了杰出的贡献。Haykin S的重点研究领域是认知动态系统,对于计算智能和机器学习研究最为活跃的分支之一神经网络算法进行了大量的研究,编著了《Neural Networks and Learning Machines》一书。这本书是人工智能领域的经典教材。这两位作者在2001年到2015年被引次数排名的大幅度上升,在一定程度上反映了神经网络算法在人工智能领域算法的重要地位,同时也说明“算法经济”不再是一个词汇,而是正在成为一股社会的潮流。
此外,有两位学者在这3个时间段排名中有较大幅度的下降,分别是Pearl J和Dubois D。Pearl J是UCLA计算机科学系的教授,他在20世纪80年代为人工智能引入了一套新的工具一一贝叶斯网络[25]。这种基于概率的机器推理模型使机器可以在复杂的、模糊的和不确定的环境下工作。在短短几年间,贝叶斯网络就完全替代了此前基于规则的人工智能方法。但是随着计算机性能的提高,神经网络算法在人工智能的发展史上占据了更加重要的作用,贝叶斯网络相关的文章引用频次降低。法国数学家Dubois D是《Fuzzy Sets and Systems》期刊的共同主编,主要研究领域是模糊集理论,2001一2005年他和模糊数学的提出者Zadeh L A有关模糊理论相关的文献被大量引用,被引次数分别居于第二和第一,可见这个时期在人工智能领域模糊理论的重要性。但是在2005一2010年,随着神经网络、蚁群算法、遗传算法、软计算等研究领域的兴起,研究者在模糊理论上的关注下降,可见人工智能是一个不断发展的学科,不同时期有不同的研究重点。
为了从整体上比较2001一2005年、2006一2010年和2011一2015年3个时间段人工智能领域作者同被引结构变化,笔者将Bibexcel计算得到的矩阵数据导入到VOSviewer中,然后通过构图技术和聚类技术为作者同被引数据绘制图谱(图2、图3和图4)。其中,节点表示作者,节点和字体的大小与节点的权重成正相关的关系,连线表示两个作者有共被引关系,灰度相同表示同属一个聚类。为了使结构图看起来更清楚,笔者在绘制这3幅图谱时均只选取了被引次数排在前200位的作者。
采用VOSviewer绘制了图2、图3、图4。从图中可以得出人工智能研究领域的以下特点。但需要注意的是,为了展示清楚,VOSviewer在显示一部分作者姓名的同时会隐藏一部分作者姓名,因而下文提到的有些作者可能无法清晰地在上述截图中展示出来,但是他们确实出现在图片中。
(1)从聚类个数来看,随着时间的演进,聚类个数越来越少。一般而言,两个或者两个以上作者的研究方向如果具有相似性,那么他们会被划分为同一个类。该现象表明,在人工智能领域中作者的研究方向越来越趋向一致,研究领域划分越来越明确,研究热点更加突出。
图2 2001—2005年人工智能领域作者同被引图谱
图3 2006—2010年人工智能领域作者同被引图谱
图4 2011—2015年人工智能领域作者同被引图谱
(2)在图4作者共被引图谱中出现了一个由中国学者组成的研究群体(图4中Takagi T右边的学者们组成的聚类),表明中国学者正在追赶人工智能的浪潮,而且已经取得了一批学术成果。但本文没有对同名异人的现象进行处理,例如在图4中的Li Y,其实是多个作者的姓名缩写,包括曼彻斯顿大学的“Li Yaoyong”、华中科技大学的李勇(Li Yong)、澳门科技大学的“Li Yangmin”、西安交通大学管理学院的“Li Yuan”等,因而在图4中的单个中国学者姓名缩写可能代表多个学者,难以判别每位中国作者的实际共被引情况。但是从图4中可以发现,中国学者在国际上的影响力不够,构成的共被引网络组成基本上是中国学者,而且其研究方向基本是人工智能的应用,方法创新上还有欠缺。
(3)从图2到图4,类间距越来越大,该现象显示了人工智能的研究方向界限越来越清楚,已经呈现出几大研究流派。目前共有5大研究流派,一是以图4中Takagi T右边的学者们组成的中国学者流派,主要研究人工智能的实际应用;二是以Haykin S和Takagi T为代表的神经网络算法以及应用人工智能解决水文学问题,其中神经网络是期望通过模拟现实中的生物思维来直接实现人工思维;三是以Russell S J和Mccarthy J为代表的理论研究流派;四是算法研究流派,如随机森林(Breiman L)、决策树(Quinlan JR)和SVM(Vapnik V);五是以Holland J H和Goldberg D E为代表的遗传算法研究,区别于神经网络,遗传算法是期望模拟生物进化来再次产生思维。
(4)在作者同被引图谱中处于核心地位的作者即是关键作者,从图2可以看出,2001年到2005年关键作者是Zadeh L A、Holland J H、Rumelhart D E、Dubois D、Mccarthy J、Reiter R、Newell A、Searle J R、Brooks R A和Russell S J等。他们大多数是计算机领域具有影响力的学者,甚至是人工智能领域的开创性人物。其中Mccarthy J提出了“人工智能”这一概念。当然,其中也包括心理学家Rumelhart D E和哲学家Searle J R,他们关注人工智能领域中的社会道德与伦理问题,从哲学层面上思考人工智能领域的发展。由此可见,在2001一2005年人工智能跨学科的特点已经出现,自然科学和社会科学的各位学者都密切关注着人工智能领域的发展。此外,通过对关键作者的研究可以发现这一时期人工智能领域的主要算法是模糊理论和遗传算法。从图3可以看出,2006一2010的关键作者有Zadeh LA、Holland J H、Goldberg D E、HayKin S、Dreyfus H L、Brooks R A、Mccarthy J、Minsky M、Newell A、Vapnik V、Breiman L、Wooldridge M、Pearl J、Russell S J和Chomsky N等。其中,大部分是2001一2005年的关键作者,此阶段人工智能领域的跨学科特点依然突出,而且算法呈现出多样化,例如模糊理论与软计算(Zadeh LA)、神经网络(HayKin S)、贝叶斯网络(Pearl J)、SVM(Vapnik V)等。观察图4,2011年到2015年的关键作者有HayKin S、Zadeh L A、Holland J H、Goldberg D E、Russell S J和Takagi T等。其中,HayKin S尤为突出,与他有关的神经网络算法文献被大量引用,表明2011一2015年神经网络对人工智能领域的发展作出了重要贡献,是近几年最为火热的研究方向,是深度学习的基础。当然,这一时期的遗传算法受到许多学者的关注,Holland J H和Goldberg D E的论文大量被引用就体现了这一点。此外,在算法不断完善的基础上,这一时期不断有学者尝试用人工智能领域的方法去解决实际问题,尤其在水文预测的应用引起了学者的广泛关注[26],可以说人工智能正在走进我们的生活。
(1)人工智能是一个快速发展的领域,不断有新的学者进入这个领域并作出自己的贡献。目前高被引的作者年龄都比较大,例如Zadeh L A、HayKin S、Quinlan J R等,而青年队伍比较薄弱,没有形成一批有影响力的青年学者。
(2)我国学者在人工智能领域的研究还存在不足,国家和政府应该加强政策引导与基金支持,鼓励学者进行深入研究与创新,提高人工智能研究的创新性与成果的创新性。
(3)通过因子分析,可以发现人工智能具有跨方向研究的趋势。人工智能领域已经形成了较为集中的核心研究团体以及主流的研究方向,神经网路、遗传算法、蚁群算法等是目前人工智能领域占据主导的算法。在今后一段时间,算法改进以及人工智能在生活中的应用将是人工智能领域的两大研究重点。
(4)分时间段分析可以发现,人工智能作者同被引图谱聚类个数越来越少,研究领域划分越来越明确,人工智能的发展逐渐成熟。同时可以看到,不同时期的关键作者在发生变化,表明研究热点也在发生变化,人工智能是一个不断发展的领域。
(5)国际上有许多顶尖的人工智能学术会议,并产生了大量的优秀论文,而本文只分析了2001一2015年Web of Science数据库的期刊文献,很多优秀的会议论文没有考虑进来。另外,由于共被引分析的数据为引文数据,对于新发表的优秀论文来说不能及时呈现,因此,一些新崛起的优秀学者无法在图谱中显示出来。这些问题都有待今后进一步研究。
[1]邹蕾, 张先锋.人工智能及其发展应用[J].信息网络安全, 2012(2): 11-13.DOI: 10.3969/j.issn.1671-1122.2012.02.003.
[2]PHAM D T, PHAM P T N.Artificial intelligence in engineering[J].International Journal of Machine Tools and Manufacture, 1999, 39(6): 937-949.DOI: 10.1016/S0890-6955(98)00076-5.
[3]ALI J M, HUSSAIN M A, TADE M O, et al.Artificial intelligence techniques applied as estimator in chemical process systems: a literature survey[J].Expert Systems with Applications, 2015, 42(14): 5915-5931.DOI:10.1016/j.eswa.2015.03.023.
[4]WHITE H D, GRIFFITH B C.Author cocitation: a literature measure of intellectual structure[J].Journal of the Association for Information Science and Technology, 1981, 32(3): 163-171.DOI: 10.1002/asi.4630320302.
[5]MCCAIN K W.Mapping authors in intellectual space:a technical overview[J].Journal of the Association for Information Science and Technology, 1990, 41(6):433–443.DOI: 10.1002/(SICI)1097-4571(199009)41:6<433: : AID-ASI11>3.0.CO;2-Q.
[6]AHLGREN P, BO J, ROUSSEAU R.Requirements for a cocitation similarity measure, with special reference to Pearson’s correlation coefficient[J].Journal of the Association for Information Science and Technology,2003, 54(6): 550–560.DOI: 10.1002/asi.10242.
[7]GALVAGNO M.The intellectual structure of the anti-consumption and consumer resistance field:an author co-citation analysis[J].European Journal of Marketing, 2011, 45(11/12): 1688-1701.DOI:10.1108/03090561111167441.
[8]WHITE H D, MCCAIN K W.Visualizing a discipline:an author co-citation analysis of information science,1972–1995[J].Journal of the Association for Information Science and Technology, 1998, 49(4): 327–355.DOI: 10.1002/(SICI)1097-4571(19980401)49: 4<327:AID-ASI4>3.0.CO;2-4.
[9]ALI J M, HUSSAIN M A, TADE M O, et al.Artificial intelligence techniques applied as estimator in chemical process systems: a literature survey[J].Expert Systems with Applications, 2015, 42(14): 5915-5931.DOI:10.1016/j.eswa.2015.03.023.
[10]YASEEN Z M, EL-SHAFIE A, JAAFAR O, et al.Artificial intelligence based models for stream-flow forecasting: 2000–2015[J].Journal of Hydrology, 2015,530: 829-844.DOI: 10.1016/j.jhydrol.2015.10.038.
[11]GHAHRAMANI Z.Probabilistic machine learning and artificial intelligence[J].Nature, 2015, 521(7553): 452-459.DOI: 10.1038/nature14541.
[12]SHIH B Y, CHANG H, CHEN C Y.RETRACTED:path planning for autonomous robots: a comprehensive analysis by a greedy algorithm[J].Journal of Vibration & Control, 2013, 19(1): 130-142.DOI:10.1177/1077546311429841.
[13]胡吉明.作者同被引视角下的我国信息服务研究分析[J].情报杂志, 2009, 28(10): 170-174.DOI: 10.3969/j.issn.1002-1965.2009.10.040.
[14]开滨.近十年来《情报科学》作者合作可视化分析[J].情报科学, 2016(8): 110-115.DOI: 10.13833/j.cnki.is.2016.08.021.
[15]CHEN L C, LIEN Y H.Using author co-citation analysis to examine the intellectual structure of e-learning:a MIS perspective[J].Scientometrics, 2011, 89(3): 867-886.DOI: 10.1007/s11192-011-0458-y.
[16]马瑞敏, 倪超群.基于作者同被引分析的我国图书情报学知识结构及其演变研究[J].中国图书馆学报,2011, 37(6): 17-26.DOI: 10.13530/j.cnki.jlis.2011.06.005.
[17]ZHAO D, LOGAN E.Citation analysis using scientific publications on the web as data source: a case study in the XML research area[J].Scientometrics, 2002, 54(3):449-472.DOI: 10.1023/A: 1016090601710.
[18]ZADEH L A.Fuzzy sets[J].Information & Control, 1965, 8(3): 338-353.DOI: 10.1016/S0019-9958(65)90241-X.
[19]ZADEH L A.Fuzzy logic = computing with words[J].IEEE Transactions on Fuzzy Systems, 1996, 4(2): 103-111.DOI: 10.1109/91.493904.
[20]ZADEH L A.Quantitative fuzzy semantics[J].Information Sciences An International Journal, 1971, 3(2):159-176.DOI: 10.1016/S0020-0255(71)80004-X.
[21]ZADEH L A.Fuzzy logic, neural networks and soft computing[J].Microprocessing & Microprogramming,1993, 38(1/5): 77-84.DOI: 10.1007/978-3-322-89467-0_19.
[22]MCCARTHY J.Circumscription: a form of nonmonotonic reasoning[J].Artificial Intelligence, 1980,13(1):27-39.DOI:10.1016/0004-3702 (80) 90011-9.
[23]MCCARTHY J.Ascribing mental qualities to machines[C]// Philosophical perspectives in artificial intelligence,1979.DOI: 2307/2025382.
[24]JANG J S R.ANFIS: adaptive-network-based fuzzy inference systems[J].IEEE Transactions on Systems Man & Cybernetics, 1993, 23(3):665-685.DOI:10.1109/21.256541.
[25]PEARL J.Bayesian networks: a model of self-activated memory for evidential reasoning[C]//Conference of the Cognitive Science Society, 1985:329-334.DOI:citeulike-article-id:3847802.
[26]KISI O, DAILR A H, CIMEN M, et al.Suspended sediment modeling using genetic programming and soft computing techniques[J].Journal of Hydrology, 2012,450/451 (15): 48-58.DOI: 10.1016/j.jhydrol.2012.05.031.