刘智锋 杨金庆 李信
(武汉大学信息管理学院,武汉 430072)
科学计量学自1969年形成以来[1],已经被广泛应用于科学评价等不同的领域,对科研工作者以及科研政策制定者等产生了深远的影响。1987年,第一届国际性学术会议“文献计量学和信息检索的理论问题国际研讨会”在比利时召开,会后出版的《信息计量学》会议论文集受到巨大关注,此后,会议每两年举办一次;自1995年开始,会议名称正式定为科学计量学与信息计量学国际学术研讨会(International Conference of the International Society for Scientometrics and Informetrics,ISSI),该会议在国际学界得到广泛认可,学科地位突出[1];至今ISSI会议已经成功举办17届,其中第17届国际科学计量学与信息计量学会议(ISSI 2019)于2019年9月在罗马第一大学举行。
本次会议共收录261篇全文论文,分为19个分会场进行展示。本文依据分会场主题关联关系,将其归纳为7个研究主题。其中基金与决策、高等教育系统、R&D的社会环境、国家R&D系统4个分会场主要涉及高等教育系统、R&D系统的科研资助与评价问题,整合为科研资助与评价;数据库、学术出版、全球化与合作3个分会场主要包含对学术交流重要载体的数据库和期刊的研究以及全球化背景下的科研交流与合作,整合为科研交流与合作;专利是技术创新的重要成果体现,将技术创新与专利分析整合为技术创新与专利计量;新型计量指标与评价模型的研究是科学计量学的重要研究方向,将新型计量指标与研究评价模型这两个分会场整合为计量指标与模型;文本自动处理与领域知识图谱这两个分会场以学术文本等为主要研究对象,应用机器学习以及自然语言处理等技术对学术文本进行挖掘与可视化,将其整合为学术文本挖掘与可视化;另外5个分会场主题比较独立,且文章数量较少,统一归为其他专题研究;最终会议研究主题分布如表1所示。本文以此次会议论文集为数据支撑,围绕主要研究主题全面阐述科学计量学领域最新研究进展,为科学研究选题以及科技政策制定提供参考和建议。
表1 ISSI 2019研究主题分布
研究资助作为科学研究的主要经费来源,是促进科学研究的重要因素,学者主要研究了科研资助与科研绩效的关系。Möller[2]对欧洲多个国家的科学研究资助方以及其给科研绩效带来的贡献进行分析,结果表明,每个国家获得资助的数量以及资助方都存在很大的差别,国外相对于国内对科研绩效产生影响更大。此外,科研资助是否与社会实际需求相符合也得到关注,Zhang等[3]以中国自然科学基金和英国医学研究委员会为例,探究资助的项目是否与负担最重的疾病相吻合。可见,学者密切关注科研资助的投入产出效率以及产生的社会影响力。关于科研评价,此次会议主要关注高等教育系统的评价,针对高等教育系统中的不同组成要素,科学计量学领域的学者开展了科研绩效评价、大学评价等研究。针对科研绩效评价,Chen等[4]从研究前景定位、论文及其被引数、团队结构以及研究模式方面评价量子信息领域4个研究团体的科研表现。针对高校评价,学者从高校的科研成果、技术转化、学生培养、研究合作以及网站等方面进行对比分析。Erfanmanesh等[5]对东南亚大学联盟30个成员的科研成果数量、影响力以及研究合作情况进行对比分析。科研评价是进行科研资源分配、职称评选的重要手段,当前研究趋向于从不同的视角进行客观与全面的评价。
期刊在科研交流中起到非常重要的作用,学者分析不同类型的期刊以及数据库对科研交流与知识传播产生的影响。为提高学术交流的效率,开放获取以及预印出版被提出并受到广泛关注。Momeni等[6]调查了171种期刊从收费获取到开放获取之后,期刊的论文数量和被引次数的变化,结果表明,尽管作者提交的论文数变少以及引文优势降低,但是整体上开放获取可以提高期刊影响因子。Wang等[7]研究了预出版对期刊论文的被引次数、使用次数以及社会关注度的影响,发现预出版的论文具有显著的引文优势,此外Mendeley指标表现也优于非预出版的论文。由此可见,学者主要围绕开放获取、预出版等期刊出版模式对论文影响力产生的影响展开研究。此外,数据库亦受到学者的关注,主要对不同数据库的覆盖度分析及其对基于这些数据库的文献计量分析产生的影响。Stahlschmidt等[8]对德国各机构在Web of Science和Scopus两个数据库的引文表现差异进行分析,发现基础研究机构在Web of Science中的论文引文影响力高于Scopus,而偏向于应用研究的机构在Scopus中的论文引文影响力更高。因此,在进行计量研究选取数据库时应考虑到这些差异,从而选取合适的数据库,使得研究结果更加准确可靠。
科学家流动伴随着知识的流动,是科研交流的一种重要方式。随着科研合作机会的不断增加以及合作国际化水平的不断提高,很多科学家在职业生涯的不同阶段选择在不同国家以及不同研究机构工作,产生了科学家的流动。学者针对科学家流动的特征进行深入分析。Jiang等[9]对21个国际杰出奖项的1 351名科学家的流动网络结构进行分析,发现网络存在层级结构,表明绝大部分的科学家在小范围的科研机构间流动。科学家流动受到很多因素的影响。Ma等[10]研究了国家自然科学基金杰出青年获得者的流动特征,发现超过40%有过流动的经历,流动主要发生在科教资源比较集中的省份,大学之间的流动比科研院所频繁,人才流动的主要影响因素为个人科研能力的提升、职业发展以及工作环境。同时,科学家流动给其职业生涯带来一定的影响。Zabetta等[11]研究了博士后国际流动对职业生涯的影响,发现国际流动有助于提高科研产出,缩短晋升时间,对他们长期的学术职业生涯具有积极的作用。随着全球化的不断加强,科学家流动的范围将更加广泛,同时逐渐从发展中国家到发达国家的单向流动转向全世界的人才环流。
随着研究复杂性的不断增加,很多研究已经无法单独完成,研究合作越来越普遍。科学计量学领域学者主要对合作模式及其与论文影响力进行研究。关于不同研究领域以及不同国家之间的合作模式,Rørstad等[12]研究了学者年龄和国际研究合作之间的关系,发现研究领域是影响国际化合作倾向的最主要因素,此外,年龄较大学者的国际化合作强度明显低于较年轻的学者。探索不同合作方式的特征,有利于发现更有效的合作模式。也有学者对不同的合作模式与论文引文影响力的关系进行分析,Fan等[13]根据h指数将作者的机构分为核心机构和普通机构,研究不同类型机构之间的合作模式以及对论文的被引次数的影响。Lyu等[14]分析大数据研究领域的合作类型和合作规模及其与论文被引次数的关系,结果显示,国际合作可以提高论文的被引次数,合作作者数与论文被引次数存在正相关。
传统科学计量学和信息计量学存在时滞过长、影响力片面以及引文分析的固有缺陷等不足,使得基于传统的科学计量学与信息计量学的科学评价不能及时、全面以及客观地反映评价对象的影响力。随着Web2.0技术的快速发展,产生了大量的社交媒体,如Twitter、Facebook、微博等,用户使用社交媒体留下的电子痕迹为替代计量学的研究提供了大量的数据,使替代计量学逐渐成为图情领域的研究热点。首先,数据来源及其质量是替代计量分析的重点,受到学者的广泛关注,如Ortega[15]从Crossref中随机选取超过10万篇论文,对PlumX、Altmetric.com和Crossref Event Data 3个替代计量数据源中提及这些论文的博客和新闻的覆盖度进行调查。Yu等[16]对来自Altmetric.com数据库不同平台的政策文本替代计量数据的准确性进行编码分析,发现有少量的记录存在由作者造成的错误以及绝大部分由数据库产生的错误,如政策链接错误、虚假的政策提及、发表日期错误等。其次,不同类型的论文在替代计量指标上存在一定的差异,如Dehdarirad等[17]对开放获取(Open Access,OA)论文和非OA论文在推特、新闻、Facebook、Blog等指标是否存在差异进行研究,结果表明,OA论文在替代计量的各个指标表现优于非OA论文。Fraser等[18]发现在bioRxiv预印出版的论文比非预印出版的论文在引文数以及推特和Mendeley等指标上更具优势。最后,不少学者对替代计量指标与传统计量指标的关系进行分析,如Ding等[19]分析了不同国家发表于PLOS期刊论文的被引次数和替代计量指标的关系,结果表明,被引次数与浏览数、保存数呈现正相关,而与分享数不相关。从替代计量角度探究研究成果在社交媒体中传播的机制是替代计量分析的研究方向之一,Cui等[20]对高频次推特转发的论文在社交媒体中的传播机制进行研究,发现高推特转发的论文存在爆发阶段,之后出现快速的衰退,传播网络存在浅而广的特点,表明高推特转发的论文传播方式主要以大众传播为主。
专利作为知识创新的一种重要成果形式,对专利的分析可以掌握技术竞争环境、发现技术机会、揭示技术创新的模式以及新兴技术的预测等。Zhao等[21]通过分析人工智能领域的专利应用、专利地区分布、专利的数量与质量以及专利分类号的共现来研究该领域的全球竞争环境、技术竞争模式和技术发展趋势。Liu等[22]基于Naoki Shibata的技术机会识别理论,通过对专利和科技论文中的突变词进行探测和比较,识别出物联网的前期和中期的技术机会,此外通过同一家族专利数量的变化,对物联网中后期的市场机会进行验证。
基础科学研究是进行技术创新的重要基础,不少学者对科学知识和技术创新的相互作用进行研究。Wang等[23]以纳米技术为例,采用引文分析的方法对科学研究与技术的关系进行分析,结果表明,高影响力的科学研究更有可能促进高影响力的专利产生;此外,不同国家或组织的专利对科学论文的引用存在不同的模式,如相比于美国,中国的专利更倾向于引用最新的论文。Chen等[24]以生物技术领域为例,通过测量专利应用和被专利引用的科学论文发表时间差来分析科学研究促进创新的平均周期,结果表明,生物技术领域的科学研究向专利应用过渡的平均时间约为6.2年。
当前基于引文的计量指标如被引次数、影响因子等存在评价维度单一等不足,科学计量学领域的学者在此基础上不断地进行创新,提出更加全面以及客观的评价指标。Bu等[25]提出了一个三维的论文引文影响力计算框架,除论文的被引次数外,还包含引文网络的深度以及引文网络的依赖性,文章提出的框架一方面能够区分论文影响力的深度和广度,另一方面可以区分依赖于前期工作的论文和具有独立科学贡献的论文。Leydesdorff等[26]提出新的集成影响因子I3,该指标是结合期刊被引次数和论文数的非参数统计,实验结果表明与期刊影响因子和5年影响因子显著相关。综上分析可知,当前主要以引文计量指标存在的不足之处为创新驱动力,不断改进升级指标的适应性进而形成新的指标体系。
评价模型主要涉及论文以及基金项目的评审模型。He等[27]以ICRL2017的489篇论文评审数据为例,分析了论文的评审得分与论文的被引次数的关系。Wolfram等[28]通过调查开放同行评议期刊,发现尽管不同的期刊采用不同的开放同行评审模型,公开标识和公开报告两个因素对透明度具有很大的决定作用,公开标识由评审人员姓名、机构以及资历组成,公开报告则包含具有时间戳的评审人员评价及作者回复的内容。评价模型的研究在不断扩展,不仅针对期刊论文的评审,对会议论文以及项目申请书的评审研究也受到重视。
随着深度学习和自然语言处理技术的快速发展,以及论文全文的获取更加容易,学术文本自动处理成为当前的研究热点,其中重点在于论文结构功能以及引文上下文的分析。Otto等[29]对PLOS ONE期刊论文引用高被引论文的时间以及在论文中的引文语境进行分析,结果表明,这些高被引论文在论文的IMRaD结构中具有不同的分布,引用的时间间隔越长,该论文更有可能在方法部分被引用。Murray等[30]分析了引文句中线索词在论文引言、方法、讨论部分的使用情况以及语义信息,研究结果表明,不同的线索词在论文的不同部分具有不同的使用情况和语义信息。学术全文本的分析能更加深入地挖掘作者的引文意图,将受到进一步的关注。
此外,学者还采用机器学习的方法对学者的个人简历、论文的标题与摘要以及专利文本进行研究。Kenekayoroyo[31]采用深度学习的方法从学者的个人网页中抽取个人简历,识别其中的命名实体及其实体关系,使其成为计算机可以理解的语义网络。Eykens等[32]基于论文的标题和摘要,分别采用多项式朴素贝叶斯、支持向量机、随机森林以及梯度增强模型4种不同的算法对社会学领域的期刊论文进行分类,实验结果表明梯度增强模型的分类性能最佳,准确率超过80%。Wang等[33]使用Pat2Vec模型将专利文本转化为高维向量,在此基础上对不同的专利进行聚类分析,最后对聚类结果进行可视化展示,研究表明,Pat2Vec模型特征抽取方法比TF-IDF、LSA以及LDA等方法的准确性更高。由此可知,科学计量学领域不断引入文本自动处理方法与技术,使得分析更加智能化。
研究主题识别与可视化作为科学计量学领域的主要研究方向之一,学者采用了主题模型、共词网络以及聚类分析等方法对不同研究领域的主题进行识别,同时对主题的演化进行分析,最后对主题及其演化过程进行可视化。Maddi等[34]采用主题模型分析了微生物群研究领域的主题分布及其演化,并对不同国家在该领域的研究专长进行分析。也有学者对研究主题的历时演化进行研究。Tian等[35]利用LLR算法和数据库技术分析了3G到5G技术升级过程中知识概念的生长,进而探究领域主题演化和挖掘新兴潜力主题。此外,学者不仅针对传统的共词网络、引文网络等进行简单的可视化分析,也对基于深度学习的网络表示结果可视化进行研究。Chen等[36]比较了基于Node2vec、Doc2vec、Line以及DeepWalk 4种不同的深度学习网络表示模型的引文网络可视化效果,发现Node2vec模型具有最好的可视化效果。
本次会议除了上述6个主要研究主题,还存在以下拓展研究专题。①计量视角下的人文与社会科学研究。不同学科领域的成果形式和影响力等都存在很大的差异,人文社会科学领域有别于一般的自然科学领域,因此有不少学者对该领域的期刊分类、成果形式以及影响力等进行研究。②性别差异研究。科研活动中的性别差异越来越受到关注,学者分析了科研产出以及科研成果影响力等方面的性别差异,揭示性别差异现象及其影响因素,为采取相应的措施促进科研活动中男女平等提供参考。Liu等[37]分析了经济学领域不同性别的学者科研产出、论文影响力以及合作模式间的差异,发现该领域男性学者更高产,但是女性学者在研究影响力方面更显优势。③信息计量分布。学者使用不同的指标和方法对信息分布特征与规律进行分析,如Rousseau等[38]使用Gini系数对同一期刊的不同论文被引次数不平等现象进行度量,发现大部分期刊的Gini系数随时间不断增加。
第17届国际科学计量学与信息计量学会议分享了科学计量学与信息计量学领域理论研究和应用实践的最新研究成果,反映了科学计量学与信息计量学领域的研究热点与前沿,可从以下4个方面总结当前科学计量学与信息计量学研究成果进而展望学科未来发展趋势。
(1)针对科学交流与资助系统的研究仍受到广泛关注。科研交流的现象及其规律分析一直是科学计量学领域的重要研究方向,在本次会议中同样受到广泛的关注。期刊和数据库作为科学交流的重要载体,期刊的出版模式、不同数据库的差异等得到不少学者的重视;科学家流动作为科研交流的重要方式,不少研究涉及科学家流动特征及其影响因素;此外,科研合作模式及其对科研产出的影响也是受到不少关注。科研资助的分配及其效率分析能够为科技政策制定提供重要的理论支撑。学者不仅对科研资助与绩效进行分析,同时结合社会实际需求,对科研资助是否与疾病负担相匹配等问题进行研究。今后,将有更多研究从社会实际问题出发(如重大突发卫生事件等),对这些问题的研究资助分配效率等进行研究。
(2)替代计量分析持续升温。替代计量学自2010年Priem提出以来,便得到广泛的关注和快速的发展,主要得益于以下两个方面的原因:一方面,传统的基于引文的计量分析只分析了学术交流系统的行为与数据,具有一定的封闭性,同时引文分析存在一定的时滞性等缺点;另一方面,随着社交媒体的快速兴起,学术成果在社交媒体的传播与扩散愈加频繁,受众更加广泛,浏览、转发、点赞等替代计量数据可获得性增加。本次会议,学者针对替代计量学做了大量的研究,其中主要包含替代计量学的数据来源及其质量分析、不同类型论文的替代计量指标对比、替代计量指标与传统计量指标的关系分析以及基于替代计量数据的学术成果传播机制等方面。然而,由于替代计量数据的产生动机仍然不明确,需要得到进一步的研究;此外,替代计量分析的应用仍有待进一步深化,尤其是在科学评价及其科技预测等方面。
(3)新型计量指标与评价模型的研发是未来的研究重点。传统的计量指标如影响因子、被引次数等主要基于论文的引文数据进行简单统计得到,存在片面性等缺点。因此,亟需研发更加客观与全面的新型计量指标。本次会议有学者从单篇论文引文网络的结构出发,提出能够同时反映论文的影响深度和广度的计量指标;此外,也有学者结合期刊的被引次数和论文的被引次数对期刊进行更加全面的评价。计量指标作为科学评价的重要支撑,需要能够客观、全面以及准确地反映评价对象的真正水平。未来,可以探索基于引文数据、替代计量数据等多数据融合的新型计量指标。此外,在现有同行评议的基础上,需要对论文与基金项目的评审方式与公开评审模型进行更进一步的研究。
(4)计量分析方法与技术将不断推陈出新。科学计量学作为一门数据驱动的学科,计量分析的方法与技术尤为重要。从ISSI 2019收录论文使用的研究方法来看,不仅包含传统的研究方法(如引文分析、共词分析、相关性分析、回归分析、社会网络分析以及主题模型等),随着自然语言处理技术的快速发展,以及科学计量学领域与数据科学交叉融合的不断推进,机器学习等技术与方法在科学计量领域得到有效的应用,特别是在学术论文的全文本挖掘与可视化、学术网络的表示与可视化等方面。今后,更多的自然语言处理以及深度学习等技术与方法将被不断引进,同时在论文评价、论文推荐、合作者推荐、论文影响力预测以及新兴主题预测等方面将得到更加广泛的应用。