周春雷 杨昭 王岩
关键词:关注度;学者;研究热点;研究前沿;评价指标;被引频次
研究热点与前沿的识别有利于学者把握特定领域的现状及未来一段时间的发展方向。罗瑞等[1]的研究显示国内外“研究前沿”相关主题发文自2007年以来步入快速增长期科学文献是学术界研究成果的重要载体和传播媒介,是学界进行研究热点与前沿识别的基础,例如从特定视域内的期刊发文数据[2-5]、期刊或学科领域的高被引论文数据[6-8]、期刊论文的参考文献数据[9]、基金项目论文[10-12]、会议论文[13-15]等角度进行识别,但鲜有研究围绕领域内学者群体进行探究。周琳等[16]认为精准定位具有高学术影响力的学者可以帮助科研人员迅速了解研究领域的前沿知识以及研究趋势,但并未对此进行实证研究。张丽华和曲建升[17,18]的研究表明基于核心期刊编委发文进行研究前沿探测具有一定的价值。此外,Daud等[19]证实了通过探测热点主题来寻找学术新星的可行性,也说明特定学者群体在推动领域研究前进过程中的作用。综上,笔者认为借助重要学者群体识别研究热点与前沿具有一定的理论意义与现实价值,可以丰富识别研究热点与前沿的方法,也可以观察主流群体主动筛选学术信息的行为及其在学术研究中的引领作用。
1 研究思路与设计
笔者尝试根据学者的h指数和阶段性被引情况构建新评价指标,挖掘特定时期、特定领域内得到较多关注者,即本文所称的高关注度学者。然后,基于高关注度学者群体被引、施引文献中的关键词词频及共现情况,进行研究前沿与热点识别,具体流程见图1。
1.1 量化学者所获关注度。当前国内相较于国外缺乏Altmetrics数据整合分析平台,另外数据量较大时,利用学术网络图谱方法进行评价可能会产生较多的信息遮蔽,因此本文仅利用数据库平台提供的引文数据进行学者关注度评价。公式(1)为笔者构建的关注度指数FL(FocusLevel),TC即学者的所有文章在特定时间窗口内获得的被引量。鉴于很难集齐全部样本学者的所有被引数据,本研究以Dh指数(领域内h指数)来代替h指数,该指数由笔者于2012年提出并经多年实证检验,可用于表征特定领域内绝大多数研究者的相对学术地位。[20]Dh指数的值随TC的时间窗口的右边界改变,如计算TC所选时间窗口分别为2011 ~2015年、2016~2020年,则利用学者在2016年和2021年之前的所有文章的被引记录得到其Dh指数。单从公式(1)来看,FL指数与Dh指数成反比,但科学家的地位和声誉本身就能带来额外的关注和认可,[21]高Dh指数学者在学界的影响力更有利于TC值的增长,因此FL指标在一定程度上降低了Dh指数对学者TC值的影响,也能够更容易对相同Dh指数的学者进行对比评价。
1.2 识别领域研究热点与前沿。依据ESI高被引论文的定义,若一篇论文在11 年前被ESI收录,但在最近一年获得了极高被引量,这类“睡美人”文献仍不会被归于当期的ESI高被引论文,从而导致重要学术信息的遗漏。基于高关注度学者的被引数据可以有效避免上述情况,本文以受到较高关注度的群体特定时期内的被引文献为基础进行研究热点识别。
Persson[22]利用高频同被引文献关联的施引文献来定义研究前沿,是当前研究前沿识别的常用方法之一。张迪等[23]基于ESI核心论文的施引数据进行了研究前沿识别。本文利用引用高关注度学者的文献来探究研究前沿,与前两者有异曲同工之处,即都以得到学界广泛关注的对象为基础。鉴于大数据量处理利用可视化聚类容易遮蔽大量信息,本文利用词频分析法识别研究前沿。
2 实证分析
2.1 数据获取与处理。本文选取的数据来自《2021版中文核心期刊要目总览》与《CSSCI(2021—2022)收录来源期刊目录》中的20种图情核心期刊。由于CSSCI只收录1998年以后的论文,笔者团队另外采集了1979—1997年的数据,利用自编程序将合计31万余条的文本格式数据转换为被引文献和施引文献,并结合CNKI、万方、维普等数据库,扩充了可用于分析的字段,包括施引文献及被引文献的关键词、作者机构、摘要等诸多信息。在计算学者的Dh指数和时间窗口内的被引总量时,剔除掉Dh指数为1、2的学者后,对可能出现重名的作者,结合其在文献中公开的教育背景和机构信息进行人工判断并更正Dh指数和被引数据。选择Dh指数为3及以上的学者,以排除大部分新手,留下有一定学术积累、未来可能推动领域前进的年轻学者。在关键词的处理上,对“数据开放”和“开放数据”“LDA”“LDA模型”“LDA主题模型”等表征相同信息的关键词进行归并处理。
2.2 学者FL值的计算与分析
2.2.1 2015年高FL值学者分析。笔者认为Dh指数为1和2的学术群体更多为领域内的入门群体,且未来有很大可能不会继续推动领域内的研究发展,而Dh指数在3及以上的学者群体是能够稳定在领域内的学者群体,因此本研究以后者为主要研究对象。本节利用20种核心期刊在2015年及之前产生的被引数据,共得到111 6位学者。学者Dh指数的分布状况见表1,可以看出Dh指数在10及以上的学者共有38人,占总人数的3.40%,而Dh指数在3~5之间的领域新秀共946人,占比84.77%,高Dh指数学者更容易得到关注,在低Dh指数学者群体中发现优秀学者对学界的发展有重要作用,这也是本研究选取Dh指数在3及以上学者群体进行研究的原因之一。
2011 —2015年关注度指数FL值靠前的30位学者见表2,从中可以看出Dh指数较为分散,除了Dh指数为6的学者外,覆盖了表1中的各Dh指数水平。表1中Dh指数在10及以上的学者共38位,而表2中共有16人,通过梳理数据发现,这些高Dh指数学者在时间窗口内的发文量均在8篇及以上,因此他们的高FL值与其学术研究的活跃程度有一定关系。
从Dh指数小于10的学者來看,这些学者可以分为以下几类:(1)发文量较低的领域内学者,但存在高被引论文。
在2011 —2015年的时间窗口内,钟伟金2008年发表的3篇关于共词分析法的研究获得了105次引用,该系列文章当前在知网获得一千余次引用;宋恩梅在该时间窗口内的发文量虽仅有3篇,但2010年发表的一篇文章在2011 —2015年被引56次;杨鹤林与二人情况类似,单篇论文在2011 —2015年获得41次引用。(2)多领域学者,但在图情领域发文量较多或被引次数较高。曾润喜当前所在单位为重庆大学新闻学院,除在图情期刊发文外,还在《电子政务》《中国行政管理》《新闻界》等期刊发文;张一文的研究方向为决策理论与决策支持系统,2010—2012年与齐佳音等人合作在图情期刊发表4篇关于非常规突发事件网络舆情的研究论文,截至2015年篇均被引19.5次,当前已有2篇在知网被引200余次;俞立平的研究领域包括图书情报与数字图书馆、企业经济、宏观经济管理与可持续发展等多学科领域,2011 —2015年在图情领域期刊发文多达25篇;(3)發文量较高的领域内学者,整体被引水平较高。娄策群、刘志辉、刘炜、魏瑞斌、李纲、王晓光、唐晓波、何琳等发文也都在8篇以上,且获得的引用量相对同Dh指数水平的学者更高。另外,通过对FL值前100位的学者Dh指数分布进行统计,结果见图2,有44位学者Dh指数为3—5,30位学者Dh指数为6—9,Dh指数在10及以上者共有26人。
笔者对Dh指数在10及以上但并未出现在表2中的22位学者进行分析,发现6位学者在2011 —2015年的被引用次数大都在100以下,发文1—3篇,在同Dh指数水平学者群体中被引水平和活跃度较低。有6位学者在2011 —2015年获得的被引量大于145,年均发文在一篇以上,因此FL值相对较高,排在前75位。剩余10位学者的FL得分排在111 6位学者中前25%,有9位发文量为5—9篇,在此期间获得的引用量在88—11 0之间,1位学者发文23篇,在2011 —2015年获得的被引量有121次。
从本节可以看出通过FL值可以较好地评价单个学者在特定时期内的学术表现,排除了一部分高Dh学者“吃老本”的现象,除了可以筛选出活跃度和被引量均较高的学者外,还能筛选出在特定时间段内产生较大影响的高被引文献的低Dh指数学者和跨学科背景的学者。
2.2.2 2020年高FL值学者分析。从2.2.1部分看出FL值对于高关注度学者和热点文献的发现有较好效果。据此,笔者利用2016—2020年20种图情期刊被引数据共得到Dh指数在3及以上的2976位学者,结合被引数据计算学者的FL值,通过对高FL值学者的分析,对FL值有效性进行验证。2020年FL值TOP30的学者见表3。
表3中仅有9位学者与表2相同,有7位学者在2015年时FL值排在35~100之间,5位学者排在101~300之间,4位学者排在300之后,3位学者当时Dh值小于3,表2中李纲、俞立平、王世伟等在2016~2020年也得到了更多关注。根据2020年的数据,所有学者中Dh值在10及以上的有76人,结合表2和表3中高FL值学者的变化来看,相较2015年时,图情界的主要研究力量发生了较大变动。从表3中低Dh指数学者来看,吴晨生2015年提出了“情报3.0”概念,由庆斌在2013~2014年较早关注到Altmetrics研究并率先采用“补充计量学”这种译法,两人的相关文献在此阶段获得了较多引用,安璐关于突发事件下的网络舆情研究获得了较高关注,张一文和钟伟金关于网络舆情、共词分析法的研究在这一阶段仍得到较多引用。由于较高Dh指数的学者研究更为广博,此处不展开分析。但结合两阶段的分析来看,FL值在学者发现方面有良好效果,高FL值学者的研究具有明显的前沿性与代表性。
2.2.3 指标相关性分析。两阶段三个指标之间的相关性判断见表4,可以看出三个指标之间存在显著正相关关系。Dh与TC相关系数在0.8左右,二者相关性极强,这也说明了高Dh指数学者更容易获得引用。单纯依据FL值的计算公式,Dh与FL本应呈现负相关,表4中Dh与FL相关系数在0.4~0.6,中等程度正相关,表明FL值并不会对高Dh指数学者造成较大遮蔽。TC与FL呈强正相关关系,这也与事实相符。
综合两阶段的学者分析及相关性验证结果可知,依据FL值可以有效筛选出领域内的高关注度学者,同时在平衡Dh指数方面的效果较为良好,容易发掘领域内的新秀或处于上升期的学者,这为下一步基于高关注度学者的数据进行研究热点与前沿探测打下了良好基础。
2.3 研究热点与前沿的识别发现
笔者选取2020年FL值在10及以上的学者共345位,将此群体认定为高FL值学者群体,结合时间因素对其被引文献关键词和引证其文献的关键词进行词频分析,对2016—2020年这一阶段的研究热点进行呈现。
2.3.1 基于高被引关键词的研究热点分析。2016—2020年内高FL值学者6811 篇被引文献的部分高被引关键词见表5。
由表5可以看出各类图书馆及相关服务等依然是学界关注的热点。“智慧图书馆”“数字人文”等作为2011 年之后开始出现的新兴研究主题在这一时期得到了极大关注;“情报学”“竞争情报”“图书情报学”“情报”“图书馆学”等主题也得到较高关注度,表明图情界这一时期在积极关注并探索学科发展的方向;“网络舆情”“突发事件”“微博”等关键词的出现,说明突发事件网络舆情研究也是这一时期的热点;2015年大数据发展提升到国家战略层面,“大数据”也成为图情界重点关注的研究方向之一,“开放数据”“关联数据”“科学数据”等表明图情界不再局限于知识或文献等的组织和利用,数据思维得到极大发展;另外,“共词分析”“引文分析”“研究热点”的识别、“可视化”等在情报学领域的研究方法得到较高关注。
基于345位学者2016—2020年内被引文献中的高被引关键词,笔者利用Pajek和VOSviewer软件绘制了共现图(见图3)。根据聚类结果,可以看出高FL值学者群体的高被引关键词可以分为10类:(1)文献计量与学术评价;(2)信息素养教育;(3)信息生态及虚拟学术社区视角下的知识管理或服务等;(4)科学计量学研究方法及工具;(5)图情学科发展及人才培养等;(6)图书馆建设与服务等;(7)大数据相关理念和技术的运用;(8)网络环境下的舆情研究和技术利用等;(9)数据开放管理及数据素养教育等;(10)网络用户信息服务与行为研究等。赵蓉英等[24]的研究显示,“十三五”时期中文期刊论文研究热点主要包括图书馆资源建设及服务、图情学科理论研究、方法与应用研究及技术发展的结合、网络信息资源相关研究、文献计量与科学评价等方面,本研究与其基本上可相互印证。
2.3.2 基于施引文献的研究前沿探测。本节中笔者通过在2016—2020年引用高FL值学者的文献关键词进行词频变化分析,识别在特定时期的新兴研究前沿和热点研究前沿。考虑到一类研究主题或研究方法能够被领域内学术群体关注到,相关关键词在领域内的提及次数需要有一定的积累,笔者选择词频在20及以上的关键词进行分析,即这些关键词至少出现在20篇文章的关键词中,共321个关键词,统计了各个关键词在2015年及之前的长时期内在20种核心期刊文章中出现的次数(FC1)以及2016—2020年(FC2)和2018—2020年(FC3)两个时间段内在引用高FL值学者的文献中出现的次数,并通过各个时间段内的关键词比例变化来识别出的新兴研究前沿和热点研究前沿,比例变化的计算见公式(2)、
由于2016—2020年共5年,时间跨度较长,足够一个研究主题在这期间快速兴起又快速衰落,因此NF指标除了考虑到关键词在领域内长时间跨度的热度外,也考虑到了5年时间窗口内的热度变化。公式(2)中之所以选择计算关键词在2018—2020年的次数FC3,主要是考察关键词在2016—2020年的中后期的热度。研究前沿不一定是研究热点,一个主题的研究热度主要受到研究频次的影响,NF指标主要反映单个关键词的热度变化,而HF指标更加考虑到关键词在领域内的热度,如“新冠肺炎”的NF值最高,但频次仅有27次,很难将其认定为图情领域热点,“高校图书馆”的NF值虽低,但其在2016—2020年内出现频次很高,说明其必然是学界关注的热点。
从表6来看,“新冠肺炎”“突发公共卫生事件”“双一流”等有鲜明的时间背景,笔者以其余词语为检索词在知网进行关键词检索,限定学科为“图书情报与数字图书馆”,来源类别勾选CSSCI,发现包含表6这些关键词的研究在2015年前后逐渐兴起,可见NF指标识别新兴研究主题或方法效果较好。
高热度研究前沿识别结果见表7,与荣国阳、李长玲等[25]识别的2016—2020年内的30个热点关键词对比来看,共有14个关键词与表7重合,有6个关键词在笔者计算结果的31~70之内,也较为靠前,且其识别的8个前沿型研究热点中,除“情报工作”,其余关键词均在表7中。“政府开放数据”“知识图谱”“深度学习”“社交媒体”“智慧图书馆”“用户画像”“LDA主题模型”“Altmetrics”等未在荣国阳的研究中列出的关键词,通过知网进行主题检索,这些研究主题或方法等在近年来都保持着较高热度。总体来看,通过HF值计算出来的2016—2020年的研究热点与实际基本相符。
基于321个关键词的HF、NF值所绘研究前沿趋势判断见图4,关键词越靠近右上方,表明该主题或方法会是领域内未来一段时间的高热度研究前沿,此处仅以少数关键词为例进行说明。近些年来,国内外部分知名高校如中国人民大学、英国伦敦大学学院等新开设了数字人文专业,该领域的关注度在可见的未来还会维持在较高水平。大数据作为国家战略发展方向之一,在学界和企业界都保持着极高热度。处在左下方的“知识服务”“社会网络分析”“高校图书馆”等属于图情界较为成熟的研究主题或方法,HF值均在20以上,明顯高于大多数关键词,未来仍将保持一定的热度。结合HF、NF值可以看出关键词在时间窗口内的相对热度,也可为学术界研判领域发展趋势提供参考。
3 总结与展望
本文从学术群体的关注与选择出发,围绕高关注度学者的被引和施引情况,利用词频分析、关键词共现分析识别2016—2020年研究热点与前沿,识别结果与利用其他方法进行识别的已有研究相比,有多个主题或方法重合,与实际也较为符合,验证了本方法的可行性,为热点与前沿识别研究提供了新的尝试。另外,提出的新关注度指数FL计算简便、理念简洁,可对不同h指数的学者同时进行关注度评价。本研究仍存在一些局限性,计算关注度指数时仅考虑了第一作者的被引数据,实证研究时仅利用了图情领域的20种CSSCI核心期刊,将在后续研究中对此加以完善。