工具的祛魅:CiteSpace在教育研究中的应用与反思

2019-09-17 09:23柯文涛
重庆高教研究 2019年5期
关键词:研究者图谱可视化

柯文涛

(宁波大学 教师教育学院, 宁波 315211)

近年来,一款称之为CiteSpace的可视化分析软件席卷了整个中国教育学界,成为研究者们的方法新宠。基于该软件而生产出来的研究成果如雨后春笋般涌现,这些成果主要包括期刊论文、会议论文、硕博士学位论文、学术著作等。从时间上看,早在多年以前,学界就已经有研究者开始使用该软件撰写论文,但是尚未形成一定的研究规模,研究成果的数量也寥寥无几。近年随着该软件的研发团队在国内高校的大力推广,使得该软件的知名度进一步扩大。CiteSpace软件具有操作简便、性能完善、支持国内数据库等优势,因此在同类可视化分析软件中脱颖而出,为研究者所接受,进而在教育研究领域内形成了一股追逐知识图谱和CiteSpace的研究热潮。毫不夸张地讲,凡与教育挂钩的研究领域或研究主题,不是已经被研究者知识图谱化和可视化,就是在被知识图谱化和可视化的过程中。虽然该软件为教育研究提供了诸多便利,但我们也得清晰地认识到,研究者们在使用该软件的过程中暴露出了诸多问题。

为此,文章首先对CiteSpace软件的引入背景进行分析,继而从学界的使用现状着手,并结合笔者自身对软件的使用情况,对该软件进行应用上的学理反思,CiteSpace软件存在的问题大致上可以归结为以下3个方面:第一,CiteSpace软件本身存在的问题。主要体现在软件所标榜的设计理论基础与软件功能之间存在悖论,软件并不适合所有教育领域的学术研究,基于软件的研究往往浮于表面,无法得出深入的研究结论。第二,数据库方面的问题。主要是指国内现有的文献数据库不能够完全满足该软件的使用需求。第三,教育学研究者在操作中引发的问题。主要表现在:其一,研究者不熟悉软件的基本功能和相关知识;其二,研究者对研究领域的文献查找重视程度低;其三,在研究者撰写的论文中,研究参数的阈值设定不透明;其四,研究者制作的知识图谱良莠不齐,在知识图谱的解读上主观随意。研究工具的祛魅能够帮助研究者能够走出研究工具的“陷阱”,重新确立“研究者本身才是最好的研究工具”这一基本的研究信念。

一、CiteSpace工具的引入背景与使用现状

在科学技术尚未昌明的时代,研究者要想了解教育学某一研究领域的整体情况,所能借助的研究工具只有他自己。也就是说,研究者必须凭借着自己的检索查阅与仔细阅读,并在头脑中完成对相关文献的筛选和加工,才能够找出那些核心文献,从而实现文献综述的目的。这种检索方式的局限在于,不仅耗时耗力,而且还具有较大的主观性和不可重复性。因此,当不同的研究者面对着同样一堆文献,他们得出的结论可能会出现偏差甚至截然相反,因为他们关注的侧重点、内容不尽相同,在综述时也就会带有更多的主观性和不可重复性。此外,随着时代的发展,学术研究队伍的日益壮大,文献的增长幅度数以万计,过去那种手工式的文献综述方法日趋式微,已不能够很好地适应时代发展的需要。如何在浩如烟海的文献中找出核心文献,进而描绘出学科发展的历史全貌,成为了每位研究者不得不面对的一大难题,并长期困扰着学界。

在此背景下,科学计量学应时代发展而产生。一批致力于科学计量、文献计量的学者,在进行长期的学术探索后提出了科学知识图谱。从概念上讲,所谓的科学知识图谱,“又称知识图谱(mapping knowledge domain)、知识域可视化(knowlodge domain visualization),是以文献知识为研究对象,显示某一学科的发展进程与结构关系的一种图形,具有‘图’和‘谱’的双重性质,能对文献及其内容的知识单元进行可视化”[1]。其发展历史最早可以追溯至科学计量学的诞生之初。在科学知识图谱提出后不久,科学计量学界开发了大量的可视化分析软件用于绘制科学知识图谱,具体包括Bibexcel、Wordsmith Tools、Pajek、Ucinet、BICOMB、SPSS、HistCite、CiteSpace等。

不得不说,这些软件的问世为相关的学术研究提供了重要便利。通过“检索数据—下载数据—导入与转化数据—分析数据—制作图谱—解读图谱”这样一个完整的知识生产链,就能顺利完成相关论文的撰写。研究者只要在研究文献中说明其所操作的条件、数值设定等基本信息,其他研究者也可以进行重复的实验。这在很大程度上增添了研究的科学性和可重复性,在一定程度上解决了以往研究的弊端。

CiteSpace“是由德雷克赛尔大学的陈超美博士应用Java语言开发的一款信息可视化分析软件”[1],其英文名称为Citation Space,常被学界译为“引文空间”。陈超美博士的学生李杰则将CiteSpace界定为“一款着眼于分析科学分析中蕴含的潜在知识,并在科学计量学(Scientometric)、数据和信息可视化(Data and information visualization)背景下逐渐发展起来的一款引文可视化分析软件”[2]3。虽然CiteSpace诞生的时间较晚,但却蕴藏着较大的发展潜能,此后不久便从诸多可视化分析软件中脱颖而出。马超在研究中提到:“在诸多科学知识图谱的绘制工具中…… CiteSpace 软件是目前被国内外研究者使用最频繁的可视化软件。”[3]在他看来,“这款软件的盛行既离不开版本更新快、支持的数据源多、分析功能强大等内生因素,更重要的是陈超美在科学网博客上对成千上万用户使用疑问的解答,方便了该软件在国内的推广与应用”[3]。当部分学者将科学知识图谱方法和可视化分析工具CiteSpace引介至教育研究领域以后,它逐渐被研究者所关注和重视,进而形成了“知识图谱”热潮和CiteSpace现象,笔者在中国知网数据库以“教育+CiteSpace”为主题进行了简单检索,截至2019年5月10日,共检索出相关文献322篇。当然,此种检索策略仅能提供一种大致上的直观判断,因为CiteSpace在教育研究中的应用已经囊括方方面面,核心素养、教师教育、慕课(MOOC)、终身教育、外国教育、学前教育、职业教育等诸如此类与教育挂钩的研究领域,基本上都可以看见CiteSpace的庞大身影。虽然有些文献在标题或关键词上的措词是知识图谱或者是科学知识图谱,但其实与CiteSpace并无较大的差异。之所以这样说,主要是因为知识图谱的制作与CiteSpace密不可分,或者说目前大多数研究者使用的知识图谱制作软件为CiteSpace。

二、CiteSpace在教育研究中的应用反思

应该承认的是,CiteSpace的发明的确是一件具有积极学术意义的事情,不仅为学术研究带来了新的气象和研究模式,而且还避免了学术研究的主观性,增添了学术研究的可重复性,同时也有助于深度挖掘文献。但是,工具的发明始终是人的杰作,工具的美好愿景与现实使用之间可能存在着一定的鸿沟。CiteSpace工具亦是如此。比如,廖金英在《愿景与悖论:传播学CiteSpace可视化工具引入现状批判》一文中就对CiteSpace引用传播学研究进行了批判。在她看来,该工具“许诺的愿景只是美好的误会”,同时还认为其“核心技术难以支撑愿景大厦”[4]。反观教育研究不难发现,研究者目前大都处于积极尝试的过程中,鲜有研究者站出来进行反思。

(一)软件本身的先天不足

1.软件所标榜的设计理论基础与软件功能之间存在悖论

软件的研发团队曾在《CiteSpace 知识图谱的方法论功能》一文中明确指出,CiteSpace能够“对特定领域文献(集合)进行计量,以探寻出学科领域演化的关键路径及其知识拐点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测”[5]。如此看来,研发者似乎为学界描绘了一幅美好的研究图景,只要研究者按照该软件提供的研究路径,就能够达到事半功倍的效果,从而提高学术研究的效率。

研发者的描述虽好,但是这些理论是否提供了方法论意义上的设计指导仍然值得进一步思考。比如,该软件标榜其重要的理论基础之一是库恩在《科学革命的结构》一书中提出的科学发展模式理论。廖金英就曾对此表示质疑,并提出了“库恩真的提供了科学演进预测的方法论指导吗”[4]这一核心问题。在她看来,该问题的答案显然是否定的。理由有三:第一,“库恩的范式理论是事后描述而不是预测动向的”;第二,“库恩强调范式转换孕育于科学发展进程中的偶然而不是有明确指向的必然”;第三,“库恩的范式理论强调科学发现的历程阻力重重而不是轻松愉悦的好奇之旅”[4]。因此,“就逻辑而言,CiteSpace的开发者误会了库恩的范式理论”[4]。此外,软件开发者还提出了“普赖斯的科学前沿理论、社会网络分析的结构洞理论、科学传播的信息觅食理论和知识单元离散与重组理论”[5]等理论,认为它们“都分别从不同角度、不同侧面、直接间接地实现或支持CiteSpace的设计理念,对‘CiteSpace图谱改变人们看世界的方式’起到了重要作用”[6]。“但这些理论似乎都没有很好地体现传统文献计量学的几大基本定律,因此后续的软件使用者在进行知识计量分析时,反而很少去检验经典文献计量定律在当代的适用性。”[3]从现实来看,用于揭示文献分布规律的布拉德福定律,用于揭示作者分布规律的洛特卡定律和普赖斯定律,用于揭示文献老化的巴顿-开普勒方程等诸多文献计量学领域的经典定律并未很好地体现在相关的教育学研究论文之中,毋庸提及对其适用性的检验。

2.软件并不适合所有教育领域的学术研究

从CiteSpace软件的设计初衷来看,该软件并不是针对某一个学科或领域而设计的,而是基于整个学术研究中的现实困境而开发出来的。就当下的中国学界而言,教育学、管理学、新闻学、传播学、经济学、科学学、情报学等诸多学科都有基于CiteSpace的研究成果出现,在一定程度上证明了该软件的普适性。正如上文所言,凡与教育挂钩的研究领域或研究主题,不是已经被研究者知识图谱化和可视化,就是在被知识图谱化和可视化的过程中。虽然说研究者已普遍意识到基于CiteSpace的教育研究不失为一种新的研究路径,但是其未能考虑到CiteSpace在教育研究中应用也存在一定的边界问题,即该软件不适合所有的教育研究领域。比如,有研究者基于CiteSpace研究了新世纪以来中国教育史研究的进展情况,其所采用的检索策略是以“教育史”为篇名或关键词进行文献检索[7]。从学术的角度而言,中国教育史主要包含教育思想史、教育制度史、教育活动史三大板块,在每一板块里又可以细分为多个研究领域,如教育思想史的研究侧重于教育人物和教育著作的思想研究,人物和著作又有古代、近代、现代之分。可以说,中国教育史研究实际上是一个体系庞杂、内容丰富的研究领域,该领域又囊括诸多子领域。所以,要想了解新世纪以来中国教育史的研究进展情况,仅仅对“教育史”这一词语进行检索是远远不够的。实际上,中国教育史这个研究案例还涉及其他几个层面的问题,如检索策略、数据库等。这说明一个问题,CiteSpace软件并不适合所有教育领域的学术研究。

对上述该例的分析也引出了另一个重要问题,即CiteSpace究竟适合哪类问题或哪些领域的学术研究。换言之,是否存在一个明确的标准,以此来帮助研究者判断。陈悦、陈超美等研究者虽然指出,“CiteSpace更适用于研究某个主题的演进,所以有针对性的主题检索效果相对更好”[6],但却不够清晰和具体。使用CiteSpace软件开展研究,需要研究领域与关键词高度吻合,或者说该研究领域具有标识度较高的关键词。比如,学界近年来的研究热点“核心素养”就是一个标识度较高的关键词,因为研究者一般会在标题或关键词中明确提到核心素养。又如,外国教育史就不是一个标识度较高的关键词,因为外国教育史包括诸多内容,有的研究者可能研究的是某个外国教育家的思想史,虽然其标题或关键词中均未明确体现“外国教育史”,但又的确是属于外国教育史的研究范畴。

总的来说,最为简便的判断方式,是研究者在确定研究选题、正式研究之前,不妨对研究领域进行细分,看看在该领域下是否还可以继续划分出二级、三级的研究领域。若能,则说明该领域不适合使用软件进行研究。此外,若研究者对此也并无把握,那么最为稳妥的方式,是向教育学和图书情报学界的专家学者请教。反观目前研究现状,不适宜采用知识图谱方法或者CiteSpace软件的研究领域不在少数,但“明知不可为而为之”的研究者却比比皆是,相关反例更是数不胜数。

3.基于软件的研究浮于表面,无法得出深入的研究结论

CiteSpace提供了诸多研究功能,研究者可以根据自己的研究目的和研究需要进行适当选择和组合。如《我国老子研究的新世纪图景──基于CSSCI数据库的可视化分析》[8]一文,读者可以知道历年来发表文献的变化情况,研究所涉及的学科,科研机构和研究者之间的合作情况,共现了哪些高频关键词,高频词共被引的作者、文献和期刊有哪些等。此外,基于CiteSpace论文中还会涉及研究热点、知识基础、研究趋势、主题演进等内容。研究者在分析这些内容时,所使用的框架基本上一致,由此陷入了机械化、模式化的窠臼。从本质上讲,基于CiteSpace的学术研究终究还是一种文献综述,只不过比传统的文献综述看起来更加“高大上”。从经验层面来看,教育学界所进行的研究基本上都是在一定的理论指导下进行的,或者说是以某种理论为方法论基础,进而建立研究框架分析教育问题。因此,在学术研究中不乏经典理论的熟悉背影。而CiteSpace是对某一时段的研究情况进行的历时性分析,无法挖掘出这些研究背后的方法论基础或者说经典理论。

华中师范大学的道德教育研究所曾于2019年4月12日举办过一次学术沙龙。在该沙龙上,参与者汇报了一篇题为《我国公民教育研究(1998—2018)话题演进及前沿动态——基于科学知识图谱分析》的学术研究,由此引发了研究所关于CiteSpace软件的学术研讨[9]。研究所的老师们明确指出:“可视化文献分析软件只能呈现出‘面’上的结果,不能得出更深入的研究结论。”[9]当学界在谈及CiteSpace的时候,并不意味着它就比以往文献综述高明多少。为此,研究者应清醒地认识到,基于软件的研究浮于表面,无法得出深入的研究结论。

(二)我国现有文献数据库尚不能完全满足软件的功能需求

CiteSpace与数据之间关联紧密,没有大量有效的数据,难以发挥其用武之地。李杰在《CiteSpace 科技文本挖掘及可视化分析》一书中明确提到,“CiteSpace分析的数据是以WoS数据为基础的”[2]32,即该软件与其他可视化分析软件一样,最初都是根据美国Web of Science数据库的导出数据而设计。但CiteSpace工具与其他可视化分析软件不同的地方在于,它内置了一个数据转化的功能,能够将其他数据库的导出文献格式转化为WoS格式,进而从根本上解决了数据的格式问题(见表1)。

表1 CiteSpace可以处理的数据

注:资料来源于《CiteSpace 科技文本挖掘及可视化分析》一书第66页

目前我国研究者使用的数据库大都为WoS、CSSCI和CNKI。当然,基于WoS数据库的研究主要为了研究国际上某个教育领域的发展情况,但由于语言上的障碍以及部分高校尚未购买这一价格不菲的数据库等原因,这一部分研究成果只占少数。大多数研究者更关注中国的教育发展,在数据库的选择上更加依赖CSSCI和CNKI。由于CSSCI和CNKI的数据库建设时间要早于CiteSpace工具的发明时间,因此两者之间存在一定的不契合问题。相比之下,CSSCI数据库的开放程度更高,其下载的数据主要包括来源篇名、英文篇名、来源作者、基金、期刊、第一机构、机构名称、第一作者、中图分类号、年代卷期、关键词、基金类别、参考文献13个有效信息。而要想分析CNKI数据库的文献,只能够以Refworks格式下载。在Refworks格式下,导出的有效数据包括来源篇名、第一作者、机构名称、期刊、年代卷期、关键词、摘要7个有效信息。较之CNKI数据库,以CSSCI为原始库进行样本的采集与分析,能够有效地获得参考文献这一重要信息。学界常说的“CSSCI数据库的开放程度更高”,也就主要体现在参考文献上。

李杰在其著作中列出了CiteSpace可以处理的数据源及可用功能[2]66(表2)。由表2可知,若以CSSCI数据库为数据源,能够进行术语的共现分析、文献共被引分析、作者共被引分析、期刊共被引分析,这是CNKI数据库所不具有的“优势”。文献共被引的作用在于探测“研究前沿+知识基础”,“知识基础是由共被引文献集合而成,而知识前沿是由引用这些知识基础的施引文献集合而成的”[2]126。此外,作者共被引分析,可以进一步帮助研究者确定某一领域的核心作者群体,期刊共被引则能够寻找到某一研究领域的核心期刊。由于在CNKI数据库下载的文献信息不包括参考文献,因此研究者自然也就无法使用该软件提供的共被引分析功能,也就不能进行探测研究前沿和知识基础。所以,研究者在数据库的选择上更加青睐CSSCI数据库。

表2 CiteSpace可以处理的数据源及可用功能

注:资料来源于《CiteSpace科技文本挖掘及可视化分析》一书第66页。×表示不能或不推荐的分析功能,带★表示需要经过数据转化

研究者使用CSSCI数据库为原始数据源的一个重要假设,是刊载在CSSCI来源期刊上的论文质量较高,分析起来更加准确。从期刊学的角度来看,这一假设基本成立,刊载于CSSCI来源期刊的绝大多数论文的学术品质确实相对较高。但仔细分析后不难发现,绝不多数并不等于全部,亦存在部分虽然刊载于CSSCI来源期刊但品质一般的论文。因此,使用CSSCI数据库,反过来也造成了另一个问题,即样本数据的不全面性。用一个不全面的数据来进行研究,必然不能准确分析学科热点、研究前沿、知识基础等内容。就历史而言,CSSCI是近十几年来在我国兴起的一个引文索引,在其诞生之前是没有CSSCI来源期刊这一概念的。实际上,有很多CSSCI来源的教育学期刊,由于其在办刊的过程中顺利地完成了转型并确定了办刊定位,进一步提升了学术品质,才得以晋升为C刊行列。因此,从学术质量上看,其早期刊载的文献与普通期刊上的诸多文献并无多大差异。此外,在所谓的普通期刊上,也不乏学术质量较高的精品论文,被人大复印报刊资料、《新华文摘》等转载的论文更是不计其数,因此研究者在对待“普通期刊”时也不能“视而不见”。

综上所述,CiteSpace工具的使用需要有一个类似于WoS的数据库作为支撑,才能够全面地发挥其功能,但国内两家综合型的大数据库或多或少存在的现实问题阻碍了该工具的功能发挥。换言之,CNKI数据库只能够帮助研究者分析作者合作网络、机构合作网络、关键词共现分析,CSSCI数据库除具有CNKI的3种功能,还能够帮助研究者进行术语共现分析、三大共被引分析。从这个意义上说,数据库的问题使得CiteSpace在我国教育研究及其他学科的应用中大打折扣。

(三)研究者在操作过程中引发的诸多问题

1.研究者不熟悉软件的基本功能和相关知识

近年来,由于研发团队在国内的大力宣传和推广,使得该软件的用户基数急剧增长。在此背景下,用户的使用反馈也进一步揭示出软件中存在相关问题,帮助该软件修复了诸多不足之处,实现了版本上的更新与功能上的完善。但纵观多个版本还是可以看出,该软件的用户界面尚未汉化,研究者面对的仍是英文界面。语言上的障碍在一定程度上导致了研究者的使用困境。研究者勇于尝试和接受对待“新工具”的态度,经过短暂的培训和学习以后就能够对软件进行操作。从软件的用户界面来看,其主要功能区分为5种,分别为合作网络分析、共现网络分析、共被引分析、文献耦合、基金分析。其中,合作网络分析又包含微观层面的作者合作网络(Co-Author)、中观层面的科研机构合作网络(Co-institution)和宏观层面的国家/地区的合作网络(Co-country/territory)3个子功能。共被引分析则包括文献的共被引(Cited Reference)、期刊的共被引(Cited Journal)、作者的共被引(Cited Author)3个子功能;共现网络分析包括词共现分析(Term)、关键词共现分析(Keywords)、学科共现分析(Category)3个子功能。可以说,该工具提供了诸多分析功能,每一种功能都从不同的角度表征研究领域的基本情况。纵观已有文献,教育学研究者们的研究目的无非是了解某个领域的研究前沿、知识基础、研究热点、热点趋势和知识结构等内容,但已有研究表明,研究者的研究目的与其所选择的功能不匹配,其所选择、使用的诸多功能并不能得到相应的结论。

此外,就绝大部分的教育学研究者而言,虽然他们都经过系统严格的教育学学科规训,但在图书情报领域、文献计量学领域却仍是外行。虽然说时下的学界兴起了跨学科的研究风气,但要做好跨学科研究绝非易事。在可视化分析或知识图谱的研究中,涉及大量关于图书情报领域的专业术语或概念,熟练掌握并使用它们需要一定的时间和积累。比如,现有论文中对“共被引”“被引”“共引”“施引文献”“引证文献”等诸多概念是一知半解,错误使用的情况比比皆是。在此种情形下生产出来的论文,不仅让作者感到难以理解,而且也让读者云里雾里,摸不到头脑。

2.研究领域的文献查找重视程度低

如上所述,我国现有的数据库尚不能完全满足软件的功能需求这一现实问题,在一定程度上影响了软件的使用和学术研究。除这一客观现实的原因以外,研究者对研究领域的文献查找重视程度低,也是一个较为突出的问题。一般而言,研究者为了研究某一领域的研究进展及演变情况,需要基于相关的文献数据库进行数据检索,以此作为研究的原始素材。在检索数据的基本策略上,研究者们基本上是沿着两条研究路径展开:其一,以某关键词为主题进行相关文献的检索;其二,检索领域内的核心期刊。当然,这两条研究路径谈不上孰优孰劣,只能说适用与否。就CiteSpace软件的开发者陈超美而言,其在发表的不同论文中分别使用了两种检索策略。

对于我国教育研究者来说,研究领域的文献查找重视程度低这一问题尤为严重。众所周知,在现代化的学科建制中,教育学是一个大学科,不仅研究队伍庞大,而且研究领域也十分庞杂。从目前的趋势看,凡是与教育有关的领域都在被研究者可视化分析,但是这些文章中都未能较为明确地说明其所使用的检索策略。有的研究者甚至一笔带过,草草了事。以慕课为例,当研究者为了解我国在慕课研究方面的基本情况时,其所能采取的检索策略大都为第一种,即在CNKI期刊数据库或者CSSCI数据库中,以慕课为关键词进行主题检索。但是,这种检索的结果必定不准确,因为在国内慕课又可以用MOOC、大规模网络在线课程等表示。因此,诸如此类的领域不能够简单地采用单一检索,而是要复杂检索,尽可能全面地检索相类似的关键词。

基于第二种检索策略获取文献的研究者也不在少数。比如,为了解慕课研究进展,有的研究者可能会以教育技术学领域的核心期刊为样本期刊进行检索。应该指出,这种检索背后的研究假设是,与慕课有关的高质量研究成果都刊载于教育技术类期刊上。但是很显然,这种研究假设并不成立。再如,有的研究者为了解我国高等教育研究的基本情况,以高等教育领域的10多本核心期刊为样本期刊进行检索,同样也存在着问题。因为,高等教育研究的文献不仅仅只出现在高等教育领域的期刊上,高校学报、其他类型的教育期刊都刊载有高等教育研究的成果。

因此,上述两种检索策略均存在一定的问题,突出体现在样本的全面性上。从实然现状来看,不论是基于关键词的文献查找,还是基于核心期刊的文献查找,绝大多数研究者检索的文献均为期刊文献。从这个意义上来说,研究者所绘制的知识图谱只是一种期刊研究的知识图谱。像教育学领域历年出版的大量学术著作、硕博士学位论文、博士后出站报告、报纸文献等都没有被研究者很好地纳入检索的范畴。令人欣慰的是,虽然有些研究者也意识到这个问题,在研究中主动地加入了CNKI数据库中收录的硕博论文,但是CNKI的收录仍然是不够全面,有些科研机构并未与CNKI达成合作协议,相关文献也可能只出现在万方等其他数据库之中或者并未在文献数据库中公开。如上所述,基于CiteSpace的研究本质上还是属于文献综述。既然是一种文献综述,那么除期刊文献以外的其他诸多类型的文献也应该被纳入文献查找的基本范围,以保证研究样本的全面性,否则研究者是无法得出一个较为可靠的研究结论。此外,若研究的数据不够全面,研究者所做的研究也就不具有学术意义和学术价值,实难反映研究领域的真实进展情况。

3.研究参数的阈值设定不透明

在CiteSpace的软件面板上,存在一个叫作时间切片(Time slicing)的基本区域,其功能是对样本数据进行时区上的分割。比如,在《我国老子研究的新世纪图景——基于CSSCI数据库的可视化分析》[8]一文中,作者研究的时间跨度为2000—2017年,默认的时间分区为1,也就是将这些研究文献分成18个片段。在现实的研究中,CiteSpace软件开发者给予了研究者以充分的学术自由,时间切片的数值完全由研究者自行决定,使得研究者在操作层面上具有了一定的灵活性。但是,时间切片的数值多少为宜却无定论。更有甚者,在文章中从未提及时间切片的设定,令人难以重复其研究结论。

此外,还存在一个叫做选择标准(Selection Criteria)的阈值设定区域,其主要作用在于“设定每个时间段内所提取对象的数量”[2]86,包含Top N、Top N%、g-index、Thresholds、Citation、Usage180、Usage2013等7个选项。由于这些选项中多涉及较为复杂的数据公式,研究者对其也不甚了解,只能够在TopN、TopN%、Thresholds上“做文章”。从概念上讲,Top N表示“提取每个时间切片内的对象的数量”[2]86;Top N%表示“提取每个时间切片中排名前N%的对象”[2]86。Thresholds通过设定前中后3个时间段c、cc及ccv的阈值再提取数据,即数据的起点、中间和结尾按照c、cc和ccv赋值[2]86。其中,c表示引文数量,cc表示共被引频次,ccv表示共别引系数。该软件默认提供的参照值是“(2,2,20)、(4,3,2)、(3,3,20)”[2]87,诸多研究者也是按照这一默认值进行分析。但是,这仅仅是开发者提供的一个默认数值,研究者应该根据自己的实际研究需要进行调节并给出理由。总的看来,就研究参数的阈值设定而言,目前普遍存在着不重视阈值设定、不公开阈值设定以及阈值设定标准主观化3个方面的问题。其中,阈值设定标准的问题尤为严重,“怎么设定都行”极大地增加了研究的主观性,该问题目前也已经被学界和部分学者所关注和批判。

4.知识图谱的制作良莠不齐,知识图谱解读的主观随意

一般而言,使用CiteSpace软件制作一个可视化知识图谱并不难,难就难在美观上。《引文空间分析原理与应用》一书为研究者形象直观地呈现出了14张精美的知识图谱,《CiteSpace科技文本挖掘及可视化》也呈现了多张精美图谱。较之这些制作精美、美观度较高的图谱,教育类相关成果中呈现的诸多图谱不仅在美观度上不够,甚至称不上是合格的图谱。这些“问题图谱”的问题突出体现在图谱的基本信息、结构、节点、标签、色彩上。论文中所呈现的图谱不是缺少基本信息就是在结构上过于拥挤,不是节点和标签的大小不匹配就是图谱的色彩混乱。

就图谱的绘制效果而言,开发者实际上提供了一个用于评判的标准。“CiteSpace依据网络结构和聚类的清晰度,提供了模块值(简称Q值)和平均轮廓值(silhouette,简称S值)两个指标,它们可以作为我们评判图谱绘制效果的依据。”[6]因此,只要研究者了解了自己所绘制图谱的Q值和S值,就能够了解自己的图谱是否合格。为了尽量使得自己绘制的图谱美观、大方、得体,让其他研究者得到感官上的享受,陈悦、陈朝美等提出:“知识图谱的绘制需要选取不同的阈值多次绘制,依据Q值和S值选取较理想的图谱作为最终的结果。”[6]反观现状,在相关的教育文献中鲜有研究者利用Q值和S值评估其所制作的图谱。

此外,与图谱有关的另一个方面的问题是研究者的解读。从过程上讲,数据的采集及清洗、图谱的制作都是为图谱的解读而服务的。只有通过研究者的参与,对图谱中所呈现出来的信息进行学理上的解读,才能够得出相应的研究结论,从而了解某一研究领域的基本情况。虽然CiteSpace在很短的时间内能够帮助研究者绘制出相应的知识图谱,但是图谱的解读并不容易。李杰就曾指出,在目前的知识图谱的解读上,“错误解读、过度解读、遗漏解读的现象”[2]23客观存在。在他看来,“在使用CiteSpace进行研究时,并不是所有的用户对所分析的专业都是十分熟悉的”[2]23,“在对图谱进行解读时要多向本专业领域的不同专家咨询,以避免自己个人或少数专家对结果带有偏见或解读不准确”[2]23。陈朝美在论文《CiteSpace II:科学文献中新趋势与新动态的识别与可视化》中指出,研究者应当对图谱中出现的关键节点进行检验或评估[10]。在他看来,可以通过两种方式进行评估:“第一,将关键点文章的作者视为该领域的专家,向其发放调查问卷;第二,对关键点文章中被引和共被引的段落进行内容分析。”[11]之所以这样大费周章去做,“其目的在于证实这些关键点确实是知识转化、焦点转移、或知识领域图景改变过程中的关键点。”[11]可以说,陈朝美为研究者做出了一个良好的示范,即要“大胆假设,小心验证”。反观现实,教育学领域的研究者们几乎没有人这样做,至少在其公开发表的论文中未能体现关键节点的同行验证。

三、结 语

从心理学的角度来说,人们在接触新事物的过程中,大多数人往往先是观望,再是初步试探和接触,后至群体性竞相追逐并趋于顶峰,最终回归到理性层面,进而实现对新事物的祛魅。学术研究亦不例外。研究者对于新方法、新工具的尝试是一种勇气,是在学术道路上的自我主动探索和积极进取。通常来讲,新工具、新方法的使用往往会带来新的研究气象和新的研究结论,进而在一定程度上推动研究工作的开展。这也是本文所坚持的基本立场——在学术研究中不应该排斥新事物,而应该以一种开放、多元的格局去接纳。但就CiteSpace而言,与其说新,倒不如说其近年来在国内得到了大面积的宣传和推广,促使其得以广泛传播与使用。不恰当地说,在如今的教育学界,不了解知识图谱方法、不懂得使用CiteSpace等可视化软件在某种程度上就意味着落伍,不懂得所谓的“学术前沿”。

王洪才曾在微信公众号“对话理想国”里发表了一篇名为《关于CiteSpace的使用》的文章。他在文章中以一个基于CiteSpace软件的近10年终身教育研究进展的学术报告为例,分析了CiteSpace的不足。在他看来,“做这样的题目是有一点难度的,因为要概括近十年的终身教育研究状况,对于一个之前并未接触该领域的研究生而言并非那么简单的事情”[12]。以文献计量的范式进行研究算是学界普遍采用的一种研究策略或路径,这点也得到了王洪才的认可。也就是说,借鉴文献计量学领域的相关方法和工具来研究教育问题是值得肯定的,毕竟方法和工具在很大程度上共通的,不存在某一个学科独特的研究方法或研究工具。但是,王洪才进一步指出:“单纯使用文献计量学手段无法获得关于终身教育发展的真正信息,它充其量只能作为旁证,而不能作为主要证据。”[12]实际上,不仅仅是终身教育,要想了解其他任何层次或者类型的教育,研究者也不能够仅仅依靠CiteSpace这样的可视化分析工具。

从学术理性的角度来讲,研究工具只不过是研究者自身的肢体和器官延伸,虽然能够在一定程度上帮助研究者解决问题,但不能够帮助研究者进行最终判断。当下的许多基于CiteSpace软件的研究论文,只不过是借助该软件的科学外壳,主诉研究者本身的主观认识,明明不是经过解析图谱得出的结论,但却硬要强加于该工具。这种行为不仅为该工具的开发者增添了诸多烦恼,而且也在一定程度上扰乱了学术研究。如上文所分析的那样,CiteSpace软件的使用和精通看似简单,实则困难重重,稍不注意就会犯错。对于任何研究工具的使用,研究者都应该做到“大胆使用,小心求证”,市面上所有的研究工具都是在帮助研究者判断,但却不能代替研究者判断,因此最好的“研究工具”始终是研究者自己。或许正如思想家黑格尔所说的那样:“人们在进行工作以前,必须对于用来工作的工具,先行认识,假如工具不完善,则一切工作,将归徒劳。”[13]

猜你喜欢
研究者图谱可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
高等教育中的学生成为研究者及其启示
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱