胡 静 舒 予
(四川大学图书馆 成都 610065)
我国高校图书馆情报服务由来已久,最初多是对情报资料的简单收集、整理与利用,提供索引、检索、查新等服务[1-3],近年来随着高校双一流战略的推进和学术环境的变化,赋予了高校情报服务新的内涵,服务对象范围不断扩展,不仅包括科研工作者,还包括职能管理部门的决策群体,甚至校外群体。服务内容更加深入,形成了学科分析与评价、人才评估、对标分析、科学态势分析、领域热点前沿挖掘、专利分析等深层次的情报分析服务[4-7]。
情报分析工具在此类深层次分析服务中必不可少,用以辅助情报服务工作者从多变的信息中快速定位高价值信息[8],发掘信息之间的内在联系,发现表面上难以发现的潜在规律[9]。付佳佳在高校图书馆情报分析服务框架体系中指出分析工具与分析方法是开展服务的基础,要根据服务内容灵活组合工具和方法[10]。肖连杰等通过对国内情报分析类文章进行分析发现Citespace、Innography、RefViz、SA-TI和TDA等工具在情报分析中的使用率较高[11]。杨眉等归纳出领域态势分析中常用的五类分析工具包括Web of Science、EI、Inspec等数据库工具;JCR、ESI、Incites等评价工具;Gartner、网络搜索引擎等网络资源;DII、TI、Innography等专利数据库;Bibexcel、TDA、CiteSpace、Pajek等数据分析工具[12]。实践方面上海交通大学图书馆利用Elsevier、ESI和JCR等数据库构建指标体系为学院遴选高水平期刊[5]、利用CiteSpace、Ucinet和TDA等对脑科学全球发展态势进行分析[12];清华大学图书馆利用ESI进行学科分析和人才评估等服务[7]。与此同时部分学者提出情报分析工具的局限性,张家年等指出分析工具在关键技术方面存在不同程度的缺陷和不足,影响分析结果的准确度,应将工具分析与专家智慧相融合[13]。李红等提出利用文献计量分析法、知识图谱工具得到的分析结果,还不能真正代表领域前沿,需要结合领域专家的意见[4],但目前较少有研究工具与专家该以何种方式融合。因此本文拟通过实例研究情报分析工具和专家判断之间的差异及差异背后的深层原因,进而提炼出两者在情报分析中的适用特征,构建一种工具和专家判断对照的情报分析模式,以提升情报分析服务的精准度和科学性,为广大情报分析工作者提供参考。
本文研究思路如图1所示,假设分析工具与专家判断之间存在差异,以石墨烯研究为例进行一系列研究验证。首先在数据收集的基础上,采用CiteSpace、Vosviewer、Pajek等分析工具对数据进行分析,将分析结果交予领域专家做判断。其次将工具分析结果与专家判断对照,如有差异,分析差异背后的原因。最后在差异原因分析基础上提炼工具与专家各自在情报分析中的适用特征。
图1 基于分析工具与专家判断对照的情报分析模式研究思路框架
2.1数据收集本文数据来源于Web of Science核心集中的SCI-EXPANDED子集,检索策略:篇名=“graphene”,限定检索年份2004-2018年,文献类型“article”,为了便于寻找学科专家,限定学科领域为所有“material”相关学科,选取其中被引次数大于10的记录共计14 567条。
2.2.1 基础领域分析 采用Citespace的文献共被引聚类功能进行分析。文献共被引通过对现有文献的参考文献间关系研究,形成先驱研究的知识脉络,用以把握研究的整体发展历程。聚类可将同时被一篇文章引用的论文集合在一起(认为它们研究内容相似),形成不同的研究领域。Citespace分析结果如图2所示,其中聚类的模块化ModularityQ=0.7779,共被引网络中聚类主题的区分度较好。最终形成43个聚类,其中处于核心区域的有8个,根据工具给出的聚类的标识词(LLR算法)总结为:0#:大面积石墨烯(large area);1#:石墨烯带(ribbon);2#:石墨烯氧化物(graphite oxide);4#:杨氏模量(younga modulus);7#:氧化还原反应(oxygen reduction );8#:超级电容(supercapacitor);11#:贝里相位(berrys phase);12#:狄拉克费米子(dirac fermion)。
图2 石墨烯研究共被引文献聚类知识图谱
专家判断:分析结果基本可以反映目前石墨烯在材料学方面的研究领域,但命名不够准确,#7和#8、#11和#4在研究内容上关联度较高可划分到一个领域中。另外光电子(optoelectronics)也是一个目前研究较多的领域,却没有在CiteSpace的核心聚类中反映出来,具体对照结果见表1。
表1 核心研究领域对比列表
2.2.2 重要文献挖掘 利用CiteSpace的网络转折点(turning point)功能进行分析,其借鉴了结构洞和信息觅食理论,用于发现知识网络中重要的桥梁文献,即不同学科和不同主题间的相互连接演化的关键,测度指标为中介中心性(betweenness centrality)[14]。桥梁文献是整个知识基础网络发展演化的要害节点,对桥梁文献的发现,有助于了解各基础领域间的演化关系,更深入的认识领域知识。本文从上述共被引聚类网络的节点指标发现了3篇中介中心性(Centrality)大于0.1的文献:
文献1:A.K.Geim于2007年在NATMATER发表的TheRiseofGraphene,其位于#0聚类,连接着聚类#0和#1、#2、#4。是一篇综述性的文献,阐述石墨烯极高的晶体和电子质量,与不寻常的电子光谱,使其成为材料科学和凝聚态物理学视域中迅速崛起的新星。
文献2:Y.Hernandez于2008年在NATNANOTECHNOL发表的High-yieldProductionofGraphenebyLiquid-phaseExfoliationofGraphite,位于#0聚类,连接着#2和#8聚类,研究通过大规模生长或剥离的方法生产石墨烯材料(石墨在有机溶剂如N-甲基-吡咯烷酮中的分散和剥离)。
文献3:H.Lee于2005年发表的MagneticOrderingattheEdgesofGraphiticFragments:MagneticTailInteractionsbetweentheEdge-localizedStates,位于#4聚类,是连接#4聚类和#0聚类的重要文献,研究石墨碎片边缘的磁性排序。
专家判断:文献1:该文是首屈一指的大师之作,其作者A. K.Geim和K. S .Novoselov因为发现石墨烯于2010年获得诺贝尔物理学奖。该文在石墨烯研究的演进过程中发挥着十分重要的作用,其中的重要论点被后期的很多论文引用,包括石墨烯晶体管(1#)、石墨烯氧化物(2#)和杨氏模量(4#)的研究成果,因此可作为连接0#聚类和1#、2#、4#的桥梁性文献。
文献2:该文是用液相剥离法制备石墨烯氧化物(Graphene Oxide Go)的代表性论文,对于石墨烯氧化物的制备(#2)具有重要影响,同时也开启了氧化石墨烯在能源领域(#8)应用的大门,因此是连接#0聚类和#2、#8聚类的关键性文献。
文献3:无法判断是否有桥梁作用,且该文不算领域内有影响力的论文。
另外专家还提出Li XS于2009年在SCIENCE上发表的Large-AreaSynthesisofHigh-QualityandUniformGrapheneFilmsonCopperFoils可以作为#0和#1聚类的桥梁文献,原因在于该文是真正能用的大面积石墨烯薄膜的开山之作,明确了大面积石墨烯生长的技术路线,尤其是应用于石墨烯晶体管领域,在保证石墨烯大面积生长的同时,确保石墨烯具有较高的电子迁移率,为石墨稀晶体管的研制奠定基础。
2.2.3 热点研究分析 共词分析是对关键词词频及其相互关系的研究,可用于识别领域内的研究特征和研究热点。利用Vosviewer抽取文本关键词,并限定关键词词频阈值60,获得312个主题词,对其进行共现聚类,结果如图3所示,颜色深浅代表不同的热点方向,原点大小代表关键词词频,原点越大则关键词出现频率越高,研究越多。
图3 石墨烯研究关键词共现聚类知识图谱
分析结果显示材料学方面的石墨烯研究目前形成了以下五个研究热点方向:
(1)石墨烯薄膜研究,规模最大,包含核心研究主题薄膜(films)、石墨(graphite)、拉曼光谱(raman-spectroscopy)、层(layer)、输运(transport)等。
(2)石墨烯储能材料研究,规模其次,包含核心研究主题氧化物(oxide)、性能(performance)、碳(carbon)、复合(composite)、超级电容器(supercapacitors)等。
(3)石墨烯在传感器方面的研究,规模第三,包含核心研究主题氧化石墨(oxide graphite)、传递(delivery)、金纳米粒子(gold nanoparticles)、荧光(fluorescence)、功能化(functionalization)等。
(4)石墨烯复合材料研究,规模第四,包含核心研究主题碳纳米管(carbon nanotube)、片材(sheet)、纳米复合材料(nanocomposite)、剥离石墨烯(exfoliate grapheme)、化学还原(chemical reduction)等。
(5)燃料电池催化剂研究,规模最小,包含核心研究主题氧还原反应(oxygen reduction reaction)、燃料电池(fuel-cells)、氮掺杂石墨烯(nitrogen-doped grapheme)、催化剂(catalysts)、化学还原(chemical reduction)等。
专家判断:上述研究方向属于石墨烯研究的热点。
2.2.4 前沿主题分析 前沿主题发掘采用Kleinberg 于2002年提出的突发词检测算法(Burst Detection),考察在一定时间内词的突然变化情况,根据词的大量突然涌现判定一个新兴研究主题的产生[15]。本文利用CiteSpace实现突变词检测,共抽取出60个突现词,去掉不能代表研究内容的关键词,选取其中突现强度大于20的主题词17个,详情见表2。
表2 研究前沿
专家判断:以上主题是目前的前沿研究,这些主题大部分属于石墨烯薄膜研究,其中epitaxial graphene、nanoribbon、transport、large area和li ion battery等9个主题也是目前的研究热点。
2.2.5 核心国家地区 采用Bibexcel抽取频次大于40的国家构建共现矩阵,用Pajek生成国家共现网络如图4,其中节点的大小与中介中心度有关,节点越大中介中心度越大,代表节点在整体网络中处于核心地位。从中介中心度值可以看出,中国和美国是处于整个网络最核心的地位(中介中心度值:0.027),其余依次为德国(0.022)、英国(0.022)、韩国(0.018)、法国(0.018)、日本(0.017)。
图4 石墨烯研究国家共现知识图谱
专家判断:中国在石墨烯研究方面确实取得了较多成果和突破性进展,SCI论文量居世界领先,欧美等发达国家在核心研究和高精尖的前沿研究方面表现也很不错。
3.1缺少光电子领域,领域间的合并作者回到14 567条数据源中,限制主题“optoelectronics or optics or plasma”,获得1 395条文献,把1 395条结果再做共被引分析,将导出的共被引数据②与先前的共被引文献数据①做比照,发现②中的文献分别分布在石墨烯晶体管(#1)、石墨烯氧化物(#2)、物理性质(#11、#4)和#5(Neutron)等领域中,#5中分布的文献较集中,但由于#5的规模较小,因此没有被显示在核心聚类中。专家提出的石墨烯光电子领域主要涉及石墨烯在光电子领域的应用,与“氧化石墨烯”“石墨烯晶体管”等领域有交叉(文献存在共被引关系);分析工具是根据文献的共被引情况,区分文献之间的亲疏关系,把关系较近的文献划分成同一类别,与文献的共被引次数有关,因而可能会导致光电子领域(#5)分布的文献量较少,无法处于核心领域群。
关于#7和#8、#11和#4的合并,笔者抽取#7和#8做验证,通过对四个领域内文献阅读和咨询学者,发现#7中的文献主要关于氧化还原石墨烯的制备及储能性能研究,与#8中的石墨烯超级电容特性确有关联,可以进行合并。分析工具的领域划分利用数学算法精准而清晰的区分文献间的亲疏关系,但却无法判断内容的关联性。
3.2研究领域命名领域的命名上存在较大差异,主要原因在于CiteSpace LLR标识词是通过LLR聚类算法计算出log-likelihood ratio较大的词汇[16],即工具是通过相关标识算法,列出“最突出”的那个词语来体现聚类的特征,与关键词的出现频次有关。而专家是基于对全文的理解或对聚类特征的理解做出的聚类概括。
3.3重要文献挖掘分析工具挖掘的结果多数与学者意见相同,有两篇存在争议。回到共被引网络,发现工具分析出的桥梁性论文3属于领域4#,与0#中TheRiseofGraphene(A.K.Geim,2007)有共被引关系,从研究内容上看,桥梁论文研究的是石墨碎片边缘磁矩的形成机制,是石墨烯物理性质方面研究,而TheRiseofGraphene阐述了石墨烯异常的电子光谱,引起了一种新的“相对论”凝聚态物理范式,两者在内容上有关联。说明这篇论文与4#和1#中的部分研究内容相关。专家提到的Large-AreaSynthesisofHigh-QualityandUniformGrapheneFilmsonCopperFoils(Li XS,2009)是ESI高被引论文(被引6 000余次),说明是被广泛认可有较高影响力的文章,但工具计算出的中介中心性值为0.01,不构成转折点文献。分析工具的计算方式强调了“跨界性”,即同时被多个领域的文献引用,而专家是根据文章影响力和研究内容上的关联性进行判断。产生上述差异的可能原因是:专家受自身知识范畴限制和主观偏见影响,忽视某些超出知识范围或在学术圈影响力较低的文献;引用的不充分性和动机的复杂性[18],导致某些有影响力的文章没有被恰当引用,使工具的计算结果与专家判断有差距。
3.4部分研究前沿主题属于研究热点,前沿主题大部分属于石墨烯薄膜研究前沿与热点之间本就存在交集,部分前沿也有可能具有较高的词频,属于热点前沿[17]。为了进一步确认专家提出的9个前沿主题属于研究热点,笔者统计了17个突现词的词频,发现专家提出的9个热点前沿都具有较高词频(>90),但部分未被提出的主题词也具有较高词频,例如电化学性质(electrochemical property)词频188、电子结构(electronic structure)词频114。采用专家提出的“li ion battery”和未被提出的“electronic structure”做研究文献数量比较,前者在WoS中有研究文献203篇,后者有1 427篇,说明后者的研究热度比前者高。出现这种情况的可能原因有两种:一是专家受自身知识范围的限制,对于热点的把握多集中在自己的研究范围内,忽略了其他相关领域的研究;二是细粒度的内容容易被专家忽视,例如以关键词为代表的研究主题。
针对前沿探测出的主题大部分属于石墨烯薄膜研究,笔者根据关键词聚类和数据库文献阅读发现这些主题确实大部分属于石墨烯薄膜研究,少部分属于石墨烯储能材料研究和石墨烯复合材料研究等。
3.5国家合作网络Pajek社会网络分析中的中介中心度用来衡量点在网络中的重要程度,以经过这个点的最短路径数来刻画[19]。专家的判断角度多是基于学术影响力、学术地位和高质量学术成果等内容。为了进一步了解各国的学术地位,笔者分别统计了7个国家的各项学术表现指标,如表3所示,美国的各项指标基本都处于第一的位置,英德法的被引百分比表现比中国好,但总体来看中国各项指标都有不错的表现,学术地位应该属于世界前列。
表3 各国家学术表现比较
除上述差异及原因外,还有部分难以避免的因素可能会造成分析工具与领域专家判断的差异,值得关注。首先,学科领域的知识传播过程是知识流动和知识扩散的过程,每一个学科领域并不是独立存在的,他或多或少与其它任何一个学科领域有关联[20],特别随着科学技术的快速发展,学科领域之间知识的流动与扩散越来越频繁、边界划分越来越模糊[21]。且随着时间的推移学科领域之间的知识关联网络也会发生动态变化,是一个不断演进的动态网络。因此分析工具这种静态的边界清晰的分析并不能够完全反映学科领域的真实情况,而专家受自身知识范围的限制也不一定能够准确判断。其次,在采集数据的过程中对字段、主题词、年份、文献来源和学科等内容的限制,在一定程度上会影响数据源的完整性,从而导致工具分析结果与专家判断的差异,例如本文在数据采集中为了便于匹配学科专家,限制WoS中所有的“material”学科,有可能导致“光电子”领域文献的部分缺失。石墨烯本身是一种材料,但其优异的物理、化学性能又受到物理、化学、电子等领域的关注,存在较多的学科交叉,在数据库中搜索(graphene) and (optoelectronics or optics or plasma),不限学科,发现有物理应用、工程电子、物理化学等领域的文献至少占总文献量的1/2,因此限定“material” 也可能导致在基础领域划分时,“光电子”领域由于规模较小,而无法处于核心领域群。第三,分析工具强大的分析功能背后是大量的数学算法,而每种数学算法本身都存在一定的局限性,例如CiteSpace中突变检测采用的Kleinberg 算法,其最优序列的确定受参数k,s,γ的影响, 而参数确定具有一定的主观性,且Kleinberg 算法需要一定的时间积累,对较新的关键词/文献准确度不高[22];层次聚类、Louvain 算法和谱聚类算法等是分析工具中常用的聚类算法,其中层次聚类和谱聚类在处理大规模数据中存在一定缺陷,Louvain 算法在数据输入顺序上敏感度较高[23]。另外在使用分析工具的过程中对各种参数的设置也会影响分析结果的最终呈现。
通过上述分析发现除某些不可避免的因素外,工具的优势首先在于对大量数据的快速运算,且抽取的关键信息与专家判断的契合度较高。其次工具具有较强的客观性,其分析结果是对信息数据的科学计算得来,也因如此其分析结果边界清晰,少有模棱两可、模糊不清的情况。同时工具善于识别和挖掘细粒度知识。但工具对于跨学科领域判断的精准度不够,容易受算法影响忽略掉一些较小且交叉度较高的领域,工具对分析结果的语义理解欠缺,不善于进行概况总结性评述。
专家的判断基础来源于自身长期的知识积累和对领域发展的内化理解。专家进行科研工作的过程中会吸纳融合各相关学科的跨学科知识,对跨学科的把握较好。情报分析过程是综合多因素的复杂判断,存在许多无法用量化表征的因素,例如对研究内容的理解、文献信息背后的关联知识,而专家更易于做此类判断。专家的系统思维和逻辑推理能够对分析结果进行宏观把控。但专家判断又受限于自身知识范畴,对范畴外的知识把握不够准确,且容易受情感左右,对自己感兴趣的领域有偏好。
情报分析的快速、高效、准确离不开分析工具和专家判断良好配合,工具与专家的关系是各取所长,优势互补的智能组合,在二者进行融合的过程中需注意以下几点:
a.分析工具是基础。情报分析过程中需将工具分析作为基础,充分利用工具的快速、高效、客观、细粒度等特性,全面挖掘研究对象的发展状况、研究内容、内在规律、学科影响力等内容,为专家判断做基础。专家在科学分析的基础上结合自身知识与经验,运用系统思维和逻辑推理做综合判断和宏观把控,进而形成更具深度和洞察力的分析结果。
b.多工具、多指标、多角度为专家提供判断依据。情报分析过程中可根据分析目标选择不同的分析工具,充分发挥各种工具的特色和优势,例如ESI善于学术成果评价,Citespace的特色在于知识基础分析和突现词检测,Pajek的社会网络分析功能强大。同时在对一个目标进行分析时可采用不同指标、多角度评判,例如上述对国家核心地位的评判,每种指标反映出的结果都有所不同。工具分析要从不同的角度将结果展示给专家,给专家充分的判断依据。
c.情报分析工作者的辅助作用很重要。分析工作者不仅要进行数据收集和工具使用,还要综合评判各工具选取合适的分析工具,同时与专家沟通,成为工具与专家联通的纽带。对于工具做出的分析结果分析工作者需进行初步筛选,去掉一些无用信息,减轻专家判断的工作量。因此情报分析工作者需要具备较好的学科背景知识,熟练掌握各类型分析工具,具有较好的业务能力和沟通能力,熟悉情报学相关知识。
本文以石墨烯研究为例,分析情报分析工具与专家判断之间的差异及差异背后的深层原因,发掘出分析工具与专家判断在情报分析中的适用特征,构建融合情报分析工具与专家判断的情报分析模式。该模式较好的将工具特色和专家优势融合在一起,不仅能实现情报分析的速度与效率,还能实现情报分析的准确度和科学性。