朱亮,赵瑞雪,寇远涛,鲜国建,杜若鹏
(中国农业科学院农业信息研究所,北京 100081)
一种基于文献的综合科技监测模式研究*
朱亮,赵瑞雪,寇远涛,鲜国建,杜若鹏
(中国农业科学院农业信息研究所,北京 100081)
在对科技监测内容、方法、工具系统等研究的基础上,尝试提出一种基于文献的综合科技监测模式,以期为提高科技监测的应用效果提供帮助。该模式以中英文科技文献为数据源,以文献外部实体特征统计、共引分析、共词分析等为主要分析方法,以当前在国际上得到广泛使用的科技监测应用系统及工具为手段,实现被监测学科领域的总体现状分析、经典文献识别、研究前沿探测、研究热点探测等,主要包括数据获取、数据预处理、图表生成及知识图谱绘制、结果分析等几个步骤。该模式具有功能全面、方法集成、操作简便等特点,可为今后相关研究和应用实践提供参考与借鉴。
科技监测;文献计量;科学知识图谱
科技监测的产生与发展,尤其是科学知识图谱、信息可视化等现代信息技术手段的广泛应用,为用户的科学研究及技术研发活动带来了极大便利,科研人员可以更加全面快捷地了解某一学科领域的发展历史及研究现状,更加科学有效地把握其未来发展趋势,从而获得更多的科研机会,提高科研创新效率。但从目前科技监测理论及应用实践整体来看,无论是采用的技术方法,还是成型的应用系统和工具,由于其自身的实现原理或设计开发的初衷不同,其在科技监测领域内的主流应用方向也不同,各个应用系统及工具在支持的监测数据类型、数据预处理、矩阵构建、知识图谱绘制、用户交互性、系统性能等方面有着不同的表现。为此,本文尝试提出一种综合科技监测模式,以科技文献为监测对象,在内容上涵盖研究主体监测、研究客体监测等多个方面,在方法上利用多种文献计量分析方法的综合集成,在实现途径上依据监测目标的不同进行多应用系统和工具的特征功能融合,以期从操作流程的统一性和标准化方面提高科技监测结果的科学性,进而更好地满足科研用户对科技监测的多样性、多层次需求。
从科技监测包含的内容来看,当前国内外学者主要开展学科领域研究前沿、热点、主体、成果等的监测。其中研究前沿及热点监测实现的是对现阶段学科领域中最重要研究对象的探测,包括当下最热门的话题、业界最为关注的问题、最新的技术方法等;研究主体监测关注的则是学科领域中处于领先水平的人员、机构及其相互间关系的分析,如知名专家、研究团体、重要研究机构,以及人员或机构间的科研合作网络等;而研究成果监测中最为典型的则是学科领域内重要文献的识别,包括学科领域内的经典文献、关键文献等。除此之外,基于统计手段对学科领域的总体发展现状进行概括性描述也是科技监测的一项必要内容。因此,本文将基于文献计量的综合科技监测的主要内容确定为学科领域总体现状分析、经典文献识别、研究前沿探测、研究热点探测等。
1.1学科领域总体现状分析
根据科研人员从事某学科领域研究时间和深入程度的不同,其对科技监测的具体需求也不一样,如科研人员刚进入新的学科领域时,往往希望在较短的时间内对该学科领域的总体发展有一个概括性的认识,如学科领域的起源,论文的产出情况及年代分布,有哪些重要的专家、研究机构等,这些均是学科领域总体现状分析所要回答的问题。从采用的科技监测方法来看,学科领域总体现状分析主要是依靠基于文献特征统计方法来实现,具体是对题名、关键词、作者、机构、年代、期刊等科技文献实体的外部特征值进行统计,分析结果主要通过统计图表来体现。从具体的实现途径来看,本项监测内容主要有两种方式:一是利用数据库平台提供的检索结果数据的分面统计功能,如CNKI、WOS数据库等;二是借助专门的科技监测应用系统和工具来完成,其典型代表是HistCite,它的一项主要功能便是针对WOS数据进行多维度的统计分析。
1.2学科领域经典文献识别
通常情况下,科研人员若想全面了解一个学科领域的脉络和现状,最直接有效的途径有两个:研读学科领域的经典文献和学习、理解学科领域的研究前沿及热点。这是因为,一方面,经典文献往往代表了一个学科领域的产生、转折和重大突破;另一方面,在学科领域科技文献总体中,经典文献永远是极少数,需经后人反复验证才能够确立[1]。因此,经典文献作为学科领域内最优选的信息源,可以很好地满足科研人员对文献内容的广度和深度要求,同时,也能有效地应对科研人员由于自身精力有限而带来的文献研读数量上的不足。
经典文献作为前人思考研究所取得的丰硕成果,其最重要的使用价值便是为后人的相关科学研究提供借鉴和参考,这就决定了在学科领域的整个发展历史进程中,经典文献既不会在时间序列的传递中出现“断链”现象,也不会在空间的交流中出现区域性的阻隔[2]。经典文献这种时间连续性和空间通畅性的特点在被监测学科领域的整个引文网络中也会得到体现,如经典文献一般发文年代较早,且具有很高的被引频次,除此以外,在对引文网络进行聚类时,经典文献会表现为高中心度。因此,在本文提出的综合科技监测模式中,学科领域经典文献识别主要采用文献共被引分析方法来完成。
1.3学科领域研究前沿探测
研究前沿是科学研究中最先进、最新、最有发展潜力的研究主题或方向,通常代表了科学发展的难点、热点以及发展趋势。普赖斯最早提出研究前沿的概念,用它来描述研究领域的动态本质[3],他认为,某个学科领域的研究前沿是由最近发表的且得到科学家积极引用的文章所体现的,文章数量大概是在40至50篇[4]。此外,国内外学者也从不同角度对研究前沿进行了阐释:Small和Griffith 认为共被引文献聚类可表示研究前沿[5];Braam等认为研究前沿是“一群科学研究者集中关注的一系列相关问题和概念”[6];Persson认为共被引文献簇的引证文献才能代表研究前沿,而共被引文献簇只能代表知识基础[7];陈超美认为研究前沿是学科领域内正在兴起的理论趋势和突然涌现的新主题,其知识基础是研究前沿概念所在文献的引用文献簇[8];Aris等认为研究前沿是指新出现的科学主题,研究前沿的发展体现为关键论文数量的增长[9]。
研究具有前瞻性、新颖性、时效性等特征。因此研究前沿不是长期稳定不变的,不能将其局限在固定的、与时间无关的知识基础上。研究前沿与知识基础应是相互作用并动态发展的一对概念,且随着学科领域的发展,现时的研究前沿有可能成为未来新的研究前沿的知识基础。从这一点来看,陈超美的知识前沿定义更符合科学研究活动中研究前沿与知识基础会发生演变的规律,因此,本文选择陈超美的定义作为综合科技监测中研究前沿与知识基础的界定依据,并采用共词分析和文献共被引分析方法来进行学科领域研究前沿的探测。需注意的是,这里共词分析的对象是运用爆发词算法从科技文献题目、摘要、系索词和标识中识别出来的突变专业术语概念。在实际应用过程中,由于研究前沿和知识基础的不可分隔性,不能单独对研究前沿的突变专业术语共词网络或知识基础的文献共被引网络进行分析,而是要对这两者构成的混合网络进行分析。
1.4学科领域研究热点探测
研究热点是在一定时期内得到学科领域大多数科研人员共同参与、广泛深入探讨的重要研究主题,其提供了条件。目前,国内外学者在这方面进行了许多有益尝试,采取的方法多种多样,如词频分析法、引文分析法、共词分析法、社会网络分析法等,其中词频分析法和共词分析法是主流,运用得最为广泛。因此,本文在开展学科领域研究热点探测时将对这两种方法进行综合利用,并将分析对象确定为科技文献的高频关键词。这主要是基于以下假设:一篇科技文献的关键词是文献核心内容的浓缩和提炼,能够反映出文献中论述的实质性主题内容,如果某一关键词在其所在学科领域的文献中反复出现,则可反映出该关键词所表征的研究主题是该学科领域的研究热点。在实际操作过程中,首先利用词频分析完成关键词的频次统计,再以此为基础,将出现频次超过一定阈值的高频词提取出来进行共词分析,并在结果分析时,以高频词聚类所表征的主题来表示研究热点,从而规避单个关键词在表示研究热点时的内容片面性和语义局限性。
科学知识图谱作为一个多学科交叉融合的新兴领域,其最大特点是能够在准确、翔实传达知识的基础上以可视化的图像更加直观、形象地展示学科领域结构,描述学科领域发展路径,预测学科领域发展趋势等[10]。本文以信息可视化为主要特征的科学知识图谱作为实现综合科技监测的重要技术手段,即通过绘制相关统计图表及科学知识网络图谱,并对其进行分析与解读,来实现学科领域总体现状分析、经典文献识别、研究前沿与热点探测等。综合科技监测的流程主要包括以下几个步骤:数据获取、数据预处理、图表生成及知识图谱绘制、结果分析,见图1,其中图表生成及知识图谱绘制借助目前应用成熟的软件系统及工具来实现。
图1 综合科技监测流程图
2.1数据获取
首先是数据源的选择。目前,国内外可供科技监测利用的数据来源有很多,主要包括学术文献数据库、专利文献数据库、开放获取类数据等,如国外的WOS、PubMed、Scopus、arXiv、Derwent、USPTO、NSF、Google Scholar等,国内的CNKI、CSSCI、万方等。数据源的选择主要考虑以下几个原则:数据源尽量可靠、权威和覆盖面广;尽量选择数据字段规范、有数据定制和导出功能的数据源;尽量选择科技监测应用系统及工具能够直接识别的数据源[11]。
其次是数据检索。数据检索主要有两种策略:基于关键词检索和基于领域核心期刊检索,可根据待监测学科领域的特点进行选择。通常来讲,若目标领域较为明确且专指,则可基于关键词检索,即首先确定一组可以表征学科领域研究内容的关键词,然后通过主题检索,即可获得一批在文献标题、关键词(主题词)、摘要等字段中包含这组关键词的领域学术文献和它们的参考文献;而当目标领域较为宽泛时,基于领域核心期刊来进行数据定位则更为合适,即通过领域专家咨询或借助于某些期刊数据库产品(如JCR),筛选出学科领域的核心期刊,然后再以刊名检索的方式获取这些核心期刊刊载的所有学术文献[12]。
2.2数据预处理
数据预处理包括数据清洗和数据格式转换两方面内容。数据清洗主要包括对作者名称、机构名称、关键词等的不同写法进行合并,对同名称作者或机构进行区分,对重复数据进行合并,对大样本量数据进行时间切片或典型数据选取等。
除数据清洗外,很多时候还需要对下载的数据进行格式转换,这是因为不同的科技监测系统和工具对数据的格式要求也有所不同,有些系统及工具可以直接识别和处理一些数据源的数据,如Histcite和CiteSpace可以直接处理WOS数据库中的数据,但从其他数据源获取的数据则需要转换成满足特定要求的数据格式。
2.3图表生成及知识图谱绘制
图表生成及知识图谱绘制是科技监测流程中的重点,知识图谱绘制通常包括知识单元选择、知识单元关系构建、标准化、简化、可视化等步骤。
(1)知识单元选择。知识单元是知识处理的基本单位,科技监测中常用到的知识单元主要有:题名、作者、关键词、机构、期刊、学科、参考文献等。不同的知识单元作用不同,如利用“关键词”单元构建的语义网络可以明晰学科领域的知识结构、研究内容、未来发展趋势等;通过“期刊”单元可以获取学科领域全貌;而“作者”单元则常被用于探析学科领域知识结构与流派,以及描述科研主体间的合作交流状况等。
(2)知识单元关系构建。除对知识单元进行简单统计外,科技监测还需要对这些知识单元间的关系进行测度与分析,这就涉及到对知识单元关系测算指标的定义,目前得到国际普遍认同的是White提出的两种关系:知识单元间的直接关系(用前缀“inter”表示)和知识单元间的共现关系(前缀为“co”,如共引、共词)。根据White的定义,科技监测中常见的知识单元关系种类包括作者、机构、国家合作,关键词、主题词共现,文献耦合,参考文献、作者、期刊共被引等。
(3)标准化。为便于关系网络的可视化,通常需要对计算出的知识单元频次数据进行标准化处理。标准化常常通过测量数据间的相似度来实现,主要有两大类:一是集合论方法,包括Cosine、Pearson、Spearman、Jaccard 指数和Ochiia指数;二是概率论方法,包括合力指数(Association Strength)和概率亲和力指数(Probabilistic Affinity),经证实,这种方法更适合于知识单元共现网络的分析。
(4)简化。在知识单元数据标准化之后,为使生成的可视化知识图谱更直观清晰,需要对数据进行简化处理,如数据降维、分类等。常用的方法有因子分析(Factor Analysis)、多维尺度分析(Multi-dimension Analysis)、聚类分析(Cluster Analysis)、相关分析(Correlation Analysis)、自组织映射图(SOM)、寻径网络(PFNET)、共分类分析(Co-classification Analysis)、潜在语义分析(Latent Semantic Analysis)、最小生成树等。
(5)可视化。可视化的目标是将处理后的知识单元关系网络以图谱方式在计算机屏幕上进行有效、精确、多角度展示,以便于用户对分析结果的理解和把握,常见的有几何图、战略图、主题词图、地形图、冲积图、星团图等。
目前上述这些操作在大部分科技监测应用系统中都进行了功能集成和封装,用户只需将处理后的数据导入系统,并根据需要设置和调整相关参数,即可绘制出作者、机构、期刊等统计图表,以及文献共引、关键词共现等各类网络知识图谱。
2.4结果分析
结果分析即对生成的统计图表及知识图谱进行解读,这也是科技监测的关键。与传统的分析方法相比,统计图表和知识图谱为研究人员提供了更加直观的科技监测结果展示形式,但同时带来的结果分析因人而异、受限于主观认知水平等现象也是不可避免的。因此,为提高结果分析的科学性、客观性和可重复性,一方面要强化一些量化指标的参考作用,如节点频次、网络中心度等;另一方面,可以引入学科领域专家的参与。
常用的知识图谱解读方法主要有:历时分析、突变检测、空间分析和网络分析。历时分析是从时间角度对知识单元的各时间段状态、变化趋势、异常等进行分析,重点应用于学科领域发展历史、现状及未来趋势的描述。突变检测是通过检测知识单元在有限持续时间内的急剧变化情况,从而分析学科领域的前沿趋势,发现学科领域知识演变的转折点和焦点[13]。空间分析是对数据的“机构”、“国家”等地域知识单元进行分析,从而揭示学科领域的空间分布,明晰学科领域的地理位置关系。网络分析则是利用社会网络分析理论,对知识单元节点及其关系进行中心性、凝聚子群、核心——边缘结构分析与测度,如分析学科领域中的重要作者、关键文献、核心研究群体等。
从监测内容上看,本文提出的综合科技监测模式既包括以科技文献各种外部实体特征为主要内容的被监测学科领域整体性、概括性描述,也包括深入科技文献内部的关于被监测学科领域研究前沿、热点等内容的专项阐述。在实现方法上,该模式以词频统计、引文分析、共现分析等文献计量分析法为主,辅之以内容分析、社会网络分析等其他方法,两者相互结合,互为补充。此外,该模式所包括的各个流程均可借助现有成熟应用系统及工具来实现,因此一定程度上提高了科技监测操作的简便性和效率,可为今后相关研究实践提供借鉴。
[1] 王京山,王锦贵.经典文献概念分析[J].图书与情报,2006(1):103-105,115.
[2] 王锦贵.论经典文献[J].新世纪图书馆,2004(6):47-50.
[3] 赵蓉英,王菊.图书馆学知识图谱分析[J].中国图书馆学报,2011(3):40-50.
[4] deSolla Price D J.Networks of scientific papers[J].Science,1965,149(3683): 510-515.
[5] Small H, Griffith B C.The structure of scientific literatures I: Identifying and graphing specialties[J].Science studies,1974:17-40.
[6] Braam R R,Moed H F,Raan A F J v.Mapping of science by combined co-citation and word anaiysisii:Dynamicai aspects[J].Journal of the American Society for Information Science,1991,42(4):252-266.
[7] Persson O.The intellectual base and research fronts of JASIS 1986-1990[J]. Journal of the American Society for Information Science,19 94,45(1):31-38.
[8] Chen CM.CiteSpaceII:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[9] Aris, A.,B. Shneiderman,et al. Visual Overviews for Discovering Key Papers and Influences Across Research Fronts[J].Journal of the American Society for Information Science and Technology,2009,60(11):2219-2228.
[10] 王伟军,王金鹏.科学知识图谱在技术预见中的应用探析[J].情报科学,2010,28(8): 1127-1131.
[11] 胡泽文,孙建军,武夷山.国内知识图谱应用研究综述[J].图书情报工作,2013,57(3): 131-137,84.
[12] 赵丹群.基于CiteSpace的科学知识图谱绘制若干问题探讨[J].情报理论与实践,2012, 35(10):56-58.
[13] 杨思洛,韩瑞珍.国外知识图谱绘制的方法与工具分析[J].图书情报知识,2012(6): 101-109.
Study on Integrated Mode of Science and Technology Monitoring Base on Literature
ZHU Liang, ZHAO RuiXue, KOU YuanTao, XIAN GuoJian, DU RuoPeng
(Agricultural Information Institute of CAAS, Beijing 100081,China)
In order to improve the application of science and technology monitoring, this paper try to propose an integrated mode of science and technology monitoring based on literature. The model take English and Chinese scientific literature data as data source, it's main analysis methods include literature external entity statistics, co-citation analysis, co-word analysis and so on, and with the help of some international mature application system and tool, it can help researchers to get the overall status, identify the classic literature, track the research fronts and focus of a specific research field. The model has the characteristics of full-featured, integrated method and easy operation, it will provide useful reference for the related research and application practice of science and technology monitoring field in the future.
Science and Technology Monitoring; Bibliometrics; Mapping Knowledge Domains
G251
10.3772/j.issn.1673-2286.2015.10.009
朱亮,男,1981年生,博士,中国农业科学院农业信息研究所助理研究员,研究方向:文献计量、情报分析,E-mail:zhuliang@caas.net.cn。
2015-09-23;编辑:王立学)
* 本研究得到中国农业科学院科技创新工程(编号:CAAS-ASTIP-2015-AII)资助。