陈晓玲, 全志薇, 张 慧, 武晓敏, 岑 丹
(1. 吉林省科学技术信息研究所 a. 科技报告中心; b. 办公室, 长春 130033; 2. 吉林大学 图书馆, 长春 130012)
针对科学知识图谱分析方法大多应用在某一学科领域, 而忽视了以区域为主体, 对其进行研究热点和学科趋势的数据挖掘和分析, 从而揭示某一区域的机构合作、关键词共词分析和学科领域共现分析。在数据来源方面, 现有的研究大多是以中文数据库中的论文为分析对象, 较少涉及到Web of science数据库中的论文, 而作为在全球科研界最权威和最有影响力的数据库, 由其收录的论文反映出学术界的最高研究水平。笔者以辽宁省在Web of Science数据库中收录的论文为研究对象。
本研究数据来源于Web of Science核心数据库中的科学引言索引扩展版(SCI-E: Science Citation Index Expanded)、 社会科学索引(SSCI: Social Science Citation Index)和科技会议录索引(CPCI-SConference Proceedings Citation Index-Science), SCI-E、 SSCI和CPCI-S收录了全世界各学科领域的最具有代表性的科技文献, 在一定程度上及时、 快速地反映了科学研究前沿和发展趋势[1-4]。数据检索与下载日期为2016年12月9日, 在Web of Science数据库中按以下检索策略: 地区=Liaoning AND语种=English AND文献类型=Article, 数据库=(SCI-E,SSCI,CPCI-S), 时间跨度=2012~2016年, 共检索并下载了10 725篇, 下载的每条文献的题录都包括作者、 机构、 摘要、 关键词、 年份及参考文献等信息。
科学知识图谱方法在文献、 信息和科学计量学等领域得到了广泛应用, 不仅能揭示知识来源、 发展规律、 研究前沿及学科趋势, 并且以图形和各种数据参数表达相关研究领域的知识结构关系和历史进程[5], 其特点是避免单纯的数量分析对文献价值评估的偏差。合作分析是大数据时代的一个重要现象, 合作的规模和范围也随科学的发展而迅速扩大[6], 包括宏观的国家合作分析、 中观的机构合作分析、 微观的作者合作分析。共词分析是利用数学算法和计量方法对文献关键词、 主题词、 学科等进行数据统计和聚类分析, 以获得某研究领域的热点主题和前沿趋势[7]。
科学知识图谱分析工具很多, 目前, 应用比较广泛的是由陈超美开发的可视化分析软件CiteSpace[8-10], 它是一款基于Java平台开发的多元化、 聚类化和动态化的分析工具, 并融入数据挖掘、 计算机图形学和先进算法等方面的方法, 进行多维度、 分时、 动态网络分析的创新工具[11], 软件可以在科学网陈超美个人博客中免费下载和使用。对Web of Science、Scopus、CNKI等多种资源库的数据进行多种类型的分析, 追踪研究热点、 发展趋势, 从而挖掘出代表人物和核心机构等[12,13]。
笔者借助CiteSpace软件, 以2012~2016年Web of Science收录的辽宁省10 725篇文献为数据基础, 从机构合作的角度找到机构合作关系网络和核心机构, 从关键词的共词分析的角度绘制科学知识图谱, 从而会更加科学客观、 具体而直观展示辽宁省的研究热点, 最后从学科的共现分析挖掘出辽宁省的优势学科领域。
据统计, 2012~2016年辽宁省的发文量(见图1), 从2012年起具有持续增长趋势, 并且在2015年达到峰值, 显示出辽宁省的论文产出随时间稳步增长。
图1 2012~2016年辽宁省的论文的年度分布情况Fig.1 Annual distribution of papers in Liaoning province during the past 2012~2016 years
高被引文献是一个研究领域的重要知识来源, 反映着某一学科或区域的研究水平和发展方向, 也是探究热点主题和研究前沿的重要依据。在10 725篇论文中高被引文献共75篇, 按被引频次分布且排名前10 的高被引文献列表(见表1)。由表1可知, 渤海大学细胞工程发表2篇论文, 中国医科大学发表2篇; 除第1篇文献被引频次在300次以上, 其他文献被引频次在100~200次之间; 主要研究学科领域是医学、 纳米科学、 工程学和生物学等多学科交叉领域。
表1 2012-2016年辽宁省的高被引文献列表TOP10
通过CiteSpace软件的机构合作分析, 得到辽宁省的机构合作网络图谱(见图2)。图2中节点的大小代表机构发文量, 节点间的连线反映机构合作关系和强度, 体现了辽宁省的科研机构与其他机构的合作网络关系, 形成了5个主要的机构合作群体。其中最大的机构合作群体是机构合作群体1, 相对合作关系比较复杂和密集, 从图2中可知辽宁省的核心机构都与邻近的其他国家或省份的机构开展跨学科、 跨领域的科研合作。
对机构合作网络图谱中的节点信息进行指标统计分析, 按机构频次排序, 列出频次排名在前10位的机构(见表2)。频次最高的是中国医科大学, 次之是大连理工大学、 东北大学和中国科学院沈阳分院, 频次都在1 000次以上, 其他机构的频次都在200~1 000次之间, 体现了中国医科大学、 大连理工大学、 东北大学和中国科学院沈阳分院是辽宁省非常具有代表性的核心机构; 中介性和Sigma是CiteSpace软件中的重要指标参数, 中介性大于0.1的节点为关键节点; Sigma对网络节点新颖性的一个综合量度指标, 用来挖掘同时拥有强引文突变性和中心性的科学文献的节点。在表2中, 东北大学、 大连海事大学、 中国科学院沈阳分院和沈阳农业大学的中介性大于0.1相对较高, 体现了这些机构的合作网络关系的复杂性、 频繁性。辽宁省机构之间的合作主要是以医学、 工业、 海洋学等领域的高等院校和科研机构之间校际合作为主, 并且同一省份、 地域相邻省份、 同一研究领域之间的机构合作也较为密切。
图2 2012~2016年辽宁省的机构合作网络图谱Fig.2 Network map of institutional cooperation in Liaoning province from 2012 to 2016
表2 2012~2016年辽宁省的机构合作按频次分布TOP10
进一步分析辽宁省文献的研究热点和知识结构, 通过CiteSpace软件进行关键词共词分析, 分析时间为2012~2016年, 时间切片为1年, 节点类型选择Keyword, 每个时间切片选择Top50, 连线强度选择Cosine, 网络裁剪使用Minimum Spanning Tree。得到的关键词共词分析知识图谱(见图3), 图谱中共现频次较高的关键词(见表3)反映了辽宁省的研究热点。
图3中共词分析知识图谱中的节点表示关键词, 这些关键词来源于文献的标题、 摘要、 作者关键词(DE)、 WOS提供的关键词(ID), 节点的大小表关键词出现的频次的高低, 以年轮的形式表示关键词在不同时间段内的出现频次, 由内而外依次为2012~2016年; 节点间的连线反映关键词共现的强度和关系。节点越大, 表示关键词出现的频次越高; 半衰期是在科学计量学中用户描述文献的衰老速度, 文献的半衰期越长则代表文献越经典。从表3中高频关键词可见, 基因表达、 细胞调亡、 模型等是共词分析图谱中出现的高频次关键词, 此外, 机制、 激活、 癌症等频次也相对比较高, 这些关键词出现频次都在300次以上, 反映了辽宁省区域的研究热点都是关于工程学和医学学科领域。
图3 2012~2016年辽宁省文献的关键词共词分析知识图谱Fig.3 Keywords co word analysis knowledge atlas of Liaoning province from 2012 to 2016
表3 2012~2016年辽宁省文献的高频关键词列表TOP10
在关键词共词分析的知识图谱的基础上, 对文献数据进行关键词共词知识图谱进行聚类分析, 合并相似聚类, 以展现辽宁省区域研究的知识结构和研究热点(见图4), 共词知识图谱聚类分析结果(见表4)。
图4 2012~2016年辽宁省文献的关键词共词知识图谱聚类结果Fig.4 Cluster analysis of keywords co word knowledge map of Liaoning province from 2012 to 2016
表4 2012~2016年辽宁省文献的关键词共词聚类分析结果
(续表4)
size是聚类中所含有的关键词的数量; silhouette为衡量整个聚类成员同质性的指标, 该数值越大, 则代表该聚类成员的相似性越高。Mean Year代表的是该聚类中文献的平均年份, 用来判断聚类中引用文献的远近, 并列出了使用tf*idf和LLR算法得到的排名靠前的关键词。从表4的聚类结果分析, 结合每个聚类内文献进行内容分析, 近5年辽宁省的研究热点主要有以下方面: 1) 细胞凋亡抑制剂对膀胱癌的治疗的应用研究; 2) 锌空气燃料电池的应用研究; 3) 超疏水性纳米结构的研究; 4) 胃癌、 结直肠癌、 乳腺癌等肿瘤细胞的抑制和药物治疗的研究。
对所有数据进行学科领域共现分析, 绘制了学科领域共现图谱(见图5), 表明了辽宁省的学科结构的基本格局, 目前是以工程学和化学为学科基础, 从图5中可知构成辽宁省的基本学科结构的10大交叉学科群体。其中最为核心的学科群体1是以工程学为主要的研究群体。化学是最为核心的基础学科, 它的中介性高达0.50是连接学科群体2和其他学科群体之间的桥梁性学科, 同时说明工程学领域研究在辽宁省的代表性学科的地位和作用; 学科群体0是以碳纳米材料的微结构和性能为核心的材料科学和化学领域的知识结构研究群体; 学科群体1是以系统稳定性为核心的计算机科学和数学领域的知识结构研究群体; 学科群体2是以控制防火材料的中型规模试验为核心的工程学和环境科学领域的知识结构研究群体; 学科群体3是以诱导肾毒性为核心的分子生物学和神经学领域的知识结构研究群体; 学科群体4是以女性的乳腺癌治疗为核心的肿瘤学和药物学领域的研究群体; 学科群体5主要是植物的光合作用的化学领域的应用研究; 学科群体6关于传感器的灵敏性能等的电化学领域研究; 学科群体7关于心血管等流行疾病的心脏内科的研究; 学科群体8关于心肌梗塞的国内外医学研究; 学科群体9是关于晶体结构的光激发光性质的研究; 学科群体10是关于骨内血管的超声、 CT等的放射学的应用研究。
图5 2012~2016年辽宁省文献涉及的主要交叉学科领域共现知识图谱Fig.5 Co-occurrence knowledge mapping of documents involved in the major interdisciplinary fields of Liaoning province from 2012 to 2016
笔者通过科学知识图谱可视化方法, 对Web of Science数据库中检索的2012~2016年辽宁省的科研论文数据进行可视化分析, 从机构合作分析得出核心机构主要是中国医科大学、 大连理工大学和东北大学, 处于辽宁省的科研水平的领先地位; 从关键词共词分析得出的高频词和聚类结果, 主要研究前沿是关于能源问题和医学癌症攻克; 从学科领域共现分析得出的热点领域主要是工程学和化学, 起桥梁作用的关键性热点领域是化学。