基于动态网络分析的中国高绩效科研合作网络共性特征研究

2020-05-29 07:58:50李小龙张海玲

科技管理研究 2020年7期

李小龙，张海玲，刘洋

（1.湖南工商大学大数据与互联网创新研究院；2.湖南工商大学新零售虚拟现实技术湖南省重点实验室，湖南长沙 410205）

1 研究背景

在大科学时代，科学研究具备专深化、异构化、复杂化等特点，研究方向一致且知识结构互补的科研人员之间的合作成为科研产出的必备条件。产学研合作创新的重要构成为科研合作，《中国科研信息化蓝皮书2015》指出，在知识经济时代，“单打独斗”的科研模式将被淘汰，协同创新模式成为主流。在提升凝聚创新思想、科研质量、培养综合型、创新型科研人才方面，科研合作意义重大，且有助于实现重要学科领域的跨越式发展［1］。

科研合作有正式和非正式两种主要形式。正式的科研合作指个人、机构和学校之间传统的人事合作关系［2］。非正式合作是由科研人员自发形成的科研协作。绩效是组织对其目标达成度的一种衡量，用以呈现最终运作成果［3-4］。科研成果的产生涉及了正式与非正式两种合作模式，且其数量和质量最能体现科研合作绩效。利用科研论文中涵括的信息，构建科研合作网络，能在一定程度上对该领域学术科研交流的发展速度与质量深入探究，因此本文基于论文合作情况对科研合作进行分析。高绩效科研合作网络有助于增强科研实力，有效整合科研资源。建设高绩效科研合作网络，对于加强科研人员的核心竞争力，提升其自主创新能力和协同创新能力，具有重要的意义。

2 文献回顾

科研合作网络是由科研人员基于研究任务自组织形成的社会网络，实际上是属于复杂网络的研究范畴。复杂网络的研究已经取得了很大的发展，在许多现实网络中都存在拓扑结构［5-6］、小世界和无标度现象［7］。复杂网络被广泛应用于非均质传播［8］、意见传播［9］、团队协作［10］、社区检测研究［11-12］。由于学术论文呈指数级增长，研究科研合作已成为复杂网络领域的一个关键问题。大多数研究集中于合著网络的构建［13-14］，国际或跨学科合作的分析，社区检测的算法研究［12］，以及科研合作中的链路分析和动力学分析。以上大部分研究缺乏对现实科研合作网络的数据和深入分析，如何通过网络结构的特征构建具有高绩效性的科研合作网络，获得具体的指导仍然存在局限性。

针对科研合作网络的研究领域，20 世纪60 年代，著名科学学家Price 便开始研究科研合作问题。早期的研究主要运用信息计量学方法（Informetrics）对合著现象的数量特征进行探讨，但缺乏对于节点间的结构与隐含特征挖掘的深入研究。2001 年，Newman针对合著关系，首次采用社会网络方法（Social Network Analysis，简称SNA）进行分析研究，构建了合著网络关系图。为研究社会网络中不同节点间有何关联和量化关系，进一步揭示网络的关系结构，研究者们利用SNA 对其进行深入探究［15］，众多研究者钟情于SNA 直观灵活的可视化效果。Liu 等［16］应用SNA 对数字图书馆领域合著现象进行分析，并指出该方法适用于合著问题的分析。郭崇慧等［17］对“985 工程”高校校际科研合作网络进行了研究，运用SNA 从整体、个体和社区三个方面分别对国内和国际期刊校际科研合作网络的科研合作网络图、发文量和合著率、节点度、点介数、核心-边缘结构和社区结构进行了对比分析。李亮等［18］从中心性分析、凝聚子群分析以及核心—边缘结构三个角度，对《情报学报》期刊的合著网络进行了实证研究。

以上研究一般采用SNA 对1 种类型节点的静态小规模有界网络进行分析。实际上，科研合作网络是一个时序复杂网络［19］。随着研究的深入，有两个问题需要解决：（1）论文信息具有复杂多样性，对科研合作问题的研究必须从多个关系层面共同观察；（2）SNA 在分析网络演变动因及趋势方面具有局限性，在理解、认识复杂动态网络的多模态系统结构时具有明显的不足［20］。基于以上原因，动态网络分析法(Dynamic Network Analysis，简称DNA)引起了众多研究者的关注。DNA 包含了传统社会网络分析、关联分析(link analysis，简称LA)和多智能体系统(multi-agent systems，简称MAS)的理论与方法，是一个新兴的研究领域。其中，元矩阵（metamatrix）是对实体与实体之间多元关系的表示。元矩阵中的实体包括人、知识/资源、事件/任务和组织，相应地在DNA 网络中，包括主体(agent)、情景(event)、知识(knowledge)、位置(location)、组织(organization)、资源(resource)、任务(task)等。一个复杂的动态网络中可以同时存在多种节点和不同性质的边，元矩阵构成如表1 所示。

刘彤等［20］利用DNA 对北京地区纳米技术领域的专利构建了多属性专利网络，分析了专利合作网络的演变和动态特征，确定了网络中潜在的重要关系和变化。翟东升等［21］建立了专利数据元矩阵，利用动态网络分析工具ORA 挖掘专利信息，研究了LTE TDD 技术产业的现状及中国企业面临的问题。杨仲基等［22］研究了中国石墨烯产业专利合作网络特征及演化态势。

以上研究有助于科研合作领域研究方法的发展，并丰富了该领域的研究实践。但已有研究还没有对高绩效的科研合作网络进行深入剖析，揭示隐含的共性特征。样本的选取也主要集中在同一个期刊，或者相同的学科领域。因此，深入研究高绩效科研合作网络获得的重要创新绩效，即发表的科研合著论文情况，通过利用动态网络分析法构建科研合作网络，挖掘不同领域高绩效科研合作网络的潜在的共性特征，可以揭示出不同领域开展高绩效科研协同创新行为的相似规律。为此，本文以2017 年CNKI 综合指数排名前五的学者为核心组建的高绩效科研合作网络为研究对象，设计web 爬虫自动收集和遴选2006—2017 年间这些学者们发表的国内期刊论文作为样本数据。运用动态网络分析法，构建科研合作网络的元矩阵和网络模型，生成包含合著网络和关键词网络的、带含期刊论文影响因子权重的科研合作网络，利用连边粗细与节点大小直观地对网络进行可视化描述。从网络总体结构、网络整体属性和个体属性等三个层面揭示不同领域高绩效科研团队的共同特性，并按照三个时间段，探究其在评价时间内的演化规律。

表1 元矩阵的基本构成

3 数据获取与预处理

本文的数据样本均取自CNKI 中国学术期刊网络出版总库。CNKI 已经发展成为集期刊杂志、博士论文、硕士论文、会议论文、报纸、工具书、年鉴、专利、标准、国学、海外文献资源为一体的、具有国际领先水平的网络出版平台，中心网站的日更新文献量达5 万篇以上。

数据样本检索时间为2018 年7 月24 日。本研究选取2017 年CNKI 高校科研成果统计分析与评价数据库中，综合指数排名前五的学者为核心的科研合作网络作为研究对象。由于此综合指数的评价依据为CNKI 收录的国内期刊论文，周期为2006—2017 年，故遴选的数据均来自CNKI 中，2006—2017 年间收录的国内期刊论文。显然论文质量与学者在合著中扮演的角色各有差异，但为了构建全面的以这五位学者为核心的科研合作网络，本研究只剔除了信息不全的数据，保留了该核心学者参与的所有CNKI 收录的论文。

在作者发文检索中精确搜索作者的姓名与单位，年限限定为2006—2017 年，采用Java 语言编写web爬虫程序，获取了检索结果中每篇论文的特征信息：篇名、作者名称、关键词、参与机构与发表年月，并通过web 爬虫，进一步收集了每一篇论文所发表期刊对应的复合影响因子，用以构建含权的合著网络与关键词网络。经数据清洗，去除信息不全的数据，有效论文共计2 888 篇，按照时间将本文收集的论文合作数据均分为3 个时间段进行分析，每个时间段4 年：2006—2009 年、2010—2013 年、2014—2017 年。最终选出作为案例的5 位学者样本基本信息如表2 所示。

表2 学者样本基本信息表

4 研究方法

4.1 论文数据元矩阵建立

根据论文数据的特点构建基于动态网络分析方法的二重元矩阵。首先将论文数据归为以下两类：（1）将作者视为分析的主体可以构建论文合著网络；（2）将期刊论文数据中的关键词作为知识，关键词能代表研究的重点难点和热点，以及研究领域的主要关注问题，故构建关键词网络对论文设计的主要知识进行探究。

在同一篇论文中署名的先后顺序通常与相应的学者对论文的贡献度有关，为了方便进行元矩阵的构建，本文假定在同一篇论文中，作者之间的联系是相互的，合作关系是平等的，不因署名先后顺序对合作关系进行判定。如图1 所示，作者×作者矩阵为合著网络，关键词×关键词矩阵为关键词网络。利用这两个矩阵构成的二重元矩阵对论文数据进行分析，深入探究双重科研合作网络，挖掘高绩效科研合作网络结构及其内容的演化规律所隐含的共性特征。

图1 论文数据二重元矩阵

4.2 多重科研合作网络模型构建

传统的SNA 主要研究1 种类型节点的静态小规模有界网络，而静态网络数据的不全面性会导致实际的时序复杂网络丢失大量有价值信息，因此对网络的动态变化深入研究具有重要意义。本文引入时间演化因素，基于元矩阵建立双重的动态科研合作网络：含权A-A 动态合著网络、含权K-K 动态关键词网络。其中A 为作者（Author）、K 为关键词（Keyword）。Borner 等［23］学者曾提出一种合著网络边权分析方法，不仅考虑了合作的次数还考虑了合著的效果。本文主要研究高绩效的科研合作网络，为了突出高绩效性，不能仅考虑科研人员间的合作频次，也应将合著效果纳入考量。因此本研究在构建网络时考虑用期刊的影响因子表示合著的效果，显然在高影响因子期刊上发表的论文比在影响因子低的刊物上投稿带来学术影响力更为显著。本文中网络连边的权值即：作者之间所有合著论文发表的期刊在CNKI 中影响因子的叠加。

4.2.1 含权的A-A 动态合著网络

4.2.2 含权的K-K 动态关键词网络

4.2.3 网络属性指标

网络属性指标分为整体和个体属性指标。网络整体属性指标是指描述整个网络规模、紧密程度等方面的指标，本文主要研究含权平均度、平均路径长度、聚类系数。

无权网络中，节点的度表示该节点与网络中其他节点连接的次数，通常节点的度越高表示该节点与网络中的其他节点联系越紧密且相对越重要。含权网络中，节点的度称为强度［24］。本研究为了考虑合著论文的效果，用论文所在期刊的影响因子进行衡量，故强度定义为所有与节点相连的边权值之和，如公式1 所示。

平均路径长度描述了网络的整体性质，表示网络中所有节点对之间的平均最短距离，节点间的距离是指从一个节点出发到达另一个节点所要经过的边的最少数目［25］。其实质是网络传递信息所需要经过中间节点的平均个数。若平均路径长度小，则网络内部信息的传递较为畅通，网络运行效率高［2］。聚类系数CC 可计算网络中与同一个节点相连的两节点之间是否相互连接的平均概率，是对网络集团化程度进行衡量的重要参数［3，25］。

网络个体属性指标主要是中心性指标。可以用来评价网络中个体节点的重要与否、地位优越性及其声望等［26］。常用的中心性指标有度中心性接近中心性和中介中心性三个指标，本文利用这三种指标对高绩效的科研合作网络中的个体进行测量，得出个体在网络中的不同重要程度。

5 科研合作网络动态演化分析结果

本文从网络总体情况、整体属性和个体属性三个视角对2017 年CNKI 综合指数排名前五的学者为核心的科研合作网络，分3 个时间段进行分析。

5.1 科研合作网络总体情况分析

研究科研合作网络，传统上是研究学者在同一篇论文中共同署名的问题。本文基于DNA，将科研合作网络细化为合著网络和关键词网络构成的双重网络。

表3 与表4 中列出了合著网络与关键词2006—2017 年间的网络规模、连接次数与网络密度的数值，有助于对其科研合作网络总体情况的把握。

表3 2006—2017 年合著网络总体情况

表4 2006—2017 年关键词网络总体情况

由表4 的统计结果可知三个时间段内，前五学者为核心的合著网络各有变化，但每个时间段网络规模变化均相对稳定，且网络密度也基本稳定。五位学者虽各处于不同研究领域，但其合作网络内部保持着十分明确的稳定合作关系。关键词网络的网络规模相比于合著网络更大，表4 中结果显示，以序号1、2、3、5 的学者为核心的团队目前的关键词数量相比于十年前都有大幅度的减少，但网络密度均大幅增加，研究呈现出趋向专、深、精的可能性，表明研究者们尝试过众多新知识和技术后，有摒弃部分对原有领域研究意义或贡献相对较小的理论技术的倾向，这为了解科研合作的实际情况提供了一个新的视角与理论依据。

5.2 网络整体层次演化分析

平均度、平均路径长度和平均聚类系数是三个重要的整体属性指标，本文中的平均度进一步考虑了节点间的权值。表5 展示了不同时间段内，合著网络和关键词网络的这3 类属性指标的具体数值。此外，还对不同网络分阶段的流动性进行了相应的统计分析。

表5 2006—2017 年合著网络整体属性指标

三个时间段内，前五学者为核心的合著网络的交流与聚类情况可从表5 中得知。聚类系数反映了整个网络的聚集性，聚类系数越大说明网络的聚集性越好，在现实网络中这种特性表现的非常明显。本文构建的合著网络中，可以清晰地看出任一时间段，平均聚类系数均高于0.800，充分说明高绩效的科研团队内部聚集性很强，集团化程度高。平均路径长度均低于2，表明团队内部的信息交流成本低，易于团队内部的沟通合作。

以序号为1 的学者岑可法为例。分时间段，采用Gephi软件对以岑可法为核心的合著网络进行可视化，以连边粗细和节点大小更直观地显示节点间的合作效果，图中节点越大颜色越深表示该节点度中心性越高，由于连边权值采用影响因子叠加，故连边越粗表明实际合作效果越好，不仅仅由合作次数进行判别。由图2 可以看出网络整体连通情况良好，除岑可法外还存在几位核心的成员，构成了不同的小团体，但成员之间的沟通仍然紧密。表5 中的三类指标呈现出一定的相关关系，含权平均度可以在一定意义上反映出合作效果，含权平均度越高表明合作效果越好。由数据可知，含权平均度增长时，聚类系数呈现上升趋势，平均路径长度数值则减小。进一步说明，高绩效的科研合作网络中，学者间交流紧密，内部聚集性较强，因此应采取相应措施降低内部的交流难度，鼓励科研人员积极参与协同创新。

图2 岑可法2006—2017 年合著网络

根据表6 分析2006—2017 年间的科研人员整体流动情况。流动学者表示在此时间段内新加入或退出的学者数量之和。由表6 可知，三个时间段内，固定学者数量与流动学者数量均相对稳定，进一步说明高绩效科研团队的整体结构具有稳定性。流动学者数量在整体人员数量中所占比例大，与目前国内高校与科研机构中，以导师带研究生进行科学研究的模式相吻合。研究生学习年限的限制是导致人员的流动性较大的主要原因。另外，每阶段的人员变化率均保持在0.800 以上，但仍有一部分人员是基本稳定的，说明团队中有一批固定学者的存在保证了高绩效科研合作网络整体结构的稳定。此现象表明在构建高绩效科研合作网络之初，除了以权威学者为核心外，更应当构建好网络的核心骨架，选择一批相对固定的学者将成为稳定高绩效的基础保证。

表6 2006—2017 年合著网络整体阶段性人员流动概况

表7 的结果显示了在三个时间阶段内关键词网络的流动变化情况。流动关键词表示在此时间段内，新增或减少的关键词数量之和。由表7 中数据可知，各时间段流动关键词数量大，并且关键词的变化率均维持在0.890 ～0.940 的范围内，表明每个高绩效的科研合作网络对于所研究的领域都在不断引入新的知识，保持着高度的创新性并勇于尝试，与表4中关键词网络的整体变化趋势相吻合，进一步表明研究者们在不断探究新技术与理论，有摈弃部分对原有领域研究意义或贡献相对较小的理论技术的可能。另外，关键词的流动规律与学者的流动规律基本保持正相关，表明新的科研人员加入和退出与创新研究有互相影响的可能性。

表7 关键词网络整体阶段性关键词流动概况

5.3 网络个体层次演化分析

在网络个体层次分析上，度中心性、中介中心性和接近中心性分别反映了网络中个体与其他节点的联系能力、控制其他节点的能力和不受其他节点控制的能力。本文采用了这三类中心性指标来衡量个体的重要性。表8 中以五位核心学者的三类指标为例，并按照时间分段考察，反映其演化情况。

表8 2006—2017 年核心学者个体属性指标

因本文研究对象为以排名前五的学者为核心构建的科研合作网络，故五位学者在任意阶段的接近中心性均为1。表8 中结果显示，三个时间段内，每位学者的中介中心性都很高，均保持在0.800 ～0.950 的区间内，说明核心学者在团队中起到了交流桥梁的关键性作用，并能够强有力地对其他节点进行控制。

经数据分析可知，五个团队的合著网络以及关键词网络个体属性指标排序情况基本一致，由于文章篇幅限制，选择排名第一的岑可法合著网络为例进行说明。表9 为三个中心性指标在合著网络中，不同时间段内的排序情况。三个中心性指标排名第一均为岑可法，因此该学者在团队中的核心地位毋庸置疑。度中心性、接近中心性和中介中心性从不同的角度反映了合著网络中科研人员的重要程度，由排序数据可知，三类指标变化趋势基本一致，呈正相关关系。

表9 2006—2017 年合著网络个体属性指标排序（以岑可法团队为例）

6 结论与建议

本文根据2017 年CNKI 高校科研成果统计与评价数据库对国内学者的科研评价排名，选取前五的学者，收集整理五名学者在评价期内（2006—2017年）发表的2 888 篇论文，以此为基础利用动态网络分析法，构建了由合著网络和关键词网络共同构成的科研合作网络。通过对构建的双重科研合作网络进行分析，得出以下主要结论，并提出了相应的建议：

（1）高绩效科研合作网络注重研究深度且积极探索新理论。对合著网络和关键词网络的统计分析结果表明，以综合指数排名前五学者为核心的合著网络在不同时间段虽各有变化，但每个时间段网络规模都相对较高且网络密度变化稳定，对应的关键词网络规模均明显缩小，但网络密度大幅增加，且关键词变化率均维持在0.890 ～0.940 的范围内，表明高绩效的科研合作网络在进行科学研究时有趋向与专、深、精的可能性。

构建高绩效的科研合作网络时，除了关注新技术、新理论与研究的前沿理论外，更应及时挖掘出对本领域推动较大的研究点进行深入研究，从而达到提升本领域研究深度的目的，产出高质量的科研成果，切忌只求新技术但不求实际科研效果。

（2）高绩效科研合作网络结构稳定，成员聚集性强，且擅于沟通协作与新知识的引入。网络整体属性指标分析结果表明，各个时间段内网络的平均聚类系数均高于0.800，说明高绩效的科研合作网络内部聚集性很强。平均路径长度均低于2，表明团队内部的信息交流难度低，易于团队内部的沟通合作。含权平均度与聚类系数呈现正相关关系，与平均路径长度负相关，说明高绩效性需要团队内部的团结与合作交流，尽量降低团队内部沟通的难度和成本。从科研人员流动情况与关键词流动情况可看出，流动科研人员数量在整体人员数量中所占比例很大，每阶段的变化率均保持高于0.800，但一批固定学者的存在保证了高绩效科研团队整体结构的稳定。关键词的流动情况与科研人员流动情况表现出了较强的正相关关系，变化规律基本一致，对关键词网络的整体属性指标分析进一步表明，固有的研究领域中不缺乏新知识的加入，这保证了科研团队在相对确定的研究领域内始终能够保持团队的科研创新性。

从科研管理的角度看，若要构建高绩效科研合作网络，需要选择好主心骨和一批相对固定的科研人员，以保证合作网络在人员流动大的情况下结构仍然稳定，并应采取相应措施鼓励科研人员的沟通与交流合作。例如加强科研交流的信息化平台服务，从面对面为主的交流方式进一步利用线上的科研学术交流，有针对性的增强科研人员之间的交流。另外，科研管理部门应引进新的科研人员以促进科研合作过程中产生更多的创新，并鼓励在原有的研究领域中不断融合新的方法与思想，进行多领域知识的融合，拓宽研究的知识面，加大研究的广度，这将有助于在已有科研领域产生新的发现，推动科学研究向前发展。

（3）高绩效科研合作网络中存在核心学者引领学科发展，资源控制能力强。微观的中心性指标分析结果表明，在三个中心性指标下，每个团队排名第一的均为综合指数排名前五的学者，以合著网络的三个个体属性指标排序为例，可分析出，三个指标之间存在着很强的正相关关系。

从科研管理的角度看，核心学者起到了网络中交流桥梁的作用，并能够强有力地对其他节点进行控制，三个中心性分别代表了节点在网络中所拥有的不同的能力。通过对中心性排序的分析，可得知一个学者的合作频数越大，则该学者处于科研合作网络中中心位置的可能性也越大，同时该学者对科研资源的掌控能力也就越强。在科研部门对科研人员进行管理时，除了要多引进新的科研人员以促进创新外，也应采取措施重点保护此类核心学者在网络中的稳定，例如加大科研奖励力度、提升相应行政职务、创造更好的科研实验环境等，这是保证科研合作网络稳定高绩效的重要环节。

本文尚存在以下问题有待进一步的探索：（1）对科研合作网络的构建提取了论文中的作者信息和关键词信息，未考虑机构间合作、地域分布等更多样的信息，在某种程度上简化了科研合作网络的多重属性；（2）假设在同一篇论文中排名先后顺序不影响作者对论文的贡献与作者间的交流，而实际情况中作者的排名先后对论文的贡献度是不同的；（3）本研究发现合著网络与关键词网络的流动变化情况呈正相关的规律，但文中尚未给出具体的量化模型，这是接下来的研究中可以进一步解决的问题。