“双一流”高校科研成果质量研究
——基于K-Means聚类和Logistic回归分析

2021-10-08 10:21邱均平孟炎镕杭州电子科技大学中国科教评价研究院管理学院
图书馆理论与实践 2021年5期
关键词:科研成果双一流聚类

邱均平,孟炎镕,b(杭州电子科技大学.中国科教评价研究院,b.管理学院)

1 引言

在“双一流”建设的大背景下,提升科研实力、提供具有理论和实际价值的科研成果是高校发展的一个重要方向。高校科研产出的数量能在一定程度上反映其科研能力,但数量不是目的,科研质量或价值才是最终追求。科学研究成果质量以科研论文、学术著作、报刊文章等进行表达,具有创新性、科学性、实践性等特性[1]。虽然我国科研生产力不断提升,但科研影响力相对较弱[2]。进行高校科研成果质量研究,既可为“双一流”高校科研的发展提供指挥棒和风向标,也可对具有探索性和复杂性的科研活动进行定量分析。同时,分析科研资源投入有效性是深入挖掘高校发展内在动力、提高科学管理水平的前提。

在已有的关于高校科研成果质量的研究中,谭春林等提出应注重质量创新,科研产出质量评价依据应体现于学术价值和社会贡献,并明确了科研成果质量的评价方向和侧重点[3]。潘健等基于全球视角,发现科研论文产出数量与质量并非完全对立,两者的对立和同一蕴含在质量互变之中[4]。因此,对于科研成果质量的研究,不仅仅要依靠体现质的指标,还应重视量的指标。大部分学者通过构建指标体系对科研产出成果进行评价研究,缺乏统一的成果产出指标,且对具有代表性科研成果权重的主观选择具有很大的争议性[5]。因此,不考虑成果指标权重的大小,根据指标的特性对高校质量进行分类研究具有一定的优势。

大部分学者选取了论文数量、被引量、科研获奖等作为科研成果的代表性指标。Abramo等[6]运用引文数作为科研产出的指标,计算了意大利大学的研究生产率;Li Jing等从发表论文数量、引文量、出版物等方面探讨中国高校与世界一流大学在科研产出能力方面的差距[7]。对于科研资源投入有效性的研究,部分学者考虑的投入因素指标较少。张宝生等[8]运用门槛回归方法研究了政府科技经费投入和研发人员的规模对科研产出的影响;苏皑等[9]研究了科研经费投入、课题数量和师资队伍投入与科研创新产出的影响关系。

Logistic回归模型可以分析多因素投入的有效性,且能够较好地解决各分类数据相关性检验与贡献水平的问题[10]。为此,本研究不构建指标体系,而是基于突出学术影响力和贡献指标变量,对我国114所“双一流”高校进行自然分类,同时考虑科研资源投入因素,将杰出人才培养、基础设施投入、科研队伍建设、团队合作能力和地区经济实力作为自变量,将高校科研成果质量水平作为因变量,构建无序多分类Logistic回归模型进行投入有效性分析,探究科研资源投入与产出之间的非线性关系。

2 研究设计

2.1 数据来源

全国“双一流”大学名单为137所,考虑其中23所高校的性质及其在选取的科研指标中的表现很低,因此为了确保研究结果的说服性和准确性,剔除较为特殊的艺术语言类高校,如中央美术学院、中央音乐学院等。本研究从静态的角度选择114所“双一流”高校,对其2020年的科研成果质量水平以及投入有效性展开研究,高校科研资源投入与成果产出的数据主要采集于教育部官方网站文件、自然科学基金网、各高校官方网站以及Web of Science学术发表与专利信息公共服务检索平台。

2.2 研究方法

2.2.1 K-Means聚类

聚类面对的是没有分类标签的数据对象,它从给定的数据集中搜索数据对象之间存在的有价值的数据分布模式[11]。K-Means聚类是一种基于质心或距离的算法,笔者先取一个K值,再将数据划分为K个类别,这样同一类别内的数据相似度较高,便于区分[12]。

本研究主要应用SPSS Statistics 25.0软件,基于欧几里得距离确定聚类中心点,对114所高校的科研质量水平进行聚类,将科研质量水平相同的归为一类。传统的用简单计数累加的评价办法忽略了代表性成果的重要性,导致成果数量激增但影响力不足,自然聚类可以很好地避免这些问题。同时,聚类的结果比传统的分类方法更加全面、合理,而且它可以有效地消除由于数据的微小差异而导致的区别,避免了直接排名的限制[13]。

2.2.2 无序多分类Logistic回归

Logistic回归是一种广义的线性回归分析模型。逻辑回归理论揭示了一个因变量与多个互不相关的自变量之间的多元回归关系[14]。本研究在高校科研质量的聚类基础上,识别不同类高校的科研质量水平与选取自变量因素之间的关系,探究科研投入因素的有效性程度。不同的科研质量水平为因变量,由聚类结果得出为无序多分类变量。选取的自变量均为二元或多元分类变量,因此,本研究构建无序多分类Logistic模型。

假设有n个自变量,对应k个分类的因变量。从k个因变量中选一类作为对照组,且每个分类都可以作为对照组。对照组与剩余的k-1个分类分别进行回归方程的构建。则因变量第j个分类的Logistics回归模型为[15]:

式(1)中,j∈[1,k-1],i∈[1,n],βji为回归系数,xi为第i个影响科研成果质量的自变量,Pj为因变量为第j类别的概率。

3 高校科研质量聚类分析

3.1 聚类变量指标选取

参考已有研究,选取的聚类变量要具有代表性,本研究在选取变量指标时,注重成果的实际价值和创新性[16]。高校科研质量水平由科研产出,即科研影响力和实际贡献所决定。本研究将高校科研质量聚类指标变量设置为7种,为聚类过程的输入变量,这些指标均可定量计算(见表1)。

表1 聚类变量指标表

高校的科研产出主要为学术论文。三大刊(Science、Nature、Cell)具有较高的影响力,其科研成果重大且新颖,因此发表在三大刊的论文数量体现了高校的科研产出力。发明专利体现的是先进的技术或方法,专利数量可以表现出科研机构的科研创新力[17]。因此,三大刊发文数和发明专利数量虽然是代表量的指标,但也能在一定程度上能反映科研质量。

对于代表质的成果指标,具有高被引量的论文往往代表着其具有较高的学术水平和学术影响力。三大刊被引量,代表论文具有较高的学术影响力;ESI高被引论文指某一篇SCI/SSCI论文近10年总被引次数位于某ESI学科所有相同出版年论文的前1%[18];SCI、SSCI和A&HCI被引量指标越高越能说明高校科研产出质量高,且相比于数量更注重内涵;科研获奖代表科研机构的科研实力,具有一定的创造性和新颖性;会议报告数代表了高校较高的科研合作和交流能力,体现了某一学科的最新研究成果,能够反映科研机构的学科影响力和创新性。

3.2 聚类结果及其分析

自然聚类可以自动区分不同的高校类型,能更好地反映“双一流”高校的整体科研水平情况。本研究运用K-Means快速聚类算法对114所高校的科研成果质量水平进行聚类分析,根据实际的科研情况,选择3个聚类中心点,得到了3个类群的中心点对应的科研成果质量情况。

经过计算,本研究选取的7个指标变量在3个类群中的差异是显著的,即具有统计学意义。由最终的聚类中心可知(见表2),聚类中心点分别为(1796,5,883,561,247,44010,139)、(459,0,78,74,7,6402,23)、(1021,1,363,246,79,22397,48)。第一类各指标数是最高的,表明科研质量最优,第三类次之,第二类指标最低,即科研质量水平最不理想。每一类高校都有一个中心点,接近于中心点的高校各项指标处在同一质量水平上。各层次中心点指标之间具有明显的层次性,其中ESI高被引论文数、三大刊被引量和科研获奖这3个指标差异最大。

表2 最终聚类中心

各个类群的高校数量情况:第一类有18所高校,包括清华大学、北京大学、浙江大学等。第二类有68所高校,包括南京大学、苏州大学、同济大学等。第三类有28所高校,包括华东师范大学、第二军医大学、南京农业大学等。聚类结果显示,“双一流”高校整体的科研质量水平呈金字塔形结构。第一类高校数量最少,这类高校在各个科研产出指标情况最优,而各类指标较低的高校数量则较多。基于分析结果,将三类不同质量水平的高校划分为优秀类、良好类和一般类,对于科研质量一般类和良好类高校来说,应有针对性地提高其科研质量。

4 无序多分类Logistic回归分析

4.1 样本选取与分析

已有相关研究大多考虑课题数量、师资队伍投入、研发人员规模和科研经费投入等因素,其中科研经费投入仅对科研成果数量具有正向影响,对成果质量影响不显著[19]。本研究将科研经费投入进行剔除,考虑基础设施投入、杰出人才培养、科研队伍建设、团队合作能力和地区经济实力因素可能会对科研产出产生影响,即投入因素是否具有有效性,选取了10个具体指标作为回归模型自变量xi,i=(1,2,…,10)(见表3)。

表3 科研资源投入指标

(1)科研基础设施投入。①科研基地不仅是学科建设的载体,也是培养创新型科研人才和促进科技成果创新的重要载体,其作为物力资本主要是财力投入长期积累而成,属于存量概念,短期内相对较为稳定[20]。②科研项目为实践教学和培养创新能力的良好平台,高校申请的科研项目数在一定程度上反映了高校的科技创新力和产出力[21]。

(2)杰出人才是高校重要的科研资源,具有引领性作用。本研究选取中科院院士与工程院院士人数、国务院学科评议组成员人数、长江学者特聘教授人数和“杰出青年”人数指标代表高校的人才资源,在本研究调研的114所高校中有29所无中科院院士与工程院院士。国务院学科评议组成员人数不仅代表了高校的人才资源,而且展现了高校的学科发展力,在不同类高校中具有明显差异。长江学者特聘教授人数、“杰出青年”人数体现了高校的人才科研能力,本研究调研的114所高校中有41所无长江学者特聘教授、47所无杰出青年。

(3)科研队伍是科研的主力军,会直接影响人力资源的质量,进而影响科研成果的数量和质量,因此,选取科研队伍建设投入作为研究投入有效性的指标是合理的。本研究选取博士研究生导师和硕士研究生导师数量作为高校科研的人力投入,其代表着高校的科研产出力和人才培养能力。

(4)团队合作能力因素中的创新团队指标是指教育部“创新团队发展计划”入选团队,创新团队能反映高校的科研合作力和创新力。科学研究要兼顾科研的创新性和可操作性,科研团队建设是科研发展的关键所在[22]。

(5)廖帅[23]等认为,人均GDP发达的地区投入的科技资源普遍较高,也能获得较好的科研产出。本研究考虑到地区经济实力因素,运用数据可视化呈现了114所“双一流”高校在我国不同地区的分布情况(见图1)。可见,经济发展水平较高的东部地区,可能更有利于科研成果产出和“双一流”高校的建设。笔者将科研质量作为因变量,一般、良好和优秀分别取值为1、2、3,将上述科研资源投入变量按数据特征进行划分(见表4)。

表4 自变量划分类型

图1 不同高校类型的地区分布

4.2 回归结果与分析

4.2.1 初始结果

本研究运用无序多分类Logistic回归模型将10个科研资源投入指标作为自变量,科研质量作为响应变量,进行科研资源投入有效性分析。由于自变量指标较少,可以采用Enter法,使所有自变量参与建模。以k(k=1,2,3)为参考类型,高校为其他类型的概率与为k类型的概率比值为[24]。本研究分别以良好和优秀为参照类别,建立以下4个Logistic模型,P1、P2和P3分别表示高校科研质量一般、良好、优秀的概率,βji为回归系数。见公式(2)—(5)。

从表5初始模型拟合信息可知,该模型的-2倍对数似然值为79.647,P值小于0.05,即该模型总体上通过检验,说明Logistic模型能够用于分析与释解科研资源投入与科研质量水平的关系。此外,Cox&Snell R2为0.691,说明自变量可以解释不同科研成果质量69.1%的形成原因,该模型拟合效果较佳。

表5 初始模型拟合信息

通过表6初始模型似然比检验可知,科研项目、中科院院士和工程院院士数、硕士研究生导师数和创新团队数4个自变量的P值小于0.05,显著影响科研质量水平。P值大于0.05的自变量对科研成果质量无显著影响,应进行剔除,以优化初始模型。

表6 初始模型似然比检验

4.2.2 最终拟合模型

为形成最终的拟合结果,本研究采用偏似然估计法将国务院学科评议组成员数、长江学者特聘教授人数、科研基地、博士研究生导师数、地区分布和“杰出青年”人数变量从初始模型中进行逐一剔除。剩余变量与科研成果质量具有显著相关性,最终模型中的中科院院士与工程院院士数、硕士研究生导师数、科研项目数和创新团队数变量的相关性检验见表7。

表7 最终模型似然比检验

最终的回归结果包括4个模型(见表8)。模型一和模型二以良好类高校为对照组,模型三和模型四以优秀类高校为对照组。选取不同的对照组,回归分析结果也会有一定的差别。当exp(B)值小于1时,说明变量对此模型具有反向作用;当exp(B)值大于1时,说明变量对此模型具有正向作用。

表8 无序多分类结果分析

(1)模型一和模型二中,科研成果质量与科研队伍建设的硕士研究生导师数量显著相关,与杰出人才培养中的院士数显著相关。从exp(B)值可以看出,模型一中硕士研究生导师数和院士数变量的exp(B)值小于1,而模型二中的exp(B)值大于1,即科研队伍建设和杰出人才的培养对提高科研成果质量效果显著,具有有效性。模型一中,科研基础投入中的科研项目的P值大于0.05,无显著作用;模型二中,其P值小于0.05,具有明显的正向显著作用。简而言之,科研基础设施投入可以提高良好类高校的科研成果质量,而在一般类高校中的促进作用较弱。从体现科研合作能力的创新团队数来看,科研合作能力较强的高校达到优秀科研质量成果的概率是科研合作能力较弱高校的exp(3.48)倍,即32.66倍,可见创新能力和合作能力对于提升高校成果质量具有正向的显著作用。

(2)在模型三和模型四中,基础设施的投入、杰出人才的培养和科研合作能力均与科研成果质量有显著的关系。对于模型三,科研队伍的建设对一般类高校的科研成果质量无显著影响,可以理解为,相比于优秀类高校,一般类高校科研队伍是远远不够的,还应该注重对其他投入因素的管理。在模型四中,硕士研究生导师数变量的P值小于0.05,意味着科研队伍规模越大,人才资源培养能力越高,“一流师资”是“双一流”建设的核心要素[25]。加强科研队伍建设有利于科研成果质量的提升。模型三和模型四的科研项目变量和院士数变量的P值均小于0.05,即科研项目对提高科研成果质量效果显著。可以解释为,科研项目的申报可以锻炼科研人员的创新力和生产能力,进一步提高其科研产出的质量。

从以上分析中发现,杰出人才培养对各类高校提高科研成果质量的显著作用最大。科研队伍建设、科研合作能力和基础设施的投入可以提升良好类和优秀类高校科研成果质量,但对一般类高校的科研成果质量的促进作用相对较弱。

5 结语

本研究收集“双一流”高校的科研成果产出和资源投入的各指标,对高校科研成果质量和科研资源投入的有效性进行研究。结果显示,不同科研水平的高校数量呈金字塔形结构,高校整体科研质量水平出现明显的断层,提高一般类高校的科研质量对“双一流”高校建设和提高其整体实力至关重要。杰出人才培养、科研队伍建设、科研合作能力和基础设施的投入可促进不同类型的高校提升科研成果质量,地区经济实力对科研成果质量无显著影响。

杰出人才的能量持续叠加效应对于高校提高科研成果质量至关重要。高校应在科研管理体系中将科学研究成果数量与质量并重,对取得高质量成果的人才予以重点扶持,引导科研工作者撰写高水平的论文,可以加大对人才的引进。对于处在不同科研质量水平的高校来说,应加强合作意识,协作开展科研项目。高校应看重科研工作者的合作创新思维和能力,鼓励科研团队的建设,激发团队创造力。此外,高校应加强锻炼科研工作者的科研能力,进一步挖掘科研团队的潜力,促使其产生更具实际应用意义的科研成果。

猜你喜欢
科研成果双一流聚类
中国农机院科研成果:甘蔗和甜菜多功能收获技术与装备研发
中国科研成果震撼全球
面向WSN的聚类头选举与维护协议的研究综述
基于高斯混合聚类的阵列干涉SAR三维成像
高校“双一流”能否打破身份制
“双一流”需 从去行政化做起
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
吉林省高等教育学会第五次优秀高教科研成果评审揭晓