高校科技评价的数字化转型研究

2021-07-05 10:59王泳欣吕建秋
科技管理研究 2021年10期
关键词:数据挖掘转型数字化

王泳欣,吕建秋

(1.华南农业大学,广东广州 510642;2.广东省科技管理与规划研究院,广东广州 510642)

1 研究背景

2018 年我国国务院印发《关于全面加强基础科学研究的若干意见》,明确提出要完善分类评价机制,调动高校的积极性创造性,努力创建世界一流大学。近年来,国家增加了对高校科研活动的投入,高校也不断输出科技成果,但其产出效率无法通过数据直接展示,需要利用特定的科技评价体系和方法对高校科研人员在一定研究周期内所取得的科技成果进行评定[1]。通过分析科技活动投入与产出的关系,可以得出科技创新效率,为管理者提供决策参考。

信息技术的发展引领了新一轮的科技革命,大数据和人工智能逐渐应用于各个产业的生产和服务,加快了产业的发展。随着技术的进步和产业的发展,数字化转型已是必然的选择。目前,许多企业已经开始进行数字化转型,主要是在工作流程和经营活动中融合数字化技术,利用大数据和人工智能等技术对企业所获得的数据进行分析和预测,以此提高生产效率、获得更大的经济效益。但是在数字化转型的实施过程中也面临着许多挑战,例如数据存储量问题,目前的存储设备还不足以存放巨量的数据,所以需要选择存储所有数据还是只存储目的性数据[2]。

高校的科研活动一直以来都受到来自多方面的监督。由于高校的科技投入和产出数据仍主要依靠人工进行统计,且统计口径参差不齐,对同一指标可能存在着不同的理解,所以有关数据的真实性受到质疑[3];同时,常用的评价方法对科研产出存在滞后性这一问题的考虑仍存在不足,导致评价结果出现偏差。因此,本研究通过总结高校科技评价的研究现状,梳理数字化转型的内涵和方法,分析在数字化转型背景下我国高校科技评价所面临的机遇和挑战,提出高效的数据采集和科技评价概念模型,为高校科技评价提供新的思路和方法。

2 高校科技评价研究现状

高校科技评价是高校科技管理的重要手段,要紧跟信息时代的发展潮流,抓住数字化转型的发展机遇,利用数字化技术为高校科技评价提供新方法。针对高校科技评价的研究现状,重点分析评价过程中所使用的数据、指标和方法,试图从数据收集、评价手段等方面融合数字化技术,挖掘出高校科技评价在数字化转型时期的更多机遇,为高校的高效科技管理提供更多的手段。

2.1 总体状况

一般通过分析领域内的相关文献,了解该领域的研究现状,从文献的数量体现研究的热度,从主题词的分布体现研究的方向。在中国知网的文献数据库中以“高校科技评价”作为关键词进行搜索,可以得出2001 至2020 年的文献发表量变化情况(见图1)。图1 中折线是相关论文的发表数量,虚线是相关论文发表数量的趋势线,可以明显看出趋势是不断上升的,说明近年来国内对高校科技评价的研究在不断地增加和深入。

图1 我国高校科技评价研究发文量变化趋势

分析相关文献的主题词分布得出,出现频率较密集的主题词有:高校科技创新能力;指标体系;绩效评价;数据包络分析(data envelopment analysis,DEA);因子分析等。其中,对评价指标体系研究的论文数量保持着平稳增长。本研究主要对评价方法和数据来源进行分析,从两个维度分析高校科技评价数字化转型的可行性。

2.2 评价方法

通过阅读相关文献可以了解到,学者逐渐把其他领域的方法应用于高校科技评价,相关研究方法在不断地更新和完善,如陈冠初等[4]对数据做简单的可视化分析,以直观地反映数据的变化趋势;路萍等[5]、刘伟等[6]、华恩顺等[7]分别使用层次分析、主成分分析和因子分析法等对高校科技创新力进行评估。但因为高校科技数据的多投入多产出等特性,所以目前对高校科技评价的方法主要采用数据包络分析,即DEA 模型。

DEA 模型多应用于由多个属性描述的复杂实体的排名评估,主要从技术效率或技术有效性的角度评估效率。国外对高校进行评价的方法一般是使用DEA 模型,如Yilmaz 等[8]针对土耳其26 所公立大学数据,使用DEA 模型对大学进行绩效评估,考虑组织资源和各个大学的产出是否匹配,并揭示了高校科技投入产出效率低下的主要原因;Delimiro 等[9]对32 所哥伦比亚公立大学的数据进行分析,利用CCR 模型判定技术和规模是否同时有效,计算混合效率,找到高校科技投入产出效率低下的原因并给出建议。我国越来越重视高校创新科技能力的评估,如杨瑞仙等[10]总结了国内相关研究的评价指标和方法,发现目前我国主要是以DEA 模型为主进行高校科技评价,研究内容主要是以省份维度对高校科技活动统计数据进行分析,或以高校为维度进行高校科技创新效率评价,为有关部门提供了有效的决策参考。

随着信息化的发展,具有预测能力的数据挖掘算法逐渐应用于高校科技评价与预测。在已有研究中,大部分学者利用神经网络和聚类方法对高校进行科技评价和分类,如郭俊华等[11]利用因子分析法和聚类分析法对我国高校的科技成果转化能力进行实证分析,指出其中31 个省份高校中每一类高校的优劣势;梁娜等[12]利用概率神经网络对我国高校科研能力进行评价并提出对策建议。

综上,目前高校科技评价的研究方法主要是利用DEA 模型进行评价分析,通过数据挖掘技术进行分类预测。DEA 模型的使用可以满足高校科技数据多投入与多产出的特性,比因子分析和层次分析等传统的分析方法更具有优势,但是缺乏预测能力;而数据挖掘技术能根据历史数据进行数据预测,但是在处理多投入多产出数据方面具有一定难度。因此,综合上述二者的优劣势,DEA 模型与数据挖掘算法的结合使用能有效地进行互补,但是这一结合算法目前较少得到应用,所以需要对该方法在高校科技评价的应用进行不断地探索和研究。

2.3 数据来源

教育部发布的《高等学校科技活动统计资料汇编》(以下简称《汇编》)和《中国科技统计年鉴》所记录的数据是由政府相关部门统计数据所得,其中《汇编》统计并记录了高校科技投入和科技产出情况,能够较全面反映高校科技活动总体情况,学者大多使用这些具有代表性的数据进行高校科技评价。

除统一记录的数据外,部分研究使用的数据是通过调研和专家评分所得,包括科研队伍、科研基地、科技载体、科研管理能力、科学决策能力等,该类数据主要是为了完善《汇编》等统计数据中没有记录的数据,以更好地进行高校科技评价。

随着高校科技评价方法不断增多,对数据的准确性和完整性有了更高的要求。目前大部分研究中使用的是官方统计数据,因为相比较调研所得数据,官方统计数据更具有说服力。但是我国高校科技相关数据统计仍存在着不足,主要表现为高校科技统计无法适应科技的发展、基层统计的质量难以控制、人工进行科技统计耗时长等,这些问题都会随着数字化转型时代的到来得到解决。

3 数字化转型的内涵

数字化转型的目的主要是应对产业发展的不确定性、生产过程的复杂性、产业协作的多维性、市场需求的多样化,为此,需要了解数字化转型的内涵,包括其定义和转型方式。

3.1 数字化转型的定义

Minhw 等[13]通过头脑风暴方法把第四次工业革命定义为信息技术在一二三产业中的扩散,即开展数字化转型,以数据为核心,把先进的数字化技术和基于智能的平台进行深度融合,形成以数字技术为核心要素、开放平台为基础支撑、数据驱动为典型特征的组织形态。目前产业发展的规律性在不断减弱,越来越多的不确定性因素出现,同时因为需求的不同,生产过程也在不断地创新。进行数字化转型,有利于更精确地获取需求,把握产业发展的规律性,让协作的各方准确获得所需信息,提高生产效率,实现共同获益。

3.2 数字化转型的方式

数字化转型的方式主要是通过互联网、大数据、人工智能等技术实现产业链的数字化、资源配置的全局优化、产业创新的开放化、生产制造的智能化和组织管理的扁平化。数字化技术是数字化转型的关键,但值得注意的一点,数字化技术只是其中一个关键方面,成功的数字化转型需要卓越的领导力、支持性的文化和新的业务流程,应促进和培养以数据为基础的文化。

数字信息既能解决问题,又能创造新问题。目前我国的数字化转型主要体现在企业,企业在数字化工厂的基础上,利用物联网技术加强信息管理和服务,即时采集数据、编排生产计划,把流程和业务转变为信息化模型,实现从生产到销售的全链数字化,获取更多的数据以发掘更多潜在的规律,以提高生产效益,并更好地进行风险预警[14]。在高校科技管理方面成功的数字化转型例子还没有发现,但是已有高校准备开展数字化转型工作。高校科技管理的数字化转型是一项复杂的任务,其难题在于高校科技管理的特殊性,其中就包括高校科技活动数据的复杂性。数字化技术的发展能够简化高校科技评价中繁琐的工作流程,运用更多的数据挖掘技术挖掘出更多知识,为高校科技评价的研究带来了新的机遇。

4 高校科技评价的新机遇

互联网时代,政府采取信息化管理是必然趋势,在科技管理方面也需要进行数字化转型。高校科技管理的数字化转型就是利用数字化技术代替人工统计科技数据,从工作流程到管理模式都进行数字化管理,利用互联网、大数据等技术提高管理效率。高校的主要职能是科学研究和科技服务,科技产出的时间较长、数据量不大,所以高校科技管理进行数字化转型的方式与企业有较大的差异。随着互联网、人工智能等技术的不断发展,虽然高校并不像企业那样实现全产业链数字化,但数字化转型也为高校的科技评价工作带来了新的机遇,如利用数字化手段可以更好地进行数据采集,保证数据的有效性,也可以为高校科技评价提供新的思路及方法。

4.1 数据采集

随着高校信息化的发展,许多高校建立并运行着不同的数据库系统,而科技管理系统的数据来源较多,需要对数据进行整合并通过手工录入和统计,但采用这种方式较容易出错,所以需要通过大数据技术对数据收集形式进行规范化,以此获得科技管理所需的数据,有效地进行科技管理。本研究提出一个高校科技管理系统数据采集模型(以下简称“数据采集模型”,见图2),主要步骤如下:

图2 高校科技管理系统的数据采集模型

(1)基于数据源的多样化,利用数据仓库技术ETL(extract-transform-load)进行数据的采集、转换和加载,并存储到数字仓库;

(2)结合数据挖掘等工具进行数据分析,获取所需的报表及更多有利于决策的信息;

(3)高校科技管理系统获得数据仓库数据,通过数据挖掘分析得到的结果,最终可以通过高校科技管理系统进行科技管理决策,有效地提高管理效率。

目前我国高校科技活动数据的统计工作,主要是省(区、市)政府部门收集本地高校有关数据再进行汇总,而高校自身也要收集内部各个部门及单位的数据进行汇总,在各个环节中都可能出现数据输入错误或者数据存在人工干扰等问题,所以有必要利用信息化技术进行数据采集形式的规范化,实现数字化转型,提高管理决策效率。而数据采集模型,不管是以单一所高校为对象还是以所有高校为对象,都能适用。对单一所高校进行数据采集,则图2 中数据源为该所高校的相关管理系统,所采集数据经处理后存入到该校的科技管理系统;在此基础上,可以通过数据采集模型获得不同高校的数据,然后利用数据挖掘技术等手段从相关数据中获得有效的信息。利用数据采集模型进行数据的采集,可以避免人工干扰,提高了数据采集的效率和准确率。

4.2 评价方法

随着计算机技术的不断发展,高校科技评价的方法也在不断创新。高校科技数据主要有两个特性:第一,多投入多产出的关系,因为高校的投入维度较多,如人员、经费等,产出也分为专利和论文等维度,所以不能直接看出高校科技投入与产出的关系;第二,数据的时滞性,高校科技数据一般是1年统计1 次的年度数据,而论文和专利等科研成果大都需要2 年~3 年时间才会发表和授权,所以还要考虑科技产出可能有时滞性,不能仅用1 年的数据说明高校的科技创新能力。

目前,DEA 模型和数据挖掘算法这两个工具在高校科技评价中已广泛使用,但是在使用过程中发现这些评价方法仍然不够全面:DEA 模型一般只对1 年的数据进行计算以获得高校科技创新能力,没有考虑数据的时滞性,同时也不能预测高校未来的科技投入产出效率;而数据挖掘算法一般采取监督学习算法,但是因为高校科技数据的多投入多产出这一特性,其产出不能作为目标值,所以一般也只能采取无监督学习算法,或者参考其他评价结果进行模型的训练,受到标签值选择的影响。本研究的基本思路是对现有的评价方法进行优势互补,针对DEA 模型和数据挖掘算法特点进行集成,得到模型1 和模型2(见图3)。

图3 高校科技评价的DEA 与数据挖掘集成算法模型

其中,模型1 主要是利用DEA 模型计算效率值,然后用该效率值作为监督学习的目标值,利用数据挖掘算法构建评价模型,一般是分类和回归预测。如Yang 等[15]从专业申请破产的公司SIC (Standard Industrial Classification)所收集到的数据中选择近3年的非制造企业进行分析,利用DEA 模型对其产出(流动资产、正留存收益、正营业收入、正账面权益价值、股东人数)和投入(流动负债、负留存收益、负营业收入、负账面权益价值、公司员工人数)的历史数据进行计算,然后使用DEA 分数作为SVM的唯一输入对企业预测其失败的可能性,具有较好效果。模型2 是利用数据挖掘技术进行连续值的预测,通过历史数据获得每一个变量的未来预测值,然后把所有变量的未来预测值输入到DEA 模型计算其未来效率值。如Wang 等[16]以15 家健身用品制造商为研究对象,利用灰色预测模型预测资产、净值、声誉、税后收入、净收入5 个指标的变量值,然后利用Pearson 检验调整输入输出变量,最后利用DEA 模型进行效率评估,获得未来效率并进行评价。目前,这两个模型较少在高校科技评价中应用,但是Zhang 等[17]运用集成模型预测了我国科技创新活动的未来效率,其主要思路是根据1979—2017 年我国科技创新活动的2 个投入、2 个产出指标数据建立了基于模糊信息粒度的IG-SVM 模型,预测了这4个变量下一年的平均值和最大值,最后通过DEA 模型计算得出我国科技创新活动的效率值。由此可以看出,DEA 与数据挖掘的集成算法能够应用到科技评价中,但是因为高校科技数据具有多维度,所以需要筛选最适合的数据挖掘算法与DEA 模型结合并同时满足高校科技数据的两个特性,为高校科技评价提供新的评价思路和方法。

总的来说,高校科技管理的数字化转型是必然趋势,高校要利用好数字化技术,实现数据采集的智能化,并提高评价方法的准确性,提高科技管理效率。虽然数字化转型给高校科技评价的发展带来了新的机遇,但是科技数据的复杂性和高校科技管理的特殊性也给高校科技评价的数字化转型带来了一定的挑战。

5 高校科技评价数字化转型面临的挑战

数字化转型为高校科技评价带来了新的机遇,通过数字化手段能够减少人工对数据的干扰,并且能够提供更多的评价方法,但是高校科技活动数据结构和来源的不同给数据的采集和应用带来了挑战。

5.1 数据的多样性和有效性

(1)数据结构的多样性。高校科技活动数据的统计一般是对结构化数据汇总成表格形式,然后进行高校科技评价。在人工统计数据时期,是有目的性地去获取所需数据,所以数据存储量较少;但是在数字化转型时期,使用互联网等技术代替人工统计进行数据收集时,会有较多的数据被收集并存储,其中就包含着非结构化数据,如对一个数字进行说明的文字和图片等,这些数据都必须被收集以说明数据的有效性,此外还有部分数据需要在非结构化数据中进行提取,这是实现高校科技评价数字化转型最主要的挑战之一。

(2)数据源的多样性。高校科技活动数据最大的一个特点是数据来自不同的部门或者不同的管理系统,在数据采集过程中需要对高校内部多个系统的数据整合到一个输入数据中,而论文和获奖等科技产出的数据需要借助外部系统端口进行获取,所以数据源的多样性也给高校科技活动数据采集带来挑战。

5.2 数据的相关性与因果性

高校科技活动数据是多维度的,比如投入的维度有研发经费数、研究人员数、科技推广人员数等,产出维度有论文数、专利数、成果转化收入等,其中的数据都可能具有相关性,如研究人员数与论文数呈正相关,但是不能直接体现为研究人员数量增多则论文数量就增多,因为还有科研项目数等因素也可能对论文的数量产生影响,所以不能把相关性认为是因果性。高校科技数据多投入多产出的特点造成对其因果性难以进行分析,这给数据处理和分析带来了很大的挑战。

5.3 模型的重要性

高校科技评价中,工具的选择具有较大的决定性作用。数据挖掘的过程其实就是从一堆杂乱无章的数据中挖掘出有价值的信息,首先要定出一个目标值,然后各种算法就会不断地优化模型,让结果越来越接近真实的情况。同一个模型在不同的应用场景下性能也大不相同,而模型的性能也与数据的形式和性质有关,高校科技评价所使用的模型一般是DEA 模型和数据挖掘算法,如何更好地结合两种算法的优势是未来的研究方向,同时传统的方法进行一定的改进后,有可能比新的方法更适合用于高校科技评价。鉴于高校科技活动数据的特性,需要不断地进行试验以找到适合的模型用于评价,所以寻找更优的算法一直是研究者探索破解的难题。

5.4 数据的安全性

利用数据仓库对高校科技活动数据进行存储和分析,有利于政府部门汇总高校的科技成果,但是也存在一定的安全隐患。虽然目前高校科技成果相关数据是对外公开的,但是在利用数据仓库进行数据采集的时候,部分需要保密的信息也会被采集并存储,这部分不能公开的信息有可能被泄露,并且很多分析涉及到研究人员个人信息问题,所以,对于高校科技活动数据这种半公开的数据,在高校科技评价数字化转型过程中存在一定的安全隐患,如何保证数据的安全性是一大挑战。

综上,高校科技评价面临的挑战并不是独立的,而是相辅相成、互相影响的,高校科技数据的多样性和安全性决定了数据的复杂相关性,因此寻找适合的模型十分重要。

6 结论与展望

本研究对高校科技评价所使用的数据和研究方法进行了分析和总结,得出目前高校科技评价所使用的方法主要是DEA 模型,且数据挖掘算法也逐渐应用于高校科技评价模型的构建;同时,对数字化转型的内涵进行解读,了解数字化转型的定义和实现数字化转型的方式,然后基于数字化转型在其他领域的应用,提出高校科技数据采集模型和高校科技评价概念模型;最后,对高校科技评价数字化转型所面临的挑战进行分析,得出目前的挑战主要是数据的多样性和安全性以及模型选择的重要性。

研究表明,高校科技评价的数字化转型是可行的,高校需要抓住现有的技术和条件,把握住机遇,为科技评价提供新的思路和新的方法。虽然高校科技评价数字化转型存在着一定的挑战,但是随着科技的不断发展,可以不断排除困难,寻找到更多适用的方法用于高校科技评价,以达到评价全面性和准确性的目标。

猜你喜欢
数据挖掘转型数字化
改进支持向量机在特征数据挖掘中的智能应用
人口转型为何在加速 精读
转型发展开新局 乘风破浪向未来
家纺业亟待数字化赋能
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
航天器在轨管理模式转型与实践
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索