多维数据融合的研究生培养质量研究

2020-11-25 05:38
科教导刊·电子版 2020年29期
关键词:毕业论文权值研究生

(浙江工商大学信息化办公室 浙江·杭州 310018)

0 引言

硕士研究生报名连续五年持续上涨且增幅惊人,自2018年考研人数首次突破200万之后,2020考研报考人数更是达到了341万。研究生是教育链的最高端,培养的是高科技人才,是技术的创新者、开拓者,是国家的技术栋梁,研究生培养质量关系到国家长远的发展。因此,形成一套有效的研究生培养质量监控体系是保证研究生培养质量的重要基础。

目前,研究生培养质量监控体系从时间维度上讲政策措施的事后总结比较多,建模预测的比较少。研究范围上,有些是效仿国外,提出改进措施政策。有些分析国内高校的研究生数据。虽然研究范围不同,但是大家都有个共同的认识,就是要严出。2019年2月26日教育部办公厅发布《关于进一步规范和加强研究生培养管理的通知》,狠抓学位论文和学位授予管理。在这样的大背景下,本文通过融合实验室门禁次数、课程修学及成绩、图书借阅、入学成绩、专业、学院、人均导师数、是否调剂、总成绩、复试成绩、培养方向、学位类型等多维数据,预测研究生学位论文的质量。

1 模型选择

监控的指标选取原则主要指标的粒度和范围。

一指标的粒度:因为本文研究的样本主体是研究生个人,监控指标尽可能的细,比如人均导师数,有的研究是选择一个学校的人均导师数,本篇文章选取的该学生导师名下的学生人数。二监控指标的范围尽可能多,包括从入校到毕业整个过程比如初试成绩、课程修学及成绩、图书借阅、专业等,后面可以通过算法筛选。

对比了多种算法,类神经网络算法比较符合这一特点。神经网络思想是把大量的个体作为训练样本,然后生成一个可以通过训练样本学习的系统。换句话说,神经网络使用样本自动地推断出变量与目标之间的规则。另外,神经网络算法通过增加训练样本的数量,可以学到更多,并且更加准确。根据建模效果,选择了神经网络反向传播算法。

2 神经网络反向传播

基于以上的准备工作,为了使预测结果更加准确,选择样本数尽可能多,结合研究生院实际的信息化建设情况,本文选用近三年毕业的研究生7000多人作为研究样本,使用spss18.0进行建模分析。

对样本进行处理,最关键是监测目标的处理。对毕业论文质量进行分类,毕业论文主要包含两部分,论文成绩和答辩情况。论文成绩由多位老师分别评阅,审查角度等因素影响评定论文成绩有所不同。答辩是综合各老师的意见给定的结果。所以一开始分类的时候,分成答辩一次性通过和多次通过两类。但是发现预测率不高,再进行优化细分把论文成绩这一因素考虑进去。最终毕业论文质量分为A、B、C、D四类,以此表示优秀、中上、中下、下。A是论文评分优秀或良好且答辩一次通过,B是除去A类之外答辩一次通过的论文,C存在二次答辩通过的情况,D存在多次答辩或延期答辩的情况。

该算法里激活函数对预测结果有较大的影响,它能够实现线性模型到非线性的变换,反应变量间内在复杂深层次的关系。隐藏层的激活函数选择tanh函数,值输出在-1~1,是以0为中心的,并且在0附近的梯度大,模型收敛快。输出层的激活函数选择softmax函数,归一化后和为1,最后的输出是每个分类被取到的概率,本文即预测该学生某类论文质量的概率。

图1:算法流程图

最终确定的神经网络结构为三层,分别为输入层、隐藏层和输出层。输入层包含12个节点,分别是实验室门禁次数、课程修学及成绩、图书借阅、入学成绩、专业、学院、人均导师数、是否调剂、总成绩、复试成绩、培养方向、学位类型。隐藏层5个节点,隐藏层是神经网络算法为了更好的计算输入层和输出层之间的复杂关系而出现的中间层。输出层4个节点,就是要预测的指标,即论文的质量为ABCD四类。

2.1 算法过程

神经网络反向传播主要包括正向和反向两个过程,通过使误差函数最小,不断调整连接权值,直到无法进一步降低误差,神经网络模型训练完成。具体的算法流程如图1所示。

首先输入某个样本,初始化网络权值,计算处理每层的加法器和激活函数值,推导隐藏层到输出层之间的算法过程。输出层与隐层之间的网络权值调整完成之后,依次逐层进行,通过同样方法调整隐层与输入层之间的权值。随着神经网络训练中样本的输入,这种正向过程和反向过程将不断重复,以实现预测值越来越接近真实值。

3 实验结果与分析

通过神经网络反向传播算法预测毕业论文质量结果如表1所示。

表1:毕业论文质量预测结果

建模时为了提高模型的准确性,划分为四类。实际运用中可以把预测结果简化为两类,A和B划分一类作为论文质量较高,C和D划分一类论文质量较差。真实值A,预测为AB类的概率为96.7%;真实值 B,预测为 AB类的概率为92.3%;真实值C,预测为CD类的概率为84.9%;真实值D预测为CD类的概率为82.8%。预测率按照论文优秀程度递减。

专业的影响程度,因为专业本身水平不同,对论文的影响也会不同,为了便于分析,列出下面5个相同水平的专业进行比较,分别为环境科学工程、设计学、信息与通信工程、计算机科学与技术、马克思主义理论。如图2所示:

图2:同等学科水平里不同专业权值比较

前面三个专业权值相差不大,后面两个相差比较大,特别是A类论文。计算机科学与技术对A类论文权值是负,对其他类论文权值是正。马克思主义理论专业正好相反。调查发现这和专业风气有关。计算机科学与技术专业很多学生在读研期间都去公司实习兼职,相对马克思主义理论专业的学生来说在论文上面花费的精力和时间较少。

学院权值是各个专业权值的综合,学院内部各专业水平不同,报考时录取分数不同。我们对学院各专业比较,发现录取分数高的专业,论文质量显著偏高。这与前面的入学成绩权值存在一定的关联。

4 结束语

本文选用神经网络算法,构建了一种预测论文质量的模型。可以通过模型预测的结果,加上个体因素的分析,找出疑似论文质量欠佳的学生和因素。调查反馈结合影响因素的归纳,影响论文质量主要包含三个方面:主观能动性,自身基础以及外界的影响。未来更多的行为特征将被纳入数字化,有关的因素可以加入到模型中,使预测结果更加精准。从研究生个体来讲,需要提高自身能动性与本身水平。从学校来讲要提高学校声誉与学科水平,及加强学校软硬件水平,吸引优秀生源报考。

猜你喜欢
毕业论文权值研究生
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
基于权值动量的RBM加速学习算法研究
论研究生创新人才的培养
清退超时研究生是必要之举
本科毕业论文:取消还是改革
研究生“逃课”需标本兼治
幸福院里出了个研究生