张 翔 陆 嵘 丁明利 郭 琪
基于大数据的学位授权点质量信息常态化监测
张翔陆嵘丁明利郭琪
摘要:大数据由于其自身的大规模、高速度、多样化和真实性的特点,可为学位授权点质量数据的常态化监测提供坚实的技术支撑。以东华大学为例,在分析学位授权点质量信息要素和内容的基础上,探讨了以大数据为基础的学位授权点信息常态化监测模型——数据的筛选与集成、数据的挖掘与分析以及数据的反馈与利用,并分析了该模型的特点及未来发展前景。
关键词:大数据;学位授权点;质量信息;信息监测
授权点质量信息常态化监测研究”(课题编号:ShsgeY201506)
为使研究生教育更好地适应经济社会发展需要,国务院学位委员会于2014年先后发布了《关于开展博士、硕士学位授权学科和专业学位授权类别动态调整试点工作的意见》、《关于加强学位与研究生教育质量保证和监督体系建设的意见》及《关于开展学位授权点合格评估工作的通知》等一系列重要文件,提出要“构建以学位授予单位质量保证为基础,教育行政部门监管为引导,学术组织、行业部门和社会机构积极参与的内部质量保证和外部质量监督体系”,明确“学位授予单位是研究生教育质量保证的主体”,开展学位授权点合格评估,实施学位授权类别动态调整。尤其是在2014年11月召开的全国研究生教育质量工作会议暨国务院学位委员会第三十一次会议上,刘延东副总理指出:“要树立科学的质量观,解决好培养什么人、为谁培养人的问题,围绕经济社会需求优化结构,坚持质量为核心的内涵式发展,着眼提升创新与实践能力改革培养模式,把握好规模与质量、借鉴与弘扬的关系。”这标志着我国研究生教育开始进入“质量时代”。这一系列文件的发布,在提高学位授予单位自主权的同时,也向学位授予单位提出了新的要求。因此,对学位授权点(简称学位点)进行质量信息常态化监测,既是学位授予单位掌握各学位点质量的手段,更是学位点动态调整的重要依据。但是,何为学位点质量信息,它包含哪些要素和内容?现有的学位点质量信息采集存在哪些问题?我们应如何利用大数据的技术优势,对质量数据开展常态化监测是一个值得研究生教育工作者认真思考的问题。
联合国教科文组织于2007年出版的《质量保证与鉴定:基本术语和定义词典》对质量保障是如此界定的:它是一个关于评价高等教育系统、院校或是学位点质量的持续过程的宽泛概念,这里的评价包括评估、监督、保证、维持及改进等含义[1]。质量保障作为一个调节机制,其主要任务是提供依据业已建立的准则与一致协商所得出的信息和判断,并以此来聚焦和推进院校或学位点的责任和改进[2]。
而学位点质量信息是指在对学位点进行质量保障的过程中所选取的具有代表性的可以具体量化的观测点,并以此为依据对学位点办学质量进行评价。与各类评估中所涉及的评估指标体系不同,评估指标体系侧重于宏观指导,而学位点质量信息更侧重于具体的微观分析。以《学位授权点自我评估指南》中的抽评要素为例,该抽评要素分为3个一级要素和17个二级要素,对学位授权点自我评估提出了指导性意见和方向。而对应的学位授权点质量信息则应在此基础上进行细化或量化,以便进行数据的采集与跟踪。以指南中的二级要素“课程教学”为例,其内容为“本学位点开设的核心课程及主讲教师,课程教学质量和持续改进机制”。这样宽泛的标准是难以进行数据的采集跟踪的,必须进行具体的细化与量化,如分解为“核心课程、出版教材情况、获教学成果奖情况、学生满意度调查”等。从某种意义上而言,质量信息可以认为是质量评价指标体系经过细化和量化处理的最小数据单元。通过对学位点质量信息进行采集和跟踪并对趋势进行预测,可以发现学位点存在的问题并在问题的初期阶段进行改正,从而促进学位授权点的建设与发展。
以《学位授权点自我评估指南》为参考依据,学位授权点质量评价通常从“师资队伍”等14个方面展开,具体可以展开为48个质量信息观测点,这些质量信息观测点及相关数据来源的业务系统如表1所示。
通过对上述质量观测点进行数据采集、分析,便可对学位授权点的质量状况进行清晰描述和判断,从而为学位授权点进一步巩固优势、弥补不足提供依据。
高速发展的信息技术为各高校研究生教育管理带来了便利与高效率。目前,各高校研究生教育管理已初步实现了信息化管理,逐步通过数字化、信息化和网络化等手段,提高了工作效率,并积累了大量的历史数据,这为数据的分析和监测提供了可靠的数据基础。但在推进信息化建设的同时,也存在着一系列的问题:
第一,随着办学规模的不断扩大,历史数据不断积累,采集数据类型不断拓宽,涉及跨部门的数据不断增多,数据信息正以几何级的速度增加,传统的数据分析方法已经难以对如此规模的数据进行分析。
第二,各高校对数据一般是以学期为时间节点,或在面临评估或其他需要的时候才会阶段性地提取数据进行分析,缺乏历史积累,难以实现对数据的跟踪与预测。
第三,由于建设不同步及缺少统一的规划,校内各部门数据接口不统一,各模块的数据难以在各部门间流动,难以实现跨部门信息的整合与管理。
表1 学位点质量信息数据分类及来源业务系统
第四,由于各部门的信息化建设规划不统一,对于一些公共数据,如学生基本信息、教师基本信息、学术成果等,同时分布在多个系统内。又由于各系统之间数据的封闭性,使得这些信息的更新存在着不同步的情况,直接影响了数据的可靠性与有效性,统计数据之间可能存在误差,并进一步影响到基于此数据进行分析所得结论的可信度。
可见,数据规模过大、增速过快、缺乏实时监测及跟踪、数据来源过多难以跨部门流动与整合,信息分散可靠性不高等正是当前难以对质量信息数据进行监测的主要原因。而以往的常规手段也难以满足对数据进行迅速完整分析的需要,更无法对学位授权点质量信息进行实时监测,采用新的数据处理方式来处理以几何级增长的质量数据迫在眉睫。
“大数据”是近年来关于数据处理的热门领域。“大数据”是指由数量巨大、结构复杂、类型众多的数据构成的数据集合,最早是用于描述当时超级计算在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业的计算中所生成的巨大信息数据量。随着技术的不断发展,大数据已经渗透到社会各个行业,其概念也超越数据本身,延伸为通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。大数据不只意味着数据量的大,同时也意味着研究方法更倾向于利用新的多种类型的数据获取信息,并在数据的基础上进行研究与决策。大数据一般被认为具有“4Vs”的特点:大规模(Volume)、高速度(Velocity)、多样化(Variety)和真实性(Veracity)[3]。大规模是指数据数量巨大、结构复杂;高速度是指处理数据速度快,能够反映数据的最新变化;多样化是指数据类型包括多种形式,如文字、图片、视频等;真实性是指大数据能够真实反映事务的实际情况并在此基础上对其发展做出符合规律的预测。由此可见,大数据的“4Vs”特点恰好可弥补上述不足,满足学位点质量信息监测需求。
大数据的业务处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,并将结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户[4]。简单来说,大数据的业务处理流程可以抽象为数据筛选与集成、数据挖掘与分析以及数据反馈与利用等三个阶段。
1.数据筛选与集成
大规模与多样性是大数据的两个重要特点,这意味着数据的来源与类型相对传统的数据环境更加复杂,这也对各类数据的处理提出了巨大的挑战。首先必须对各类数据进行筛选,从中抽取出有效的数据,从而保证数据的有效性与真实性。筛选出的数据经过一定的算法进行关联聚合后,采用统一定义的数据结构进行存储,等待进一步分析处理。数据筛选与集成流程如图1所示。
图1 数据筛选与集成流程图
由于数据是从多个分散的系统中获取,因此数据实时更新难度较大。为在系统稳定性与数据有效性之间取得平衡,数据采集可以采用内部数据每日同步、外部数据定期导入的方式,将学位点质量信息数据定时从各分散的系统中进行抽取、集成,经过自动整理,生成结构化的存储数据,等待进行进一步的数据挖掘与分析。
学位点质量信息数据的筛选与集成不仅仅是如图1所示的线性流程。实际上,除了每日更新数据的监测,更包括了对历史的纵向监测和对同类型学位点的横向监测,存储的质量数据实际上是一个如图2所示的三维结构。三维结构的数据,使得后续数据分析除了主观的分析,也包含了客观的数据对比,从而使得对学位点进行质量跟踪和质量预警成为可能。质量数据每日更新的同时,在学期始末、年度始末等重要时间节点,对数据进行快照备份,作为学位点质量纵向比较的基础数据。校外同类型学位点的质量数据主要来源于高校、行业或第三方等发布的质量报告和公开数据,其质量数据更具可比性,通过对比分析,可发现本校学位点的努力和改进方向。
图2 质量信息数据的三维结构
2.数据挖掘与分析
数据挖掘与分析是整个大数据处理流程的核心,同时也是学位点质量信息数据常态化监测的核心,从异构数据源中筛选和集成的结构化数据构成了数据挖掘与分析的基础。由于数据规模巨大,传统的人工方式难以满足学位点质量数据常态化监测的需要,而学位点建设过程中存在的特殊情况较多,难以采用自动筛选的方式进行数据挖掘。因此,可以采用自动筛选与人工处理相结合的方式进行数据挖掘,即海量未分析数据按照预设数据挖掘模型进行初步筛选;筛选出的特殊情况交由管理人员人工处理;人工处理数据后生成新的筛选规则添加至数据挖掘模型中。具体流程如图3所示。
数据挖掘过程中的异常数据主要是指某项指标数据发生异常波动或明显异于模型中正常值水平的数据,如教师结构层次不合理、报考一志愿率下滑、盲审异议率上升等。通过自动化的数据挖掘,过滤掉正常数据,而只将异常数据提交管理人员进行分析,即可大大提高数据分析的效率,同时可避免系统对一些特殊情况进行机械处理的弊端,保证了数据分析结果的正确性和可靠性。对于人工处理完成的异常数据,可以进一步反馈到数据挖掘模型中,这种自适应、自学习的特性,可以不断完善数据挖掘模型,提高数据分析的效率与准确性。
3.数据反馈与利用
图3 数据分析与挖掘流程图
数据反馈与利用是监测模型的最终落脚点。其表现形式即是根据异常数据所发出的质量预警、利用历史数据所做出的质量预测,将可能发生的问题控制在萌芽阶段,或者优化调整学位点结构,使之向着更好的方向发展。
质量预警就是利用明显波动的异常数据,对学位点可能发生的问题进行预警。如对即将超出学习年限的学生提出预警,减少学生退学、肄业等情况的出现;对盲审异议率明显高于平均值的专业进行预警,挖掘质量下滑原因,及时采取相关措施以保证研究生培养质量等。
质量预测就是根据历史数据,对未来几年内学位授权点的质量数据进行预测。如根据教师年龄与近几年招生人数,预测未来几年内的生师比;根据用人单位反馈及近几年的就业数据预测未来的就业趋势;根据出国交流数据、学术科研数据预测近期学术成果等,为学位点的健康发展提供参考。
结构优化就是根据采集到的信息,对师资队伍进行优化。如根据教师队伍年龄、职称与学缘结构,优化指导教师结构层次,为学位点人才引进提供参考。或根据相关学位点、第三方机构发布的质量数据,与本单位学位点进行比对,发现自身不足之处,取长补短,明确本学位点的发展方向。
基于大数据的学位点信息常态化监测还处于起步阶段,如由国务院学位委员会办公室主办的“全国学位与研究生教育质量信息平台”和教育部学位与研究生教育发展中心所研究开发的“学科自检平台”,都是教育行政主管部门依托“大数据”技术对学位授权点进行质量监测的重要信息平台。同时,部分高校也积极开展探索,利用大数据技术对本单位的学位授权点进行自我监测、研究学科发展规律,是学校开展学科质量保障的有效手段及实现科学管理的重要抓手。以“东华大学研究生学位系统”为例,该系统整合了学校多个部门的原有数据,在此基础上对数据进行了整理与挖掘,并应用在学位点自我评估等多个领域,下面做一简单介绍。
1.数据筛选与集成
东华大学研究生学位系统打通了学校的研究生学籍系统、培养系统、管理系统、人事系统、科研系统、学生思政管理系统,通过建立共享数据、每日定时更新的形式,生成了结构化存储的共享数据库,并集成在校园信息门户之中。
2.数据挖掘与分析
在系统使用的过程中,不断积累数据挖掘案例,获得了一套数据挖掘和分析使用的查询命令集、存储过程和虚拟视图,从而实现了数据的“一键式”处理分析,如对论文盲审异议率出现异常波动的学位点进行预警,分析比较学位点历史质量数据等。从数据挖掘频率上来看,一般分为三种类型:①按固定时间节点进行预警和清算:如预警超期学生,统计年度学术成果发表情况等。②实时更新监测:如重复率、论文盲审异议率等。每当有新数据录入或导入时,数据自动进行更新分析。③按需监测:根据工作需要,在不固定的时间提取制定范围内的相关质量数据。
3.数据反馈与利用
经东华大学学位系统挖掘处理过的数据,主要用于以下几种用途:①挖掘数据可作为学校学位点自我评估的重要数据来源和依据;②数据用于编写当年学校年度质量报告;③与教育行政主管部门形成了无缝数据对接,如学位授予信息上报以及上海市学位论文双盲抽检等;④为学位点把握人才结构,制定人才引进策略提供参考;⑤为学籍管理提供依据:如超期学生预警、学籍异动等。
利用大数据技术对学位点质量信息开展常态化监测目前仍处于起步阶段,其数据架构设计、数据的安全性、数据挖掘模型库的补充完善以及数据分析的自动化程度还需随着实际工作的深入不断地完善和补充。
1.顶层设计要抓紧
目前大数据一般的是基于各高校现有信息化系统,涉及数据系统过多,数据接口不一致,各系统的数据难以筛选集成进行协同工作。在今后的信息化建设中,需对后续系统开发进行统一的建设规划和顶层设计。
2.数据安全需加强
当前的学位点质量信息检测数据规模不断扩大,许多数据是学校办学的关键数据或涉及学生、教职工个人隐私,因此在建设时,数据的安全性需进一步加强。
3.系统处理能力待改进
质量数据挖掘模型、预警模型尚需在实践中不断修正完善,在此基础上,系统的自动化处理能力有待进一步加强。
总之,基于大数据的学位点质量信息常态化监测已经取得了初步的成效。随着学位点合格评估工作的不断深入,相关单位监测学位点质量的历史数据不断积累,基于系统改进的预警与预测模型不断完善,数据挖掘与分析技术的不断提升,大数据必将在学位授权点质量保障中占有更加重要的地位,为学位点动态调整提供更加科学的依据。
参考文献
[1]VLÂSCEANU L,GRÜNBERG L,PÂRLEA D.Quality assurance and accreditation:a glossary of basic terms and definitions[EB/OL].(2007-06-01)[2014-09-16].http://unesdoc.unesco.org/images/0013/001346/134621e.pdf.
[2]韩映雄.国外学位点外部质量保障体系的架构及机制[J].上海教育评估研究,2013(6):32-38.
[3]祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013(10):5-13.
[4]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
(责任编辑赵清华)
基金项目:上海市研究生教育学会资助课题“基于大数据的学位
DOI:10.16750/j.adge.2016.02.007
作者简介:张翔,东华大学研究生部学位工作办公室副主任,讲师,管理科学与工程博士研究生,上海201620;陆嵘,东华大学研究生部副主任,副研究员,上海201620;丁明利,东华大学研究生部学位工作办公室主任,副研究员,上海201620。