随着评价理念的转变,教育部办公厅相继颁布了《关于建立职业院校教学工作诊断与改进制度的通知》(以下简称“诊改通知”)[1]《关于全面推进职业院校教学工作诊断与改进制度建设的通知》等文件[2],将“诊断”作为职业院校教学质量提升的重要抓手,这是职业教育评价方式方法的重大变革。按照《现代汉语词典》的解释“评估(评价)”就是“评议估计”,而“诊断”的原始意义还是估计和判断,只不过针对特定对象采用了特定的方法和多元的诊断主体。研究发现,如果我们把一些文件中的“诊断”二字替换成“评估或评价”,会发现并没有意义上的实质性变化。这说明,从“评估”到“诊改”并非仅仅是字面之差,而是涉及更深层次的方法层面的问题,即哪些采用原来的评价方式解决不了的问题,可以通过新的评价(诊断)方式来解决,从而实现更有效的“改进”?解决好“评价(诊断)工具与方法”这个问题,是搞好教学工作诊断与改进的关键。基于“诊改”理念,本研究开发了“授权评价”作为职业院校教学诊断的试验工具,并对其实施效果进行了检验。
“授权评价”是国内学者对Empowerment Evaluation(EE)的普遍译法,该词最早由美国评价协会前任主席、斯坦福大学评价专家费特曼(D.M.Fetterman)教授在美国评价协会的年会上正式提出,其基本含义是通过综合运用质性和量化研究方法,提供工具给利益相关者进行自我决策,用来指导实施计划及开展自我评价,并将其内化为他们项目计划与管理的一部分,以利于项目成功[3]。如此,授权评价意味着组织将内部的一定职责和权限授权给员工,使他们参与工作进展与决策,并有权利决定自己的工作。值得说明的是,“授权”不仅仅局限于“授予权力(grant authority)”的简单理解,而是更加希望参与者或利益相关者能够通过被授予话语权和决策权,参与诊断工作进展与决策,并在这个过程中不断进行自身评价能力建设。
“诊断”源于医学界术语,本义是通过特定的诊断工具检查病人的病症,并有针对性地开据处方。作为一种分析和解决问题的方法,“诊断”概念已逐步向其他领域迁移,并成为新型的引领组织建构反思意识、发现问题、提高效能、促进自主发展的教育技术[4]。本文将“授权评价”作为职业教育系统化的内部质量诊断工具,指通过创设民主、透明的环境,以职业院校自我检查为出发点,由项目的利益相关者共同(“会诊”)对学校某一项目实施过程中出现的问题(“病情”)进行多维度分析,对存在问题进行确认和总结(确诊“病因”),提出解决策略(开出“处方”),从而保证教育教学质量的持续提升 (“健康”)。具体实施方式为:在评价会议主持人①的引导下,参与者展开交流与讨论,共同确定评价指标体系,在此基础上通过个人赋值、解释分数、协商讨论等方式对职业教育的现象和问题进行解释,旨在共同识别项目运行状况、尽早发现问题并能够及时调整和改进。
美国著名的评价专家古贝和林肯提出的“第四代评估”对职业院校的“自我诊断与改进”工作的开展具有重要意义。第四代评估强调协商建构、全面参与、多元价值,关注不同利益相关者的不同主张、焦虑和争议[5],该理论提示我们,在社会和教育多元发展的背景下,应充分尊重和发挥多元主体和利益相关者的作用,避免传统的管理主义倾向和“科学式”调查。在这一理念下,评价者的工作就是“诊断”和“开处方”,其任务是通过协商建构、深度访谈等具体方法,与被评价者一起探究原因、谋划对策。这就意味着管理部门的放权和授权,同时要求职业院校通过多种途径加强自我评价能力建设。“第四代”并非仅仅基于历史脉络的概念确立,更是对传统评价范式(笔者将第四代以前的评价范式称为“传统评价范式”②)的改变[6]。按照“第四代评估”理论,目前我国职业教育评价基本停留在传统评价范式阶段,它与职业院校和学习者多元化发展需求之间必然会产生矛盾。究其原因:当前线性的科学调查评价模式,无法满足现代社会的多样化价值的需求。职业院校教学诊改强调的“需求导向、自我保证,多元诊断、重在改进”,体现的正是第四代评估理念。
对教学质量诊断效果进行检验,是基于先前对各试点院校进行的授权评价活动的再评价,也称“元评价”。元评价所关注的是特定评价表现的评价[7],本文目的在于对基于授权评价开展的教学诊断活动做出判断,即关注授权评价活动各个环节的效果,用于检查并改善授权评价方案设计、评价操作、评价方法使用、评价报告撰写、评价结果运用等各个环节,以持续改进诊断效果和教育教学质量。
为尽量保证样本的代表性,研究分别选取北京、重庆和新疆、广州、河北五个地区的样本院校进行试验。研究对象的选择,主要兼顾了以下几个维度,一是按照城市区域、整体发展水平和文化差异选择地区,二是按照宏观、中观、微观三个层面选择诊断内容,三是学校层次涵盖中职、高职和研究生院(职业教育研究人员角度)。
基于目的导向(purpose-oriented)和信息导向(information-oriented),研究采取非概率性抽样方法(non-probability sampling),即根据研究目的,寻找具有某种特征的小样本群体进行研究[8]。由于参与者的参与程度与个人满足感紧密关联,随着参与者规模的扩大,受益递减原开始显现,即成员之间互动的概率会相应减少[9],因此,本研究要求每场授权评价会规模控制在8-15人。各地区学校层次、专业、参与者样本分布如表1所示。
本研究采用问卷和访谈的调查方式。问卷设计了评价目标适切性、评价方案的可行性、评价过程的合理性、评价结果的有效性四个一级指标,每个一级指标所包含的二级指标和三级指标个数不同,三个维度共同组成了评价指标编制框架。采用五等级量表的方式,从5到1表示认同的程度,数值越大认同度越高。问卷数据为有序变量,题目均值大小代表参评人员对该项指标的认同度高低。评价由各学校负责人统一组织,要求各参与者根据授权评价的实际情况填写问卷,完成后由负责人收回,发给研究者进行统计。问卷信度采用经典测验理论中的信度分析方法,检验问卷内部各项目之间的一致性程度。本研究采用SPSS统计软件包进行数据分析,信度系数为0.794,表明该问卷可以使用。
根据研究需要,选择每个被评专业的代表性人员进行访谈,并分析原因。受研究成本和时间所限,问卷采用电子填写和反馈方式,访谈采用面对面、网络和电话访谈方式进行。
1.效标设定。效标是衡量评价有效性的外在标准。根据常用的10分值计分方式,设计了不同分数段的五级量表评定法,即对三级指标进行五等级评价。“a”表示达成度非常高,分值为“9-10分”;“b”表示达成度较高,分值为“7-8 分”;“c”表示达成度一般,分值为“6分”;“d”表示达成度较低,分值为“4-5 分”;“e”表示达成度很低,分值为“0-3分”。
2.计算方法。为统计一级指标的达成度,研究引入百分位数的概念③,即按照百分位数进行等级划分,其划分点为93%、68%、50%、25%。再将四个一级指标的原始分转化为标准分,进而求平均数,即为最终标准分,将标准分对照百分位数即可知达成度等级。
由于每项一级指标所包含的二级指标和三级指标数量各不相同,需要将一级指标的达成度转化为标准分。计算方法为:对三级指标的等级进行量化赋值,评定为“a”计 4 分;“b”计 3 分;“c”计 2 分;“d”计 1 分;“e”计 0 分。
表1 诊断试验样本概况
对不同试点授权评价的一级指标进行分析比较,统计结果如图1所示。
图1 授权评价方案一级指标统计结果
从图1可见,一级指标“评价方案的可行性”标准分最高,“评价目标适切性”与“评价过程合理性”得分几乎没有差异,“评价结果的有效性”标准分最低,有效性涉及评价结果的有效利用问题,即是否将诊断结果及时、有效地用于质量改进工作。这一项分值较低,分析可能的原因是,授权评价结果的运用需要学校层面做出整体变革,而整体变革需要结构、资源重组来支持,在我国现有体制下,来自职业院校个体和组织的双重压力可能会为诊断结果的运用带来一定的困难,主要影响因素包括:
第一,个体层面因素。人们由于传统的思想和行为反应可能会对诊断结果产生抵制,主要表现在:首先,惯习因素。通常院校教师及相关人员依赖于习惯或程序化的行为,在面临学校组织变革时,需要所有教职员工解放现有的行为方式和原有心智模式,创造一种新的思维和行为模式适应环境改变,而他们的惯常反应(通常是消极思想和行为)通常会成为一种阻力来源。其次,经济因素。“诊断”工作结束后,质量“改进”环节需要相关教职员工付出较多甚至额外的时间和精力,而当工作量和激励措施挂钩时,那么工作任务或工作流程的变革可能会引发经济方面的担忧,从而影响教工工作积极性。
第二,组织层面因素。教学诊断结果的运用需要院校从多部门、多方面进行支持,如资源、人员、财物等,来自院校组织方面的阻力主要有:首先,结构惰性。学校拥有稳定性的内在机制,如工作规程和规章制度等,当质量改进工作需要某一方面的工作状态发生改变时,这种结构惰性就会充当反作用力。其次,群体惰性。当某一个体或某些个体想改变自身行为和工作方式时,如果认为其他成员没有尽到应有的职责,就可能会降低自己的努力程度。第三,有限的变革通常会被更大的系统抵消。如根据诊断结果,需要对于某门课程(或课程群)进行改革,虽然课程属于微观层面的工作范畴,但若开展实质性改革通常在单一的系、部难以完成,需要学校层面给予政策、人员、经费及管理等方面支持。而学校大系统的规制无形中很容易抵消子系统(如部门、系所等)的有限变革。第四,对专业知识的威胁。若诊断结果没有得到所有人的认可,特别是院校内部具有权威知识人士的认可,则很可能会为后续“改进”工作带来很大困难。
第三,其他因素。其他影响诊断结果有效性(即“改进”)的因素包括:首先,参与者学习力不足。学习力是个人或组织的反思力、接纳力、探究力和生成力。从某种程度上讲,教学诊断与改进的过程就是参与者之间相互并持续学习的过程。据笔者访谈可知,诊断活动的参与者通常认为评价会(诊断活动)结束后,即完成了工作任务,而对后续的质量改进工作没有参与动力和学习动力,这与参与者个体的学习愿望有关,也与缺少激励机制有关。其次,群体决策的弊端。授权评价是典型的群体决策模式,群体决策为诊断过程提供了多样性信息,但缺点是责任分散且不明确,由于对诊断结果的利用无法归因到某个具体成员身上,导致对结果的应用效果不佳,从而削弱了总体效果。
对不同地区和职业院校授权评价的总标准分的统计结果,如图2所示。
图2 各试点授权评价的总体效果
按照Stuffiebeam的元评价检核表的统计方法计算,河北、广州、北京地区三个试点的授权评价效果差异不大(见图 2),总标准分分别为 77,75,74,符合“68(68%)-92分”范围,达成度较高。总体而言,除新疆授权评价4达成效果一般以外,其他学校授权评价效果达成度均较高。
分析授权评价总体效果可知,同一地区的不同学校之间开展授权评价试验,效果呈现明显差异,如重庆地区试验1效果明显优于重庆试验2,新疆试验3效果明显优于新疆试验4。从前文研究结论可知,由于授权评价会时间仅为4个小时(前者为8个小时),以及新疆授权评价4中的参与者之间的语言障碍问题④,都成为影响授权评价效果的重要因素。
从各试点授权评价的总体效果可知,同一地区的不同学校开展授权评价试验,出现了不同的效果;不同学校层次之间开展的授权评价试验,未见明显差异;不同专业之间开展的授权评价,没有发现共性特征和规律可循。基于此,研究认为基于职业院校内部质量诊断的授权评价试验,其效果与被评院校所在地区、所评专业、院校类型与层次等关系不大,而与管理者的意识与行为、参与人员比例、参与者资质及个性特征、参与程度、会前准备程度、评价时间、语言、主持人能力、组织结构、决策机制、院校文化等方面因素关联度很高。任何一个因素的不同,都会使教学诊断活动出现不同的效果。
通过对授权评价试验效果的调查结果可知,不同院校之间的诊断效果不同,即使在同一地区也是如此。从具体分项指标看,八个授权评价试验的分项指标中,对“授权评价方案的可行性”普遍赋值较高,说明参与者非常认可授权评价的理念及操作规程。指标“评价结果的有效性”赋值最低,说明虽然诊断结果或结论得到了一致认同,但其诊断结果并未注入决策机制,即在“改进”阶段遇到困难。究其原因可知,一方面由于我国现阶段民主参与管理的意愿较低,民主的文化氛围及科学、透明的表达机制的缺失成为诊改实践的阻滞因素;另一方面,作为一项自我诊断性很强的评估工作,需要在学校内部实现自下而上的组织变革,需要建立内部多元参与的管理机制和程序化决策制度,以期为诊断结果能够反馈到工作改进过程提供保障条件。
目前,类似授权评价的诊断工具还有ERC(E-valuation of Regional Cooperation)法诊断校企合作状况,指标控制法(Quid)和学习任务诊断法(SEVALAG)等。这些起源于西方的诊断工具均采用质性与定量方法相结合的方式,具有强调评价主体的多元化和参与性、评价指标的发展性、生成性和关联性、评价结果的可视化和多维度解释,以及诊改结果追溯等特点,尽管这些工具与我国强调服从和权威的传统文化有一定冲突,但其理念已经成为质量保障领域的共识。授权评价的结果不只是一个具体结论,而是针对评价对象各指标的深入描述和分析,带有大量图形和表格解释。阅读者在此基础上不但可以从多方面了解不同院校人才培养质量,而且可以分析课程设置和实施过程以及校企合作状况,从而为教育管理和教学改革提供依据。
综上所述,要想在职业院校教学诊断与改进工作机制建设方面取得突破性进展,需要完成四个关键性任务:一、承认和接受现代社会多元价值需求对传统评价范式提出的挑战;二、学习和了解基于“第四代评估”的基本理念和原则;三、引进第四代评估范式的诊断方法和技术,并开展相关典型试验;四、打破制度性障碍,建立常态化的内部“改进”机制和激励制度,以推动诊改工作顺利进行。这几项任务的理论性和技术性要求很高,给职业教育研究和实践提出了巨大的挑战。
注释:
①授权评价的主持人是指引导参与者讨论、协商,保证评价会顺利进行的人员。主持人需要具备专业的评价理论知识以及基本的主持功底。本研究中的主持人为研究者本人以及所在研究团队人员。
②美国著名的评价专家古贝和林肯将评价历史划分为四个阶段:第一阶段是测量阶段(20世纪初—20世纪30年代);第二阶段是描述时代(20世纪30年代-50年代);第三阶段是“判断时代”(20世纪50年代-80年代);第四阶段是“建构时代”。前三个阶段的评价笔者将其称为“传统评价”。
③通过百分位数划分等级的依据是参考Stuffiebeam,D.L.在1999年编制的元评价检核表(Program Evaluations Meta Evaluation Cheeklist)中的统计方法,50%是中间值,68%是正态分布中正负l个标准差之间的范围,可以用于表示与中间值存在一定程度的显著差异,即达成度较高。93%(68%+25%)用于表示与中间值存在非常显著的差异,即达成度非常高;25%(50%-25%)表示达成度非常低。
④在新疆试验4中,有2/3的维族教师参与者,有1/3的汉族教师参与者,诊断过程中两种语言的交叉运用一方面影响了评价会进程,也从一定程度上影响了诊断效果。