□黄方慧 赵志群
随着新职业教育法的颁布实施,职业教育进入了提质增效的新发展阶段,科学、有效且可行的学业评价,对职业教育质量保障体系建设具有重要的意义。《深化新时代教育评价改革总体方案》明确提出建立“富有时代特征、彰显中国特色、体现世界水平”的教育评价体系,这对职业教育学业评价提出了具体的高质量要求。
学业评价是以教育教学目标为依据,运用恰当、有效的工具,系统收集学生在学习过程中认知行为变化的信息和证据,根据一定标准对学生的知识、技能和能力水平做出客观衡量和科学判定的过程。近年来,我国职业教育在两大领域对学业评价方法进行了深入探索实践,一是建立“职教高考”制度,通过多种形式的“文化素质+职业技能”考试进行高等职业院校生源选拔;二是“1+X”技能等级证书试点,通过职业技能等级水平评价,对反映学生职业活动和个人职业生涯发展所需要的综合能力进行评定和认证。
与普通教育相比,职业教育学业评价更为复杂,它既要迎合劳动力市场的功利性需求,又要实现促进学生生涯发展的教育性目的,这在评价技术上面临着很多挑战。例如,通过对现场操作进行观察和评分的传统技能测试方法具有很多局限,特别是在对心智技能要求较高的专业领域。而且,如果开展大规模技能测试,要达到较高的信效度,测试费用会高到令人无法接受的地步。由于职业教育专业种类繁多、专业间差别巨大和职业技能本身的特点(如隐性知识和能力),实施统一的大规模技能测试既不科学也不现实[1],因此我们必须对各种技能考试进行深入分析和整体化设计。只有厘清不同类型职业技能评价方法的内部规律和差异性,才能够确保技能评价的科学性、有效性和可行性,保证技能评价结果的可信度,这也是保证X 证书质量和实现“职教高考”公正公平的基础。
本文针对不同类型职业的技能评价方式,以五个X 技能等级证书评价为例,研究不同技能评价方法的特征和差异,为科学的技能评价方法开发提供基础。
本文“职业技能评价”指对职业技能的“测试”或“测量”,即社会组织根据特定职业(或岗位)的资格和(或)能力要求,采用一定工具对特定人群进行的测量、描述和评价。采用质性研究范式,首先,通过文本分析对不同职业的技能评价方法的资料(如评价实施方案、评分说明、考场说明、评分表、试题等公开文件)进行编码和分析。其次,采用非参与式观察法收集技能评价实施过程的信息资料(如考生答题过程和状态、评分者评分过程和状态)。技能评价一般在封闭环境中进行,为不打扰所观察的场域,研究者充当场景中一个实际角色,如巡考员,在观察场域或其边缘进行观察。再次,通过访谈对所收集的资料进行佐证和补充,调查技能评价利益相关者(设计者、考生、教师兼评分者)对技能评价的看法,为技能评价方法的分析提供证据。
采用目的性抽样原则,以教育部X 职业技能等级证书采用的技能评价方法为研究对象,根据所属职业类别不同和评价组织参与意愿,选取五个证书采用的技能评价方法作为研究对象,分为G 和Z(以技术为服务对象的服务类职业①)、S(以人为服务对象的服务类职业)、J 和D(技术类职业)。五种证书技能评价方法中既有理论考试和实操考试相结合的、也有理实一体化计算机辅助评价,代表我国当前典型的技能评价方式。通过“职业技能等级证书信息管理服务平台”和评价组织搭建的网络平台,收集不同评价方法的信息资料,考题等保密资料由评价组织提供。对五种技能评价方法的31 位利益相关者进行访谈,其中设计者4 位、教师11 位、考生16 位,访谈录音总计15 小时9 分钟44 秒,对音频资料进行转录和编码,转录文字217797 字。采用非参与式观察法对五个技能评价实施过程进行实地观察,每个考试观察时间不少于6 个小时,总观察时间46 小时。
结合收集的资料和数据,对五种技能评价方法进行分析,发现不同职业领域的技能评价方法的特点和差异,主要体现在:
工业社会学家米克勒(O.Mickler)曾将技术技能工作分为“基本”(primary)和“次级”(secondary)两个领域[2]。“基本”工作是指生产性职业从事的工作,如加工、生产和组装等;“次级”工作针对以技术为服务对象的服务类职业,如从事维修、保养和运维等复杂工作。布拉特(M.Brater)将“基本”和“次级”职业领域的行动分为“目的理性行动”和“设计与对话行动”[3]。由于职业的特殊性,不同职业完成工作任务的行动过程也呈现出“目的理性行动”和“设计与对话行动”两种类型。
1.目的理性行动。目的理性行动的特点是,一旦任务目标确定,就明确了行动步骤,行动可设计空间很小,如生产、制造等技术类职业。本研究中J(机器人应用类职业)和D(加工制造类职业)证书的工作采用目的理性行动,目标确定后行动过程就基本确定,设计的工作过程与实际行动过程能够保持较大的一致性。这类职业的计划制定在一定程度上反映了计划的实施能力。
调查发现,J 和D 考试对工作过程中随机应变能力、解决方案调整与设计能力的考查关注不多。如参加J 考试的个别考生在备考室就已初步完成了主程序的编程,考生表示“流程都大同小异,主程序我都编好了,到时候只要在子程序里面抓取那几个都对一下点就可以了”。对D 考试现场观察发现,不同考生完成任务只有顺序差异,工作过程大体一致,如有的考生工作顺序是装刀、对刀、建模、编程、加工;有的考生工作顺序是建模、编程、再装刀、对刀、加工。考生表示“做的顺序不同,只是个人习惯不同而已,有些同学一边编程还一边加工,有些是全部编完再加工,这都无所谓的”。
按照以上考试方案,只要实施方案确定,工作过程中的变化及影响因素对于任务结果而言并不重要,即能够影响考生在工作过程中改变问题解决方案的因素较少,考生只需按照提前设计好的任务解决方案和工作过程实施即可。目的理性行动特征的工作受实施过程因素影响较少,但忽略对方案设计或实施过程的评价,是需要注意的问题。因为仅仅通过完成任务结果的评价考核,是否可以全面反映考生的职业技能水平,如何保证方案设计的合理性或实施过程符合相关企业/行业的要求(如规范性和安全性),保证考生具备基本的职业认知能力,这些都是不可忽视的。
2.设计与对话行动。设计与对话行动类型工作的特点是具有开放性目标,只能在一定程度上制定行动计划,具体步骤只有在具体工作过程中才能被确定,像服务类的汽车维修、营销等职业,在故障诊断过程中可能会发现其他问题,在营销服务中顾客会突然提出其他问题和要求。虽然在开始故障诊断和销售服务前,工作人员会有一个大概、预期的工作过程,但由于问题不确定和人的易变性,很难完全预期实际工作过程。
G、Z 和S 属于设计与对话行动类型。G(电站运维类职业)考试重视完成真实工作任务的过程,如测量、排除故障过程,关注考生发现不可预测问题的处理和设计能力。G 的设计者表示考试设置了很多故障,考生没办法预知故障,需要在排查故障过程中不断调整和设计方案。Z(汽车运维类职业)和S(营销服务类职业)考试的设计者关注考生在工作中处理未知问题的设计能力,如车辆问诊与故障分析,考生只有在车辆问诊过程中才能进一步确定故障,进而设计故障诊断计划并实施。工作计划不是事先确定,而是随着故障的显现越来越清晰,这需要考生有较强的调整和修改解决方案的能力。特别是以人为服务对象的服务类职业,由于人的易变性和不可确定性强,对工作人员随机应变能力和解决方案的设计能力要求会更高,因此S 考试设计了语音交互题。语音交互题智能程度并不高,但可把不确定的情境真实展现在考生面前,需要考生根据客户需求的变化及时调整和设计解决方案。
综上所述,五种技能评价方法设计都考虑了职业行动特点,G、Z 和S 考试强调考生在完成工作任务过程中随时调整和修改解决方案以及过程设计能力,S 考试在这方面要求更高;但D 和J 考试没有涉及考生这方面的能力。这印证了布拉特的理念,即从事“次级”职业的人更需要独创性,他要“在情境中寻找机会、想点子、找出路。这里重要的不是忠实执行原有计划,而是要有独创性的工作”[3]。因此,在设计考试时要考虑不同职业的行动特点,特别是对开放性和独创性要求较高的设计与对话行动特点的职业(如护士、工艺美术等)要关注工作过程评价、预留设计空间。对于目的理性行动特点的职业,虽然影响工作过程的因素很少,但不可忽略对工作过程或方案设计的评价,特别要关注工作过程规范性、安全性及方案设计合理性等方面的考查。
试题(评价任务)是职业技能评价的有效载体,其质量直接影响评价目标的实现。专家智能研究结果表明,对能力的直接评价是不可能的,只有在具体情境或工作行动中才能实现对能力的间接评价[4]。对职业技能的评价,特别是高级别技能的评价,需要在具体的任务情境中开展,即试题要具有情境性。对五个证书评价方法实操考试试题分析发现,存在两种试题,即去情境化试题和情境性试题。情境性试题来源于企业工作实践的现实问题,是职业的典型工作任务,反映相应级别技能等级标准的要求,考查学生的实践性知识。情境性试题的任务解决方案是开放性的,即考生采用多种方式完成任务(考题),去情境化试题则相反。分析发现,G、Z 和S 考试采用情境性试题,J 和D 考试采用去情境化试题。
G(电站运维类职业)实操考试试题由五个工作任务组成,按照工作过程进行任务排序,上一个任务是下一个任务的基础。工作任务具有一定开放性和情境性。访谈中教师GT1 表示“按照生产的角度设计的,是有情境的,与企业真实工作任务相似”。Z(汽车运维类职业)和S(营销服务类职业)考试通过虚拟仿真呈现一个虚拟情境,但工作过程的每个环节被拆分为客观化和量化考题,通过固化流程(虚拟人物每一步做什么,都通过导航确定)消除了工作过程的开放性,无形中破坏了工作任务情境的完整性,成为一个个零碎的技能点和知识点。这说明,简单任务分解式计算机虚拟仿真测试设计并不适用于对开放性要求较高的服务类职业的技能评价。
J(机器人应用类职业)试题由两个模块组成,每个模块细分为不同子任务。每个子任务均为去情境化的技能操作点,不是完整的工作过程,是为考查考生技能而设计的独立、封闭性任务。访谈中教师JT1 表示考题与企业工作任务不太一样。J 考试设计者表示任务是基于企业任务,按照职业院校教学要求进行教学化处理。但在教学化处理中,设计者去除了企业工作情境和工作过程,剩下可教、可考、可量化的知识点和操作技能点,成为缺失工作过程、与情境无关的操作任务,与企业真实工作要求差距较远。D(加工制造类职业)考试采用“典型工件”作为试题,要求考生按照图纸要求加工零件,完全是技术操作封闭性工作任务,是去情境化试题。D 的设计者表示任务来自企业,在企业基础上加入教育元素。但从企业工作实际看,D 的考题只是完整工作过程的一个环节,即实施环节。完整工作过程通常包括获取信息、制定计划、作出决策、实施、检测和评价六个行动环节,缺失任何一个环节都会造成学生能力结构的缺陷。
评分标准是评分或判断的依据,是考生最佳表现的体现,具体化表现为评价量规。评价量规有核查表、分值量规、分析性量规和整体性量规四种类型。技能评价量规用来判断工作表现和任务完成情况。研究发现,X 技能等级评价的评分标准设计与技能等级标准密切相关。注重综合职业能力获得的等级标准,其评分标准不是简单的对错之分,而是对工作结果和完成任务过程质量的整体评价,主要采用分析性量规和整体性量规。例如G(电站运维类职业)采用整体性量规和分值量规相结合方式,不仅对完成任务过程的整体情况进行评价,也对工作结果进行评价。
只关注知识点和技能点获得的技能等级标准,偏向采用核查表和分值量规,其评分标准是对知识点和技能点对错的考核。本研究中,J、D、Z 和S 均采用核查表或分值量规,关注技能点,注重结果评价,忽略对工作过程的评价。例如J 的评分项“调压过滤器旁边的手滑阀处于打开状态”,评分员要对行为结果进行“是或否”判断;D 的评分表是对加工工件尺寸精度的评价,采用分值量规,如对重要面尺寸、精度的评价内容“Φ8”,每超差0.02 扣1 分。Z 和S 考试是由计算机根据设计者提前设计好的交互点、触发点自动评分,交互点/触发点是事先确定了的标准答案或逻辑评分点。此类评分标准是对结果“对与错”的判断。
出于知识产权保护,评价组织未向研究者提供计算机评分的标准和逻辑。但从Z 和S 的考核方案可获知,评分采取“答题正确得分,错误不得分”“系统自动抓取触发点、触发痕迹,错误按百分比扣除相应分数”。可以看出,Z 和S 采用核查表和分值量规进行评分。核查表是根据行为发生先后顺序,对可观察的行为或技能,根据简短、明确的行为或技能描述语句所列出行为或技能标准进行是与否的判断[5]。分值量规是在核查表的基础上,给每一项特征赋予分值,只有完全表现出来才能给分。很多专业行为没有有无或对错之分,而是程度或水平高低之分,因此,仅凭核查表/分值量规很难客观评价考生的技能水平。
五个技能评价方法中既有强调结果导向评价,也有结果导向与过程性评价相结合。由于过程性评价难度大,耗费大量人力物力,目前大部分技能评价偏向于采用结果评价。
本研究中的D、J、Z 和S 都是对操作结果进行核对和评价,不关注获得结果的过程。虽然D 采用结果评价(占总分的90%)+过程评价(占总分的10%)相结合方式,但过程性评价只关注安全文明生产,而且只有在出现重大安全事故和违规操作时才会扣分。现场观察发现,加工过程不是D 的评价内容,考生完成任务(如工艺设计、程序编写等)的过程性资料都被要求清空。在访谈中,D 的设计者表示企业只看工作结果,不看工作过程,对学生的评价也只评价结果。Z 和S 的设计者表示注意到了过程评价,但事实上采用的仍然是结果评价,他们将原本开放、复杂的工作过程进行固化,按照其意图将(固化的)工作过程/流程分解为一个个量化考题/交互点(触发点),并不对考生的工作过程进行评价,只对每一步的行为结果(交互点)进行评价。
G 的设计者表示:“看到结果后,评分员会询问是从哪测量?怎么量的?考生得重新操作一遍。……在故障排除的时候,也是看怎么查找故障,怎么排除故障的过程”,在此同时关注了结果和操作规范性,评分贯穿在考试过程中,因为有时操作结果看起来是对的,但操作不规范也会得到相同结果。结果与过程评价相结合的评价方式,不仅实现了对行为结果的评价,也对认知能力进行判定,有可能实现对综合职业能力的全面评价。
1.从情境性和行动类型两个维度划分技能评价方法。情境性和行动类型对职业技能评价方法设计有决定性影响。真实企业中的工作任务是情境性的。按照情境学习理论,技能的获得是在特定的情境中发生。怀特海(A.N.Whitehead)的“惰性知识”(inert knowledge)理论认为,在无背景情境下获得的知识是惰性的、不具备实践价值[6];职业能力只有在特定的情境中才能被辨识和调查[7]。去情境化和去工作过程的操作性工作任务,无法考查是否具备胜任企业工作任务的能力,特别是高级技能的评价对情境性要求更高。
按照布拉特(M.Brater)职业行动分类模式,对开放性和互动性较强的次级职业和互动性不强的基本职业,其职业能力评价方法有所不同。应从“测试任务的情境性”和“完成任务的行动类型”两个维度对技能评价方法进行分类。
按照测试任务的情境性,可分为情境性技能测试和去情境(标准化)技能测试。按照完成任务行动类型,可分为完整行动导向型测试(强调目的理性行动)和认知或技能导向型测试(强调设计与对话行动)。两个维度都有不同的程度之分,有些测试(特别是对高级技能测试)对任务情境性要求较高,有些测试(对较低级技能的测试)对任务情境性要求较低。在设计与对话行动方面,以人为服务对象的服务类职业比以技术为服务对象的服务类职业要求更高。本研究中,G、S、Z 属于情境性、认知或技能导向(强调设计与对话行动)型测试,J 和D 属于去情境、完整行动导向(强调目的理性行动)型测试,如图1 所示。
图1 职业技能评价方法分类
2.简单的“对—错”标准无法实现对职业能力的评价。职业技能包含职业认知技能和职业操作技能,职业认知技能有水平高低之分,而不仅仅是对错。简单的“对—错”评分标准无法用来客观评价复杂技能(综合能力)[8],也无法反映考生目标职业的相关表现。职业教育不是单纯的技术或经济活动,而具有很强的社会性特征,不能用“对—错”标准或“投入—产出”关系衡量[9]。当今社会对技术技能人才的要求越来越高,特别是新职业教育法所强调的职业综合素质和行动能力,即有能力参与设计工作计划,按照经济性、创新性和环境可持续发展等方面的要求对工作的过程和成果进行控制评价,具备“参与设计和创造未来技术和劳动世界”[10]能力。
3.纯结果导向评价无法实现对职业能力的评价。目前各行业普遍采用结果导向的标准化测试,它具有客观性、易实施、成本低等优势,具有行为主义心理测量学基础,曾一度被认为是科学的评价工具。然而近些年来,标准化测试由于忽视严密思考、推理和表达能力的培养,不能考查学生的发散性思维能力[11],无法对学习提供有效支持[12]等原因,遭到了越来越多的质疑和批评。人们认为其仅仅引导学生对事实性知识的掌握,无法对“高等级的思考技能”进行评价,鼓励对知识的记忆而不是理解[13],因此“可能会导致最糟糕的学习”[14]。现有技能评价多数按照结果导向评价理念,采用标准化测试,只对结果进行评价,不关注完成任务的过程,这可能是出于低成本和操作简便的原因。但仅凭借一张试卷、一张行为结果检验单,就对考生职业技能水平做出整体化判断,其证据显然不足,因为职业认知能力只有在完成工作任务的过程中才能显示出来。
4.计算机虚拟仿真测试无法代替线下实操考试。计算机虚拟仿真测试是基于计算机开展的测试,具有能实现跨区域大规模测试以及时间、人力成本低和效率高等优点[15],已成为大规模测试发展的一种趋势。但目前X 技能评价中的计算机虚拟仿真测试多是将设计者预先固化的工作过程/流程中的工作任务分解为一道道可考、可量化的客观题,这破坏了工作任务的复杂性和工作过程的完整性。此类虚拟仿真测试虽然提供了虚拟工作场景和工作要求,但工作任务被拆分为碎片化的可考查的技能点,考生只能按照固化的工作流程和步骤,通过鼠标单击和拖拽完成一个个“选择题”。按照相同流程完成任务,无法体现考生的认知职业技能差异,考试结果只能反映考生对专业知识的掌握程度,无法真实反映其解决问题等认知方面的技能。计算机仿真考试在大规模考试的可行性、评分客观性和成本方面具有优势,但简单任务分解式虚拟仿真测试无法代替线下实操考试,更无法全面反映考生真实的职业能力和技能发展水平。
1.根据情境性要求和行动类型不同采用不同的技能评价方法。不同职业类别的技能评价应考虑采用不同的方法。例如以人为服务对象的服务类职业的技能评价强调情境性、认知或技能导向型评价方法,宜采用情境性的综合理论考试+口试或技能考试;以技术为服务对象的服务类职业的技能评价强调情境性、认知和技能导向型评价方法,宜采用情境性试题的综合理论考试,辅之以技能考试和(或)口试;技术类职业的技能评价强调情境性的、完整行动导向型评价方法,采用情境性的综合理论考试,并辅之以操作技能考试。建议在设计技能评价方法时,充分考虑职业领域的工作情境和完成任务的行动类型的差异,有针对性地选择和设计职业技能评价方法。对“目的理性行动”主导的职业(专业)如数控加工等,可采用情境性的、完整行动导向型的技能评价方法,考核其从明确任务、制定计划、做出决策的角度探讨完成技术任务的过程,同时以操作技能考试作为辅助;对“设计与对话行动”主导的职业(专业)如营销、汽车维修等,可采用情境性的、认知或技能导向型技能评价方法,同时以口试作为辅助。
2.采用事实性标准,注重使用整体性量规和分析性量规。学业评价的评价标准分为事实性标准、社会性标准和个性化标准[16]。事实性标准是根据已有的教学标准或职业标准中明确的能力要求作为考生表现的评价依据。职业技能评价是根据职业技能标准设计的,目的是检验考生是否达到行业企业所要求的职业技能,应采用事实性标准,反映职业要求的效度[17]。“整体性量规”是通过语言描述的方式对考生整体的表现进行判断,“分析性量规”是对考生每一条评分指标的质量作出等级判断。在职业技能评价中,为判断工作表现和任务完成情况,通常用“整体性量规”和“分析性量规”[18],例如世界技能大赛就采用分析性量规,而不采用简单的核查表和分值量规。核查表是对考生目标行为出现是与否的判断,分值量规是在核查表基础上赋予分值,两者均是对行为有无的判断,无法实现对能力水平高低的判断。建议在设计职业技能评分标准时,围绕职业技能评价目标,采用事实性标准,注重使用“整体性量规”和“分析性量规”,避免使用简单的核查表和分值量规。
3.结果导向评价与过程性评价相结合。随着评价理念的转变,人们不仅希望获得高效率且可靠性高的评价结果,还希望通过有效且可靠的评价促进学习[15]。结果导向评价(如总结性评价或终结性评价)注重学习结果,不关注考生内在复杂的认知过程,无法实现对真实问题解决能力和批判性思维能力的考查,反而有可能将考生的学和教师的教导向片面的“唯分数论”的困境,“衍生教育生态的异化”[19]。由于结果导向评价的局限性,过程性评价成为评价的重要发展趋势。过程性评价关注问题解决过程,强调过程导向理念。目前,大规模测试PISA 和TIMMS也非常重视过程性评价,通过对解决现实问题的过程和解答方案进行评价。《深化新时代教育评价改革总体方案》中也强调“改进结果评价,强化过程评价”。拉德马克(H.Rademacker)的研究也表明:强调结果导向的标准化测试无法用来检验职业技能[20]。标准化试题难度不是任务的复杂程度,而是设计者对错误选项的人为设计,如通过巧妙的文字表述等。特别是对于那些与生命安全相关的职业技能,不应允许使用结果导向的标准化测试的试题[21]。建议在职业技能评价中,重视学生解决问题的过程性评价,如引入表现性评价,将其与结果评价相结合,共同实现对考生职业技能的全面评价。
4.关注计算机虚拟仿真测试的效度和职业适切性。计算机虚拟仿真测试不是将纸笔测试或线下实操考试进行简单的计算机化,而是在试题情境设计、组卷和统计方式等方面进行变革[22]。其在如何评估学习者最后的问题解决结果及问题解决的过程[15]等方面依然面临挑战,例如PISA 早在2012 年数学素养测试中就引入计算化测试,但至今PISA采用的计算机化测试依然不能实现对开放性主观题目的自动评分[23]。并且计算机虚拟仿真测试的效度受多方面的影响,如考生对计算机熟悉程度(计算机硬件操作,特别是鼠标和键盘操作的熟悉程度)、计算机的呈现方式(多屏幕、屏幕大小、字体字号、图像分辨率等)、试听感知能力等[24]。此外,并不是所有职业都能用计算机虚拟仿真测试代替实操考试,特别是对开放性和设计能力要求较高的职业领域,由于任务解决路径无法提前确定或穷尽,计算机无法为其提供所有解决方案。因此,在设计计算机虚拟仿真测试时要充分考虑效度和职业领域的适切性。
注释:
①国际上对服务类职业有不同的分类方式,如商业服务、生产服务和管理服务等。从20 世纪90 年代开始,德国大规模职业教育研究计划“工作与技术研究”把服务类职业分两大类,即“针对人的服务”(personenbezogene Dienstleistung)和“针对技术生产的服务”(produktionsbezogene Dienstleistung),这种分类一直沿用至今。参见Rauner,F.,Grollmann,P.Eds.Handbuch Berufsbildungsforschung[M].Bielefeld: wbv,2018:571.