五年制高等医学院校理论课课程考试评价体系的探索

2013-02-01 08:16:29胡新荣姚运红沈玉洁谢翔天杨永丽

中国高等医学教育 2013年12期

胡新荣，姚运红，沈玉洁，谢翔天，杨永丽

(广东医学院，广东东莞 523808)

高等学校的课程考试是教学过程的一个重要环节，是测定教学效果的最基本方式，也是教学管理的重要内容之一。考试的主要目的是为了测量和评价学生相关知识水平和能力，衡量大学生的学习质量，检验教师的教学水平和教学效果，诊断教学问题，调控教学过程，改进教学方法。可见，考试是高等学校教学质量的守护神，是防止教学质量滑坡及稳定和提高教学质量的主要手段。但是，只有科学有效的考试才能起到应有的作用。目前，学者们探讨较多的是针对考试试卷的质量评价或考试方式的改革[1-2]，对提高考试质量具有重要的指导意义，但是较少研究考试成绩对衡量教学质量的作用。其实，考试质量仅是保证考试成绩真实有效的前提，考试成绩才是最终的学业成就，才是教与学质量的根本反映。鉴于此，本文试图根据五年制高等医学院校的课程特点，结合考试质量和考试成绩两个相关指标探索一种理论课课程考试评价体系。

一、高等学校考试改革和考试评价的基本情况

考试是中国几千年来检验学业和选拔人才的手段，因此考试从来不缺少关注。目前高等学校内部的考试是课程教学的一部分，主要是为了获得学生的考试成绩。对考试方式的改革和考试质量评价，虽然研究颇为活跃，但至今还没有公认的模式。

有不少学者认为目前的考试不能客现全面反映学生的知识和能力水平，使社会很难据此挑选合格适用的岗位人才。虽然各专业院校的实践教学比重基本占到教学计划总教学时数30%以上，但考试内容仍限于教材和课堂讲授的范围;考试的重点依旧是理论性、知识性为主;考试形式大多还是传统的单一笔试;考试的机会通常是“一锤定音”等[3-5]。这种考试从内容到形式都与社会需要的人才培养目标脱节，难以反映学生的动手能力和创新发展能力，把教师的“教”重新拖回到学科教育的老路，导致学生的“学”成了“上课记笔记、考前背笔记、考后全忘记”式的应试性学习[3-5]。因此，他们提倡高校课程考试应该改革:除理论内容外，加大平时成绩的比重、加大实践环节考核比重、参加技能大赛等活动纳入考试内容、鼓励学生参与校外实训并计入成绩、加大创新学分比重，鼓励学生思想创新、知识创新和方法创新等。有学者进而提出对学生学习全过程的质量监控和考评，实行“过程考核”，采取知识考核、能力考核和职业索养考核相结合的方式，最终对学生学习过程进行综合评价，学生最终的综合成绩采用以下形式合成:(其中终结考试成绩的权重为下限，其他各项的权重为上限，各单位在本框架下可以调整)综合成绩(100%)=平时成绩(到课、作业等)(30%)+理论考试(30%)+实际操作考试(40%)或综合成绩(100%)=到课情况(20%)+作业情况(20%)+终结(期末)考试成绩(60%)[4]。

上述综合考试模式可以称为“模糊”考试，也许适用于某些专业的课程考试，但应该不适用于五年制医学课程的考试。五年制医学课程是为培养基层医生打基础的，其中有太多的内容不能模糊，也不能创新。如血压的正常值、心脏的内部结构、肺的呼吸功能等，哪一样可以模糊?哪一样可以创新?考试分为选拔考试和达标考试。大学的课程考试属于达标考试，即测试学生对教学大纲所要求的学习内容的掌握程度，达到60分者通过考试，低于60分者不合格。五年制医学课程考试就是要像高考一样或像在奥运比赛拿金牌一样，严格在统一的时间采用统一的标准进行。医学课程考试要客观准确地测试学生掌握的医学知识达标与否，绝对不应过多地考虑教学过程的平时成绩或用其他的活动如竞赛、实训等来代替考试。否则，将有许多基础知识不扎实的医学生通过“模糊”考试，带着模糊的医学概念和学生自己创新的医学知识，成为“模糊”和“创新”的不合格医生，“模糊”地和“创新”地危害人民的生命健康。

关于对课程考试的评价，多是针对考试试卷，指标体系不少，较为集中的指标有正态分布、信度、效度、难度、区分度等[6-8]。(1)正态分布:一项符合学生实际水平的考试，理论上，其考试成绩应服从或近似服从正态分布，即成绩中等水平的学生占大多数，而成绩特别好和特别差的学生均为少数。(2)信度:指考试结果的一致性程度，表明考试质量的稳定性和可靠性，只有信度高的考试结果才能为试卷分析提供有意义的信息。在学科测验中，通常采用内部一致性系数来评价试卷的信度。内部一致性系数是用同一试卷的两个部分得分的相关系数来估计。一般认为，信度系数小于0.7，考试的可靠性偏低。(3)效度:指考试结果的正确性程度，即考试所能测量到的所要测量的东西的程度。学科测验的效度分析主要采用效标关联效度。效标关联效度是指考试结果与效标之间的相关程度。效标是检验考试效度的一个参照标准，它可以是另一种考试(同类的标准考试)成绩，也可以是考生的平时成绩。考试的效度一般要求在0.4-0.7之间，效度值太低的考试，对于预定目标的考试来说没有实际意义。(4)难度:就是试题的难易程度，可用正确回答试题人数与参加考试总人数之比值作为指标，也可以采用极端分组法。理想的难度在0.7-0.8之间。(5)区分度:是试题的区分能力大小的指标，也就是水平高的学生得高分，水平低的学生得低分的倾向，可用一组学生的本试题得分与这组学生的本试卷考分之间的相关程度来表示;另一种方法是比较两个极端组通过一个项目的个案的比例，即从分布的两端选出高分组和低分组，然后将高分组和低分组通过每个项目的人数用百分比来表示，这两个百分数之间的差异值就是区分度。试题的区分度应大于0.3。

二、广东医学院考试质量的评价指标及实践

广东医学院教学督导组每学期初都对上一学期的考试卷进行抽查，按以下指标进行打分，作为衡量某课程考试质量的依据。评价指标包括试卷质量(60分)、试卷评分情况(25分)、试卷管理情况(15分)等三项一级指标，还有20项二级指标。

试卷质量(60分):(1)试卷格式规范(8分):试卷首页是否有考试时间、科目、年级、专业、班别、姓名、学号、成绩、阅卷人签名表等基本要素，试题文字、图表是否科学规范，无错误;(2)试题内容无错误(6分);(3)A、B卷试题份量和难度相当，基本等效，重复率≤20%(4分);(4)试题题量适当，题型结构合理(4分):试题题型是否包含有客观题(包括选择题、填空题、是非题等)与主观题(包括名词解释、简答题、论述题、病例分析题等)两大类，其结构比例为:客观题50-70%，主观题30-50%;(5)学生能力测试题比例恰当(4分):能力测试题比例:记忆类30%，理解类35%，分析类35%;(6)试题符合教学大纲要求，覆盖率≥95%(8分);(7)学生成绩分布合理，基本上呈正态分布(8分);(8)试卷的难度0.7≤P≤0.8(6分):P值均为试卷的平均难度系数，其值为各题难度系数的加权平均;(9)试卷的区分度r≥0.3(4分):r值均为试卷的平均区分度，其值为各题区分度的加权平均;(10)学生卷面成绩的优良率≥10%，及格率≥85%(4分):优良成绩”:≥85分“及格成绩”:≥60分。

试卷评分(25分):(1)评分标准科学，合理，各题均有详细的给分点(6分);(2)阅卷严格按评分标准给分(6分);(3)用红笔批卷，并有得(或扣)分标记，并将所得分数在相应试题左侧注明，将所扣分数在相应试题右侧注明，无乱涂改，改动处应有签名(5分);(4)统分、记分无错误(4分);(5)一门试卷一般由二位以上教师分题评阅，有阅卷人签名(4分)。

试卷管理(15分):(1)试卷命题计划翔实、合理(5分):试卷命题计划须包含试卷题型结构比例、各知识点(或章节)所占分值等内容;(2)试卷装订整齐、规范，数量完整(4分);(3)考试总结认真(6分):含考试分析、考试方法、考试结果、考试纪律等内容。

本考试质量的评价指标体系是参考教育部本科教学水平评估指标制定的，比较客观、全面、科学。一级指标不但有试卷质量，还有试卷评分质量及试卷管理质量。一次高质量的考试首先要有高质量的试卷，同时也要有准确严格的评分。如果评分松垮随意，再高质量的试卷也考不出学生的真实水平。试卷管理也与考试质量密切相关，它控制了试题的结构比例、考场纪律、分析总结、装订保存等，保证了一场考试有完整的开始、经过和终结。

占60分权重的一级指标试卷质量不但涵盖了试题正态分布、难度、区分度等通用的试卷评价指标，还涵盖了课程内容覆盖面、试题数量、题型、重复率、能力测试题、试题准确性、成绩优良率和及格率等，显得更客观、全面、科学。

本考试质量的评价指标体系的三个一级指标的权重换算合理，但某些二级指标的权重有待商榷，可在今后的研讨中和实践中进一步修订。

三、以考试质量为前提、以考试成绩为核心的课程考试评价体系的设想

高质量的考试可以保证考试有效，但不足以衡量课程的教学质量，因此单纯考虑考试质量的考试评价对课程教学的指导意义非常有限。在高质量考试的前提下，考试成绩才是衡量课程的教和学的质量的直接指标。那么，我们是否可以结合考试质量和考试成绩两个指标建立一个更科学全面的课程考试评价体系呢?下面是我们建立的以考试质量为前提、以考试成绩为核心的课程考试评价体系的设想，简单地说就是考试质量评分乘以考试成绩得出课程教学质量评分。

首先，以督导专家按照上述的考试质量评价指标对考试进行检查和评分，评分代号为E(Examiner score)，以学生考试平均成绩为M(Marker)，以试题难度为P，以课程教学质量得分为T(Total score)，列出计算公式:T=E[M+M(P-0.75)]/100。其中0.75为试题难度的常数，取理想难度0.7-0.8的中间值。一次考试的试题难度大于0.75，学生的实际成绩变小，T将变小，反之学生的实际成绩则变大，T随之变大，且难度与0.75的差别越大，T的改变就越大。

例:课程“心脏”的考试质量评分为80分，考试平均成绩为75分，试题难度为0.8;另课程“胃”的考试质量评分为80分，考试平均成绩为75分，试题难度为0.5。问“心脏”的教学质量高还是“胃”的教学质量高?经代入上式，计算出“心脏”课程教学质量得分T为63分，“胃”课程教学质量评分T为43分。可见，课程“心脏”的教学质量比课程“胃”的教学质量高，尽管两门课程的学生考试平均成绩一样。

说明:假如E为60分，M 为60分，P为0.75，则T为36分，即T的及格线为36分，而不是平常的60分。T高于36分的课程，其教学质量及格，低于36分的课程其教学质量不及格。

由于强调了考试成绩为核心及考试质量为前提，本课程考试评价体系应该是科学合理的。但是，公式T=E[M+M(P-0.75)]/100未经严谨的数学模型推演，因此还是比较粗糙的。今后，将在更多课程考试的评价中参照本公式，在实践中结合数学模型推演，进一步改进。此外，本体系只适合于理论考试的课程，关于外语、体育、实验、临床讨论等课程，还需设置不同的评价体系。

本课程考试评价体系抓住了教学“产品”即教学质量的检测环节，因此其结果可以作为评价和比较课程教学质量、教师教学水平、学生学习水平及教学单位(如教研室、系、院甚至学校)的教学质量的指标，也可以对比同一课程不同批次的教学质量。

[1]李娟，房绍坤.高校内部考试评价工作的探索与实践[J].黑龙江教育(高教研究与评估)，2012(1):67-69.

[2]李丽，蒋极峰.高校教学考试现状分析与改革思路[J].内蒙古民族大学学报(社会科学版)，2005，31(1):114-117.

[3]陈红.试论高等学校的考试制度与方法改革[J].佳木斯大学社会科学报，2007，25(6):98-99.

[4]初晋华，丁新旗.高等学校教育考试工作改革与评价研究[J].中国电子商务—教育与科技，2011，11:168.

[5]刘渡.高校考试改革之我见[J].神州，2011(6):6.

[6]王映学，段宝军，赵爱.大学考试命题质量的质性研究[J].河西学院学报，2012，28(1):114-120.

[7]李剑.高校课程考试改革如何落实科学发展观[J].当代教育论坛，2008(11):31-33.

[8]曹中平.考试分析与教学反思:以一门课程为例[J].大学教育科学，2004(2):38-42.