汪存友
科学设定职业资格考试合格标准
汪存友
设定合格标准是实施职业资格考试制度的重要环节。本文首先从合格标准与行业最低基本要求间的对应关系着手,阐明了设定合格标准的基本原理;随后探讨了基于Angoff法设定职业资格考试合格标准的核心思想,指出实施Angoff法必须把握好的几个关键要素;最后结合职业资格考试合格标准设定实践,提出了“最低基本要求对照策略”、“两轮设定策略”和“综合决策策略”等三种设定合格标准的策略。
职业资格考试;合格标准;标准设定;Angoff法
职业资格考试(occupational qualification exami⁃nation)属行业准入考试,旨在评价职业申请者是否具备从事相关职业所必需的专业知识、技能与能力(Knowledge、Skills&Abilities,KSA),也即执业者应达到的“最低基本要求”(Minimally Basic Require⁃ments,MBR)。所谓“设定合格标准”,又称标准设定(Standard Setting),通常指确定考生的测验得分达到何种程度(How much to be enough)方被裁定为达到“最低基本要求”(也即“合格”)的方法和过程。
如果将所有考生按照KSA的水平由低到高排序、形成一条KSA连续谱(如图1所示),那么,在KSA连续谱上存在一个“最低基本要求”分界线,位于该分界线左端的考生的KSA水平较弱,属于不合格者;位于其右端的考生的KSA则较强,属于合格者。进一步,如果将所有考生的考试得分由低到高排序、形成一条测验分数连续谱,位于KSA连续谱最左端的考生,其考试得分也位于分数连续谱的左端;而位于KSA连续谱最右端的考生,其考试得分也位于分数连续谱的右端。显然,对于KSA恰好处于“最低基本要求”分界线的考生,他们的考试得分将会在分数连续谱上也形成一个分界线,得分位于分界线左端的考生,可以推断其KSA未达到“最低基本要求”,故将被裁定为不合格,而位于分界线右端的考生,可以推断其KSA已达到“最低基本要求”,故将被裁定合格。设定合格标准的目标,就是要将KSA连续谱上的“最低基本要求”转换为分数连续谱上的“考试合格标准”。
图1 设定合格标准原理
理论上,由于人的主观界定存在模糊性,“最低基本要求”常常是一个区间;同时,由于考试存在测量误差,考试合格标准也存在一个区间(如图1所示);但实际操作中,出于考试权威性的考虑,考试合格标准总是一个确定的分界分数。如果此时所设定的合格标准明显高于“最低基本要求”,则导致的结果是:部分实际上已合格的考生将被拒绝在行业之外,造成对部分有能力的考生不公平;如果此时所设定的合格标准明显低于“最低基本要求”,则导致的结果是:部分实际上不合格的考生也能通过考试并获得资格,影响整个行业的服务质量等。可见,科学合理设定合格标准,对于实施职业资格考试、提高行业服务水平至关重要。
设定合格标准通常被形容为“做翻译”,即怎样顺利、准确地将抽象的“最低基本要求”翻译为具体的测验分数[1]。迄今为止,设定合格标准的方法已达数百种,而在职业资格考试中应用最为广泛的是Angoff法[2]。该方法要求:遴选一批行业或学科领域的专家(judge),组织他们共同界定一组知识、技能或能力状态恰好位于掌握/未掌握、合格/不合格边缘的考生(恰好合格考生),并估计这些考生在每道试题上的表现,据此设定分数线[3]。其核心思想如图2所示。
首先,要事先根据试题所属的考试内容范围,明确该题所对应的“最低基本要求”,也即执业者在这个点上应该“至少知道什么、会做什么;还不知道什么、不会做什么”;其次,组织专家参照该“最低基本要求”,回想自己工作中接触的某些典型人员的业务表现,并在头脑中构造一个“恰好合格考生”形象,他们的业务表现恰好称得上合格;最后,专家需审阅试题的题干、选项和难度,并估计“恰好合格考生”在该题上的可能作答表现。由图2可见,执行Angoff法的关键有三:一是必须明确界定好“最低基本要求”,二是必须帮助专家构造出“恰好合格考生”的清晰形象,三是专家怎样估计“恰好合格考生”的作答表现。
图2 Angoff法的核心思想
对于第一个关键点,需要在设定合格标准之前,组织行业专家采用工作分析法或关键事件法分析行业对执业者的知识、技能或能力素质的要求,制定一份关于执业“最低基本要求”清单,明确合格的执业者所必须掌握的知识、技能或能力。美国注册护士职业资格考试、新一代TOEFL考试的合格标准设定即采用了此策略。
对于第二个关键点,需要引导专家根据试题所考查的内容或知识点,对照“最低基本要求”清单中关于此内容或知识点的知识、技能或能力描述,从其所熟悉的考生群中锁定一个或若干个典型人员,构造“恰好合格考生”的形象。例如:Impara&Plake教授主持的加拿大Nebraska省学业水平测试的合格标准设定即采用此策略[4]。
对于第三个关键点,应该适当向专家提供一些关于试题难度的信息,比如:不同测验分数段的考生在该题上的实际作答表现、全体考生在该题上的答对比例等;此外,应该引导专家将其对试题难度的理解转化为“恰好合格考生”的作答表现。一般地,专家有四种估计方式,一是估计“恰好合格考生”答对还是答错,二是估计“恰好合格考生”答对的可能性(概率),三是给定若干个概率选项(10%、20%,30%……),专家从中选择一个最能反映“恰好合格考生”答对可能性的值,四是采用区间概率估计法。关于上述四种估计形式,都有相关的实证研究进行论证。目前,应用最为广泛的有两种:对错估计和概率估计。
Angoff法的思想虽然简单,但设定合格标准却是一项系统工程,除了引导专家合理地判断“恰好合格考生”在试题上的作答表现外,还需要精心安排、组织、实施一系列的配套活动,如界定“最低基本要求”、“遴选学科专家”、“专家培训”、“结果反馈”、“事后调查”、“统计分析”、“效度评估”等。美国的教育服务社(ETS)、大学入学考试(ACT)、医师考试委员会(NBME)、国家教育进步评估(NAEP)等大型考试服务机构或项目,都十分重视合格标准设定的整个过程的科学性、组织性和完整性。Cizek(2001)认为合格标准虽然具有自然科学的专业性质,但由于融入了较多的艺术、政治和文化成分,因而更接近社会科学[5]。
该策略在前面已提到,即首先,在合格标准设定会议之前,组织行业专家对行业的知识、技能或能力(KSA)的最低基本要求(MBR)进行分析;其次,要组织学科专家明确界定每道试题所属的内容范围;最后,组织专家建立起“内容范围”与“最低基本要求”间的对应关系。这样,对于所有的试题,将形成一张对照表:“试题——所属内容范围——最低基本要求”。由于“最低基本要求”界定的合格考生“知道什么、会做什么,以及还不知道什么、还不会做什么”,因此专家在对每道试题进行Angoff估计时,都能实时查找到该题对应的“最低基本要求”,从而有助于专家合理界定“恰好合格考生”,提高估计的准确性。美国教育进展评估项目(NAEP)目前正在推广的Bookmark法就使用了该策略。
关于合格标准设定中进行多轮设定的实证研究相当多。Hambleton(1998)[6]认为,在第一轮设定完毕时,应给予专家相互讨论的机会。“……通常,试题的统计信息、以及合格标准所对应的分数通过率情况等对专家的评判是很有参考价值的。那么,第二轮的估计相对而言更为充分,可以消除误差源(误解、粗心、不已知、错误)。”两轮设定虽然会花费较多的人力、物力、财力等,但这对于提高合格标准的可靠性和准确性是至关重要的。NBME早期的实证研究也表明,专家对采用两轮设定且在此期间提供试题难度信息的做法最为认同[7]。
Angoff法自提出时就存在两种估计形式:对错估计和概率估计[8]。Plake&Impara(1997)[9]、Chinn&Hurtz(2002)[10]的研究表明,“对错”估计方式相对于“概率”估计方式更为简单。笔者的研究表明,“对错”估计方式与“概率”估计方式具有较强的互补性,而且“概率”估计方式更加稳定。因此,可采用“对错”估计与“概率”估计相结合的专家判断策略,即组织专家先初步估计“恰好合格考生”能否答对试题,再采用“概率”估计慎重估计。
此外,大量早期实证研究表明,提供试题实测信息,如难度、正确答案等,对于提高专家估计的可靠性和准确性是很有帮助的[11]。因此,对于第一轮的对错估计,可采用频数分布图的形式向专家提供不同得分段上的考生答对试题的比例,对于第二轮的概率估计,可提供全体考生实际答对试题的比例以及试题的正确答案。
采用多种方法设定合格标准,是大规模、高风险职业资格考试的基本策略,这样可以避免单一方法因执行力度不够而导致合格标准偏离实际。由于执行Angoff法时,专家通常关注单一的试题,因此,Angoff法也被称为“基于单一试题的专家判断法”。许多学者指出,Angoff法使专家忽略了试题的整体关系,易造成合格标准设定过高。Plake(1998)主张将Angoff法与以整体判断为特色的合格标准设定方法相结合,如Beuk法和Hofstee法等,她认为这样有助于将专家从关注单一的试题转移到测验全局上,若此时提供了所设定合格标准对应的通过率,还能及时对专家的期望通过率进行验证[12]。
以Hofstee法为例,其操作十分简单,只需要专家根据自己对考试内容和考生群体的大致了解,预估此次考试的合格标准的可能区间(最低分数、最高分数)和考生的通过率情况(最高通过率、最低通过率)[13]。采用Hofstee法,一方面能够将专家的注意力转移到对整个测验、全体考生的期望上来,另一方面通过建立合格标准与通过率的对照图,从而能将合格标准对通过率的影响直观地显示出来。因此,将Angoff法与Hofstee法相结合设定合格标准,在美国注册护士职业资格考试、美国医师资格考试以及其他的资格认证考试中有着广泛的应用。
职业资格考试是我国职业证书制度的重要组成部分,而设定合格标准又是实施职业资格考试的重点和难点。自20世纪90年代我国开展职业资格考试以来,越来越多的机构和群体开始关注合格标准的确定办法,这其中也包括非心理与教育测量背景的专家学者。虽然职业资格考试合格标准的设定在国外早已是研究热点,相继提出了许多方法,但在国内,无论是研究的数量还是水平都处于较低的层次。随着我国大规模、高风险考试科学化的推进,科学合理设定合格标准已成为衡量考试水平的重要依据。
[1]Reckase M D.Innovative methods for helping standard-setting par⁃ticipants to perform their task:the role of feedback regarding con⁃sistency,accuracy,and impact[M].Setting Performance Stan⁃dards:Concepts,Methods,and Perspectives,Cizek G J,Mahwah,N.J.:Lawrence Erlbaum Associates,Inc.,2001,159-173.
[2]Hess B,Subhiyah R G,Giordano C.Convergence Between Cluster Analysis and the Angoff Method for Setting Minimum Passing Scores on Credentialing Examinations.[J].Evaluation&the Health Professions.2007,30(4):362-375.
[3][8]Angoff W H.Scales,norms and equivalent scores[M].Education⁃al Measurement,2nd ed.ed;Thorndike R L,Washington,DC:American Council on Education,1971,508-600.
[4][9]Impara J C,Plake B S.Standard Setting:An Alternative Aproach[J].Journal of Educational Measurement.1997,34(4):353-366.
[5]Cizek G J.Conjectures on the rise and call of standard setting:An introduction to context and practic[M].Setting Performance Stan⁃dards:Concepts,Methods,and Perspectives,Cizek G J,Mahwah,N.J.:Lawrence Erlbaum Associates,Inc.,2001,3-17.
[6]Hambleton R K.Setting performance standards on achievement tests:Meeting the requirements of Title I[M].Handbook for the de⁃velopment of performancee standards:Meeting the requirements of Title I,hansche L N,Washington,DC:Council of Chief State School Officers,1998,97-104.
[7]Swanson D B,Dillon G F,Ross L E.Setting content-based stan⁃dards for national board exams:initial research for the Comprehen⁃sive Part I Examination[J].Academic Medicine.1990,65(9):17-18.
[10]Chinn R N,Hertz N R.Alternative Approaches to Standard Setting for Licensing and Certification Examinations.[J].Applied Measure⁃ment in Education.2002,15(1):1-14.
[11]Brandon P R.Conclusions About Frequently Studied Modified An⁃goff Standard-Setting Topics[J].Applied Measurement in Educa⁃tion.2004,17(1):59-88.
[12]Plake B S.Setting Performance Standards for Professional Licen⁃sure and Certification[J].Applied Measurement in Education.1998,11(1):65-80.
[13]Bower J J,Shindoll R R.A comparison of the Angoff,Beuk,and Hofstee Methods for Setting a Passing Score[R].ACT,1989.
Setting Performance Standard Scientifically for Occupational Qualification Examination
WANG Cunyou
Standard setting is the key step of conducting occupational qualification examination.The principle and meaning of standard setting were explained Firstly,by focusing on the correspondent relationship between the standard and minimally basic requirements.Secondly,the kernel of Angoff method,which was used to set the standard of occupational qualification examination,was explored,as well as the key points during carrying out it.And at last,in terms of occupational qualification examination practice,several standard setting strategies were proposed here.
Occupational Qualification Examination;Performance Standard;Standard Setting;Angoff Method
G405
A
1005-8427(2012)04-0043-5
本文系山西省教育科学“十二五”规划立项课题(批准号:GH-11056)的阶段性成果。
山西师范大学