华中科技大学附属中学 (430074) 梁 玉华中师范大学数学与统计学学院 (430079) 徐章韬
对于定量取向的数学教育研究而言,效度分析作为研究中不可缺少的一环,是衡量研究成败优劣、标志研究科学化水平的最重要指标,反映了一项研究的真实性与准确性程度.在数学教育教学过程中,要研究学生的学习态度、认知策略、“四基”掌握情况等,常使用教育测量研究(包括学业成绩的测验等).纵观历史发现,教育测量的思想和实践在我国由来已久,我国古代考试制度便是现代教育测量的先河.近代以来,教育测量研究的重点则放在编制教育测量的工具—测验,和评价测量结果的工具—评价所应参照的标准等科学原理和方法上,“量表”一般是包括这两种工具在内.[1]教育测量走向客观化、科学化是其必然趋势,与此同时,也对作为教育测量结果的质量分析的核心指标——效度提出了更加客观化、精确化、科学化的要求.在测量研究中,效度往往与研究的目的密切相关,一项研究所得结果必须符合其目的才是有效的,根据人们对研究目的解释角度的不同,形成了诸如内容效度、构想效度、效标关联效度等系列概念.这些效度概念分别是用以解决何种矛盾的,其内在关联性如何,本文将说明这一问题,阐述效度在数学教育研究数据处理中的原理和应用.
伴随着测量理论和实践的发展,效度由一个单一概念发展为一个内涵丰富的多维概念系统.由于效度是就测量结果达到测量目的的程度而言的,所以效度问题的两个根本方面是测量什么和测量程度,从不同角度进行考察,可以得到不同类型的效度.
由信度与效度的理论定义公式可以看出,Val≤ρXX,信度高,效度不一定高;效度高,往往信度一定高,因此高信度是高效度的必要不充分条件.关于信度与效度的关系可理解为,在教育测量中,既要求施测的准确可靠,又要求工具的切实有效[1],有效的工具还需方法的严格配套,方能使教育测量精准见效.但信度的高低不能决定效度的高低,信度高,效度却不一定高,信度低,效度更不可能高.
早期的心理测量学认为,测量就是要尽可能准确地估计变量的价值,而要判断这种估计的准确性程度就需要“效标”——效标被假定能够提供变量的“真正的”价值,于是就产生了效标关联效度,即测验与某种独立的外在效标——“标准测验”之间关系的程度.效标是指能显示或反映所欲测属性的变量,是考察检定测验效度的一个参考标准,其本身具有良好的信度和效度,如标准化的学业成绩测验、人格测验等.根据测验分数和效标分数获得时间的差异,效标关联效度可以分为同时效度和预测效度.预测效度是指测验分数与未来的效标之间的相关程度,多用于预测将来的结果,如利用美国的学业成绩测验(SAT)来选拔接受高等教育的学生,该测验的效度如何,就要通过其效标——即学生进入高等学校后学习情况——来加以验证.同时效度是指测验分数与现有效标分数之间的相关程度,常用于诊断现在的状态.效标关联效度常常用于局部效度的研究,即比较强调情境具体化时测验的效度.
效标关联效度的估计方法一般有相关法、区分法和命中率法.相关法是估计效标关联效度最常用的方法,计算测验分数与效标资料的相关系数,作为测验的效度系数.如果效标分数是连续变量,则计算测验分数和效标分数之间的皮尔逊积差相关系数;如果效标分数是离散变量,则计算测验分数和效标的等级相关系数.区分法是将测验分数按效标分数线分为成功组与失败组,再考察两组之间的差异是否显著,差异显著则说明具有较高的效度,也可分析成功组与失败组分数分布的重叠量,重叠量百分比越低效度越好.当用测验分数作为决策依据时,常用四格相关系数求取效度系数,即命中率法,决策的总命中率和正命中率是测验有效性的良好指标,具体关系见表1:
表1测验命中和失误的四种情况
效标测验 失败成功成功A(失误)B(命中)失败C(命中)D(失误)
然而,效标关联效度也存在一定的局限.在很多情况下,测验很难随时找到合适的效标,因为效标的值同样需要验证.这样,所谓的效标验证就容易成为一个无限循环的、没有结果的过程.另外,预测效度依赖于不能与测验分数同时获得的未来表现的指标,不能直接验证推断,因此对于录取、雇佣和认证等情境中基于数据的决策是不充分的.[2]
鉴于效标关联效度容易陷入循环论证的僵局及预测效度的理想化,人们开始寻求替代物,目光逐渐聚焦于测验内容对内容领域的代表性,也即测验题目的要求反映表现领域内容的程度,即所谓的内容效度.内容效度是指实际测量内容与所要测量的特定的行为域之间的关联度,即测验所用的测题对整个内容范围是否有很好的代表性,分配比例是否恰当.如对一个一般数学能力测验来说,一个包含加减法题目的测验显然优于一个包含体育项目的测验,一个包含加减乘除题目的测验显然优于一个只包含加法题目的测验,一个包含加减乘除题目且各部分题量均衡的测验显然优于一个包含加减乘除题目但绝大多数题目是加法题目的测验.[3]因此要具备较高的内容效度,就得要求测验的内容域明确、内容取样要具有较高的代表性.
内容效度的估计方法一般有逻辑分析法和统计分析法.运用逻辑分析法时常采用专家评定的方法来估计内容效度,评估程序一般为:界定和描述内容域——将每个测验项目对应的内容域确定下来——将测验结构与内容域结构相比较得出定性评判结论.统计分析法可分为复本相关法、评分一致性考察法、前后测比较法.复本相关法是从同一个内容域总体中抽取两套独立的平行测验,用以测试同一批被试,求其相关性,若相关系数大,则提供了支持内容效度的证据;评分一致性考察法是将内容域使用评定量表的方式进行评价,一方面将结果以量化指标表现,另一方面减少了不同判断者之间的差异;前后测比较法是指对同一批被试用两个复本在内容教学前后实施测验,测验内容效度可由两次测验成绩差异的显著性来判断.
内容效度对学绩测验和职业选拔测验比较适用,因为这些领域的内容域比较容易确定.然而,对于内容域的界定不清楚的情形,内容效度是不适用的,如对能力倾向测验和人格测验.内容域的难以界定直接导致了缺乏严格量化的统计方法来评估内容效度,对内容效度的评估仍是以主观评估为主.
内容效度通常由专家(通常是测验编制者)来判断,不可避免具有主观性;并且对所测量领域内容的界定也经常存在分歧,难以达成共识,内容效度也就难以确定.由于存在高度主观性和强烈的确定性偏见,内容效度的概念为公众所诟病,因此顺应时代需求,结构效度应运而生.结构效度指测验能够测量到某一理论构想或心理特质的程度.结构效度涉及一个测验对一些未加“操作性定义”的品质或特性的测量.
因此,因素分析的关键是进行探索性因素分析找寻共同因素,求出因素负荷矩阵A,每个测验在共同因素上的因素负荷aij就是测验的因素效度,可以转化为求解相关系数rij(即测验与各因素的相关),测验分数总变异中来自有关因素的比例就是该测验结构效度的指标.而后,再经由验证性因素分析对所得量表进一步验证,此时往往需要重选被试施测,将数据用结构方程模型软件处理,根据计算数据可以得到量表的结构效度,同时可以调整以使结构最优化.因素分析对矩阵运算有较高的要求,需要计算测验的相关系数矩阵、再生矩阵、再生矩阵的最大特征根、变量共同度的估计、共同因素个数的确定、因素负荷矩阵进行旋转变换等,[4]当然,也可通过相关统计软件(如SPSS)完成此过程.
多特质-多方法矩阵法(MTMM)主要考虑两个问题:其一,使用不同方法测量同一成分,结果的相关性高则称测量具有聚敛效度,关键是“求同”、“收敛”;其二,用同种方法测量不同成分,结果的相关性低则称具有判别效度,核心在于“求异”、“区别”.可见,MTMM的技术支持也是相关分析,将所得数据置于矩阵内进一步分析处理,就能判断测验的结构效度的高低,如果一个测验既具有聚敛效度又具有判别效度,则该测验具有较高的结构效度,它们是结构效度的重要指标.
效标关联效度、内容效度、构想效度是主要的三类效度指标,通常被认为是效度的三位一体,是效度理论的主流观念.各种效度的区别在于各自强调的方面不同:内容效度提供了关于测验内容域方面的信息,要验证的是测验对完善理论的匹配程度;构想效度反映了测验与其所依据的理论或概念框架的符合程度,是对不完善理论的探索和验证;与前两者相比,效标关联效度侧重反映的是研究工具与其他测量标准之间的关系,关心依据测验做出决策的问题(做出预测的后果和效用).一个测验可以有多种效度,每种效度根据使用者的具体目的而定,但各种效度又是相互联系和补充的,内容效度和构想效度既是效标关联效度的保证,又须得到它的支持.考察内容效度和效标关联效度又有助于确定构想效度.对于效度概念,三个侧面各有所长却也各有不足,宜有一个全面整体性的认识,既要“寻求外部参照”(效标关联效度),又要“关注内部解释’(结构效度和内容效度),一个好的理论既要有内在的完备性,又需外部的证实.
在教育测量叱咤风云的现代,效度作为反映测量质量好坏的核心指标,其决定着测量的真实性、有效性和可推广程度.如今,效度分析在数学教育领域应用广泛,如数学学习态度量表、高考数学试卷质量分析、国际PISA测试质量分析等,一方面可以评价已有测验的质量优劣,另一方面也可以为今后测验的改良提供参照,确实保证测验的有效性.不仅如此,效度分析在社会科学领域的应用也越来越广泛,如结构化面试和人员选拔决策等.这体现了数学的扩张性和辐射性,须充分理解效度的原理和内涵以对各种测量研究的数据进行有效性分析,把好“质量”这一关!