学习素养评估中的效度保障策略研究

2021-10-19 06:32齐宇歆杨晓玉
关键词:效度变量因子

齐宇歆,杨晓玉

(闽南师范大学教育科学学院,福建漳州363000)

进入21世纪后,人类在信息获取和知识加工的内容、方式和品质等方面都发生了深刻变化,学习者依据个性、特长开展自主学习具有了更大的现实可能性.如何科学地测评学习者的学习素养水平,确保评估模式有效性,促进个体学习行为的持续优化,是当代学习评价中的一项基础性、关键性工作.

1 学习素养评估

1.1 学习素养

人类学习行为是一种以文字性符号为基本媒介,以符号所象征的意义为核心,以增加环境适应性为目的的自组织系统.作为一种意义分享与意义接受的互动性过程,学习活动不仅要在一定的情境中展开,并且总是和学习者个体的独特经历、内在情感需求联系在一起的,具有个体独特性和相对稳定性.个体通过同一情境下的无数次条件反射,最后演化成一种某一环境条件下的自动化行为模式.这就是“素养”.学习素养就是学习者个体在长期的学习活动中,以生活、社会中的灵活运用为目标,以深度探索和透彻理解为途径,将前后学习活动进行内容、方法和意义上的整合之后所形成的一种个性化认知习惯与品质[1].

1.2 评估模式及其效度

学习素养的评估模式是利用标准化测评工具对学习者行为样本及其发生背景进行数据测定并做出意义解释与判断的一种规范性流程和标准化样式[2].本研究中学习素养评估模式中所采用的具体指标和测量方法如表1所示:

表1 学习素养的评估指标与方法Tab.1 Measuring Indicators and Ways for Learning Literacy

评估效度是指测评活动实际测到的结果与它原来设定的测评目的之间吻合程度,或者说依据测评分数所做推论的恰当性.作为一个综合性概念,评估效度一般同时包括了效标效度、内容效度和构想效度[3].不过,不同目的的评估对上述三种效度有不同的倚重.

2 内容效度的保障

2.1 内容效度的内涵

内容效度也曾称为“课程效度”[4].在教育与学习成就评估中,人们都特别重视评估的内容效度.它是指一个测评所实际测到的内容、行为与它所计划测评的内容、行为之间的一致性程度[5].检验一个测试的内容效度时,最根本的是看该试卷是否能构成原定内容域中一个最具代表性的样本.具体来说主要有两点:1)试卷是否包含了原测试范围中的各章节,且每一章节都有与其在内容域中重要性相匹配的、有充分代表性的试题;2)试卷中的每一知识点都含有不同难度的试题分布.

2.2 内容效度的保证

常见的内容效度检验方法有专家判断法、逻辑判断法等.有学者指出:在做好领域范围内知识结构分析的基础上,紧密依据教育目标、能力要求、内容与精熟度要求而设计双向细目表是一种最为有效的办法[6].本研究主要通过扩展后的双向细目表来保证试卷的内容效度.该细目表需要解决三个主要问题:1)测评总范围;2)课程中各知识点的目标与对应能力要求;3)各知识点及其不同难度在总分中的比例.其主要过程如下:

2.2.1 领域中各知识点的关联性分析

在正式编制双向细目表之前,先运用沃菲尔德(J.N.Warfield)的解释性结构模型方法(Interpretative Structural Modeling Method,ISM)对教材内容进行结构性分析,以判定哪些知识点属于核心内容、重点内容或一般性内容.有学者认为:将该方法应用于教材分析时能把教材中的复杂知识点用直观易懂的图形符号来表示,通过图形结构使教材中的内容实现层次化、可视化排列.这对于明确教材中各相关知识点的地位具有很大帮助,且便于通过计算机编程进行分析[7].

使用ISM分析教材知识结构的基本步骤为:1)从教材中抽出相关知识点,形成基本要素集;2)思考各知识点之间的顺序关系,明确谁是直接前提,谁是其相应结论;3)根据所有要素之间的逻辑生成关系建立目标可达矩阵,寻找各自的直接低级目标.对于那些没有直接低级目标的就是最底层,然后去掉最底层中的那些要素,没有直接形成关系的就是第二层.如此类推,直到目标矩阵的全部要素都搜寻完毕,最后形成一个带有层级的结构;4)依据图论的基本规则画出要素集的有向层级关系图,不断检查,逐步完善,直到满意为止[8].当然,ISM 分析是依据“越为底层,涉及范围越广,其重要性越高”的基本原则大致划定教材中各知识点在整个内容域中的相对重要性.

2.2.2 领域中各知识点的难度分析

有了初步的ISM 分析,接下来就须参照课程标准中的内容—目标能力对每一章节、每一知识点的目标能力划定难度等级.本研究主要参照了新修订布鲁姆教育目标分类法和比格斯SOLO中的学习结果精熟度分类法.

1) 依据教育目标划分不同难度

安德森(L.W.Anderson)将布鲁姆的教育目标分类修订为记忆、理解等6个层次.其中,记忆层次包括再认和回忆,理解层次包括比较与分类、解释与举例、概括,运用层次包括计划和实施,分析层次包括辨析与划分、重组、推断,评价层次包括核查和评判,创造层次包括提出新假设、拟定实施方案并予以落实[9].有学者认为:新修订布鲁姆教育目标分类学的中的层次划分比较适合于通过“测评设计框架”与我国的现有课程标准中的能力目标要求相对接[10].但笔者认为,后三个水平的“分析、评价、创造”都是对前三个层次的“识记、理解、应用”的总结、反思、拓展,旨在提升学生普遍性的知识迁移能力和陌生情境下的问题解决能力[11],而不同的学习者所运用的方法存在较大差异,属于个性化认知与思维习惯,不能够做出清晰的界限与类别划分,故从目标意义的相对独立性、抽象层次匹配性和实际应用的连续性来看,将领域知识划分为识记、理解、简单应用(后称应用)、综合分析与应用(后称分析)、拓展与创新(后称拓展)这样五个层级更为简明扼要,也更便于操作.

2) 根据精熟度等级划分不同难度

上个世纪八十年代,澳大利亚教育心理学教授比格斯(J.B.Biggs)提出了一种以问题解决为导向的等级描述式精熟度评估方法.在比格斯看来,学习者的学习结果涉及五个不同的反应层级(图1)[12].按照认知水平从低到高排列,它们则依次是:前结构、单点结构、多点结构、关联结构和拓展抽象结构.其中,前结构表示学习者没有理解所学内容;单点结构表示学习者对问题略知一二;多点结构则表示学习者对问题有了较多的了解,但在解决问题时还不能将它们联系起来思考;关联结构表示学习者对整个问题有了全局性了解,能够将多个知识点整合起来去思考;拓展结构表示学习者在解决问题时能对主题知识与素材及其相互关系进行概括与抽象,使其知识、经验能够迁移到未经历过的陌生情境,具有了较强的创新能力.其中,关联结构主要适合于13~15岁学生的具体型概括思维,扩展结构则主要是适合于16岁以上学习者的形式化运算与推理.笔者认为,SOLO 分类的整个思路与PISA 中的精致加工策略运用和知识迁移二指标殊途同归.它完全适合用作测评内容的熟练度表征和分数实际意义解释的理论依据.

图1 比格斯SOLO认知水平分类模型Fig.1 Biggs'classification model for recognition levels

2.2.3 扩展双向细目表的编制

按照规模大小,教材中的知识通常可分为三类:知识点、知识单元和知识板块.其中,知识点是教材中具有相对独立意义的基本信息单元,如概念、定义、某一完整的现象或机理描述等.它们是教学组织和试卷编制的最小单位.说它具有相对性是因为正像物质具有无限可分性一样,领域、学科、教材内容的广度不同,对所学内容的深度要求不同,知识点数量和结构的划分与认定都会有所变动,也与教师的知识水平和教学经验有关.知识单元由一系列知识点组成,而知识板块又是由多个知识单元组成.笔者认为,对于扩展后的双向细目表一般以大小适宜的知识单元为基本单位比较恰当,但个别有特殊重要性的知识点也可作为试卷命题单位.

各知识点、知识单元、知识板块在整个测试内容中的相对重要性即为它们为试卷中的权重.它通常用百分比来衡量.按照前述五级难度分类,考虑到基础教育的基础性,有国内同行指出:前三类的比重应占到总分的70%左右,其中,识记、理解、应用分别占15%、25%和30%,而分析、拓展的比重则分别是20%和10%左右[13].参考测评设计框架后扩展后的双向细目表的大体样式如表2所示:

表2 扩展后的双向细目表样式Tab.2 The style of extended two-way checklists

3 效标关联效度的检验

3.1 “效标”的概念

通过测试所得到的原始分数本身并无意义,必须和外界的某些参照物相比较,其意义才会更加明晰.实际上,在效度研究早期,所选定的参照物往往被看作是一种判断测试有效性的外在标准,于是,作为效度标准的“效标”这一概念也就产生了.效标所对应的效度也称为效标关联效度.

依据测试分数与效标之间的时间远近程度的不同,效标效度有预测效度和并存效度之分.其中,并存效度是指通过这次的评估结果去推断大致处于同一时间段内的另一评估结果或行为表现的正确程度.它主要用于调查性评价和诊断性评价.预测效度是指通过这次样本的评估结果去预先推测、估计评价主体所关心的另一种特质、特性的正确程度.它主要用于被试群体的分类和选拔.由于预测效度的验证需要假以时日,甚至是数年之后才具备相应条件,因此,在本研究的初期还是重点保证并存效度.

3.2 效标的选择

效标的选择必须科学.那么,实践中该如何选择呢?通常必须综合考虑四个因素[14]:1)效标不能出现方向性偏差.在理论上,它必须和预测原有相近的评估目的或具有相同性质;2)效标本身必须具有足够的信度;3)效标不能受到预测原的污染,也就是预测原的相关信息不能事先向效度评价者公开;4)注意保持效标样本数和预测原样本数的一致性,尤其要注意表现极好、表现极差这两类人员是否有流失.

3.3 效标关联效度的计算

效标关联效度通常用预测原与效标之间的相关系数来衡量.其数值越大,意味着对于所选择的效标来说,测试结果越有效.依据评估数值类型的不同,相关系数的计算方法也略有差异,教育心理测量中比较常见的相关系数计算方式有:积差相关、等级相关、点二列相关和双列相关四种[15].一般认为,0.5~0.75之间为较高程度的相关,大于0.75为强相关,而小于0.25则可视为弱相关或不相关[16].

3.3.1 测试成绩与效标的相关系数计算

在学习素养评估中,效标通常可选择某一总体(如班级、年段)最邻近的期末考成绩或月考成绩作为效标.尽管领域成绩本质上是一种顺序数据,但是,业界一般都把它们看作等距数据,因此,通常是计算其Pearson 相关系数.在计算出相关系数之后,还可依据自由度df=n-2 和某一显著性水平(通常是α=0.05)对积差相关系数进行显著性检验.即如果上述相关系数大于其临界值,则可认定为显著相关.此外,在统计学上,相关系数的平方也称为确定系数(coefficient of determination).它表征了一个变量的方差中大约有多少比例是由另一变量所引起,在一定程度上也能帮助说明其关联性大小[17].

3.3.2 测试均值与效标均值的显著性检验

在学习素养的评估中,可选择的并存效度效标可能是上次期末考、这个学期的月考或期中考等,一般选择在时间上最为接近的那一个.因为是同一批被试,且时间较为接近,被试的学业水平这一心理特质不可能发生显著变化,因此,这两次测试的样本可看作是来自于同一个学业水平总体的两次不同抽样.依据中心极限定理,所有可能的抽样分布的样本均值也呈正态分布,且随着样本数n的增大,所有可能的样本均值xˉ的均值越来越接近于总体的平均值,并且均值的标准差等于总体的标准差与样本容量的平方根之商[18].不过,因为抽样误差的存在,我们不能用一次样本的均值和标准差去估计总体的均值和标准差,因为这样会低估总体的均值和标准差.在通过一次样本,尤其是小样本进行统计分析时,一般都使用无偏估计量来估计总体方差和标准差.这时,自由度df为(n-1)[19].如果总体本身为正态分布,或者抽样时样本容量≥30,那么,抽样分布的样本均值也将服从正态分布,即

通常,效标的均值μ0都能通过具体计算得到,那么,进行效标关联效度假设检验的过程如下:

1) 提出假设

先假定此次测试分数的均值μ1与效标均值μ0之间没有差异,即零假设为H0=μ0.这时,备择假设为此次测试分数的均值与效标均值μ0之间存在差异,即H1≠μ0.由于样本均值的方向并不确定,因此,选择双尾检验.

2) 选择检验统计量

由于总体属于正态分布,但标准偏差为未知,故用样本的标准差ρx来估计总体的标准偏差ρ,样本均值与总体均值的离差都呈正态分布,因此,选择Z检验统计量:

当然,如果总体分布为不确定分布,且样本量在小于30的情形下,也可以选择t检验统计量:

3) 计算检验统计量Z的数值

首先,计算出此次测试分数的均值μ1和标准差ρ1,在H0为真的条件下,用效标均值μ0去代替式(4)中的总体均值μ,然后用此次测试分数的均值μ1、标准差ρ1以及样本数n1分别代入式(4)中的、ρx和n,计算出一个具体的Z值Z1:

4) 根据显著性水平确定临界值

一般情况下,给定显著性水平α=0.05去查阅概率论教材附录中的标准正态分布表,可得到Z的临界值=±1.96.当然,也可选择显著性水平α=0.01,这时=±2.58.

5) 将检验统计量的数值与临界值进行比较,得出结论

根据Z1的数值判断它是否处在[-1.96,1.96]之间.如果Z1落在这一区间,则接受零假设H0,得出此次测试分数与效标之间在0.05的显著性水平下没有显著差异的结论,否则,接受备择假设H1.

4 构想效度的因子分析

4.1 构想效度

构想效度关心的是心理学相关理论在评估活动中的表现程度[20].对于同一个理论,不同流派的学者观察的角度与层次往往不尽相同.这样,不同的理解必然导致不同的估测方法.此外,同一个构想也往往提出了多个假设,并不囿于某一具体指标.因此,构想效度的评估需要多方面的长期资料积累.例如,本评估中问卷的构想效度要重点考虑三个方面的问题:1)问卷中的项目是否具有较好的相对独立性;2)问卷中的所有项目能否彼此形成某种协同关系;3)问卷的最终测量结果与原来的心理理论预期是否存在明显差异.考虑到构想效度的复杂性和方法的成熟性,在本研究中,学习素养构想效度的验证主要使用探索性因子分析(Exploratory Factor Analysis,EFA)与验证性因子分析(Confirmatory Factor Analysis,CFA)相结合的方法.

4.2 通过EFA探索学习素养的因子结构

4.2.1 探索性因子分析

在EFA中,通常是依据相关性大小将变量进行分组,把相关性较高的几个可观测变量归为一个类别,而认为不同类别之间变量的关联性则较低.在EFA 看来,同一类别内各变量之所以紧密相关,是因为受到了某个共同的潜在公共因子的影响.由于每个类别都可视作一个结构性维度,这样,全部可观测变量的绝大部分信息最终都可通过少数相互独立的几个公共因子去描述,最终将复杂问题转变为一个相对简单的结构化模型.

4.2.2 通过EFA探索学习素养成分结构的主要过程

学习素养的九个评价指标经过数值的标准化处理后(对于考试分数X=(X1,X2,…,Xn),其平均值为,标准差为S,则其标准分Z=()/S),可以用公因子f1,f2,…,fp和每个变量的特殊因子ε表述为如下因子模型:

(4)式中,公共因子共有p个,aij(i=1,2,…,9;j=1,2,…,p)称为因子载荷.它就是变量Xi和公因子fj之间的相关系数.

学习素养EFA分析的主要步骤如下:

1) 适合度检验

其常用方法是Bartlett 球形检验+KMO 取样适合度检验.根据Kaiser 的经验,如果KMO 值大于0.9,非常适合;0.8~0.9之间,适合;0.7~0.8之间,一般;0.6~0.7之间,不太适合;小于0.5,则极不适合[21].

2) 因子提取与因子数确定

因子提取的基本问题是如何找出少数几个公因子并使这些公因子能够在相当程度上解释原来分数的变异.目前使用的最多的还是主成分分析法(Principal Component Analysis,PCA).

在PCA中,每一名学生学习素养的九个评价指标对应着九个变量,通过坐标原点移动、坐标旋转方法可使(4)式中各指标的数值重新用一组新的坐标的线性组合来表示,这种变换后的数学模型见(5)式:

在(5)式中,由于各指标之间存在一定的相关性,因此,可使q<9.其中,F1,F2,…,Fq之间彼此是无关的,并且从F1、F2到Fq方差贡献依次减小,分别称为第一主成分、第二主成分、…、第q个主成分.为了达到减少变量数目的目的,在分析时通常只取前面几个主成分作为公共因子,在每一个公因子的特征值都大于1的前提下,一般以累计方差贡献率达到70%~80%作为公因子数目的取舍标准[22].

3) 因子旋转

经过前述步骤确定的因子指标的含义并不十分清楚,为此,有必要使用数学变换的办法使各因子能凸显某些特定的实际意义并便于命名.这就是因子旋转.因子旋转中最常见的办法是方差最大化(Vari‐max)的正交旋转,让各因子轴之间彼此保持90度的夹角,同时使各公因子上的载荷极大化.

4) 给各维度因子命名

通过EFA 获得的学习素养因子模型,其结果仅仅具有数学意义.在实践中,人们更关心数据之间的认知心理学意蕴,因此,研究者会依据自身的经验与专长给每一个公因子取一个更加通俗易懂而又意义明确的名字.有学者指出:这种对公因子的命名看似是一种主观、随意的事情,非常简单,实则是从一个侧面折射出研究者的专业素养和个人旨趣.本研究的基本做法是:将公共因子中那些低于0.3 的载荷因子忽略不计,并在每一个公共因子里重点要考虑那些高负荷的载荷因子,分析它们具有怎样的心理过程共性,然后加以抽象并命名.

4.3 通过CFA验证学习素养因子结构的合理性

前述EFA探索得到的是一组可观察变量的结构拟合模型,其所得到的理论架构是事后(posterior)的概念,并且假设:1)不同公共因子之间彼此独立;2)同一个公共因子内,各变量之间高度相关或具有较大相关;3)所有观察变量都只受到各公共因子的直接影响,而不受到其它潜在因素的影响.总之,上述假设不一定完全符合实际情况.[23]为此,二十世纪六十年代后期,统计学家波克(R.D.Bock)等在研究EFA拟合模型的过程中提出了如何进行参数假设检验的问题,后经瑞典统计学家乔纳斯柯格(K.G.JÖreskog)等结合协方差结构模型进行参数的极大似然估计开发出与之相配套的统计分析软件LISREL,最终成为了一种通过结构方程建模(Structural Equation Modeling,SEM)验证多变量之间原有假设关系的通用统计模型[24].将SEM应用在测量与统计分析领域就成了后来的验证性因子分析.

4.3.1 CFA的基本模型

CFA的基本模型为:

(6)式中,X 为观察变量,对应于向量,也就是一组评价指标.ξ 和Λ 分别为潜在因子、潜在因子与观察变量的协方差(covariance),δ为随机误差变量,其数学期望E(δi)=0,并且δ与潜在因子ξ之间是不相关的.

4.3.2 CFA的基本思想

作为一种路径分析与整合的多变量分析方法,CFA的基本目标是先假设各测量指标数据均呈正态分布且各测量指标与潜在因子之间是一种线性依存关系,然后针对要验证的模型的样本协方差矩阵S,通过迭代计算方法找出与它相对应的再生矩阵Σ,使Σ既符合原来的假设模型M,又能与S 在某种意义上最为接近(两个矩阵中相对应元素之间的残差最小).Σ 和S 的差距越小,则表示模型与现有数据越吻合.如果通过迭代计算所找出的最小的再生矩阵Σ仍和模型M 之间有不可接受的差距,则表示假设模型M 与现有数据不匹配.这时,必修对原来模型M做出修改或予以更换[25].

4.3.3 拟合模型的判定

除了待估参数和表征模型复杂性的自由度,模型中还包含因子负荷、因子间相关系数等路径参数,应该依据什么指标去检验再生矩阵Σ 和样本协方差矩阵S 之间的差异大小呢?这就是拟合优度指数(good‐ness of fit index,GFI).由于拟合优度指数不仅和模型有关,也和样本有关,因此,不同的学者提出过不同的拟合指数,其中,比较常用的有卡方值χ2、非范拟合指数NNFI、相对拟合指数CFI、标准化残差均方根SRMR或经过调整后的均方根指数RMSEA 等.通常,自由度较大而又能使Σ与S之差最小的简单模型才是最理想的.

4.3.4 CFA的样本容量

对于CFA 来说,如果样本数较少,则其参数估计和拟合指数数据会欠稳定,因此,一般采用大样本.至于大到什么程度,有学者提出了“首要规则(rules of thumb)”,即必须与观察变量相配套,通常是一个观察变量至少要有10~20个样本.依据首要规则,学习素养的9 指标评价体系至少应有90~180个样本.当然,大部分学者认为,CFA的被试样本应该在200以上.

4.3.5 待估模型的参数设置

如果经过自身的经验判断或希望两个指标或因子之间没有关联,那么,在研究中可将其因子负荷设为0.在同一个公因子中,采用固定负荷法,将其中因子负荷数值最大的那一个指标数值设为1.除了因为计算需要而设定因子度量单位的那些元素之外,其它所有待估的因子负荷、指标的误差方差、因子之间的相关系数、因果路径系数之外的元素都可以设置为自由[26].

4.3.6 通过AMOS进行CFA分析

学习素养在统计分析中属于高阶多维测量模型.其主要分析步骤有:1)依据EFA 的公因子分类结果绘制模型的路径分析图;2)给各变量命名;3)依据分析特性,选择要呈现的统计量;4)运用最大似然估计法(Maximum Likelihood Estimate,MLE)进行模型估计.如果模型可识别,将呈现出卡方值、自由度和相关统计量;5)依据模型吻合程度的χ2计算值、概率显著水平、参数估计值判断原来的假设模型是否与样本数据匹配.否则,可依据修正指数(Modification Index,MI)进行模型修改或重新选择另外的假设模型进行验证.目前,可用于CFA 分析且比较流行的专门软件有LISREL和AMOS等.笔者在实践中使用的是James L.Arbuckle设计的AMOS7.0软件.

4.3.7 学习素养的效度计算

一般认为,通过EFA 所得到的学习素养指标的公因子结构在经过CFA 的验证后,其分析结论就更为真实而可靠.当然,在试卷和问卷编制过程中,为提高评估有效性,还可结合多质多法(Multitrait-Multi‐method,MTMM)模型去检验问卷、试卷中的收敛效度、区分效度和方法效应.在MTMM 中,同一种方法应能辨别不同的能力目标,而用不同的方法去测量同一个目标内容时,应该具有较高的相关,从而帮助我们了解试卷、问卷中的各个项目、试题是否在原来预期的因子维度之内并判定这种从属关系是否合理,最后通过解释并推断出所评估的“学习素养”概念的合理性.实践中还可通过可接受模型协方差矩阵中的主对角线上的元素计算出全部观察变量的唯一性方差(i=1,2,…,n),其中n为观察变量数,将各观察变量的方差与其唯一性方差之差的和作为全部观察方差中能由所测的学习素养这部分特质所能解释的那部分方差数.这样,依据效度的定义可由(7)式计算出整个学习素养评估的效度[27]:

5 对效度评估的思考

在教育与学习评估实践中,人们普遍将效度高低作为判断一个评估模式是否可靠的基本依据.然而,效度却是一个发展中的概念.二十世纪八十年代,学界对效度验证多采用效标效度.但是,效标的有效性极为有限,有时甚至难以自圆其说.于是,退而求其次,提出了内容效度,用测试样本代表性去补充效标效度.不过,要做到样本在总体中的充分代表性也并非易事,何况总体也是人为划定的,它本身并没有一个统一而固定的边界.这时候,人们必须寻找一种更为底层的东西,于是作为心理测量目标的“构念”出现了.但是,“构念”又是一个无法得到效度证明的假设性概念,本身具有虚弱的逻辑假设性和不可操作性,而且有循环论证之嫌[28].到了上世纪九十年代末,效度被定义为“测验所要测量的概念或特性”.这时,效度已经发展成为对“构念”进行测量的有效程度,原来的“效标”演变成了“证据”.这样,效度验证就是一个通过测试内容、反应过程、内部结构、与其它变量之间的关系和测试结果相关等累积性证据去支持评估的有效性并对评估结论做出合理解释的过程.

笔者认为,由于教育与学习的评估对象是惯性和灵性兼具的人,其复杂性远远超过了前人的预期,故当前业内人士不再笼统地谈效度论证,而是在接受“测不准原理”和遵循结构清晰性、逻辑一致性和可合理解释性三条基本准则的前提下,去寻找各种可供选择的能解释效度的方式,更多地关注某一评估活动中的测试分数对于它特定目标的合理解释程度[29].特别近十多年来,随着模糊数学的兴起,还有数据挖掘(DM)与人工智能(AI)技术的不断成熟,效度验证也必将综合运用各种定性与定量分析方法,在多渠道、多层级收集相关证据中走向更加精细化和科学化.

猜你喜欢
效度变量因子
我刊2021年影响因子年报
抓住不变量解题
山药被称“长寿因子”
Beep test评估11~15岁少年游泳运动员有氧能力的效度研究
巧解难题二则
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
扮靓爱车拒绝潜伏危险因子
分离变量法:常见的通性通法
语言测试效度研究的另一视角:考试的因子结构研究