赵亚如 李朝乾 田欣雨 陈云红
2020年6月30日,中共中央全面深化改革委员会第十四次会议审议通过了《深化新时代教育评价改革总体方案》,方案强调要“改进结果评价,强化过程评价,探索增值评价,健全综合评价”。杨志明教授认为,要具体做好四种评价,不仅需要从管理和政策层面做出周密和系统的安排,而且需要从教育测量与评价的理论和技术层面拿出切实可行的实操方案,强调在“强化过程评价”和“健全综合评价”方面,不仅需要用到经典测量理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)的理论与方法,而且特别需要用到测评的概化理论(Generalizability Theory,GT)[1]。
概化理论是经典测量理论的发展,其基本原理是运用实验设计的思想,分析影响测验分数差异的各项因素(如考生个体水平的差异、题目难度等),并运用方差分析的技术,分别估计各项因素对分数总变异的贡献[2]。1963年Cronbach等人在《英国统计心理学杂志》上发表的论文《概化理论:信度理论的丰富和发展》(TheoryofGeneralizability:Aliberalization ofreliabilitytheory)标志着概化理论的诞生[3]。近年来随着研究水平的提高,概化理论的应用范围也不断扩大,在心理学[4]、医学[5]、教育学[6]等各方面都得到了广泛的应用。《深化新时代教育评价改革总体方案》对我国的教育测量与评价提出了更高的要求,概化理论作为三大测量理论之一,对其国内外近年的研究进展进行对比分析和梳理总结,能够为今后教育测量与评价领域概化理论的应用研究提供参考。
Cite Space软件由美国德雷赛尔大学陈超美教授基于Java开发,主要用于科学文献数据计量分析、识别和显示科学发展新趋势及新动态[7]。本研究使用Cite Space 5.7.R4软件对国内外概化理论相关研究成果进行计量分析,包括发文量分析、关键词共现网络分析和合作网络分析。其中,关键词共现网络分析主要通过共现词频分析和聚类视角网络图谱,聚类视角图谱通过聚类分析得到。聚类分析是将一组研究对象分为相对同质群组的统计分析技术,同一个聚类中的对象有很大的相似性,而不同聚类间的对象有很大的相异性[8]。合作网络分析包括国家、机构和作者合作网络图谱[9]。
以Web of Science为检索数据库,设置主题为“Generalizability Theory”进行国外英文文献检索;以CNKI为检索数据库,在“高级检索”模式设置主题为“概化理论”进行国内文献检索。时间跨度设定为2001年至2020年,经过剔除筛选后,共得到734篇英文文献和373篇中文文献。
图1 统计的是国内外近二十年间(2001~2020年)概化理论研究领域的发文量。从图1中可看出,2010年之前国内外概化理论发文量基本相近,但之后的国内外发文数量表现出明显的差距,国外每年的发文量明显高于国内发文量。整体来看,国外概化理论研究的发文趋势总体呈现显著上升趋势,2015年达到峰值;国内的概化理论研究发文量总体也呈上升趋势,但幅度偏小,在2009年达到峰值36篇,之后热度逐渐降低,2020年又明显升高,表明概化理论在国内测量领域的应用再次受到重视。
图1 2001~2020年国内外概化理论研究发文量数据图
进一步对国内文献进行统计,发现近20年373篇关于概化理论研究的文章中,有108篇为南大核心(CSSCI)期刊文章、126篇为北大核心期刊文章,占总发文量的62.7%。国内概化理论的相关发文数量虽不比国外,但其相关文章所发表期刊大部分为核心期刊,即国内对现代测量理论中概化理论的关注度和重视程度仍颇高,概化理论在我国的研究及应用有很大前景。
关键词是指能反映论著的主题和中心内容的名词术语或词组。当某一关键词在同一领域文献出现频率较高时,该词就能反映这一领域的研究热点与研究动向。在关键词共现分析中,节点的大小反映的是关键词的频次[10]。
1.关键词共现图谱视角对比分析
设置节点类型为关键词,时间范围为2001年至2020年,时间切片长度为1,网络裁剪法为默认,将中英文文献分别导入,得到国内外关键词共现图谱(见图2)。国外关键词共现图谱共有593个节点、1340条连线,国内关键词共现图谱共有507个节点、1056条连线,结合发文量(外文734篇、中文343篇)可发现,国内概化理论研究领域的关注热点相比国外较为分散。分别统计国内外关键词词频,得到国内外文献关键词词频分布表(见表1)。
图2 表明,国外关键词共现网络中节点最大的10个词分别是Generalizability Theory(概化理论)、Reliability(信度)、Assessment(评估)、Validity(效度)、Measurement(测量)、Performance Assessment(表现性评价)、Psychometric(心理测量)、Multivariate Generalizability Theory(多元概化理论)、Reproducibility of Result(结果复现性)、Dependability(可靠性),与表1列举的国外关键词相一致。结合词频分布表和关键词共现图谱可以发现,国外概化理论研究领域的研究热点包括信度、绩效评估、心理测量、多元概化理论、仿真模拟和评分者效应,说明国外概化理论研究领域重在将概化理论应用于企业、心理学、医学等领域测量与评价的信度估计。另外,国外对“多元概化理论”的研究也较多,由于概化理论仅涉及到特定概化全域上的一个全域分数,多元概化理论在处理具有多个测量任务或目标的测量问题时具有独到优势。
表1 国内外概化理论研究关键词词频分布表(Top10)
图2 国内外概化理论研究关键词共现图谱
结合图2和表1可知,国内概化理论研究领域的研究关注点有“概化理论”“多元概化理论”“信度”“项目反应理论”“经典测量理论”“方差分量”和“概化系数”,其次是“生命质量”“可靠性指数”和“结构化面试”。
国内研究热点内容可以整理归纳为两个方面:其一,概化理论应用研究,主要将概化理论应用于医学领域的生命质量测评、企业的结构化面试、教育领域的口语测试等标准化测验和非标准化测验的信度分析、可靠性指数分析;其二,理论研究领域,国内概化理论研究领域除了关注其自身的发展理论——多元概化理论外,对经典测量理论和项目反映理论的研究也较多,词频仅次于“信度”。经过进一步的文献分析发现,国内部分学者将项目反映理论、概化理论和经典测量理论进行准确性、科学性等方面的对比研究[11],为概化理论的应用提供了价值基础。还有学者最新设计了概化理论和项目反应理论的统合模型[12],提供了更准确的科学测量工具。以上表明近10年来,我国概化理论研究领域处于理论探索阶段,并在向理论的创新应用阶段发展。
2.关键词聚类图谱视角对比分析
自动聚类标签视图可以在关键词默认视图的基础上依据关键词相似度对其进行聚类,从不同角度展示出该领域研究的分布情况,聚类越靠前,说明聚类越大。Cite Space可以通过三类不同的算法进行聚类:TF*IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)加权算法、LLR(Log Likelihood Ratio,对数似然率)算法和MI(Mutual Information,互信息)算法,其中TF*IDF算法强调研究方向,LLR和MI强调研究特点[13]。
Cite Space提供了模块值(Q值)和平均轮廓值(S值),以评判聚类效果。一般而言,Q值在区间(0,1)内,Q>0.3就意味着聚类结构显著;当S≥0.7时,表明聚类结果令人信服。本研究选择LLR聚类算法,得到国内外概化理论研究关键词聚类图谱(见图3)。其中,国内概化理论研究关键词聚类图谱Q=0.7305,S=0.9635,国外概化理论研究关键词聚类图谱Q=0.8234,S=0.9668,表明国内外概化理论研究聚类图谱轮廓清晰,结构区划较为合理,同一聚类间信度较为可靠,总体聚类效果较好。将聚类关键词进行整理,剔除意义相近聚类关键词,最终得到国内外概化理论研究关键词聚类序列表(见表2)。Cite Space中,聚类的节点越大,则聚类的规模越大,编号越小;聚类的平均年份指聚类中引用文献的远近。
图3 国内外概化理论研究关键词聚类图谱
表2 国内外概化理论研究关键词聚类表
通过对国内外概化理论研究主题词聚类结果进行整理、对比,可洞悉该领域国内外研究热点。从表2可知,国内外概化理论研究在关键词聚类序列中,共同出现的有多元概化理论、信度和评估三个方面。国外关键词聚类规模由大到小为:Reliability(信度)、Generalizability Theory(概化理论)、Validity(效度)、Performance Assessment(表现性评价)、Reproducibility of Results(结果复现性)、Multivariate Generalizability Theory(多元概化理论)、Generalizability(概化效度)、Psychometrics(心理测验)、Measurement(测量)、Accuracy(准确性)。国内关键词聚类规模由大到小为:概化理论、多元概化理论、信度、方差分量、经典测量理论、高考地理、最佳样本量估计等。因主题词Generalizability与Generalizability Theory的聚类节点基本相同,故将以上聚类序列主题词进一步并属归类,总结出国内外概化理论重点主题类属分布(分别见表3、表4),整体直观地呈现了国内外相关研究的主题内容。
由表2可看出,国外概化理论研究领域近几年对“准确性”的关注度更多,聚类文献的平均年份为2019年。结合表3可知,该主题聚类的节点包括“系数α、实证研究方法、评价、测试理论/发展、舞蹈治疗、序列分析”,表明国外近年较多关注概化理论在实证测评的准确性、信度方面的研究,如Lei Xu等运用多元概化理论对Schutte情绪智力量表进行了评分的准确性测量和信效度检验[14],完成了量表的修订。
表3 国外概化理论研究主题类属分布
国内概化理论研究领域近几年开始关注“最佳样本量估计”和“不确定度理论”,结合表4可知,“最佳样本量估计”主题聚类的节点有预算限制、拉格朗日乘法、柯西不等式、高校教师、教学水平评价、心理测评等,目前国内应用概化理论进行最佳样本量估计研究的是黎光明团队,如应用概化理论估计最优信效度及预算限制下的高校教学水平评价的最佳评价场合、学生样本量以及题目数量,并提出了拉格朗日乘法、柯西不等式两种样本量估算方法[15]。“不确定度理论”是现行主流计量学定量刻画测量结果不确定性的测量理论,对概化理论中的误差方差作了明确定义,主要统计技术是方差和贝塞尔公式[16],目前主要应用于数学、经济管理学科。
表4 国内概化理论研究主题类属分布
1.国家合作网络图谱分析
将外文数据导入Cite Space软件,设置作者所属国家为节点类型,得到概化理论研究领域国家合作网络图谱(见图4)。Cite Space共现网络图谱中,节点越大表示频次越高,节点的年轮代表时间;两节点间连线表明节点间存在合作,连线越粗表示两点间的共现越强,即合作越紧密;连线颜色由浅到深表示时间由早期到近期的变化。通过图4可看出,美国的节点最大,且颜色最深,表明在2001~2020年间,概化理论研究一直是美国评价领域关注的热点。通过节点连线可知,美国与加拿大两个国家的连线数量最多,与许多国家都存在合作,但从连线颜色来看,加拿大国家近期的合作更多,且已独自形成紧密的合作网络。另外,德国、智利也形成了小型但紧密的合作网络;澳大利亚与英国之间形成一条较粗且颜色较深的连线,表明两国近期(2020年)进行的概化理论合作研究较多;法国与加拿大两节点间存在明显的连线,表明两国研究者也存在较紧密的合作。通过图4还可以发现,美国和加拿大的研究学者与其他国家的研究学者合作较为密切,其中加拿大学者在2014年前后对概化理论研究最为关注,美国、新西兰、澳大利亚、德国和西班牙国家近几年进行的相关研究较多。
图4 概化理论研究国家合作网络图谱
按照发文数量取前10名,得到表5。从国家分布来看,美国对概化理论的研究最为成熟,发文量高达238篇,占总发文量的32.425%,其次为加拿大、荷兰、澳大利亚和挪威,发文数量分别为70篇、34篇、18篇、15篇,占总发文量的18.664%。
表5 2001~2020年期刊发文量国家分布(Top10)
2.国内重要作者、机构合作网络图谱分析
分别设置作者和机构为节点类型,得到国内概化理论研究领域重要作者和机构合作网络图谱(见图5),按照发文数量取前10名,得到表6。结合图表可以看出,当前国内概化理论研究领域的重要作者有黎光明、张敏强、余嘉元、陈维等,重要机构有华南师范大学心理应用研究中心、教育部考试中心、广州大学教育学院心理系等。
表6 国内2001~2020年作者、机构发文量统计(Top10)
以普赖斯(Price)公式Ni=0.749Nm作为遴选核心作者的量化标准[17],其中Nm是最高产作者发文量,以此计算入选核心作者发文量的最低标准Ni。本研究中,来自华南师范大学心理学院心理应用研究中心的黎光明教授为最高产作者,2001~2020年间发文共33篇,将Nm=33代入普赖斯公式计算,得到Ni=4.303≈4,因此入选核心作者的发文量应大于等于4篇。统计样本中所有作者的发文量,共有作者380人,其中发文量不少于4篇的作者共16人,占比4.21%,其中发文量为1的作者人数最多,共283人,占比74.4%,表明当前国内概化理论研究领域还未形成稳定的研究团队与合作网络。由图5可看出,作者间的合作网络较分散,分别形成了以“黎光明、张敏强”为代表的合作群、以“陈维、罗杰”为代表的合作群、以“万崇华”为代表的合作群和以“杨志明、张雷”为代表的合作群,其中以“黎光明、张敏强”为代表的合作网络最复杂。
图5 国内概化理论研究领域作者、机构合作网络图谱
值得注意的是,国内概化理论重要研究机构主要为三类:第一类是高校心理学院系,如华南师范大学心理学院、心理应用研究中心和广州大学教育学院心理系;第二类是考试中心,如教育部考试中心、国家医学考试中心和上海市教育考试院;第三类是高校教育学院,如贵州师范大学教育科学学院,这也体现了国内概化理论的应用领域主要为心理学、教育学和医学。另外,黎光明、张敏强、余嘉元、陈维等核心作者均从事心理学方面的研究,即概化理论在国内的应用主要为心理学科。从机构所在地区还可发现,国内应用概化理论这一现代测量理论的主要为上海、广州、贵州、南昌等南部地区和首都北京,表明概化理论还有待在国内推广。
基于Cite Space软件,本研究从“关键词共现网络图谱”和“国家、机构、作者合作网络图谱”两个角度,对CNKI中文数据库和英文数据库中的概化理论研究进行了对比分析,主要得出以下结论:
根据关键词共现分析结果,本研究认为国内外概化理论研究中的高频主题词存在一定差异。对比国内外概化理论研究领域高频关键词,表中共同出现了“信度”一词,可见国内外都关注概化理论在信度测量方面的应用。“多元概化理论”一词也共同出现在高频词中,但其在国内高频词排序中位居第二,而在国外的高频词排序中位居第八。
此外,对比国内外概化理论研究主题高频词的前10位可以发现,国外概化理论研究关注“效度”“表现性评价”“心理测量”,而我国概化理论研究关注“项目反应理论”“经典测量理论”“生命质量”“结构化面试”。这反映出国内外概化理论研究的重要区别:即国外注重概化理论的教育和心理测量的信效度应用实践,而国内研究关注于测量理论的研究和教育、医学测量的信度研究。由此可以认为,国外的概化理论应用研究更为成熟,能够为我国教育与心理测量的概化理论应用研究提供经验。
根据合作网络分析结果,美国与其他国家的合作最多,国内的作者合作网络和机构合作网络较为分散,华南师范大学心理应用研究中心的黎光明研究团队为国内概化理论研究领域的主要力量。对比各国所在的合作网络,美国和加拿大两个北美邻国与世界各国都形成了紧密的合作关系,其中美国的合作网络节点最多,这也与概化理论起源于美国有关。另外,美国与加拿大近二十年间都保持着对概化理论研究的持续关注,近两年也在不断向法国和德国等欧洲国家及澳大利亚、中国等亚洲国家辐射,表明概化理论这一现代测量理论正在从“部分国际化”向“全面国际化”发展。
值得注意的是,我国的概化理论研究合作网络中只有美国一个国家,且连线较弱,国内该研究领域的核心作者及其不同机构间的连线也较少。因此,加强与不同国家之间、不同机构之间的交流与合作,是今后我国概化理论研究努力的方向。
综合国内外概化理论的研究情况,本研究发现相关研究成果呈现出积极增长的态势,且在研究内容的广度和深度上也有了较大进展。从文献数量来看,近几年国内外的相关发文量都显著增长,说明无论是国内研究者还是国外研究者,都对概化理论的发展保持着热切的关注;从研究内容上看,国内外学者都从对理论本身的研究转向了理论的应用研究,从理论到实践、从单学科到多学科,体现了概化理论研究深度的变化。但从国内外概化理论研究热点可看出,国外对概化理论的研究明显更加成熟,其将概化理论在信效度、可靠度、心理测验以及教育测量等方面的应用,可为我国今后概化理论研究提供经验和参考。
整体而言,概化理论研究已基本成熟,研究方向日趋丰富与多样,研究领域逐步细化和深入。对比国外概化理论研究取得的相关成果,本研究认为国内的概化理论研究在以下方面有待改善:首先是概化理论的方差分析研究,当前国内主要应用概化理论进行方差分量分析,而将其应用于效度、准确性评估,以及不同信度测量方法间的对比研究较少;其次是概化理论的研究深度,除了将概化理论应用于量表与考试的信度分析,可考虑应用概化理论进行状态和特征检验、计分方法创新和教师等级考核等方面;最后,我国概化理论研究学者应加强交流与合作,尤其是与国际的合作联系。另外,由于选取的数据库的完备性、数据量的不足等问题,可能会使研究结果不够全面,使分析得到的结果产生偏差,需在后续研究中加以完善。