丁慧明
PISA抽样方法简介与PISA2015中国抽样实践
丁慧明
学生能力国际评价(PISA)是由经济合作与发展组织发起的大规模国际教育评价项目,抽样对评价结果的国际可比性至为关键。本文对PISA的抽样方法与理念、抽样的各个环节与技术标准进行介绍,并简要介绍PISA2015中国抽样的实践情况,基于PISA的抽样经验,对我国国内大型教育测评项目未来抽样的数据收集等环节提出一些设想与展望。
PISA;抽样;教育测评
学生能力国际评价(Programme of International Students Assessment,PISA)是迄今为止全球最具影响力的教育评价项目之一,通过考察15岁学生在数学、阅读、科学、协作问题解决领域中的表现,了解义务教育结束阶段学生运用知识与技能适应未来社会的能力,通过国际比较为各国的教育决策提供数据依据。自PISA2000开始,PISA每三年举行一次,PISA2015中国以国家身份正式参加。
PISA针对抽样的各环节都制定了严格的技术标准,所有参加国家或地区均需依据此标准完成PISA抽样任务,其科学的抽样方法与严谨的抽样程序为其数据的有效收集以及结果的国际可比提供了重要的前提保障。本文简要介绍PISA的抽样设计、抽样各个环节以及PISA2015中国抽样实践经验。
2.1 概述
PISA抽样综合采用多种方法。从PISA2000至今,绝大多数参加国家(或地区)均采用两阶段抽样。第一阶段采用按规模大小成比例系统抽样方法(Probability Proportional to Size,简称PPS)抽取学校。当所要研究的变量在总体中变异较大时,PPS方法往往能够提高抽样的效率。该方法通常借助一个辅助测度(auxiliary measure),使得每个抽样单元都有按其规模成比例被抽中的概率。在PISA中,每所学校的15岁学生估计值(ENR)则作为抽样的辅助测度。抽取学校前,由依据学校属性选定的外显分层变量将学校划分到不同分层中,对每层独立抽取学校。在抽样设计中,影响抽样误差的因素主要有两个,一是样本容量,二是总体内部的同质性程度。分层抽样便是基于第二因素的方法,确保样本是从总体内每个同质次级集合中抽取适当数量的要素,而非直接随意在总体中抽取。[1]PISA使用分层抽样是为了提高抽样设计的效率,从而确保获得可信的调查结果;确保样本涵盖总体的各个部分,对总体具有良好代表性;同时,可满足特定群体能够采用不同抽样设计的需求。[2]其他一些大型教育测量项目如 TIMSS(Trends in International Mathematics and Science Study)和 PIRLS(Progress in International Reading Literacy Study)等也都是对学校进行分层,在各外显层内采用PPS方法对学校进行系统抽样。[3]第二阶段是在样本校内随机抽取学生,同一所学校内,每个符合PISA条件的学生被抽中的概率相同。而对于俄罗斯联邦等极少数采用三阶段抽样的国家,第一阶段则是用PPS方法抽取地理区域,第二、三阶段再在抽中的区域中逐步抽取学校、学生。
为了确保样本能够有效估计学生的总体表现,PISA通过技术标准、抽样指南等规则与材料严格把控参加国家或地区的抽样质量,主要包括以下三个方面:对PISA国际目标群体的覆盖;准确性和精度;学校和学生的应答率。[4]PISA抽样的质量控制具体体现在抽样的各个环节。
2.2 抽样环节
2.2.1 确定目标总体
PISA的调查对象为就读于各级各类教育机构7年级及以上的15岁在校生,包括普通教育与职业教育、全日制与非全日制等。PISA是在确定测试日期之后,根据测试日期以及“15岁”的年龄要求来确定学生目标群体的出生日期范围,因北半球国家大多在4月开展测试,目标总体的“15岁”年龄要求便略作调整为15周岁3个月至16周岁2个月。如计划在2015年4月开展PISA2015正式测试,则正式测试的目标总体为1999年1月1日至1999年12月31日之间出生的所有在校生。PISA将通过样本的表现来推断此总体情况。
2.2.2 确定抽样方案
以PISA2015为例,每个国家需至少抽150所学校,每校抽42名15岁学生,共6 300名学生。若出于本国研究需要,在拟定抽样方案时也可提出增加样本学校抽取数量。为事先了解学生可能参加测试的情况,确保施测后能获得足够的有效样本量,各个国家或地区需要根据以往经验提交期望评估率,此评估率指在考虑了无应答、校内排除等之后参加测试学生占样本学生的比例。对于多次参加PISA的国家,可用以往PISA轮次中的评估率;对于首次参加的国家则可根据本国内的测试经验给出一个预估值。样本容量是影响抽样误差大小最直接、最有效的因素。[5]按照PISA抽样标准要求,6 300名样本学生中至少需有5 400名参加测试。从统计测量角度来看,理想状态是所有6 300名学生均参加测试。而当期望评估率较低时,参测国家则需考虑增加样本学校的数量来保证参加测试学生的总量。
通常情况下,PISA的初级抽样单元是学校。在拟定抽样方案时,各个国家或地区需从PISA学生分布情况、本国实际研究需要以及提高抽样效率等角度来选择分层变量,如选择学校地理位置变量将学校分为城市学校、县镇学校、农村学校等。PISA的分层变量包括外显和内隐两种。外显分层变量用于将学校分组,即分到不同的外显层,抽样将在每个外显层独立进行;内隐分层变量用于对外显层内的学校进行排序,方便在所有内隐层能够严格成比例抽样,从而进一步提高结果的信度。[6]为了防止抽中过多的超级大校或是小校,PISA默认将学校规模也作为内隐分层变量。[7]
2.2.3 收集抽样框
抽样框(sampling frame)是目标总体中所有初级抽样单元的完整列表。以两阶段抽样为例,PISA抽样框中需列出测试期间所有可能含15岁在校生的学校。抽样框是学校抽样的基础,为保证样本的良好代表性,抽样框需基于抽样方案,按各个分层将所有符合条件的学校逐条列出。抽样框中含有的信息包括学校编号、学校所属分层、15岁学生数量估计值(ENR)等。ENR将作为PPS抽样的辅助参考变量,越接近测试时的真实数量值越好。
考虑到测试实际操作的可行性,PISA允许在一定范围内排除极个别学校或学生。排除分为两种,一种是学校层面的排除,对于存在地理位置不通达、难以实施PISA等情况的学校,可排除整校的PISA学生,被排除的学校不置入抽样框中,不参加抽样;另一种是校内排除,即在学校内部排除有较为严重的生理障碍或认知障碍的PISA学生,测试所用语言非母语、水平极为有限且接受该语言授课不足一年的学生也可在校内排除。作为校内排除的学生仍需纳入抽样框统计,若被抽取到,在测试时再作排除。[8]为保证最终样本结果对总体的代表性且可进行国际比较,PISA技术标准严格控制学校层面排除与校内排除的总比率,最高不得超过目标总体的5%。[9]
2.2.4 抽取学校
PISA正式测试的样本学校由负责PISA抽样技术工作的国际承包商在各个国家或地区提交的抽样框基础上进行统一抽取。在抽样开始之前,PISA的抽样框经过缜密处理,每个外显层内的学校均按内隐变量进行排序,进而根据PISA学生在各外显层的分布比例为各外显层分配样本学校初始数额,并根据各层的小学校(以PISA2015为例,小学校指PISA学生人数不足42人的学校)数量、统计技术要求、参测国家研究诉求等因素对初始配额进行调整,经参测国家审核确认后形成最终的样本容量分配。
外显层内的样本学校等距抽取,每个外显层抽样间距为该层的PISA学生总数与待抽样本校数目之比。当有超级大校的PISA学生人数等于或超过其所在层的抽样间距时,该校则从所在层抽离出,作为必抽学校入样,该层的抽样间距则重新计算。
为防止测试实施时有学校不愿参加PISA,抽样时通常为每所样本学校配备2所替补学校,抽样框中位置紧邻样本学校上下的学校为替补校,以确保替补在各个属性参数上同样本学校最为相似。
2.2.5 抽取学生
学生样本由PISA国家中心采用PISA国际统一专用抽样软件KeyQuest(简称KQ)随机抽取。国家中心在抽样前收集参加测试学校所有符合PISA条件的学生名单,将名单导入KQ进行抽样。以PISA2015为例,KQ为每校抽取42名学生,对于不足42人的学校,软件将自动抽取名单中的全部学生。使用统一抽样软件可使得各个国家或地区的抽样流程严格一致,此外,可便于测试实施后学校、学生等参加情况的更新与数据的最后校验。
无论是纸笔模式还是机考模式,PISA测试均有多个试题版本。版本的多样化覆盖了各测评领域所要考察的维度,并平衡了试题的顺序效应。每个学生只接受一个版本的测试,KQ在抽取学生的同时就基于PISA的整体设计为每个样本学生分配完成测试版本号,对于参加机考模式的国家,学生机考登录账号及密码也同时生成。KQ还可生成统一格式的学生信息、测试与问卷环节出席情况表格等,方便PISA在学校内的组织安排、测试实施以及考场记录。
2.2.6 样本参加情况及应答率控制
科学抽样是获得学生表现有效估计值的前提保障,但若要估计值更为精确,且能够参与国际比较,则需极力调动样本参加测试的积极性。根据PISA技术标准要求,样本学校的应答率不得低于85%。若在85%~65%之间,在使用替补学校后的应答率需在可接受的范围值内;所有样本学生的总应答率需达到80%。[10]如果应答率过低,调查结果将不足以有力说明学生总体表现,不能参加国际比较。
在PISA2006、PISA2009、PISA2012中国独立研究的经验探索基础上,PISA2015中国以国家身份正式参加。本着自愿原则,PISA2015中国参加省份为北京、上海、江苏、广东,这4省(市)作为整体抽取样本,样本参加测试的结果将用来说明4省(市)整体15岁学生的表现情况。
我国除参与标准的学生测试、学生问卷调查之外,还参加了学生财经素养测试以及教师问卷调查这两个可选项。抽样各个环节均严格按照PISA国际统一要求与技术标准。我国采用两阶段分层抽样,所有基础抽样信息如15岁总人口、抽样框信息、学生与教师名单等由PISA国家中心协同4省(市)收集。抽样承包商以PPS系统抽样方法在抽样框中抽取学校,继而国家中心在4省(市)提交的学生教师名单基础上使用KQ为每所参测学校随机抽取学生和教师,财经子样本也通过KQ在学生样本基础上抽取。
PISA2015中国的分层变量在参加省(市)的建议基础上确定为:外显分层变量是学校地理位置(城市、县镇、农村)、学校类型(普通、职业)、学段(初中、高中、完全中学)。根据这些变量将所有符合条件的学校分列在学校抽样框的各外显层;内隐分层变量是学生入学成绩等级或学校质量(一般、实验性示范性、不适用)、学校性质(公办、民办)。参加省(市)根据所能获得的最新数值或估计值提供15岁人口信息以及抽样框中的学校名单信息,抽样框共有9 178所学校、1 448 879名15岁学生。考虑到测试的有效实施,学校层面排除了特殊教育学校、科学课程①PISA每个轮次以一个领域为主要测试领域,其他领域为次要测试领域。PISA2015以科学领域为主要测试领域。以非汉语授课的学校。此外,多数地区由于技工学校不归教育部门直管,不便组织测试,经与抽样承包商沟通,技工学校也在学校层面排除②上海市含15岁学生的技工学校纳入到了抽样框,未排除。;具有严重生理障碍或智力障碍,以及汉语非母语且汉语水平不足以参加测试的学生作为校内排除类别在测试时排除。总排除率约占4省(市)15岁在校生总体的4%,在抽样技术标准要求之内。
抽样承包商基于我国4省(市)填报的抽样框抽取样本学校共270所。其中20所样本学校因自身设备条件不足或有其他任务安排等原因表示不参加测试,使用了相应替补学校。另外,1所样本学校在测试期间无15岁在校生,1所样本学校测试期间将与其他学校合并,学生教师将分流,这2所学校不参加测试,因不符合使用替补学校的条件,因而也未用替补。PISA2015中国4省(市)共有268所学校参加了正式测试,在使用了替补后的学校应答率为100%。4省(市)抽样框及学生样本情况如表1所示。
因4省(市)的PISA学生主要分布在9年级和10年级,因此9年级和10年级称为“典型年级”。PISA2015以科学素养为主要测评领域,教师问卷的调查对象为能够教授典型年级的科学学科教师和其他学科教师。我国4省(市)的268所学校共抽取6 423名教师,其中科学学科2 456名,其他学科3 967名③每校抽取10名科学学科教师、15名其他学科教师,在教师人数不足的学校则抽取全部。。测试实施与数据初步清理后,实际获得的学生有效样本大小逾9 800人,教师有效样本大小约6 300人。
PISA抽样不仅方法科学,而且程序严谨,可资借鉴。PISA抽样综合采用了多阶段、分层、PPS等多种抽样方法,这些是目前国际上大型测评项目普遍使用的方法,具有较为成熟的研究基础,可较为经济有效地实现样本对总体的代表性,同时也可灵活适应国家内部研究的需要。PISA每个轮次通过国际招标确定负责抽样各个环节的承包商,承包商依据PISA技术标准统筹抽样各项任务,审核抽样数据质量,为各个国家或地区提供全面的抽样技术支持,确保各个国家或地区在每个时间节点内有质量地按时完成抽样任务。从方法和程序上保证所有国家或地区在整个抽样工作环节上的标准一致,为结果的国际可比性提供保障。
表1 PISA2015中国抽样框及样本情况
建立与完善兼顾以教育测评为目的的全国统一学生信息库十分必要。抽样结果的精度很大程度上依赖于抽样数据收集的有效性与精确性。以PISA 15岁学生估计值为例,其精确度直接关系到PPS抽样结果。教育部2013年已在全国32个省份安装完成中小学生学籍信息管理系统,多数省份数据已进入全国数据系统。[11]若数据库中能够增加学校地理位置等当前大型教育测评项目普遍关心的变量,势必今后不仅能服务于学籍管理与招生,同样可服务于教育测评。大型测评项目如PISA、全国基础教育质量监测等可从同一完备数据库中收集抽样基础信息,如此可大大节省抽样准备环节的人力与时间,同时可减少数据收集过程中的误差引入,也便于实现多个测评结果的相互参照研究与跟踪研究。
大型教育质量评估需借助于多部门的合作。以技工学校为例,除上海之外,其他省(市)的技工学校因不便组织开展PISA准备与实施工作而作为排除类别置入抽样框。技工学校15岁学生虽仅占15岁在校生总人口的较小比例,但却是我国中等职业教育的重要组成部分。如在PISA等面向中等教育学生群体的大型测评项目中,教育部门、人社部门等实现多部门协同合作,样本覆盖技工学校学生,测评结果将能更细致有力地刻画技工学校等中等职业教育学生的表现,更为全面地说明中等职业教育的总体教育质量状况。
[1]艾尔·巴比.社会研究方法(第十一版)[M].邱泽奇,译.北京:华夏出版社,2009:206.
[2][4][7]OECD PISA.PISA2012 Technical Report[R].OECD,2014.
[3]Martin,M.O.&Mullis,I.V.S.(Eds.).Methods and procedures in TIMSS and PIRLS 2011[R].Chestnut Hill,MA:TIMSS&PIRLS International Study Center,Boston College,2012.
[5]李金昌.应用抽样技术[M].北京:科学出版社,2010:32.
[6]Westat.PISA2015 FT Sampling Guidelines[R].Rockville,MD, 2013.
[8]Westat.School Sampling Preparation Manual:PISA2015 Main Sur⁃vey[R].Rockville,MD,2014.
[9][10]OECD PISA.PISA 2015 Technical Standards[R].OECD,2012.
[11]教育部.全国32个省份全部装完中小学生学籍信息管理系统[EB/OL].(2013-11-20)[2015-09-01].http://www.moe.gov.cn/ publicfiles/business/htmlfiles/moe/s5987/201310/158559.html.
An Introduction to the Sampling Methods for PISA and Sampling Practice of China in PISA2015
DING Huiming
The Programme for International Student Assessment(PISA),launched by Organization for Economic Co-operation and Development,is an international survey which aims to evaluate education systems worldwide.To provide reliable and comparable results across countries,sampling is critical for PISA.In this paper,an introduction of sampling methods and procedures in PISA are given.Sampling practice of China in PISA2015 is elaborated as well.And then the assumption and prospect of the process for educational assessment in China are discussed.
PISA;Sampling;Educational Assessment
G405
A
1005-8427(2015)10-0046-5
丁慧明,女,PISA2015国家中心(北京 100084)