● 刘梦今 陈月茹
教科书实验评价法及其应用个案研究*
● 刘梦今 陈月茹
本文介绍了教科书实验评价法的概念、步骤及特点,并简述了美国学者对特殊教育领域两种历史教科书进行的实验评价,从理论和实践两个层面对教科书实验评价法进行介绍,以期为我国教科书评价方法理论体系的构建提供思路。
教科书;实验法;评价
本文将对教科书评价方法中的实验评价法及其应用个案进行研究,以期完善教科书评价方法的理论体系。
关于教科书实验评价法的概念,还没有形成统一的明确的描述。笔者认为,教科书实验评价法是指由专家组织,在学校施行,由学生参与,在一段时间(几个星期,一般不超过6学期)后,通过对学生关于教科书内容的习得和理解程度进行测试,从而对教科书的有效性、适切性进行评价的方法。
教科书实验评价法可分为两种,一种是评价现行的教科书是否适用,实验类型通常采用单组实验;另一种是通过对两本教科书的对照实验,确定哪一本更有效,实验类型通常采用等组实验。
通常情况下,教科书面向的学生群体是庞大的,这就需要在学生中进行抽样,抽样时要注意两点问题,一是样本容量,二是样本的代表性。
样本容量由学生的多样性及容许的误差所决定,正如下面的公式所示[1]:
n-参加实验的学生人数:t-学生系数;δ-学生的多样性参数;△X-允许的误差
为保证样本的代表性,在确定样本时,可使用分层抽样法。例如,如果实验区的学生总数中,有40%的学生来自于农村,那么在抽取的样本中,农村的学生数量就应当占40%。
1.题目的数量、内容与难度
题目的数量应当适中,过少可能会遗漏部分知识点,影响实验的效度;过多则可能会给学生负担太大的工作量,从而影响学生进行测试的态度,也会降低实验的效度。研究表明,若想实验结果的误差低于5%,对一本教科书的评价需要设计大约400道题目。[2]
同一本教科书可以有很多不同版本的测试题目,题目的难易程度不同,测试的结果也就不同。格林在一次实验中,对一篇课文的题目进行了多次调整,结果正确率有的才达到22%,有的却高达70%。[3]题目的正确率取决于题目的难度:以术语为基础的问题正确率高于以事实或观点为基础的问题;原文中涉及答案的内容越多,正确率越低;问题越长,正确率越低。
2.题目的类型
在国外的教科书实验研究中,测试题目多以单项选择题(multiple-choice)和完形填空题(cloze procedure)为主。
单项选择题作为一种客观题,存在的一个重要问题就是被试有可能因为猜测而答对题目,提高分数。恩廷和克莱尔在其研究中发现,某些选择题中,80%的被试在没有阅读课文时就已给出正确答案。[4]由此可见,必须对猜测进行校正,以求出能反应被试真实水平的校正分数,公式如下[5]:
S-校正后的分数;R-被试答对的题目数;W-被试答错的题目数;K-题目的选项数
完形填空题作为一种测量文本可读性的工具,其创始人是泰勒[6]。完形填空是研究者按相同的间隔(一般为5至10个词语)删除一个词语,由被试根据自己的理解,在空格上填上自己认为正确的词语。完形填空的评分标准十分严格,只有“当填上的词语跟原文完全符合时,才能算正确”。[7]
教科书实验评价中的测试题目,有的来自于国家或区域统一的题库,有的来自于教师命题,但一般都会由研究者进行二次加工,使其数量、内容、难度以及题目类型基本与上述原则相符合。
博姆斯教授于1971年提出了中小学教科书阅读材料的评判标准,这个标准在美国得到了广泛的使用。博姆斯指出,“在完形填空测试中,正确率为0-34%,是无效等级;正确率为35%-49%,是需要教师辅导的等级;正确率在50%以上,是可自主学习的等级。”“完形填空38%的正确率等同于单项选择75%的正确率,完形填空50%的正确率等同于单项选择90%的正确率。”[8]
如果通过测试结果的分析后,发现教科书的难度不适合于学生,那么该怎样由实验结果来计算理想的难度水平呢?以下两个案例可以为我们提供思路和方法。
第一个案例是爱沙尼亚1973年九年级地理教科书的难度测试。此测试由854名学生参加,测试的满分为20分,测试的统计结果如表1所示。
表1 爱沙尼亚1973年九年级地理教科书的难度测试统计结果[9]
由表1可知,95%的学生可以达到6分。按照博姆斯的标准,正确率应达到至少50%,教科书才可被使用。因此,12分所对应的难度水平就应当是教科书的理想难度。此教科书的难度过高,需要降低20-12 20*100%=40%的难度。
第二个案例是爱沙尼亚1978-1979学年八年级解剖学教科书的难度测试[10]。此测试的满分为42,平均分为26.1,方差为8.l。分析结果如下:
理想的难度水平可由下面的公式计算得出:
有关美国历史教科书存在的缺陷,早在20多年以前就有学者论及。拜克和麦基翁就曾指出两大问题,一是教科书中蕴含的背景知识远远多于学生实际掌握的知识[12],二是“教科书内容的呈现既没有形成连续的历史事件链,也不能满足学生总结事件和观点之间联系的需求。”[13]也有研究表明,很多学生将历史看做是一系列独立的事件,更不能理解国家领导人缘何制定相关的政策[14]。因此,此案例针对美国历史教科书存在的问题,通过对照实验,评价两版历史教科书孰优孰劣。
因此,在此案例中,教科书的理想难度水平应该
实验选定了两所中学,这两所中学位于太平洋西北部的两个毗邻的中等大小的学区。两所学校的人数均为500人左右,在州统一组织的阅读和数学测试中成绩相当。在一项对全州范围内336所中学进行的以家庭收入、父母受教育程度、学生的流动性以及学生出勤率为指标的综合性排名中,两所学校的名次分别位列第29和第155名,这是两所学校最大的区别所在。为了避免区别所带来的误差,研究者在实验组和对照组中都安置了来自两所学校的学生。实验者分别从两所学校中选出24和26名八年级学生参与实验,但是,在为期20周的实验中,由于学生离校等原因未能坚持参与,最终有效的样本人数为29人,具体信息如表2所示:
表2 学生分组信息表
实验选用了两种不同版本的历史教科书,1994年版《理解美国历史》[15]和 1991 年版《美国历史》[16],分别作为实验组和对照组的教材。
实验组的教材涵盖了前殖民地时期到内战的历史。作者首先罗列出标题,建立起内容之间的联系。教科书以“原因——结果”为基本的叙述框架,呈现人们遇到的一连串问题和解决办法,以及预料和预料之外的结果,即自始至终贯穿“问题——解决方法——结果”的思路。此外,还有一些课堂实践活动被安排在教科书中,如每隔一或两段,都有问题要求学生回答,以帮助学生提炼重点。
对照组的教材讲述了美国前殖民地时期一直到现代的历史。作者采用了记叙文文体,讲述不同时期不同的人。教科书通过呈现对于同一历史事件的不同观点,以告诉学生理解历史可以有多种角度和方法。此外,为了加强学生对教材的理解,作者还增加了与历史联系密切的地理地图、阅读技巧的训练以及章节和单元复习。
此实验主要通过对学生基于教科书内容的习得水平的考查来评价教科书的适用性,测试方法有如下几种:
1.NAEP(国家教育进展评价项目)①
来自NAEP中的历史测试题目由历史学科的专家以及NAEP的测量专家共同创建,题目类型均为多项选择题。此实验选用了题库中与样本教科书内容相关的3、8、11三个年级的测试版本。通过对最初选定的49个题目的信度系数α②进行测量发现,前测的α值为0.571,后测的α值为0.635,鉴于前测的α值偏低,研究者在题目中去除了25道与教材内容关系不够密切的题目,最终保留了24道题,经过测量,前、后测的α值分别为0.725和0.635。NAEP的题目分别在前测和后测中使用。
2.教师命题
来自实验组和对照组的教师分别出题,题目既要来自于样本教材,还要与教师在课堂上讲解的内容一致。题目类型为简答、匹配和多项选择。研究者将题目合并为一份有32题的试卷,并且测量得出α值为0.91。这份试卷由学生在课程结束后完成。
3.进度监控措施
研究者在涉及重点内容的术语词汇中进行选择,每周对学生进行一次包含20个词汇含义匹配题的测试,要求学生在5分钟内完成,根据正确率来评价学生对于教科书内容的习得水平。
将教科书分发给每位学生,在授课前对所有的教师进行两个小时的备课指导。历史课每天进行90分钟,每周5天。对每天的进度并不做统一的要求,只要保证20周过后,能够完成4到5章的教学即可。
通过对NAEP测试结果进行F-test③,以时间为变量的结果为F(1,23)=0.157,p④=0.7;以组别为变量的结果为F(1,23)=0.437,p=0.52。由此可见,两组学生均没有因为对教科书内容的学习而在NAEP测试中取得显著的提高。
研究者对学生完成教师命题的结果进行T-test⑤,从对照组的教科书中抽取的题目,实验组学生的测试结果为M=0.38,SD⑥=0.21,对照组学生的测试结果为M=0.41,SD=0.25,可见差别并不明显;从实验组的教科书中抽取的题目,实验组学生的测试结果为M=0.87,SD=0.22,对照组学生的测试结果为M=0.38,SD=0.26,由此可见,实验组教科书更有利于学生对于教科书内容的习得。
进度监控的结果如图1所示。由图可见,实验组的学生每五分钟回答正确的题目个数由3个上升至16个,而对照组则由3个最终下降到0个。因此可得出结论,实验组的教科书有助于帮助学生习得术语,而对照组的教科书缺乏对于术语的强调。
通过以上分析,研究者的得出最终的结论,1994年版历史教科书向学生呈现出明确的历史时间链以及历史事实之间的因果联系,思路清晰,框架明了,可以使学生习得更多的历史知识并使其在测试中取得更优异的成绩。
此案例实验目的明确并具有较强的针对性,测试方法恰当并具有一定的权威性。同时,研究者注意规避有可能产生的误差,运用到心理测量的手段,使实验评价更加严谨、科学。当然,此案例也有其局限性,比如样本容量的确定,最终将29人作为样本容量,显然会因为容量偏小而影响结果的代表性和普及性。
图1 进度监控结果
1.直面学生 针对性强
在教科书实验评价法当中,教科书在正式投入使用之前,就直接与学生面对面,评价的过程不再仅仅是研究者对于文本的字斟句酌,对插图的审慎筛选的过程,不再仅仅是研究者对照审核表,对教科书打分评判的过程。将评价的实施过程置于真实的学校环境中,由学生直接参与,教师根据实际教学情况编纂部分测试题目,使得评价具有更强的针对性,通过学生对教科书的使用情况来直接反映教科书的难度大小以及适切性能的高低,由此得出的结论最为真实有效。
2.综合性强 可靠度高
实验法作为科学研究的基本方法,可以广泛应用于很多研究中。教科书实验评价法既可以验证其他方法的结论,又可以将其本身的结论提供给其他评价法,作为其研究的基础和依据。对于这种既是检验手段,又是基础论据的评价方法,在教科书评价领域,已经有越来越多的研究者开始对其投入更多的关注,通过对它的广泛运用,开发其巨大的价值。
1.操作复杂 难度大
实验评价法是教科书评价方法中最为复杂的方法。研究者需要考虑诸多因素,如被试的代表性、被试之间的平等性、实验设计和测量的有效性等。在实验前设想的理想条件在真实的实验中往往很难实现。与理论的设想偏差越大,实验结果的价值就越小。正如本文案例的缺憾,正是由于研究者没有考虑到实验参与者中途退出的可能性,因而导致样本容量偏小,实验信度下降。因此,对于研究者而言,实验前要做好充足的准备,全面考虑各方面因素,实验中也要捕捉新情况,及时调整实验的进行。
2.耗资耗时 投入多
实验评价法还是最耗时、最昂贵的教科书评价方法。为了保证学生的多样性和代表性、保证教师在实验中所起作用的一致性,必须调动很多的学校和学生参与进来,并对教师进行培训,这些都离不开学校的配合和经费的支持。实验持续的时间有所不同,最短也要一个星期,在这期间,学生和教师都要投入大量时间和精力,才能保证实验的顺利进行。
注释:
①美国国家教育进展评价 (The National Assessment of Educational Progress,NAEP)提供了一个独立的测量工具,来了解全美中小学生在阅读、写作、数学、科学、社会等学科领域的学术表现及发展趋势,是美国目前唯一定期在各个学科领域持续测评学生学业的全国性评价项目。
②克伦巴赫alpha系数的计算公式是由克伦巴赫于1951年提出的。后来,克伦巴赫及其同事又从方差分量分解的角度定义了很多种适应于各种不同测量情景的信度。alpha信度系数的取值范围应该在0~+1.0 之间。
③方差分析又称F检验 (F test),用于推断多个总体均数有无差异。
④ p为可能性参数。
⑤检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
⑥ M为平均值,SD为方差。
[1]Jann Mikk.Textbook:Research and Writing.New York,Oxford.2002.P47.P48.
[2]Jann Mikk.Theory of the Measurement and Optimization of the Degree of Complicacy of the Study Material in Comprehensive School.Doctoral dissertation.Manuscript.Tartu:University of Tartu,P434.
[3]Green K.Effects of item characteristics on multiple-choice item difficulty.Education and Psychological Measurement,vo1.44,551-561.
[4]Entin E.B.,Klare G.R.Relationship of measures of interest,prior knowledge and readability to comprehension of exposition passages.Advances in Reading/Language Research Quarterly,vo1.15,no.2.1980.
[5]戴海琦,张锋,陈雪枫.心理与教育测量[M].广州:暨南大学出版社,2007.87.
[6]Taylor.Wilson L. “Cloze procedure”:a new tool for measuring readability.Journalism quarterly,Vol30,1953,415-433.
[7]Bormuth.John R.Cloze readability procedure.CSEIP Occasional Report No.l,Feb.1967.
[8]Graham Wagner.Interpreting Cloze Scores in the Assessment of Text Readability and Reading Comprehension.1986-directions.usp.ac.fj.
[9]V ja IX.Results of a test on geography in fifth and ninth form in 1973.
[10]Jann Mikk.Experimental evaluation of textbook and multimedia.ED472706,2002.
[11]Mark K.Harniss,Jennifer Caros,Russell Gersten.Impact of the Design of U.S.History Textbooks on Content Acquisition and Academic Engagement of Special Education Students:An Experimental Investigation.Journaloflearning disabilities,vol40,number2,March/April 2007,P100-110.
[12]Beck I.L,McKeown M.G Gromoll E.W.Learning from social studies texts.Cognition and Instruction,Vo16,Issue 2,1989.
[13]Beck I.L,McKeown M.G Making sense of accounts of history:Why young students don't and how they might.Teaching and learning in history,1994,P7.
[14]http://www.redorbit.com/news/education/454060/eyes_on_the_prize_teaching_complex_historical_content to middle.html
[15]Carnine D,Crawford D.B,Harniss M.K,Hollenbeck K.L.Understanding U.S.history,Vol.l.Through the Civil War.Eugene,OR:Considerate,1994.
[16]Garraty J.A.The story of America.Orlando,FL:Harcourt Brace Jovanovich,1991.
*本课题系教育部人文社科研究项目 《教科书评价方法研究》(09YJA880077)的研究成果。
刘梦今 陈月茹/山东师范大学教育学院
(责任编辑:陈培瑞)