教育研究与评估初探

2021-05-10 03:05张珐

成才之路 2021年3期

张珐

摘要：文章综合论述教育评估的历史发展及其在教育研究中的方法论，并对教育评估领域的关联性和使用范式的方法论进行了总结探讨。具体为三个部分：教育研究和评估的历史发展，教育研究和评估中可用的范例和方法论，结合笔者个人经历简述研究者或教育者在教育评估中的角色。

关键词：教育研究;历史发展;方法论;实证主义;建构主义;现实主义

中图分类号：G40-032;G640 文献标志码：A文章编号：1008-3561（2021）03-0030-04

一、教育研究与评估

社会学家普遍認为研究和评估是两种类型的调查。其中的原因，笔者认为，首先，并非所有的研究都需要评估。其次，研究本身是一个总称，它涵盖了不同学科领域的许多类型的研究。再次，因为“研究”一词涉及面非常广泛，所以研究和评估所做的工作类型只是研究中的一种。最后，进行研究和评估工作的目的彼此不同。根据Cronbach和Suppes（1969）的说法，进行评估工作的目的是面向决策的调查，而研究的本质是面向结论的研究。具体来说，“面向决策的研究是要求研究者提供决策者所需的信息的研究：学校行政人员、政府政策的制定者、开发新生物学教科书的项目的经理等。相比之下，以结论为导向的研究则以研究者的承诺和直觉为指导，并以增加学科基础的愿望为指导”（Cronbach & Suppes，1969，p.20）。因此，评估要解决现在的（即当前的计划）问题，并试图提供洞察力，以便于决策或更好地理解计划的形式，潜在地利用调查结果改进计划。

1.评价的历史发展

评价的历史发展在不同学科之间进行了长期的争论，但是在过去的30年中，评价学科已成为一门独立的科学（Calidoni-Lundberg，2006;Hogan，2007）。它起源于许多学科，具有一定的实用性。例如，由于其在数据收集有效性、可靠性和可信度等方面的特点，根据评估结果，政策制定者可以理解和实施更有效的政策，工程师可以进行更好的设计，商务人士可以进行明智的投资，教育工作者可以改善学校课程或提高学生的学业成绩以及激励教师表现等（Calidoni-Lundberg，2006）。总体而言，无论学科领域如何，评估人员都会进行三种类型的评估工作：过程评估、结果评估或影响评估、经济评估（成本效益分析和成本效益分析）。当然，每种类型的评估都会对研究问题或重点进行调查和研究。

对于一些研究人员而言，研究和评估与人类活动的历史一样悠久，因为“人类对信息的利用已有数千年的历史（Hogan，2007，p3）”。例如，有记录表明，中国人自4 000年前就已经开始对中国的公共项目进行评估或评估（Calidoni-Lundberg，2006）。其他研究人员认为这是一个非常古老的实践，但是评估还只是一个相当年轻的学科（Scriven，1996）。Conner，Altman和Jackson （1984）曾提出，评估的发展已经走到青春期末，并开始向成年过渡。实际上，一些研究人员甚至将程序评估的历史发展分为七个阶段：改革时代（1900年之前）、效率时代（1900年～1930年）、3）泰勒时代（1930年～1945年）、无罪时代（1946年～1957年）、发展时代（1958年～1972年）、职业化时代（1973年～1983年）、扩张与融合时代（1983～2000年）（Madaus et al， 2000）。

因为本文的主要重点是教育方面的研究和评估，所以笔者重点从测试与测量方向、社会科学方向两个方面来总结教育和社会科学中评估的历史发展。

2.测试与测量方向

政策制定者、教育工作者以及那些在1800年和1900年从事教育领域工作的人已经记录了用于测试美国教育系统中的课程评估（Travers，1983）。例如，儿科医生约瑟夫·赖斯（Joseph Rice）在1897年使用标准化测试来评估课程和教学实践（Haertel & Herman，2005;Wiliam，2010）。第一次世界大战期间，学校考试和对学生的大规模评估成为一种流行趋势（Madaus，Arasian & Kellaghan，1980）。这些评估用于多种目的，包括评估学校的表现、课程、教师指导和学生测验。由于约翰·杜威（John Dewey）对教育的先进思考，他1930年的著作再次推动了教育者对更多教育评估研究的需求。随着美国学校尝试新的教学法和课程，对于那些怀疑预期效果的教育者来说，课程评估成为重要的工具。一些知名的教育工作者对它们进行了评估，并将其与传统的卡耐基单元课程进行了比较，从而有了著名的芝加哥大学“八年研究”（Smith & Tyler，1942）。“八年研究”在当时被认为是一项开创性研究（Kridel &Bullough Jr，2012），是“美国课程史上主要的校本课程研究项目”（Pinar，2010，p.295）。其主要目的是鼓励学校采用渐进式教育方法，以增加学生的大学入学率。在“八年研究”开始之初，30所美国高中重新设计了课程，以更有效地服务于青年，并且参与教育实践的研究者对从高中到大学的1 475名学生进行了评估工作。当时开发了一些先进且重要的测试程序和测量方法，以评估这些课程与传统课程相比的影响。在评估过程中，《八年研究》的作者强调，教师必须密切参与设计评估工具（Pinar，2010）。因此，教师和学校官员如何解释和使用评估结果至关重要。随着研究和评估领域的不断发展，Cronbach（1963）指出评估过程应集中于收集和报告有助于指导教育计划与课程制定决策的信息，从而进一步提高对评估使用的兴趣和需求。换句话说，评估的作用不仅是对程序的有效性作出最终判断，而且能够提供有助于进行修改的信息。

1960年代中期，林登·B·约翰逊（Lyndon B. Johnson）总统发起了另一项雄心勃勃的运动，即旨在消除贫困和种族不平等的“大社会”计划。根据 Himelein等人（2014）的观点，“通过60项法案，为新建和配备更好的教室、少数族裔奖学金和低息学生贷款提供了条件”。特别是1965年的《小学和中学教育法》要求获得联邦资助的学区建立由父母、老师和管理人员组成的地方学校理事会，以评估现有的学校计划并定期提交有关这些计划的报告。

尽管有很多测量专家和学术研究人员参与了这些大社会计划的评估，但在研究过程中出现了许多挑战或技术问题，这些挑战或技术问题也成为当今研究评估中的持久问题。例如，研究人员或评估人员经常无法正确理解评估的背景。尽管他们编写了足够多的文档，但许多报告或学校评估报告都发现与程序无关或对程序人员没有实际意义。早期的报告满足了权威机构的评估要求，但结果并未得到有效利用或实施。

3.社会研究方向

评估历史的社会科学方向主要由科学方法的应用来定义（Coldini-Lundberg，2006），其严谨性体现在如何收集数据中。传统上来讲，评估人员必须客观、中立且注重结果（Fine，Thayer & Coghlan，2000;Torres & Preskill，2001）。教育评估社会科学方向的目标是产生可以揭示当前状况、影响政策制定流程并最终为改善社会功能和人类福祉作出贡献的知识。但是，1960年和1970年的许多早期评估研究对联邦决策过程几乎没有影响（Bogenschneider & Corbitt，2011; Gray& Lowery，2000）。这些评估大多被认为是“硬”知识。所谓的“硬”知识，即基于研究的，通常是定量的并以科学语言表达的知识。与之相对应的，还有一些“软”知识，即未经研究的、定性的，并且以通俗的语言表达的知识。卡普兰、莫里森和斯坦博格断言（1975），尽管“软”知识可能是间接出现的，但它们也对政策产生影响，并且可能比“硬”知识产生更大的影响。

尽管测试和测量方向与社会科学方向在评估使用的早期历史上有所区别，但从1970年初开始，这两个评估方向在评估的开发、研究和使用方面似乎趋于融合。由此，一些学术和非学术期刊被创办，如《教育评估与政策分析》《教育评估研究》《CEDR季刊》《评估审查》等。随着评估逐渐成为一种职业，许多大学开始通过提供评估方法学课程来认识评估的重要性（Hogan，2007）。评估研究学会和评估网络进行了合并，并于1986年成立了美国评估协会，这不仅标志着这两个领域的融合，而且扩大了评估学科，使其成为与其他领域相结合、相融合的综合性学科。

二、研究与评估的范式和方法论

评估方法经历了一系列的发展和变化，笔者在本节中就不同评估方法的发展、它们之间的相互作用及根据评估对象选择一种方法而不是另一种方法的原因进行简要的概述总结。

1.实证主义、建构主义、现实主义

如上文提及，教育研究中的传统评估完全是关于测试和测量，并且“硬”科学知识在社会科学中占据主导地位。作为自18世纪以来占主导地位的科学方法，实证主义对科学方法在教育和其他社会科学中的应用产生了重大影响（Colidini-Lundberg，2006）。例如，奥古斯特·孔德（Auguste Comte）、戴维·休姆（David Hume）和勒内·笛卡尔（RenéDescartes）这样的积极主义者相信“可以通过经验观察并通过逻辑分析进行解释”（Kaboub，2008）。实证主义者认为，通过实证研究方法创造的知识是可复制的，对于那些使用相同观察仪器的人来说，应该获得相同的发现。简而言之，实证主义者认为，事物的发展变化规律可以用法律或理论来解释。但是，这一主张遭到非实证主义者的严厉批评。他们认为，发现和手段仅在受控的实验室环境中有效，实证主义者没有考虑到现实世界的因素，如人类的意志和不确定性，这些因素可能会改变实验室的结果（Kaboub，2008）。此外，并非所有的社会和自然现实都可以客观地量化和衡量。这种特性对评估研究可能是有利的，也可能是不利的（Dudovskiy，2018）。因此，诸多的局限性导致了实证主义被放弃，在各种后实证主义流派兴起的 20世纪，研究主流赞成诸如批判性多元主义（即认为没有一种方法足以对现象进行有效的理解）之类的科学方法。

其中，上文提及的否认和批评实证主义的流派之一是建构主义。建构主义也被称为学习理论，涉及人们如何学习和获取知识等内容。建构主义代表人物之一的库恩（Kuhn），完全反对实证主义者对客观知识的假设，他认为所有知识都是主观的并且是社会建构的。建构主义方法评估人员与利益相关者会进行多方面的积极互动，并在收集和分析数据以及撰写可靠且相关的发现过程中考虑所有因素（包括硬性和软性的知识）。然而，基于建构主义方法论的假设，其局限性之一在于是否存在客观性这一论点。哪个真理最重要、哪个问题值得报告等一系列主观问题，对使用建构主义方法论的评估研究者构成了挑战。

现实主义是评估研究人员在评估研究领域所依赖的第三个范式。根据菲利普斯（Phillips，1987）的观点，现实主义被定义为“关于实体独立于被感知或独立于它们的理论而存在的观点”。现实主义的评估人员以开放的态度进行研究，并试图揭露研究或项目中未被触及或未被发现的部分。为了揭开谜团，现实主义评估者需要了解不同的社会因素和底层环境是如何影响结果的。

2.方法论

实证主义的主要关注点是检验理论，因此，实证主义者通常会依靠定量方法，如调查、实验和假设验证等。然而，对于建构主义者而言，他们更关心研究人员如何与被调查的世界接触并创造知识的。因此，建构主义者更倾向于在他们的研究中使用深入的非结构化访谈、参与者观察、行动研究等。现实主义研究人员意识到，他们的发现可能并不完美或绝对准确，他们需要对来自许多资源的发现进行三角剖分和验证。现实主义者的研究人员主要使用定性方法，如案例研究和聚合访谈等（Guba& Lincoln，1994）。

3.当前的教育评估类型

教育评估可以分为多种类型，人们尝试学习、评估或理解的对象和内容，不仅决定人们在评估研究中提出問题的种类，而且决定人们在研究中应实施的评估类型。换句话说，评估者将使用不同类型的评估来研究不同的主题或内容，其中包括学生、课程、学校、教育系统、大范围人群或特殊群体等。值得注意的是，评估研究涉及的内容或对象并不会影响评估过程，但是会影响人们收集的数据类型、用于分析数据的评估方法的类型以及决策的类型。

在教育研究中，大体上有八种常见的评估类型。第一，分班评估（palcement evaluation），目的在于开始新事物之前评估一个人的掌握程度或知识水平。例如，入学考试是一种分班评估，用于评估学生的知识水平、技能水平或成熟度。第二，形成性评估（formative evaluation），被用来检测一个人的成长或表现以提供持续的反馈，其目标是让教师使用该反馈来调整和改进他们的教学，以帮助学生更好地学习（Renard，2017）。第三，总结性评估（summative evaluation），是通过将其与某些标准或基准进行比较来评估教学单元末尾学生的学习情况（Surgenor，2010）。尽管总结性评估和形成性评估均为用于评估学生学习的方法，但形成性评估会在学习过程中进行，而总结性评估会在课程完成后进行。第四，诊断性评估（diagnostic evaluation），其目的是“确定学生的需求和能力，以及学生准备获得课程期望中概述的知识和技能的意愿”（Csapó & Csépe，2012）。这是一种面向问题的方法，因为诊断评估旨在了解导致问题反复发生的原因，进而得出可以采取哪些措施对其进行修正。第五，学生评估（student evaluation），评估内容涉及学生的成就、学习态度、性格、才能和兴趣等。这类评估类型主要依赖成绩数据来评估学生的学习进度和教师教学的指导等。第六，课程评估（curriculum evaluation），这种类型的评估不仅旨在评估教学项目的教学方案或指导材料，而且其也着重于一般主题或特定问题，如特殊课程教育等。第七，学校评估（school evaluation），与课程评估相似，但其研究范围通常更为广泛，涉及对学校所有计划、活动、设施和资源的研究。它也可以是对学校文化或学习氛围、学科体系、专业发展等方面的评估。第八，人员评估（personnel evaluation），人员评估不仅限于评估教师，还涉及评估直接或间接参与教育的各类人员，如学校管理员、学校顾问、教育政策制定者等。

以上這些类型的评估都可以在学前教育、小学教育、中学教育乃至高等教育环境中使用。对于利益相关者来说，应充分利用好研究和评估，因为两者都可以通过定期了解相关的流程、程序和结果来提高其运营的责任感（Hogan，2007）。实际上，这些评估研究不仅对学生、教师和学校产生了积极的影响，而且某些类型的评估如基于课堂的形成性评估，在近年来的教育政策中也起着越来越重要的作用（Nusche et al，2011）。

评估是一个涵盖众多方法和技术的概括性术语（Biggs & Tang，2007）。针对一个提出的研究问题，利益相关者的目标就是使用不同的评估方法加以解决。同时，利益相关者会收集不同类型的数据，对数据进行不同的分析，并做出不同类型的决策。虽然不同的研究问题和研究对象、评估存在差异，但整体概念、规则和评估过程应保持不变。

三、基于个人经历的思考

在本节中，笔者从方法、范式和研究兴趣三个方面来总结作为国际学生在社会、教育研究和评估方面的经历、思考，以及对教育研究和评估的可预见贡献。

回顾过去有关的教育研究和评估经验，其中一项研究和评估项目是针对美国联邦政府资助的校外项目课余计划，旨在对当地公立学校的低收入和少数民族学生产生积极影响。该项目要求评估人员每周访问这些公立小学，并对每所学校提供的课外活动进行现场记录或观察。笔者作为评估人员之一，每半年向学生父母、老师和管理人员发放一次调查问卷，并且采访一部分教师和管理人员，以了解他们对课余计划的想法和感受。每年评估人员都会从州教育部收到学生的课业成绩结果及其相关的人口背景等统计信息。所有收集或得到的数据，都被进行三角剖分，以形成年度报告，进而向利益相关者提出建议和修改意见。从该项目中，笔者获得了定量和定性两方面的研究经验，切身体会到了两种方法的价值和好处。从笔者的美国经历中，相比定性研究方法，定量研究方法更被大多数学者所推崇，尤其是在教育学等相关领域。而且，随着研究的深入，混合研究方法也越来越受到重视。不过，如上文所述，不管是哪种研究评估方法都有其优缺点，研究人员更要以开放的心态进行研究，并运用多种研究方法，以提高教育研究评估的质量。

就范式而言，实证主义、建构主义和现实主义是教育研究和评估的基础。它们代表了研究和评估的不同传统，并且使评估方法彼此不同。评估人员很难将自己的实践归分为特定范式的一部分，因为每个范式都针对一组特定的问题并专注于特定的主题。例如，实证主义的方法论对于发现事物的因果关系非常有用，能够使研究人员认识到阻碍或提高项目质量的关键因素，这也是项目改进和修改的关键步骤。建构主义的方法，对于需要利益相关者和评估者之间进行协作与互动的项目尤其有用。双方之间尤其是利益相关者的需求或目标之间，需要做到相互了解，而这其中的评估研究是昂贵且耗时的。现实主义的方法，能使评估人员认识到他们研究的局限性和不完善性。因此，评估人员应该从尽可能多的“硬”和“软”知识源中收集数据，并能够将其三角化，以使调查结果与该项目的实际情况相吻合。所以，这三种范式在评估研究中都有特殊的位置，都是不可替代的。因此，对于评估人员来说，能够精通每种范式和研究方法至关重要，能够“明确其哲学传统和偏好”也很重要（Colidini- Lundberg，2006）。

在探索教育研究的过程中，除范式和方法论之外，笔者认识到进行评估研究的性质与进行其他类型的研究略有不同。不同的研究人员所感兴趣的项目不尽相同，但是对于评估人员来说，许多项目都是由利益相关者进行的。换句话说，有时进行评估研究是一种可以满足他人需求的服务。因此，与其他类型的研究不同，评估人员应具有广泛的兴趣而不应拘泥于狭窄特定的领域。

当然，这里不是提倡不重视评估人员的研究兴趣，虽然有时候所评估的项目不在其兴趣范围之内。相反，笔者认为研究兴趣能够影响研究人员或教育者的身份。例如，笔者的研究兴趣之一是文化多样性，虽然不确定是否有多少关于文化多样性的评估研究，但笔者的多样化生活经验和多元的文化背景，在教育研究评估中有助于理解社会问题的复杂性和多面性，进而在研究的严谨性方面发挥关键作用。因此，作为教育者、研究员、评估者，我们应通过教育研究和评估使学校、社会、教育和文化发生有意义的变化。

参考文献：

[1]Hogan，R.L.计划评估的历史发展：探索过去和现在[J].劳动力教育与发展在线杂志，2007（04）

[2]Torres，R. T.和Preskill，H.评估和组织学习：过去，现在和未来[J].美国评估杂志，2001（03）.

[3]Wiliam，D.标准化考试和学校问责制[J].教育心理学家，2010（02）.