国际中文教师语言测评素养：基于语言测评知识、实践和反思的调查

2023-04-29 00:01张艳莉王肖竹

四川师范大学学报（社会科学版） 2023年2期

张艳莉王肖竹

摘要：语言测评素养是语言教师合理认识、设计测评活动和运用测评结果所必需的专业素养。基于语言测评知识、实践和反思的角度调查国际中文教师语言测评素养，发现：国际中文教师的语言测评知识处于中等水平，教师对语言测评相关的概念和原则有一定了解，但存在理解不充分以及误解的情况，参加测评培训对语言测评知识水平有提升作用；教师在教学实践中注重形成性评价，也存在一定的高风险测试导向；教学经验和测评培训因素均对教师语言测评素养自评和提升需求产生积极影响，教师对语言测评素养的提升持积极态度，需要语言测评相关培训提供具体实践性的指导。

关键词：语言测评素养；国际中文教师；语言测评知识；教师专业发展

DOI： 10.13734/j.cnki.1000-5315.2023.02.017

收稿日期：2022-10-09

基金项目：本文系汉考国际科研基金重点项目“汉语水平考试认知效度研究”（CTI2021A01）的阶段性研究成果。

作者简介：张艳莉，女，山东曲阜人，上海外国语大学国际文化交流学院教授，E-mail： zhangyanli@shisu.edu.cn；

王肖竹，女，山东威海人，北京语言大学国际学生教育政策与评价研究院博士研究生。

一引言

测试与评价是语言学习中不可缺少的一部分，要判断测评是否有效地反映学生的语言水平和学习情况，解读测评信息以指导教学或决策，需要与测评相关的各方（学生、教师、学校管理者等）具有一定的语言测评素养。在语言测试领域，对测试相关方语言测评素养的关注度持续提升。其中，语言教师的测评素养最受关注，因其承担着课堂测评活动设计和实施者的角色，语言测评素养对教师测评活动的开展及教、学、评一体化发展有重要作用。因此，语言测评素养也是教师专业发展的一环，缺乏测评素养意味着专业性的丧失。

在国内，国际中文教师主要对来华留学生进行汉语作为第二语言的教学，其语言测评素养较少受到关注。一般而言，教师的测评理念和方式与其所接受的教育十分相关，这种“沿袭”的做法不利于测评的创新和发展。国际中文教师面对的学生来自不同的教育文化环境，其语言测评素养需要兼顾高风险考试和课堂测评，并用学生可以接受的方式设计和实施测评活动。目前，对国际中文教师能力的认定标准均涉及测评素养，如从“测试与评估”、“学习评估和反馈”方面对教师所具备的测评能力提出要求，相关的教师培训项目应当包含语言测评课程。现有的针对国际中文教师的语言测评课程效果如何？教师对学生的测评是怎样进行的？目前尚缺乏对这些问题的探讨。

作为教学与测试的语言能力水平依据，《国际中文教育中文水平等级标准》（以下简称《等级标准》）的发布和使用要求教师据此评估和追踪学生语言发展。此外，自受新冠疫情影响以来，在线教学模式得到了全面深入发展，语言测评的开展形式也发生了相应变化。无论是指导标准的规范化还是语言测评形式的转变，都对国际中文教师的语言测评素养提出了更为具体的要求，教师需要对语言测评的原则和方法有系统的知识基础，并在此指导下选择、改编或设计适合课程教学目标的测评活动和考试来促进教学和学习。在此背景下，本研究尝试从知识、实践和反思的角度对国际中文教师的语言测评素养进行调查，并探索提升的方向。

二文献回顾

（一）语言测评素养内涵与模型

测评素养是一个多层面的概念，最初由教育學界提出，由于教育问责制（Accountability）以及促学评价理念（Assessment for learning）的发展，要求教师及其他测评相关方具有正确使用测评结果的能力。在国际上，语言测试作为测量语言能力水平的工具，与移民和留学等政策息息相关，其应用得到扩展，影响力也在增大。随着语言测试专业化发展和学科知识体系的形成，语言测评素养作为测评素养的子集被提出，其构念（Construct）和内容融合了测评素养的基本内涵和语言测试学科的特点。为了探寻语言测评素养所涉及的内容，学者对语言测试指导性书籍进行了分析，对以提升语言测评素养为目的的培训课程进行了调研，并了解了教师学习语言测评知识的需求。在具体内容的基础上，形成了“技能+知识+原则”、“目的+内容+方式”、“环境+原则+实践”等语言测评素养的结构模型。在已有研究基础上，金艳根据我国外语教育领域的主要测评活动分类（大规模考试、学业测试和课堂评价），提出了外语教师测评素养的模型，包含环境、原则、实践三个层面，以及外语教师在不同类型测评活动中语言测评素养的要求。综合已有的定义，本研究将教师语言测评素养的概念界定为：语言教师对于大规模标准化考试和课堂测评的基本概念和指导原则的了解以及设计、实施和利用测评活动的知识、技能和能力，并能从社会文化和政策环境的角度理解测试的性质及其影响。

近年来的研究多从社会文化角度对语言测评素养进行解读。如Xu & Brown在回顾百篇测评素养研究文献的基础上，提出了实践中的教师测评素养模型（Teacher Assessment Literacy in Practice， TALiP），包含“知识基础”、“教师测评观念”、“体制和社会文化环境”、“实践中的测评素养”、“教师学习”、“教师测评者身份”六个部分。该模型反映了测评素养积累、实践、反思的动态过程，并强调测评知识基础并不能直接成为测评素养，需要通过教师理解、实践、进一步学习和反思才能完成知识到素养的转化，且教师的测评实践通常是在多种因素的影响和权衡下实现的。Pastore & Andrade通过专家咨询法归纳了包含“概念知识”、“行动”和“社会情感”三个维度的测评素养模型。潘鸣威通过专家访谈更新的语言测评素养模型也将教师情感和态度作为一个外延。综合以上框架内容可以看出，教师需要一定的语言测评知识基础，其内容来源于语言测试学科范围，并与社会文化、教育政策与教学环境相协调，从而在实践中具备相应的技能和素质。

（二）教师语言测评素养研究现状

已有的教师语言测评素养研究内容和方法主要集中于以下五个方面：（1）调查工具的开发和验证，形式有基于内容的选择题项、自评量表、判断题项、选择题+自评量表等；（2）量化评估教师测评素养的不足和培训需求，涉及群体包括国内中小学教师、欧洲外语教师、高校英语教师等，并探讨了影响测评素养水平及发展的关键因素，如测评培训、教学经验、环境因素等；（3）教师与专家对语言测评素养理解的差异，认为语言测评素养培训中应考虑到教师的理解特点和实践需求；（4）教师的语言测评实践，通过分析测评活动设计、命题质量、课堂观察、访谈等内容总结出教师在实践中体现出的语言测评素养；（5）教师观念、反思等社会文化要素，通过混合研究方法反映教师对语言测评活动的认识与态度，理解教师观念对于相关政策和培训课程的实施有重要意义，教师反思则是发挥教师能动性、在现有实践基础上寻求提升的有效方式。

目前以国际中文教师为对象的语言测评素养研究较少，鉴于研究环境的差异性及研究内容对国际中文教师发展的意义，有必要探讨高校国际中文教师语言测评素养的现状，以更好地在教师职前培养阶段和专业发展上提供帮助。基于以上语言测评素养的理论模型和实证研究，本研究希望回答以下问题：（1）国际中文教师语言测评知识水平如何？（2）国际中文教师的语言测评实践有何特点？（3）从自评和提升需求的角度看，国际中文教师对其语言测评素养的反思情况如何？

三研究设计

（一）研究对象

本研究的对象为在高校从事国际中文教学工作的教师，通过便利抽样发放问卷，共得到有效答卷119份。高校所在地分布于上海、山东、辽宁、甘肃、吉林、北京、浙江、广东等16个省市，教师的教龄分布为0-2年（32.77%），3-10年（32.77%），10年以上（34.45%）。本研究将教龄为0-2年界定为新手教师（39人），大多为正在接受或刚刚完成汉语国际教育硕士项目的学习；教龄为3-10年的教师与10年以上的教师分别为熟练型（39人）、专家型教师（41人），一般为高校在职教师，教学经验比较丰富。74名（62.18%）教师参加过测评培训，其中近三年参加过的有52人（46.22%），另外45人（37.82%）未参加过测评培训。共有8名教师参加了后续访谈，其中新手教师4人，熟练型教师1人，专家型教师3人。

（二）研究框架及工具

为了从多元的角度反映教师语言测评素养，本研究采用Xu & Brown的TALiP模型作為融合理论知识与教师实践的宏观理论框架。研究主要围绕国际中文教师的“语言测评知识”、“语言测评实践”、“语言测评反思”三方面进行探讨。

本研究的分析和解释框架如图1，通过问卷调查和访谈的方法收集数据，共使用“语言测评知识问卷”和“语言测评素养评价量表”两份问卷。在制定“语言测评知识问卷”时，首先通过筛选和整合已有文献中语言测评素养包含的内容、教师课堂测评标准，并考虑本研究环境，确定问卷的内容结构，然后参考已有的测量工具的问题设置进行改编，主要从情境和语言方面对问题进行修改，使问题情境符合汉语作为第二语言教学的实际情况，考虑文化差异因素，并结合课程评价体系、线上测试的实施情况进行情境设定；在测评的语言对象上，考虑汉语的语言标准、语言要素、语言技能和语言使用等对内容进行调整，例如在环境层面，主要考查教师对汉语教学大纲在教学中的指导作用及对《等级标准》发布背景和意义的了解，但对语言测评基本概念和原则相关的题目基本不作改变。制定好的问卷题目及答案经过3名具有语言测试专业知识的专家审核和修改，此后经过小范围试测确认问卷达到满意的信度，并根据试测结果修订了问卷。最终问卷涵盖环境、原则、实践3个层面，包含19个主题的内容（见表2），由26个选择题构成，以0-1计分（对多个答案的题目每个选项单独计分），共得到77个计分项用于描述性统计和方差分析。“语言测评素养评价量表”包含自评量表和提升需求量表，根据DeLuca等课堂测评方法调查问卷（ACAI）进行改编，为Likert五度量表，共24个题项（见表3、4）。在问卷发放之后，对部分教师进行了半结构化访谈，访谈内容主要包括教师对语言测评活动的认识和态度等，教师所接触和实施的语言测评活动（课程评估体系、具体测评方式和实施情况等），以及对语言测评进行的反思，包括语言测评素养的发展与提升需求等。

（三）数据收集和分析

本研究的数据包括定量和定性两部分。定量数据通过问卷网发放，使用SPSS 23.0对结果进行统计分析，两份问卷整卷Cronbachs α系数为0.893。其中，“语言测评知识问卷”总体Cronbachs α系数为0.86，其中环境部分为0.65，原则部分0.70，实践部分0.80，KMO取值为0.838，Bartletts球形检验显著（p <0.000），说明问卷有较好的信度和结构效度；量表部分整体Cronbachs α系数为0.926，“语言测评素养自评量表” Cronbachs α系数为0.922，KMO取值为0.909，Bartletts球形检验显著（p <0.000），通过探索性因子分析，使用主成分分析法，根据最大方差法旋转后得到的两个因子，分别被命名为“测评设计及质量”、“测评准备及反馈”，因子载荷分别为33.217%，30.050%，内部一致性信度分别为0.89，0.85；“语言测评素养提升需求量表” Cronbachs α系数为0.904，KMO取值为0.869，Bartletts球形检验显著（p <0.001），用同样的方法进行探索性因子分析，得到“测评设计与实施”、“语言测评与反馈”、“测评结果利用”三个因子，因子载荷分别为26.239%，22.993%，20.235%，内部一致性信度分别为0.86，0.83，0.80。为了探究教学经验（新手教师、熟练型教师、专家型教师）与测评培训因素（参加过测评培训、未参加过测评培训）对两份问卷得分产生的影响，进行3（3组）×2（2组）的混合设计的方差分析。

定性数据通过半结构化访谈进行收集，其中2名教师的访谈在线下当面进行，另外6名教师通过电话访谈，访谈时间设定为20-30分钟。访谈内容经过文字转写后使用Nvivo 12.0进行编码与分析，内容主题包括教师语言测评观念、语言测评实践和语言测评素养的发展三个方面。

四结果与讨论

（一）研究结果

1.语言测评知识

语言测评知识问卷的结果显示国际中文教师平均正确作答62.63%的选项（M=48.23，SD=10.30，SE=0.94，Min=20，Max=74），分数分布见图2。其中环境层面59.91%，原则层面64.48%，实践层面62.90%。多项选择题和单项选择题的作答情况分别如表5、6，其中单项选择题正确比例平均为53.32%，说明对教师来说题目难度较大，多项选择题全部选对的比例平均为20.76%，部分选对的比例为48.34%，多数教师仅部分掌握题目内容（少选）。综合以上结果可以看出，国际中文教师具有中等水平的语言测评知识，即对于问卷中涉及的语言测评概念和原则，教师有一定的了解，但了解不充分且存在误解的情况。

教学经验对语言测评知识问卷总分和各层面上没有产生显著影响，F（2， 116）=0.406，p=0.667，ηp2=0.007；测评培训因素对语言测评知识问卷的得分有显著影响，F（1， 117）=6.344，p=0.013，ηp2=0.053。主要体现在环境层面F（1， 117）=6.640，p=0.011，ηp2=0.055，和实践层面F（1， 117）=5.049，p=0.027，ηp2=0.043。关于教学经验与测评培训两个因素的分析表明，就语言测评知识而言，测评培训对此有提高作用，而教学经验并不是显著影响因素，这一情况可能与当下新手教师的专业学习和训练时间较近而在职教师培训有所缺失有关。从调查对象参与测评培训的结果来看，三年内参加过测评培训的人数在新手教师中占51.28%，在熟练型教师中占46.34%，在专家型教师中占31.71%，即使是在新手教师中，测评培训的普及程度也仅在一半左右，说明职前培训和在职培训中关于语言测评的学习均需要加强。

2.语言测评实践

教师的语言测评实践中，课程成绩一般由“课堂表现”、“课堂小测”、“课后练习”、“阶段测试”、“期末考试”组成。就课堂表现而言，教师认为根据课堂互动情况对学生进行评价，对考试成绩有一定预测性，比较可靠。形成性评价在总成绩中比期中、期末考试等终结性评价所占比重更大，教师同時认为期末学业考试是必要的，规定无论学期中学生是否达到及格成绩，都需要参加期末考试。

教师从事的语言测评相关工作主要包括“考试设计与命题”、“帮助学生备考”、“评分”、“交流反馈”。在命题方面，与Stiggins的观点契合，教师认为教学资源中已有的练习或测试题一定程度上减少了自主命题的需要。在备考方面，学校开设HSK辅导课，在综合课及各技能课上教师也会让学生练习HSK的题型，反映了一定的高风险测试导向性。在评分和反馈方面，教师关注到考试效度和分数意义的解释，例如发挥考试的诊断作用，为写作、课堂报告等主观试题制定评分标准等。

关于线上的语言测评实践，教师使用多种线上会议平台、汉语学习以及数据收集平台进行教学与测评，形式转变促使教师对于测评方式和效果进行思考和调整。传统的纸笔测试、课堂出勤率等评价方式需要完成模式的转变，例如教师使用问卷星等工具收集测试结果，在直播课上要求学生积极有效互动以确认课堂表现情况。作答方式需要适应线上测评，例如高年级写作任务通过打字完成。评分标准发生一定变化，例如学生的课堂报告在线上与线下两种模态的评分维度会发生变化。总之，线上测试虽然在监督、实施等方面遇到问题，但也有其优势，例如学生学习数据的记录、测试批改和反馈等方面更加智能化，发挥了计算机辅助学习的作用。为了保证线上考试公平有效，面对学生地区时差的问题，起初是通过调整在线考试的形式来解决，后来通过完善编班和考试系统，保证考生可以在同一时间作答，为监考提供了可行条件。

实践背后是观念的指导，根据访谈中教师表达的对于语言测评的观念，绝大多数教师认同语言测评活动的重要性，并持有积极态度，认为测评的功能是检验水平或学习成果，监督、规范学生学习，并针对性地改善教学。也有部分教师认为正式测试的目的是统计学生群体水平的量化信息，而在教师对学生的语言水平足够了解的情况下，测试成绩信息对教师来说是辅助性而不是必需的，甚至可能与教学关联较弱。此外，测评还与一些决策和风险相关，如分班、奖学金评审等。与Brown提出的四条测评观念假设对比，国际中文教师对语言测评的观念较为符合“测评对教学有促进作用”、“测评反映学生学习情况”，某些情况下“测评与教学无关”。

3.语言测评反思

教师语言测评素养自评量表得分（M=47.43/79.38%，SD=7.36）和提升需求量表得分（M=48.06/80.1%，SD=7.56），均处于较高水平（各组量表评分的描述性数据见表8、9）。教学经验对语言测评素养自评量表F（2， 116）=21.089， p=0.000， ηp2=0.272和提升需求量表F（2， 116）=7.227， p=0.001， ηp2=0.113结果的提升作用显著，与Deluca等结果相似；对于自评量表评分，三个教龄段之间均有显著差异；对于提升需求量表评分，教学经验的显著性影响体现在新手教师和专家型教师之间。测评培训因素对量表分数也有显著影响，自评量表F（1，117）=5.191， p=0.025， ηp2=0.044，提升需求量表F（1，117）=4.275， p=0.041， ηp2=0.036。教学经验和测评培训两个因素之间的交互作用不显著。虽然均有显著积极影响，教学经验对自评量表得分的效应量（0.272）明显大于测评培训因素（0.044），参加测评培训使教师的自我评价提升幅度较小，Deluca等则发现未参加测评课程的教师自我评价比参加过的更高，认为这可能因为参加过测评培训的教师对相关概念复杂度的理解比未参加过的教师更深刻，因此对自身的评价趋于保守。

在教师对语言测评素养发展的看法中，教师认为教学经验对于课堂测评中把握学生语言水平、学习重难点方面的能力提升有较大作用，有利于设计测评任务和命题，而与更加专业的测量理论和量化分析技能的提高不直接相关，后者需要通过专门的学习和运用来实现，在测试方面较为专业的知识和技能通常是为教学研究所用。参加与测试相关的工作为教师提供了思考和学习的契机，例如教师认为为学生提供HSK备考的辅导使其对语言测试有了更多的了解。

教师认为自身的语言测评素养有待提升，且接受过测评相关培训的教师在教学工作中会发现其他教师缺乏语言测评素养的一些做法。与已有研究相似，国际中文教师对语言测评素养的提升需要具体可行的实践指导，包括测试原则（标准参照、常模参照测试等）、测试命题指导（如何利用大纲、如何提升效度和信度等）、提供学习建议（能力、知识诊断等）等方面。

（二）讨论

基于以上研究结果的分析，本研究主要的发现和解释如下。

1.国际中文教师对语言测评知识的掌握程度为中等（62.63%），对客观知识的掌握并不充足，这点与已有研究结果相似，语言测评素养自评量表和提升需求量表的结果较高（79.38%，80.1%），说明国际中文教师对语言测评素养的评价可能存在“不实际的乐观态度” 。

2.从影响因素来看，参加测评培训对于语言测评知识得分有积极影响，说明现有的测评培训对于普及语言测评知识有一定效果，主要体现在环境（指导性标准和大纲等）和实践（测评活动中的具体做法）方面。Mertler使用“课堂测评素养问卷（CALI）”测量教师测评素养，发现课堂教学经验对于提升语言测评素养在多个方面都有显著作用，而本研究发现教学经验对语言测评知识得分基本没有产生显著影响，但教学经验对自评和提升需求量表的结果有显著影响，结果反映出语言测评“经验丰富而非专家”的现象。从访谈结果看，语言测评素养对于国际中文教师是一个尚未普及的概念，诚然，教学经验可以使教师更加准确地诊断学生能力，但在没有专业知识的指导下依然存在很多教师测评理念并不合理的情况，不能正确处理测试公平性、有效性的问题。

3.国际中文教师的语言测评实践注重形成性评价，也存在一定的高风险测试导向。教师对语言测评活动的看法整体是积极的，也存在认为教学经验可以代替正式测试的观点，对于教师来说，测评依然是国际中文教学中的边缘成分，更多与教学结合而不具有独立的专业性。部分教师认为正式的语言测试与测评专业知识的重要性不强，此观点可以解释问卷结果中语言测评知识方面教学经验不是显著影响因素（因为教师在教学过程中没有足够的动力学习这方面知识），也反映出对于国际中文教师来说，促进教学的评价与标准化测试两方面的能力是相对独立的，前者更加受到教师重视。

4.国际中文教师对语言测评素养的提升持积极态度，认为有必要提升测评培训质量，更新在职学习内容。教学经验丰富的教师对语言测评素养的自我评价更高，对提升需求的评分也较高，参加测评培训也使提升需求更高。与Deluca等使用“课堂测评方法调查问卷（ACAI）”调查结果相比，教学经验因素在提升需求量表上表现出更强的促进作用，强调了持续性、与工作结合的测评学习的重要性。教师认为对语言测评素养的提升可以从职前培训、实践和研究指导等方面有针对性地帮助提高教师语言测评素养和相关研究兴趣。教师语言测评素养的提升需要政策环境支持，对于语言测评素养在实践中的巩固和提升，以及创新性测评模式的运用，学校或机构需要提供支持条件，以减少如年轻教师没有话语权、测评上的创新做法受到管理条件制约等问题。

五总结与建议

本研究反映了国际中文教师多维度、多层面的语言测评素养，研究结果可以为国际中文教师的师资培养和教师专业发展提供参考。研究使用了选择题和量表两种问卷方式调查语言测评素养，二者反映的结果可以对比和互补。“语言测评知识问卷”内容以点状呈现，通过知识的样本来反映教师对语言测试概念和原则的理解以及特定情境下的选择；而“语言测评素养评价量表”的内容以能力描述来呈现，让教师评价自身所具备的语言测评相关能力和提升需求。两份问卷的结合可以从不同视角解释信息，弥补单一调查工具的不足。本研究的访谈包含教师对日常语言测评活动和相关工作的描述，也包含教师对语言测评素养概念的理解和现状反思。整体来说，本研究的开展遵循认识到反思的顺序，研究框架体现了Xu & Brown实践中的教师测评素养的发展循环。

语言测评素养是理论知识、实践能力和价值态度等多方面融合的表现，对于素养的水平不能仅以“有无”描述，我们从知识、实践和反思三方面来尝试解读国际中文教师的语言测评素养。知识方面，国际中文教师的专业学习、职前培训等经历保证了一定的知识基础，但是问卷与访谈结果显示，具有系统的语言测评知识体系的教师较少，且教师对相关概念（信度、效度等）的理解比较浅显，难以对实践有指导作用。在实践方面，教学经验的作用得以突显，有经验的教师比较重视以評促学的理念，对学生实施多元化、追踪性的评价。然而语言测评实践的情况随教师个人、教学环境变化较大，很多新手教师由于工作内容有限，设计整体测评方案和实施测评活动的需求较少。而且，无论对于新手教师还是经验教师，在测评上花费精力有时被视为负担。在反思方面，教师大多认同测评对于教学的影响力以及语言测评素养的重要性，且指出参与本研究也是一个反思语言测评的机会，将语言测评的实践纳入教学反思中有利于教师更有意识地调整和完善语言测评方面的工作。

针对语言测评素养在这三个方面的表现，我们提出以下提升模式与建议。（1）对语言测评培训课程的目标进行重新定位。根据教师语言测评素养的特点以及需求分析，改进已有的测评课程，在新手教师的培养阶段，要打好测评原理和原则的理论知识基础，并提供实践指导。要为在职教师提供适应具体测评环境和实践需求的学习机会。例如，课堂测评是教师语言测评工作的重要阵地，在测评培训中可以加入更多前沿的课堂测评方式及其成绩报告和反馈的应用等。又如在线上教学资源丰富的情况下，教师需要懂得如何评估、选择和整合现有的测试和练习资源。（2）将测评融入教研工作中，通过学徒、合作等方式在实践中发展测评素养。强调测评工作的规范和科学性，如通过教师合作命题等方式调动其思考和学习测评方式的积极性。对于高校在职中文教师，可以鼓励其将教学与科研相结合学习语言测评相关知识，并应用一些创新的测评方式促进教学。

本研究尚存在不足之处。在研究对象上，样本数量可以更大，对于教师的教学经验和培训经历分组可以更加清晰合理。在研究方法上，本研究问卷所包含的问题和答案并没有在真实教学情况中进行检验，因此问卷虽一定程度上可以反映教师在语言测评专业方面的知识和素养情况，但与具体教学环境的契合程度有待进一步考察。访谈结果基于教师的自我报告，可能与具体实践情况有偏差，因此可以采取观察课堂或测评培训课程中教师的实际操作的方式来对语言测评素养的表现有更深入的理解。

今后有关国际中文教师语言测评素养的研究可以从以下几方面来进行拓展：（1）通过课堂观察、案例研究等方式更加深入地了解教师在具體实践中的语言测评素养；（2）结合现状与教师反映的需求，设计开展相应的培训项目，并据此探索与验证语言测评素养的发展方式；（3）在整合语言测评素养内涵的基础上，制定国际中文教师语言测评素养的测量工具并进行有效性验证和完善。

Investigating the Language Assessment Literacy of College Teachers of Chinese as a Second Language： Knowledge， Practice， and Reflection of Language Assessment

Zhang Yanli1， Wang Xiaozhu2

1. School of Chinese Studies and Exchange， Shanghai International Studies University， Shanghai 200083， China

2. Institute of Educational Policy and Evaluation of International Students， Beijing Language and Culture University， Beijing 100083， China

Abstract： Language assessment literacy （LAL） is an essential professional competence for language teachers to effectively design， interpret， and implement language assessments. This study examines the LAL of Chinese as a Second Language （CSL） college teachers by exploring their knowledge， practice， and reflection regarding language assessment. The findings reveal that CSL teachers possess an intermediate level of language assessment knowledge， displaying a grasp of fundamental concepts and principles， but also exhibiting knowledge gaps and misunderstandings. The study shows that participation in assessment training programs significantly enhances language assessment knowledge. In practice， CSL teachers recognize the importance of formative assessment， yet also demonstrate a tendency to align with high-stakes tests. Both teaching experience and assessment training positively influence teachers perceived level of LAL and learning need. Teachers express a positive attitude towards improving their LAL， emphasizing the need for practical guidance offered by language assessment training.

Key words： language assessment literacy; teachers of Chinese as a Second Language; language assessment knowledge; teachers professional development

［责任编辑：唐普］