中级汉语学习者语言能力自评量表的编制与检验

2012-07-05 09:19:14王佶旻

中国考试 2012年11期

王佶旻

现代教育理念已经从以教师为中心转向以学生为中心，学习者应该学什么，怎么去学成为语言学习的核心问题。在学习过程中，评价学习成就的方法主要有三种：测验、教师评价和学生自我评价，Mats Oscarson（1989）认为进行自我评价对学习有益，学习者有意识地评价自己的交际效果是习得过程的重要组成部分，它可以帮助学习者提高学习意识，明确学习目的，是评估领域的拓展。

语言能力自评量表是学生自我评估语言能力的评价工具，它可以帮助学习者对自己的语言水平做出判断，从而对进一步学习产生正面的影响。同时自评量表还能告诉学习者要提高语言能力应该学会哪些语言知识和技能，这样学习者就会有意识地去获得这些能力。

语言能力自我评价量表具有很广泛的实用价值，但自我评价量表必须建立在可靠性和有效性的基础上，因而对所编制的量表进行质量检验是十分必要的。

1 研究背景

最早的语言能力量表是美国政府部门在1955年制定的FSI（Foreign Service Institute）量表，制定该量表的初衷是为了规范测验的操作和评分，因此它不是自评量表而是测验的评分标准。其后，欧洲、美国、加拿大、澳大利亚及其他地方出现了多个语言能力量表，如美国的ACTFL大纲、澳大利亚的ISLPR量表、加拿大的CLB量表以及欧洲的ALTE量表等。其中ACTFL量表和ALTE量表是最具影响力的语言能力量表。

ACTFL大纲是美国教育测验服务中心（Educational Testing Service,ETS）和美国外语教学委员会（American Council for the Teaching of Foreign Language,ACTFL）于20世纪80年代制定的语言能力量表。该量表把语言水平分为10个小级别，并对听、说、读、写四项分技能做了等级描述。ACTFL大纲对学习者的评估侧重于真实的能力，而不细究学习者在何时何地以何种方式学习语言。ACTFL大纲是一个对语言教学、学习、测试以及语言政策都产生了长远影响的能力量表。它对能力等级的划分、等级标准的界定和语言表现的描述都为以后的能力量表的制定提供了参考。

ALTE量表是欧洲语言测评中心协会（Association of Language Testers in Europe）制定的关于语言应用能力的评估量表，是欧洲语言共同参考框架（CEF）的重要组成部分。ALTE量表是以语言使用者为中心的评估机制，因而也可以作为学习者的自我评估量表。该量表把语言水平分为六个等级，并从听、说、读、写四个方面对语言能力进行了详细的描述。描述采用“能做（can-do）”的形式，从社会生活与旅游、工作和学习三个方面对语言能力进行描写。

上述这些语言能力量表有三个主要特点：一是以听、说、读、写四项语言技能为纲来描写语言能力；二是以特定的任务或语言使用者能够做什么来描述具体的语言能力，也就是用行为表现来进行评估；三是对能力等级的划分都以初、中、高三个主要等级为基础。

2 研究过程

2.1 中级汉语学习者语言能力自评量表的编制

本研究的自评量表以中级汉语学习者为评估对象，分为听、说、读、写四个分量表。在每一个分量表中，我们都从三个层面进行描述，第一个层面是能力概说，以概括的语言对每一水平等级进行描述，描述的主要任务是找出每一水平等级的区别性特征。例如听力理解的能力概说为：“在日常生活、工作和学习中可以比较顺利地实现和母语者的交流，能够比较准确地把握说话人的态度，观点，听懂重要的问题、指示，可以在较短的时间内参与到讨论中，不仅能听懂自己熟悉话题的大部分观点，在较陌生的话题上，也具备一定的跳跃障碍的能力，从而获取需要的关键信息。”

第二个层面是“能做描述”，通过语言任务的形式对不同水平等级的学习者能够做什么进行详细描述。能做描述也要从不同的子能力维度展开，以典型的作业任务为描述的依据，而非随意描述。比如在阅读能力量表中，“能做描述”分为文本说明和阅读过程两个子维度。文本说明部分主要根据阅读材料的体裁和篇章来对学习者进行区分。例如“能读懂会议议程。”阅读过程关注阅读时所涉及的各种技能，包括总结和概括、寻找细节、查找段落关系、推论、与目的语文化背景的结合、阅读技巧以及使用参考书和词典的能力。例如“能将一篇文章里不同部分的信息，或者不同文章里的信息归纳汇总，以完成特定的交际任务。”

第三个层面是量化指标，主要从字、词掌握数量，阅读和听力的速度等方面来区分不同水平的学习者。例如“能在30分钟内写出300字以上的信或短文。”

中级汉语学习者语言能力自评量表采用李克特5级量表（Likert scale）来采集数据，学生在完成量表时需要对每一条描述语和自己实际语言水平相符的程度进行评价，如果完全符合选择5，完全不符合则选1。量表的结构和题目数量如表1所示。

2.2 被试

本研究的被试为报名参加2011年6月举行的汉语水平考试HSK（初中等）考试的考生，共165名。被试在报名当日完成量表调查，并于一周后参加HSK考试。因此被试完成量表时的语言水平与其参加HSK考试时的水平基本一致。被试的具体情况如表2所示。

2.3 题目的难度与区分度

题目的难度和区分度与量表的质量密切相关，难度适中，区分度良好的题目所组成的量表具有较好的测量精度。由于题目采用5级量表记分而非0/1记分，因此难度的求得采用公式P=所有被试该题得分的平均数/该题满分分数。区分度用被试在该题上的得分与其量表总分之间的相关来表示，同时检验高分组和低分组的得分差异。根据测量学的一般做法，高分组指的是得分从高到低排列，前27%的人，低分组则是后27%的人，高分组和低分组的得分有显著差异代表题目的区分度良好。我们按上述办法计算了每个题目的难度、区分度以及高分组和低分组得分的平均数差异检验（T检验）。结果表明，题目难度中等偏易，区分度良好，高分组和低分组得分的平均数差异显著。具体情况如表3所示。

2.4 量表的信度检验

我们使用α系数检验总量表以及各分量表的内部一致性信度，结果如表4所示。

表4 总量表及各分量表的内部一致性信度

从表4可以看出，中级汉语学习者自评量表以及听力、阅读、口语和书面分量表的内部一致性信度（α系数）都较高，说明量表的测量信度较好。

2.5 量表的效标关联效度检验

2.5.1 效标的选取

信度和效度是测验的两大质量标准，也是测验研究的重要问题，其中效度又是重中之重。正如Dieterish&Freeman（1979）所谈到的，如果脱离了效度问题，那么包括信度在内的一切有关测验标准或质量的讨论都会显得毫无意义。Bachman（1990）也指出，在测验的开发、解释及应用中，需要考虑的最重要的问题就是效度。在建立效度的过程中，我们需要收集一种证据，这种证据表明测验分数和某个标准之间的关系，而我们相信这个标准同样表现了所测的能力。使用这种方法建立的效度就是效标关联效度（criterion-related validity）。在效标关联效度的检验过程中，最重要的步骤就是寻找合适的效标。一个好的效标必须具备以下几个条件：

表2 被试的具体情况

（1）同质性，即与研究对象的测量特质相同。

（2）有效性，即能真正反映所要测量的特质。

（3）可靠性，也就是要有较高的信度。

（4）客观性，即没有“效标污染”。个人的效标成绩可能由于评定者知道其预测源分数而受到影响，从而降低了客观性，这称为“效标污染”。

（5）实用性，最佳的效标测量应该用法简单、省时、花费少。（郑日昌等，2001）

本研究采用被试参加的汉语水平考试（HSK）作为效标。HSK是专门测试母语非汉语者的汉语水平的国家级标准化考试，具有二十几年的历史，在海内外享有很高的学术和市场声誉，是一个比较可靠的效标。本次HSK（初中等）考试的结构、题型与信度系数如表5所示。

表5 HSK（初中等）考试的结构、题型与信度系数

在效标选取上，我们采取考察内容近似的原则，以HSK总分作为总量表的效标，以HSK听力理解测验的成绩作为听力理解分量表的效标，以HSK阅读理解测验的成绩作为阅读理解分量表的效标。由于HSK考试的综合填空部分考查书面表达和汉字书写能力，因而可以作为书面表达分量表的效标。口语分量表的效标也选用HSK听力理解测验的成绩，这是因为听和说具有十分密切的关系，在没有口语测验作为效标的情况下，选择听力测验成绩作为效标也是可行的。

2.5.2 检验结果

效标关联效度的检验结果如表6所示。

表6 效标关联效度的检验结果

从表6可以看到，总量表以及四个分量表与各自的效标的相关都在0.05水平上显著，相关系数在0.40～0.50，属于中等程度的相关。

3 讨论与结论

3.1 量表中描述语的选择与修订

语言能力自评量表中对能力的划分和界定主要依靠各种描述语来完成，因此描述语的质量直接影响到量表的信、效度。描述语的产生有不同的方法，比如向专家征集对学习者语言能力的评述语，根据确定的语言能力结构及其参数体系来编写描述语等。我们采用的方法是收集国内外已有的语言能力量表和大纲，把其中的描述语挑选出来，然后根据确定的语言能力维度和参数体系将合适的描述语放进去，最后再进行描述语的修订。

通过对每一条描述语的难度、区分度以及选项分布等题目质量参数的评估，我们归纳了挑选和修订描述语的几条基本原则：（1）描述语的单维性，即，除总说部分外，每条描述语只描述一个参数或一项能力；（2）描述语的排他性，即任意一条描述语中都不含有其他描述语所描述的内容，描述语之间不重复；（3）描述语都采用正向描述的方式，不使用否定词语；（4）尽量避免大量使用程度词来修饰描述语，如比较准确等；（5）描述语在表达上做到准确、简洁。

3.2 量表的质量评估

评价量表的质量主要从题目质量、量表信度和效度三方面着手。从研究结果来看，中级汉语学习者语言能力自评量表质量优良。题目平均难度为0.66，属于中等偏易，说明问卷中的题目与被试的实际语言水平比较相符。在分量表中，听力和口语的难度略低于阅读和写作。这可能是因为题目大多描写课堂外实际运用语言的场景，而学生在现实生活中运用听和说的机会多于读和写，因而他们对听力和口语的场景熟悉程度高，倾向于给出较高的分数。从题目的区分度来看，所有题目在高分组和低分组中都有很好的鉴别力，平均数差异显著，题目与总分的相关较高，说明题目具有较好的区分度。量表的信度检验表明题目的内部一致性很好，信度较高。

从量表的效度检验来看，总量表和效标（HSK总分）之间的相关为0.46，这在自我评价的研究中是相对较高的。Bachman&Palmer（1989）的研究计算了自我评价和面试以及多项选择题的相关，分别为0.47和0.46，他们认为这样的相关已经是相当可观了。其他一些研究，如Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.（2004）得到了0.3的相关，而Anne-Mieke Janssen-van Dieten（1989）的研究仅得到了0.19的相关。因而我们可以说本研究的语言能力自我评价量表的效标关联效度还是比较高的。从各个分量表来看，听力、阅读、口语和写作分量表与它们各自的效标之间的相关都在0.40以上，其中阅读分量表的效标关联效度系数达到了0.50，说明各个分量表的效标关联效度都比较好。

3.3 关于语言技能间的关系

在分析四个分量表与HSK各个分测验的相关关系的过程中，我们发现了一些有意思的现象。虽然四个分量表与它们各自的效标之间的相关最高，但它们同时都和语法分测验具有较高的相关。这种现象暗示着语法知识在听、说、读、写四项技能中都占有很重要的位置，反过来说，也暗示着语法不是一个需要独立测量的子能力，而是作为一种语言使用的必备要素体现在听、说、读、写各项语言技能中。这一点张凯（1997）和郭树军（1997）在研究HSK的构想效度时已经有所发现。

另外，我们还发现，口语分量表与HSK各个分测验的相关是最低的，与自评量表中其他分量表的相关也是相对最低的。这一方面是因为我们选择的效标中没有口语测验，另一方面也说明口语能力是一种相对独立的语言技能。这一现象在周聪（2010）以及原鑫（2011）的研究中曾经得到了证实。这就提醒我们在对语言技能进行评估时要采取分开评价的模式，特别是对于口语能力。

[1] 郭树军.汉语水平考试（HSK）项目内部结构效度检验[J].汉语水平测试研究.北京：北京语言大学出版社.1997.

[2] 高级水平汉语学习者听说读写四项技能的关系研究[D].北京语言大学硕士论文.2011.

[3] 周聪.综合式测试方法对初级水平汉语学习者的适用性研究[D].北京语言大学硕士论文.2010.

[4] 张凯.汉语水平考试结构效度初探.见：汉语水平测试研究[M].北京：北京语言大学出版社.1997.

[5] 郑日昌，蔡永红，周益群.心理测量学[M].北京：人民教育出版社.2001.

[6] Bachman,L.F.,Fundamental Considerations in Language Testing.Oxford University Press.1990.

[7] Bachman,L.F.&Palmer,A.S.,The Construct Validity of Self-rating of Communicative Language Ability.Language Testing.1989，V6 N1：14-29.

[8] Anne-Mieke Janssen-van Dieten.The Development of a test of Dutch as a Second Language:the validity of self-assessment by inexperienced subjects.Language Testing.1989，V6 N1：30-47.

[9] Dieterish&Freeman.A Guide to English Proficiency Testing in School.Center for Applied Linguistics.1979.

[10] Mats Oscarson.Self-assessment of Language Proficiency:rationale and applications.Language Testing.1989，V6 N1：1-13.

[11] Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.Validating LanguEdgeTM Courseware scores against faculty ratings and student self-assessments.ETS Research Report.2004.