计算机自适应性汉语考试的开发

2017-06-29 11:36:45侯仁锋今井新悟丸山浩明

海外华文教育 2017年3期

关键词：自适应性难易度试题

侯仁锋今井新悟丸山浩明

（县立广岛大学，日本广岛7348558；筑波大学，日本茨城3058577）

计算机自适应性汉语考试的开发

侯仁锋今井新悟丸山浩明

（县立广岛大学，日本广岛7348558；筑波大学，日本茨城3058577）

我们正在开发一个新型考试，从使用方法和考试形式来说，可称之基于网络的计算机自适应性汉语考试（C－CAT：Chinese Computerized Adaptive Test）。C－CAT的最大特点是，基于项目反应理论（IRT：Item Response Theory）开发，试题自身具有绝对的尺度，计算机自动分配给最适应被试能力的试题，考试过程是一个动态性的，能在短时间内更客观、更准确地测试出被试的能力水平。本文首先根据被试特点，论及了该考试的性格和测试内容框架。之后从理论和实践上探讨了为什么开发，其可能性何在？在此基础上，考察了IRT和CAT在目前一些大规模汉语考试上的应用。最后，在简约地介绍了计算机考试发展的来龙去脉的基础上，阐述了该考试系统设计、特点、C－CAT的构成和优势所在。

汉语考试；计算机自适应性考试；项目反应理论；研制开发

一、前言

随着信息时代的到来，语言考试也开始了计算机在线测试，汉语考试也不例外。我们基于项目反应理论（IRT：Item Response Theory）正在研究开发的“汉语计算机自适应性考试”（C－CAT：Chinese Adaptive Test），是一种新型考试，计算机将根据考生水平自动给出适合考生能力的试题，可在短时间，以少量试题准确地测试出考生水平，可大大地提高考试效率。

这一考试系统的构建，需要三个条件，分别是计算机、网络、以及项目反应理论。前两者是硬件，后一项属于理论应用，也可称为软件，三者缺一不可。项目反应理论本身已有50多年的历史，高性能的计算机、高速度的网络的出现，才使这个考试有了可能。从这个意义上说，计算机自适应性考试的研究开发和构建是时代的产物。

二、考试对象

无论什么考试，在设计之前，必须了解清楚考试对象，即生源状态。可以说这是设计考试最重要的依据之一，关系到考试的目的。为了把握考生的情况，有必要从量和质（水平）两方面进行调查。这里，首先我们想规定本考试的主要对象是学习汉语的日本人。当然，因为C－CAT是在线考试，所以也不能排除其他国家的汉语教育机构和汉语学习者个人利用本考试的可能性。尽管如此，我们还是以学习汉语的日本人为本考试的主要对象，是为本考试设计的前提。那么，日本的汉语学习者的现状如何呢？下面从量和质两个方面进行讨论。

（一）考试对象的量

首先，根据汉语水平考试（HSK）的日本网站（http：／／www．hsk．jp／about／business）显示，“日本国内学习汉语的人数一直呈上升趋势，已突破200万人”。这可以说是近年来汉语学习者的保有量。从这一数据看，日本可以说是世界上公认的汉语学习者最多的国家之一。

此外，根据郭（2014）的论文，“全日本大学汉语专业的学生每年不超过1000人，而选修2外汉语的学生，每年近16万。可以说是日本学习汉语人数最多的基地。而大部分学生又都是从零基础开始……”由此可知，日本大学生汉语学习者非常多。

同时，根据《日本新华侨报网络版》（2015）的报道［1］，“（标题）为何日本人海外留学目的地首选中国？近年来，随着全球化经济形势不断发展，日本学生对赴海外留学关注度高涨。日本文部科学省日前公布的统计数据显示，2012年度赴海外留学的日本学生6万138人，较上一年增加2637人，时隔8年增加。其中，将中国作为留学目的地的日本人数最多，超过2万1000人。”不难推断，这些人中，汉语学习者应该不在少数，而且未来将出现高水平的学习者。

（二）考试对象的质

再来看一下汉语检定考试（中国語検定）考生的情况。根据日本汉语检定协会在其主页上公布的数据显示，5年间（2010—2014）实际考生人数如表1所示。

表1 2010—2014年考生人数

为更直观地观察各级别考生人数分布，按级别的累计人数做成了柱状图，图一。准4级水平最低，依次递进，1级最高。

从图一可知，参加3级考试的考生最多，其他各级别考生人数的分布一目了然。

图一考生级别分布

（三）考察

由上表和上图可知，考试对象有三个特点。第一，日本汉语学习者和考生都很多，而且考生几乎都是大学生，为该考试提供了开发前提。第二，学习者大部分都为初级或中级入门水平，为该考试系统的定位提供了依据。第三，因此本考试必须反映教学水平，试题库中应多收纳初、中级试题。

三、经典测试理论的局限性

语言测试依据的理论模型主要有两种，一是“经典测试理论（CTT：Classical Test Theory）”，二是“项目反应理论”。两种理论模型对现代语言测试的开发，保证质量，保证考试的信度和效度都有重要意义。如前所述，本考试的研究开发依据的是项目反应理论。为了理解项目反应理论的应用，这里有必要首先简单介绍一下经典测试理论的应用。

目前，绝大多数的一般考试，都是依据经典测试理论设计和开发的。依据经典测试理论设计的考试，其试题的难易度和区分度是根据参加考试的所有考生的答对率算出来的。由此可知，即使是同一份试卷，考生水平高试题就显得相对容易，而水平低试题就显得相对难，也就是说试题本身不具有绝对的难易度。例如，100分的试卷，考生考了90分，无法判断这90分是因为考生水平高所得，还是因为试题过于容易所得。可知，某个考生的水平是一定的，如果考生群体发生变化，该考生的成绩（排名）也会随之改变。即，经典测试理论的得分是考生群体和试题相互依赖的，不会得到一个恒定的成绩，所以考试结果缺少信度。这也是经典考试理论被诟病的最大原因。为改善这一问题，便出现了项目反应理论。

四、项目反应理论的应用

相对于经典测试理论的局限性，项目反应理论旨在使考生能力与试题相对独立，使试题的难易度和区分度等特性与考生群体相对独立，以使试题具有恒定不变的参数（难易度）。

关于项目反应理论的论文和研究成果有很多，需要详细参考的可自行查阅。这里，我们仅从在考试中的应用角度，引用今井（2012：157）的研究进行简单介绍：

“项目反应理论使用的是逻辑回归得分，从而使经典测试理论不可能做到的试题等化成为了可能。因此，可以对每个人的整体试卷的难易度都会进行自动调节，算出不变的成绩（得分）。这样就消除了考生群体变化所造成的成绩变化。此外，根据项目反应理论，能力值在理论上是无限的，但在实际考试中，能力值一般会收敛在某个范围之内，因此可以将能力值转换成百分制，便于理解。由此，该考试可以做到无论是谁、在任何时间参加考试，不管考几次，都会随机配置一套最适合该考生能力的试题，而得到不会发生变化的分数，保证了得分的可信度，也就是保证了考试的稳定性。因此也就可以做到考生和考生，自己和自己（在一定的间隔时间内）进行比较。”本考试系统也是如此应用项目反应理论进行研究开发和构建。

五、何谓计算机自适应性考试

考试如果按照使用媒介分类，可以分成二大类。一是Pencil＆Paper Test（PPT）式的考试，另一种是使用计算机作为终端的考试。后者又分为Computer Based Testing（CBT）和Computerized Adaptive Test（CAT）两种方式。最初的计算机考试只是单纯地将PPT式考试计算机化，进而发展出只有靠计算机才能实现的命题形式和考试形式。在此基础上，CBT继续发展，而出现了Computerized Adaptive Test（CAT）。

计算机测试从CBT发端，通过引入前文所述的IRT，经过预测，事先给试题赋予难易度和区分度等参数成为了可能。在CAT中，将导入试题库的这种试题，根据考生答题情况，会随机给出不同难易度的试题。为了更好地理解这个原理，这里我们以所有人都经历过的视力检查为例进行说明。视力检查时，检查者会给出一个比较大的文字或圆环，询问被检查者是否能够看到文字或圆环缺口，根据被检查者的回答，检查者会给出下面的文字或圆环，或大或小。这正与答题情况相仿，答对了会给相对难一些的试题，答错了会给相对容易一些的试题。CAT的这种测试方式，可大大地缩短考试时间，也能提高考试精度。这里可以看到，虽然每个考生的试题都是动态的，但由于基于项目反应理论对试题的难易度进行了等化，因此保证了得分的不变性和可信性。

六、大型汉语考试概观

为了了解IRT和CAT在汉语考试中的运用情况，我们对目前现行的几个大型汉语考试进行了分析，应用情况如下。

目前，在日本举行的大型汉语考试主要有汉语检定考试（中国語検定）、汉语交际能力考试检定（TECC）、汉语水平考试（HSK）、实用汉语等级认定考试（C．TEST）等。前两个是日本开发的，后两个是中国开发的。

（一）汉语检定考试（中国語検定）

该考试是一般财团法人日本汉语检定协会开发实施的。从考试设计、级别划分，到使用纸质试卷和原始分等，可以看出是典型的基于经典测试理论开发的考试。

（二）汉语交际能力检定（TECC：Test of Communicative Chinese）

最佳反应温度窗口内停留时间指还原剂在炉膛适合温度区间停留时间。增加停留时间能够使传质过程和化学反应比较充分，可以提高NOx的脱除率。

这个考试最大的特点之一，就是如其主页上公布的“TECC的分数是基于项目反应理论算出的”。可见只是分数计算应用了项目反应理论，但考试本身不是计算机自适应性考试。因为计算机自适应性考试是根据考生对每道试题的回答来决定出下一道试题，纸质试卷无法做到这种动态考试。

（三）汉语水平考试（HSK：hanyushuipingkaoshi）

在数种汉语考试中，HSK是世界汉语教学中知名度最广的。据其日本实施委员会运营的网站说明，该考试的特征是“听力、阅读、写作分别记分。分数的计算运用了TOEIC等欧美考试广泛应用的项目反应理论”。可见，这个考试也是基于项目反应理论算出分数的。虽然该考试也有CBT形式，但从考试实施形态看，仍然不是计算机自适应性考试。

（四）实用汉语水平认定考试（C．TEST：Test of Practical Chinese）

C．TEST是北京语言大学汉语考试研究中心开发的一个考试，其目的是供非留学为目的的学习者测试汉语水平。该考试划分多个等级，报分详细，考生可以很详细地了解自己的水平，得分算法是否依据了项目反应理论尚不可知。此外，该考试不是CBT，也不是自适应性考试。

从上述概况可知，汉语考试还没有一个真正意义上的计算机自适应性考试。但据了解，日本有个别大学开发了这种小规模的考试。鉴于这种现状，我们正在研究开发可以测试通用汉语水平的CAT考试系统。

七、其它语言测试的开发与实践

（一）TOEFL

TOEFL是世界上最知名的考试之一，由美国最大的考试实施团队Educational Testing Service（ETS）开发，该考试曾在一段时间内使用过CAT，但随着新考试形式TOEFL－iBT的出现而放弃了使用。TOEFL－iBT是CBT而非CAT。此外，使用CAT的英语考试还有“GMAT MBA标准考试”、“CASEC日语母语者英语考试”等。

该考试名称为“J－CAT（Japanese Computerized Adaptive Test）日语计算机自适应性考试”，是测试非日语母语者日语能力的考试，是在线运行的CAT。经过近10年的运行，系统稳定，考生众多，与其他考试相关性也很高。因此，我们开发的汉语CAT考试也主要使用了该系统，并作了一些改进。

八、C－CAT概要

C－CAT由系统和试题库两大部分组成，系统基本利用了J－CAT系统，在该系统上搭载了汉语试题库而构成。

（一）采用模型

首先由专家出题，然后进行预测。使用考生答题数据，对每道试题基于项目反应理论计算出难易度参数。项目反应理论有使用一个参数的单参数模型，二个参数的双参数模型，三个参数的三参数模型，C－CAT采用的是单参数模型（Rasch Model）。这也是欧洲和澳洲标准的参数模型［2］，有很好的实用性［3］。

（二）测试领域和对象

C－CAT是使用计算机，经由网络，测试汉语熟练程度的考试。只要计算机在线，无论何时何地均能免费参加考试。考试由听力、词汇、语法、阅读4部分组成，答题形式是标准的四选一题型。

C－CAT是测试一般性汉语能力的考试，而非测试特殊目的的汉语能力考试。

考试对象是日本国内外汉语学习者。学习者可以通过个人注册，参加考试了解自己的汉语水平，过一段时间（推荐6个月以上）再次参加考试，可以确认自身汉语能力提高情况。当然，大学等教育机构、公司等团体也可以像一般考试那样利用本考试。

听力、词汇、语法、阅读各单元满分是100分，合计400分。考试结束直接显示成绩。提供成绩证书，可下载保存或直接打印。考试不分级别，无论什么水平都能同样参加考试，因此无需预先决定参加哪一级考试。系统会根据考生汉语水平，自动给出不同的试题。

（三）C－CAT的机制

在线C－CAT系统，首先服务器从试题库中选出几道试题，经由网络发送到考生的计算机终端，考生看着屏幕进行解答。答题结果再经由网络传回，服务器基于项目反应理论对考生的解答进行运算，推测出考生的初次能力值。之后，从试题库中检索出难易度最符合该能力考生的试题，再次发送到考生终端。如此反复，当能力值误差收敛到一定范围内时，考试结束，便确定了其最终能力值。

下面是自适应性考试给出试题和推测能力值变化关系的示意图。○表示回答正确，×表示回答错误。回答正确会再出稍微难一点儿的试题，回答错误会出稍微简单的试题，这样反复下去，误差渐渐缩小，难易度的变化也渐渐减小，最终能力值收敛到一定（设定）范围。

图二自适应性考试给出试题和能力值收敛关系示意图（引自今井（2012：8））

当考生作答了相当数量的试题后，因为某种原因而误差没有减小到标准值以内，此时，只要回答的试题超过一定（设定）数量，考试也会结束。

以上一系列流程均自动运行，且系统是根据不同考生给出相应的试题，因此被称为自适应性考试。

九、结语

C－CAT是在线计算机自适应性考试，以汉语学习者为对象，不受时间地点限制，可以随时参加考试。主要具有以下优点：

（1）考试基于项目反应理论设计，实现了不依赖考生群体的恒定的测试尺度，有较高的信度。

（2）由于使用了计算机开发试题和考试，能命制出纸质考试无法实现的试题以及实现动态性考试，可提高考试的真实性（authenticity）。

（3）系统根据考生答题情况而给出最适合该考生的试题，考试针对性强，能提高考试效率，缩短考试时间，并且能提高考试精度。

（4）考试结束，即时显示考试成绩。

（5）免去使用大量纸张，堪称环保考试。

注释：

［1］源自《日本新华侨报网》（网络版作者：郭桂玲发布时：2015／04／09）http：／／www．jnocnews．jp／news／show．aspx？id＝80632

［2］“为了解决这个问题，丹麦数学家Rasch，G．提出了一个解决模型，这就是将考生能力值和试题难度分别独立，不相互依赖。其后，以芝加哥大学Wright，B．氏为中心，对该模型进行了研究与普及推广，在欧洲和澳洲被视为标准的语言测试分析模型。”（李在镐2015：219）。

［3］“三个模型各有特点：双参数模型在推算准确性上见长，三参数模型在获得信息量上见长，而单参数模型则在‘实用性’上见长（大友贤二1991：2）。单参数模型也使用开发者的名字称为Rasch Model模型，在采样标本较少（100－200）时可用且有效（大友贤二1991：2），这个模型在选题时必须剔除掉区别度底的试题，才能发挥出其＇实用性＇的优势。在语言测试研究中，这一参数模型使用的最多。”（石田敏子《日语测试入门》大修馆书店1992：216）。

大友贤二：《项目反应理论－TOEFL？TOEIC的机制－》，《电子信息通信学会杂志》，2009年第12期。

今井新悟编著，赤木弥生、中园博美：《J－CAT正式指南计算机自动评分日语考试》，东京：COCO出版，2012年。

菊池贤一、今井新悟、中村洋一、平村健胜：《关于日语计算机自适应性考试J－CAT》，《日本行动计量学会第38届大会抄录集》，2010年。

李在镐：《日语教育用语言测试指南》，东京：kuroshio出版，2015年。

石田敏子：《日语测试入门》，东京：大修馆书店，1992年。

小山由纪江：《测试的历史变迁与计算机自适应性测试的意义》，《New Directions》，2010年。

The Development of Chinese Computerized Adaptive Test

HOU Renfeng＆Imai Shingo＆Maruyama Hiroaki
（Prefectural University of Hiroshima，Hiroshima 7348558 Japan；University of Tuskuba，ibaraki3058577 Japan）

We are developing a new type of test，which is called Chinese Computerized Adaptive Test（C－CAT）due to themethods and forms that it uses．The advantages of C－CAT are distinct and overwhelming．Based on the Item Response Theory（IRT），C－CAT can perform as a perfectmeasure，with computer automatically allocating test itemswhich is in compliance with the examinee’s level．It has a dynamic testing process and can estimate objectively and accurately the ability of the examinee in a short time．This paper discusses features and content framework of the test according to the characteristics of the subject，and then explores，theoretically and practically，the reasons and possibility of the development of C－CAT．On this basis，the survey is carried out on the current application of IRT and CAT in some largescale Chinese tests．Finally，the paper introduces briefly the development of the computer－based test and illustrates the design，characteristics，C－CAT structure and advantages of the test system．

Chinese tests；Computerized Adaptive Test；Item Response Theory；Development

H195

2221-9056（2017）03-0362-07

10．14095／j．cnki．oce．2017．03．009

2017-01-15

侯仁锋，县立广岛大学教授，语言学研究生，研究方向为汉语教学、语言测试。Email：hourenfeng＠gmail．com

今井新悟，筑波大学教授，语言学博士，研究方向为日语教育、计算机自适应性考试。Email：imai．shingo＠gmail．com

丸山浩明，县立广岛大学教授，文学博士，研究方向为汉语教学、明清小说。Email：maruyama＠pu－hiroshima．ac．jp

本文系日本国家科研基金项目，课题：计算机自适应性汉语考试的开发与验证。该文为研究的部分成果。（本稿は、科学研究助成金基盤研究（B）（研究課題：コンピュ一タ適応型中国語テストの開発と検証、課題番号15H03225）による研究成果の一部である。）

计算机自适应性汉语考试的开发

一、前 言

二、考试对象

三、经典测试理论的局限性

四、项目反应理论的应用

五、何谓计算机自适应性考试

六、大型汉语考试概观

七、其它语言测试的开发与实践

八、C－CAT概要

九、结 语

一、前言

九、结语