彭恒利
(北京语言大学语言科学院,北京 100083)
华文水平测试研发的路线图及相关问题探讨①
彭恒利
(北京语言大学语言科学院,北京 100083)
华文水平测试;研发;路线图
华文水平测试的研发要基于华文教学的实际,可选择“猜测-反驳”的开发路线图。在进行体系设计时,起点要高,应博采众长,整体设计,分步实施,突出特色和服务意识,借外力为我所用。对于研究中涉及到的题库建设、考试方式等问题,要确立优先原则,突出重点,先考起来,以应亟需为要。
纵观语言测试的发展历史,测试的内容和形式一般会随着理论、技术、市场和需求的变化作出相应的调整和改变。就汉语测试而言,随着中国综合实力的不断提升,汉语学习在世界范围内不断升温,学习汉语的人日益增多。伴随着语言学、第二语言教学理论、心理和教育测量理论以及测试技术的发展,汉语测试的发展呈现出以下的特点:一是数量由少到多,在汉语水平考试(HSK)之后,许多国家和地区相继推出了自己的汉语测试,如华语能力测验等;二是测试对象的分类由粗放到精细,如作为第二语言的测试,原HSK的测试对象包括了国内少数民族,2001年教育部又专门研发了针对国内少数民族的中国少数民族汉语水平等级考试(MHK);三是考试的功能从重视选拔转变为重视评价,不仅测试的结构更加完善,而且在报告分数的同时注重反馈,注重提供诊断信息。
顺应这一潮流,研发专门针对海外华人的华文水平测试(以下简称“华测”)提上日程。王汉卫(2009)在《论“华语测试”的三个基石》一文中从海外华人人口、华语状况、汉字及汉文化基石三个方面论述了研发华文测试的重要意义。2010年,暨南大学华文学院启动了华测的研制工作,在机构、人员、场地等相关基础建设稳步推进的同时,研发者也做了大量细致的研究工作,进行了相关问题的研讨和思考。王汉卫等(2013)在《华文水平测试的总体设计》一文中勾勒出了华测的研发蓝图,在《华文水平测试总体设计再认识——基于印尼、菲律宾、新加坡的调查分析》(2014)中通过基于华测海外需求调查的结果,对华测的总体设计思路以及华测的基本性质、华语标准、华测能力标准、华测拟突出的内容与特色等做了进一步的研究探讨。应该说这些工作都是卓有成效的,作为测试工作者仅关注或称许是不够的,理应建言献策,奉绵薄之力。就华测开发的相关问题进行探讨,一来可向方家讨教,或会有更多的有识之士关注华测;二来或许能为华测的研发者提供一些有益的参考和启示。
①在本文的写作过程中,邵明明、凡细珍帮助搜集了相关资料,《华文教学与研究》编辑部及匿名审稿专家提出了宝贵意见,宗世海教授惠寄了参考文献,在此一并致谢。
谈到测试研发,自然会面临“为什么要测”“测什么”“怎么测”的问题,清楚地解
答了这些问题,实际上也就将测试研发的路线图描绘出来了。
谢小庆(2010)认为,语言能力测试的开发有两条路线可选择,一是“观察—归纳”的路线,二是“猜测—反驳”的路线。“在语言能力测验的开发中,在许多涉及复杂心理特征的能力测验和职业测验中,理论上似乎合理的‘观察—归纳’路线图在实践中是行不通的。在这些测验的开发中,我们往往需要采用‘猜测—反驳’的路线图”。他还用汉字应用水平测试开发的实践为自己的观点进行了佐证。
测试是妥协的结果,常常需要在科学性和现实性上作出选择。采用哪种路线图不仅是方法论的问题,也体现着工作的效率问题,需要决策者权衡利弊,作出选择。我们欣喜地看到,华测的研发者对此已有深入的思考,在谈到华语标准制定时已涉及到此问题(王汉卫等,2013)。从现有的文献来看,研发者似乎在沿循“观察—归纳”路线,并希望研发《华语语音标准及语音大纲》《华语听力能力等级标准》等“至少有10个属于华测自己的标准性基础文件”来“构建它的标准系统,来支撑其最基本的运作”(王汉卫等,2013)。无疑,这是一个浩大的工程。以作者的经验,这一工程耗费巨大,需要多人协同攻关,特别是功能、意念、文化大纲的编写非短期可以完成。
说“观察—归纳”路线图难,主要是基于测试对象所处的复杂环境。目前,关于海外华侨华人的总数说法不一,所查到的最新数据显示,我国海外华侨华人的总数约为5000万(王辉耀,2014)。这些海外华人分布在世界各地,由于所处的语言环境的不同,各地华文教育的历史和基础不同,不同地区海外华人的华语水平有较大的差异,加上受居住国语言和文化的影响,华语在海外也有了很多的域外变体。面对如此复杂的现状,要想对华语进行全面完整的描述,短期内几乎是不可能实现的任务。
如此,从测试研发的可行性和效率来看,华测不妨采用“猜测—反驳”的路线。首先从海外华文教育的教学经验出发,以海外华人比较集中的东南亚华人为典型样本,编制测试,并假设这是一个有效的工具;之后对编制的测量工具进行检验,比较不同国家、不同地区、不同学历、不同职业、不同年龄被试的成绩,并通过多种渠道,从不同的方面收集效度资料;然后根据收集到的效度资料对试题进行修改,删除效度不好的题目,对不太适合的题目和内容进行调整。通过对不同背景的应试者的多次试测,对测试内容进行不断地调整,使测量工具日臻完善,然后再根据这一测试的分数来建立等级标准。从考生的需求和市场的观念来看,重要的是做起来,以应亟需,然后再系统化、再修订、再完善。
在测试研发中,体系设计是一项非常重要的工作。如果我们用市场化的观念把测试当成一种产品来看,那么体系设计实际上是在建构一项测试的框架结构,其中包括产品序列、等级设置和测试形式等。在建构测试的体系时,有两个因素需要重点考虑,一是考试的对象,这一问题实际上是要回答为谁设计产品的问题;二是等级结构和等级标准,它要回答的是产品的序列种类和各自应达到的技术标准。从测试研发的理论和实践来看,这两个问题在测试研发时是绕不开的,需要深思熟虑、全盘统筹。因为从实质上讲它们都与测试的目的和用途密切相关,必须在测试研发的伊始即制定测试设计方案时就明确下来,否则后续工作就无法展开。
王汉卫等(2013)在《华文水平测试的总体设计》一文谈到了华测的纵向结构和能力分级,其中重点谈了华测的等级构成和标准制定的设想。从现有的描述来看,因要考虑与母语能力的关联,现有的等级设置向母语能力形成的关键期——小学阶段倾斜,六个等级中小学阶段就包括了四级,并与国内义务制教育学段的概念相对应:1级(入门级)作为小学的入学标准,2级(基础级)作为小学第一学段结束应达到的标准,3级(提高级)作为小学第二学段结束应达到标准,4级(初通级)作为小学毕业的标准。如果是一个主要面向教学的测试,这样前细后宽等级设置是自有道理,无可厚非的。
但问题是,海外的华人汉语学习者不仅是在校学生,成人的学习需求也很大,许多成人想通过测试检验自己的学习效果,为求职、旅游服务和贸易往来提供证明和检测。华测包不
包括成人?如果包括成人学习者,现有等级设置的描述就略显粗糙,不够精致全面。或许研发者对此已有考虑,只是我们没有从该文中清晰看到,特提出管见且视为善意提醒。
关于测试的对象,上文只是笼统的界定,没有细致的说明,测试的用途也没有明确的表述,因此,对于华测将来的用途我们只能靠推测。我们认为,一项测试要想生存发展,必须要考虑市场,考虑运营。华测要想在汉语测试之林立足,不仅要重视测试的科学性,重视测试的质量,而且要考虑它所处的环境和面临的市场。在现有的体制下,华测要生存发展仅靠拨款输血是远远不够的,它自身必须要有强大的造血功能,这就需要有较强的市场意识。我们以为,在建构华测等级结构时设计应宽泛,可将华测设计成面向教学和面向社会的两个序列,在优先研发教学序列时为开发社会序列留下空间,以使产品具备较强的适用性、竞争力和生命力。
随着现代测验理论、心理与教育测量学、计算机技术的迅速发展,语言测试的内容与形式都有了很大的变化,测试的个性化、计算机化成为重要的发展趋势。现代测验理论与技术的更新为华测的研制提供了便利,也为华测的创新奠定了良好的基础,但这绝不意味着华测的研发是轻而易举,水到渠成的事。像其他测试的研发一样,华测也面临着人力、物力和经费的困扰,面临着理论和技术选择的纠结,面临着许多技术难题等待突破,面临着市场等待开发……这一切都需要华测开发的决策者高屋建瓴,集贤纳士、博采众长,以务实、高效的策略先重后次、先急后缓、先易后难,以先考起来,以应亟需为要。以下几点建议供研发者参考。
3.1 高起点
作为新世纪推出的新测试,华测要想立足并赢得认可一定要有高起点。这绝不是凭空要求,而是激烈竞争的市场使然。华测要想占领汉语测试的制高点,至少应做到以下几点:
首先,要充分借鉴和吸纳其他汉语测试的经验和教训。先于华测推出的新HSK、MHK、北京语言大学的汉语应用能力测试(C.TEST)、台湾地区的华语文能力测验、日本的中国语能力检定、美国的AP中文考试①HSK、MHK、C.TEST、台湾地区的华语文能力测验是依据第二语言教学理论研发的考试,日本的中国语能力检定、美国的AP中文考试从严格意义上讲属于汉语作为外语的测试。等汉语类的测试一方面是华测的竞争对手,另一方面尽管它们在测试对象等方面和华测有所差异,依然有许多方面值得华测借鉴和学习,如它们在体系设计、大纲制定、题型设计、试题命制、市场开拓等方面积累了丰富的经验,华测应以此为基础,广纳良言,取精用宏,使自己少走弯路,快捷地走向高的平台。
其次,要充分吸收应用心理与教育测量学的新理论、新技术。随着心理与教育测量学自身的不断发展,以及与其他学科的碰撞交融,测量领域的新理论、新技术不断涌现,如概化理论、心理测量学与认知心理学的结合、认知诊断技术、主观性试题计算机的自动评阅技术,等等。这些都为华测提供了很好的理论和技术支撑,也使得华测研发可依据的理论更加充实,可选择使用的测量技术更为宽绰。
再次,要充分利用计算机科学和网络技术的最新成果。目前,随着计算机技术的不断发展,测试的计算机化已成为标准化测试发展的一个显著趋势,越来越多的测试开始由纸笔测试(Paper-based Test,PBT)向计算机化测试Computer-based Test,CBT)②计算机化测试(Computer-based Test,CBT)泛指在测试过程中使用计算机的测试,其中包括计算机辅助测试(Computer-assisted Test)和计算机适应性测试(Computerized adaptive Test)。前者主要是利用计算机管理测试或把传统的纸笔化测试试题用计算机呈现,测试任务与构念都与传统的纸笔测试并无本质区别(李清华等,2009);后者主要是利用计算机对试题进行在线调整,以保证挑选出能最大限度测量出受试能力的试题(张宝钧,2003)。转变,美国的托福考试已经完全放弃纸笔测试,国内的大学英语四六级考试以及新HSK也都推出了计算机化测试,这些都为华测提供了很好的借鉴。
网络的日益普及,平板电脑的流行为华测实现计算机化测试提供了快捷途径。通过平板电脑,可以将声音、图片、视频等多媒体引入试题,使得测试的内容更加接近考生的实际生活,测试的形式更加灵活,更容易也更准确地考查出考生的实际水平。而且,平板电脑重量
轻、携带方便,可重复使用,不仅能降低测试成本,减少测试环节,增强测试的安全性,还可以提高测试的效率,快捷地反馈信息,更好地为考生服务。我们认为,在华测开发中,不妨做些大胆的尝试和创新。
3.2 整体设计,分步实施
受人力、财力等因素的制约,华测的研发不可能一蹴而就。这就需要决策者做好顶层设计,制定详细的规划,把握好研发的工作节奏。目前,研发者对目标群体的具体语言能力状况尚在调查分析中,加上人力有限,测试研发不可能面面俱到,同时推出所有级别的测试。所以在研发初期,研发者应选好突破口,集中精力开发最急需或影响力最大的级别的试卷,并尽快将测试推出。通过对测试实测数据的统计分析,细化和完善考试的总体规划,争取在较短时间内使测试得到考生及使用机构的认可,然后再顺序推出其他等级的测试,使测试逐步序列化,日臻完善。
3.3 突出特色
同为第二语言的教学、测试对象,外国人、海外华人、少数民族有共性,也有明显的差异。学习汉语,外国人更注重语言的工具性,而海外华人和少数民族则是工具性和人文性兼顾。而“华文”对于海外华侨华人不仅是交际工具,更是文化认同和民族认同的工具(王汉卫等,2013)。郭熙(2012)认为,华侨华人学习华语是文化寻根,他们不希望下一代失去自己的文化,自己的精神家园。但问题是,文化的测试历来都是个难题,是单独测还是融入到试题中测更好,学界尚无定论。王汉卫(2009)认为,目前我国在汉语作为第二语言的测试上淡化文化的做法对华裔来说有欠考虑。更好地把语言和文化融合起来,使语言测试在内容上有更多的文化性是华测的目标是对海外华人母文化情结应有的回应,也是主张研发华语测试的重要原因。这一问题在华测的研发时是需要着重考虑的,希望华测在此方面能有所突破,有所创新。
华裔和非华裔学生学习汉语时有诸多差异,如:开始学习时的汉语水平不同、汉语各种语言技能和语言要素的发展不平衡、语言学习的结果不同等(曹贤文,2014)。王汉卫等(2013)特别指出,海外华侨华人华语习得方式的差异、听说读写能力的失衡是一种普遍的客观情况。
鉴于此,华测在体系、模块设计以及施测上就要有一定的针对性和灵活性,可以把听说测试和读写测试分开,设计成“组合式测试”,即考生在测试时可以根据自己的实际水平进行选择,将听说测试和读写测试进行自由组合。例如,考生如果听说能力较强而读写能力稍弱,那么他就可以选择参加高级别的听说测试,同时参加低级别的读写测试。在报告成绩时,根据其在测试中的表现,分别对其听说能力和读写能力给出评价。这样有利于考生或测试的使用者根据不同的需要灵活使用测试的结果。
3.4 突出服务意识
作为专门针对海外华人的华测,主要的服务对象以东南亚为中心遍及五大洲,无法像国内的一些大型测试一样,通过行政手段强令推广。它要想立足,赢得市场,就得像托福等考试一样靠的还是质量和服务。因此,华测无论是在研发阶段和还是在推广阶段都要突出服务意识,针对用户的需求开发产品,以用户为中心,提供优质特色的服务,并要把它当成自己生存发展的核心竞争力。
3.5 以开放的姿态,走合作开发的路线
测试的开发和推广不仅需要心理与教育测量、计算机以及专业领域的人才,还需要配备必要的设备,有进行研发工作的场地和一定的经费支撑。一般在开发初期,人力有限,硬件和资金并不会足额匹配,人力资源和经费都会面临不小的缺口,特别是在一些耗费较大的项目如试题命制、系统开发等方面捉襟见肘的状况时常会出现,仅以一己之力大包大揽显然是无法如期完成任务的。即使前期的研发任务可以完成,测试走向良性的循环也需要一定的周期,随着测试的推广,客观条件的先天不足以及有限的人力、财力也会制约着测试的规模化发展。在市场化日益成熟的今天,专业分工越来越细,许多工作并不需要亲力亲为。因此,对华测的研发来说,以开放的姿态,积极寻求与相关部门、机构以及有关的科研院所合作是一条比较务实高效的路子。华测在研发过程中要善于“借力”和“借脑”,除核心部分以外,其他非核心的工作都可以寻求合作,有些可以合作开发,有些可以委托研发,有些可以“借
鸡生蛋”,有些可以外包服务,总之,可以调动一切积极因素为我所用。
目前,华测的开发处于研发初期,千头万绪,有许多问题需要研讨,有许多困难等待克服。对于研究中面临的问题,有些必须理清头绪,阐明观点;有些需要量力而行,确立优先原则;有些需要搁置争议,寻求共识;有些则可暂存设想,从长计议。
4.1 考教分离还是考教结合
在如何处理教学与测试的关系问题上,新旧汉语水平考试(HSK)采取了截然不同的两种态度。旧HSK一直坚持“考教分离”的原则,强调命题“不以任何特定教材为依据”;而新HSK则相反,强调“考教结合”,在考试之外还开发了配套的教材以及相关学习、辅导材料,变“单一的考试系统”为“以学习、培训为主,以考试为辅的汉语学习系统”。MHK作为与HSK类似的以测试应考者汉语实际运用能力的水平考试,强调教学应遵循自身的规律,为避免应试对教学的干扰,与旧HSK一样采用了“考教分离”的原则。
那么,华测在考教关系问题上应该怎样做呢?王汉卫(2013)认为,华测的推出,是对海外华人这个巨大的语言文化群体的关注,是对考教关系的关注。显然这一问题已引起研发者的重视,但倾向性意见如何,并没有清晰的论述。
明确地回答这一问题并不是一件轻松的事,需要结合测试的目的作出审慎的选择。华测的研发以促进和服务于海外华语教学为出发点,那么它扮演的不应仅是评价的角色,而应更大地发挥测试对教学的反拨作用。因此,简单地归为“考教分离”或“考教结合”对华测并不合适。一方面,华测要对海外的华语教学给予具体指导,它必然要对各地的华语教学进行深入的了解;另一方面,海外的华语教学千差万别,它又不可能面面俱到。由此,华测对海外华语教学的指导应是宏观性的,华测应通过华语能力标准这个“纲”的制定,引领华语教学的大方向,不局限在世界各华语区“教什么”“怎样教”之中,各华语区在教学目标上应逐渐向华语能力标准靠拢,在教材编写和教法上完全可以“八仙过海,各显神通”,并把教学的自主权更多地留给教师,最大程度地激发他们在教学上的主动性与创造性,推动华语教学的蓬勃发展。
综上,在考教关系问题上,研发者不妨采用实用主义的策略,可暂且搁置“考教分离”与“考教结合”之分,以引领教学,服务教学为先。
4.2 题库建设
所谓题库就是以一定的教育测量理论为依据,按照一定的规范编制、收集的有相当数量和较高质量、附有试题性能参数,并经过分类编码的大量题目的科学集合(黄光扬,2002)。由此可以看出,题库建设是一项系统工程。华测要不要建设题库,回答是肯定的。但在华测研发的伊始,是否需要把题库建设列入日程是可以商讨的问题。
纵然,题库建设是测试科学化、标准化的需要,是测试规模化发展的需要,欧美等经济发达国家的许多测试专业机构都根据测试的科学化的需要和市场的要求,建立起了大型题库。同时,为了实现计算机化的适应性测试,必须具备一个较大规模的题库(谢小庆,1998)。但毋庸讳言,题库建设是一项投资巨大,费时费力的工程,非少数人短时间可完成。从实用的角度考虑,华测可将题库建设列入长期规划而非短期计划。这绝非是说题库建设对于华测不重要,而是说不迫切。也就是说,华测在研发伊始就应该树立“题库意识”,有题库的构念和框架,在题目和技术等方面有意识地积累,一旦时机成熟,资金和人力得到保证,题库建设即可顺势而为。
4.3 计算机适应性测试
适应性测试(Adaptive Test,CAT)是指在测试施测过程中根据考生特点调节试题数量和难度的测试,因其“量体裁衣”的特点而又被称为“裁缝测验”(Tailored Test)(谢小庆,1998)。适应性测试作为一种测验形式,与传统的纸笔化测试相比,具有省时、高效等诸多优越性(张青华等,2006)。借助计算机实现的适应性测试不仅可以使测试的次数几何数地增加,成绩报告的时间也大为缩短,由考后两个月变为考后即时报告。更重要的意义在于:
它可以使测试更具针对性,更加个性化,从而可以达到更高的信度;可以使测试的情境与现实生活更接近,从而达到更高的效度。作为21世纪新研发的标准化测试,华测理应把实现适应性作为自己的努力目标。由于适应性测试是以题库为基础的,因而实现计算机适应性考试(Computer-Adapted Test,CAT)目前只能作为华测的远期目标,比较现实的策略是纸笔化测试和计算机化测试双管齐下。
4.4 认知诊断
随着教育的发展,一个单纯的测验分数已经不能满足实际教与学的需要,家长、学生及教师都希望测试能够提供具体的、个性化的诊断信息,考生掌握了哪些知识,哪方面的能力还需要加强,怎样加强等等,这些有针对性的建议对教师的教和学生的学更具建设性。这实际谈论的就是心理与教育测量中的认知诊断。认知诊断测验可以对个体知识结构、加工技能或认知过程进行细致评估(Leighton&Gierl,2007)。认知诊断是认知心理学与现代测量学相结合的产物,现已成为心理和教育测量学研究的一个热点和趋势,具有较大的应用价值,一些大型考试的研究机构如美国的教育考试服务中心(Educational Testing Service,简称ETS)等都在进行应用研究。如前所述,认知诊断可以为教育教学提供更丰富的诊断信息,可以给教学活动提供更具针对性的建议,可以为教育教学评价工作提供更加科学、合理的信息依据,鉴于此,华测在研发伊始就应将认知诊断的理论引入测试,以使对海外华语教学的引导和促进更具实效。
曹贤文2014“继承语”理论视角下的海外华文教学再考察[J].华文教学与研究(4).
郭熙2012论海外华文教学的性质和地位[A].载郭熙(著),华语研究录[C].北京:商务印书馆:233-248.
黄光扬2002教育测量与评价[M].上海:华东师范大学出版社:337-342.
李清华,孔文2009基于计算机的语言测试及其效度验证[J].外语界(3).
王汉卫2009论“华语测试”的三个基石[J].华文教学与研究(1).
王汉卫,凡细珍,邵明明,王延苓,吴笑莹2014华文水平测试总体设计再认识——基于印尼、菲律宾、新加坡的调查分析[J].华文教学与研究(3).
王汉卫,黄海峰,杨万兵2013华文水平测试的总体设计[J].华文教学与研究(4).
王辉耀2014中国海外国际移民新特点与大趋势[A].载中国国际移民报告(2014)[C].北京:社会科学文献出版社:1-48.
谢小庆1998考试发展的新方向:计算机化自适应性考试[J].百科知识(5).
———2010谈语言能力测验开发的路线图[J].考试研究(1).
张宝钧2003简论计算机自适应语言测试的工作机制[J].语言教学与研究(3).
张青华,袁一萍,张厚粲2006适应性测验的发展:历史与现状[J].心理学探新(2).
Leighton,J.P.&M.Gierl2007Verbal reports as data for cognitive diagnostic assessment[A].In J.P.Leighton&M.Gierl(eds.),Cognitive Diagnostic Assessment for Education:Theory and Applications[C].Cambridge,UK:Cambridge University Press:146-172.
The Discussion on Issues and Approaches of HSC's Development
Peng Hengli
(The Faculty of Linguistic Sciences,Beijing Language and Culture University,Beijing 100083,China)
HSC;development;approach
HSC's development should be based on the practical situation of Chinese language teaching to the overseas Chinese,and the“conjecture-refutation”approach can be applied.When design the testing systems,the following aspects should be taken into consideration:High starting point,making full use of advantages,overall designing and gradual implementation,highlighting specific features and being aware of the external forces.Setting the priority principles and stressing key points are necessary in order to solve the problems of item bank construction and examination methods in the research.To meet the urgent needs,implementing the examination first may be the best choice.
H195;H08;G749
A
1674-8174(2015)01-0041-06
【责任编辑刘文辉】
2014-11-18
彭恒利(1964-),男,陕西渭南人,北京语言大学语言科学院副研究员,硕士,主要从事语言测试研究。