扩大汉语中介语语料库语料来源的途径*

2022-07-14 02:57:50张宝林北京语言大学汉语国际教育研究院
国际中文教育(中英文) 2022年2期
关键词:语料语料库汉语

张宝林 北京语言大学汉语国际教育研究院

提 要 语料分布是语料平衡性的集中体现,与语料库的功能与使用价值密切相关,是语料库建设中一个十分重要的问题。以往的汉语中介语语料库建设并未很好地解决这一问题,对基于语料库的汉语教学与研究产生了相当程度的影响。这一问题的产生与语料库建设者对语料库的认识和建库经验有关,也与国际中文教育形势的发展有关,与不同国家和中国的地缘距离、历史、政治、经济、贸易、外交、文化、教育等因素密切相关。该问题可从国内、国外两方面加以解决:通过国内汉语教学单位广泛收集目的语环境中的外国学习者产出的汉语语料;通过外派汉语教师、孔子学院、孔子课堂收集非目的语环境中的学习者语料。而学界的理解与支持、强有力的组织保障、明确可行的语料采集标准与操作规范、专业化的团队与运作则是解决语料来源问题的重要条件。

一、语料现状

(一)语料库的发展与规模

1995年“汉语中介语语料库系统”问世,“该系统的研制填补了汉语中介语语料库(以下简称“语料库”)研究方面的空白,在汉语作为第二语言教学领域里取得了开创性成果,达到了国际领先的水平”(本刊记者,1995)。该库具有十分重要的意义,被学界认为是汉语中介语语料库的开山之作。其后,以“HSK动态作文语料库”(以下简称“HSK语料库”)为代表的多个语料库相继建成。而基于语料库的对外汉语教学研究、汉语习得研究和中介语研究也得到了很大发展,形成了一批重要的研究成果。与以往手工收集、整理语料的同类研究相比,这些研究考察的语料规模大、样本多,用大数据揭示语言规律,不但深化了对相关问题的认识,而且具有很强的客观性和说服力,集中体现了语料库的作用与应用价值。这样的研究成果与示范效应引起了学界的广泛关注,人们很快接受了基于语料库的研究范式,更多的学者和教学单位受到激励投入语料库建设,大大促进了汉语中介语语料库建设的发展。目前,“汉语中介语语料库建设渐成高潮,‘成为语料库研究中的热点’(谭晓平,2014),正在跨入一个繁荣发展的重要时期”(张宝林、崔希亮,2015)。

目前,语料库建设呈现出语料规模越来越大、标注范围越来越广、标注内容越来越丰富全面的特点。例如,“汉语中介语语料库系统”熟语料104万字,“只经过断句、分词和词性标注等加工处理”(陈小荷,1996)。HSK语料库熟语料424万字,对字、词、句、篇、标点符号等5个层面进行了穷尽性标注。“全球汉语中介语语料库”(以下简称“全球库”)基础语料达2367万字,标注语料总规模约1.26亿字;在字、词、短语、句、篇、语体、辞格、标点符号、口语和视频语料的语音、视频语料的体态语等10个层面进行标注(张宝林、崔希亮,2022);标注模式则从偏误标注提升为“偏误标注+基础标注”的模式,为表现分析(或称语言运用分析)提供了条件,提升了语料库建设与应用研究水平。

(二)语料分布

语料库的平衡性指“构成特定语料库中各部分语料的类型和比例相对适当,以满足语料库建设和使用中的合理性和可靠性等方面要求”(施春宏、张瑞朋,2013)。而语料分布是语料平衡性的集中体现,与语料库的功能和使用价值密切相关,是语料库建设中一个十分重要的问题。语料的平衡性指不同类型的语料在分布上应尽可能均匀。不同国家和地区、不同母语、不同学习时间、不同专业背景、不同汉语水平的汉语学习者所产出的语料数量应该完全相同。但在建库实践中,由于语料及其背景信息采集的困难,这一问题颇难解决。例如HSK语料库和全球库,在此问题上同样存在诸多不足。

HSK语料库的语料覆盖100个国家和地区,但其分布差异很大,见表1。

表1 HSK语料库语料的国家和地区分布

从表1可见,语料分布呈现两个特点。

第一,语料相对较多的国家和地区很少。例如,语料数量达到1000篇及以上的只有韩、日两国,语料数量达到100—999篇的只有9个。语料少的国家和地区则很多,例如语料数量在10篇以下的达73国之多。语料的不平衡性十分严重。任海波(2010)认为,“HSK动态作文语料库中,东南亚国家留学生的语料很多,而欧美国家留学生的语料则相对太少,语料的国别不平衡性比较明显”。这是符合该语料库的实际情况的。

第二,语料库的使用价值有限。如果把30篇语料作为小规模样本的下限(且不考虑是否随机取样等其他相关因素),则只有18个国家和地区学习者的语料具有统计意义,其他82个国家和地区学习者的语料则是没有统计意义的。有统计意义的国家和地区数量与国家和地区总数比例约为1:5.561。如此看来,HSK语料库的使用价值确实非常有限。

以同样的方法考察全球库的语料分布情况,见表2。

表2 全球库语料的国家和地区分布

仍以上面衡量HSK语料库的两条标准来评价全球库。

第一,语料相对较多的国家和地区与语料相对较少的国家和地区的差距依然存在,但与HSK语料库相比,差距已经缩小了很多。例如,语料数量在1000篇及以上的国家和地区有11个,100—999篇以上的国家和地区有24个,30—99篇的合计32个,10—29篇的有46个。而不足10篇的国家和地区则不予统计,这个做法显然是正确的,因为数据太少没有意义2。

第二,如果把30篇语料作为小规模样本的下限(且不考虑是否随机取样等其他相关因素),则67个国家或地区学习者的语料具有统计意义,46个国家和地区学习者的语料没有统计意义。有统计意义的数量与总数比例约为1:1.69。这个比例意义十分重大,它表明有统计意义的语料已经在相当程度上超过了没有统计意义的语料。很多国家和地区增加了语料,具有了统计意义。其中最典型的当属中亚五国,哈萨克斯坦、吉尔吉斯斯坦的语料数量达到了1000—9999篇,乌兹别克斯坦、塔吉克斯坦、土库曼斯坦达到了100—999篇;而在HSK语料库中,这五个国家的语料均不足10篇。显而易见,与HSK语料库相比,全球库的语料平衡性相对较好,使用价值远高于HSK语料库。

同时必须看到,即便在全球库中,仅从国家和地区分布的角度看,仍有大约4成的语料没有统计意义。语料不平衡仍然是一个很大的问题。

客观地说,外国汉语学习者的语料分布情况差异确实很大。以HSK高等作文考试的成绩分布为例,获得11级证书3的考生人数极少,获得10级的次之,获得9级的较多,而未获证考生最多(田清源,2011)。现实如此,成绩不同考生的语料自然难以平衡。学习者的国家和地区分布也是这样,东亚、东南亚国家的汉语学习者远远多于西亚、北亚国家的汉语学习者和欧美、非洲国家的汉语学习者,这是客观事实。由此看来,完全、彻底、“理想的绝对平衡”可能只是一种理论上的追求,不但在实践上很难做到,也不应该作为追求的目标,因为那并不符合国际中文教育的实际情况(张宝林、崔希亮,2015)。“从建库的实际和语料库的应用来看,现实的取向更可取,也更可行。”(李桂梅,2017)

二、问题与原因

在语料库的语料分布问题上,不同国家和地区的语料数量差距确实较大,甚至很大:排位在前面的多达成千上万篇,而排在后面的则不足30篇,甚至在10篇以下。而语料太少,就基于语料库的研究而言,是无法得出具有客观性、稳定性和普遍意义的研究结论的。因此,语料分布的差距凸显了语料不平衡性问题,会严重影响语料库的作用和使用价值。

导致语料不平衡的原因大致有以下几方面。

第一,语料库建设者缺乏语料库建设与应用研究的实践经验,对此问题认识不足,重视不够。例如HSK语料库的建设者在建库之初对语料库缺少切实的了解,不但从未建设过语料库,而且没有使用过语料库,甚至没有看到过中介语语料库,完全是根据自己的对外汉语教学经验和科研经验边干边学,逐步摸索和积累相关知识,纯属“摸着石头过河”。建设者的语料库知识与建库经验如此贫乏,要求其建设的语料库能处理好语料的平衡性问题,显然是不可能的。

第二,和国际中文教育的发展情况密切相关:国际中文教育形势发展好的国家和地区汉语学习者多,产出的语料就多;形势发展一般或不太好的国家和地区汉语学习者较少或很少,产出的语料自然也少。例如在HSK语料库中鲜有非洲、拉丁美洲、太平洋岛屿的国家和地区的语料。随着近十多年来这些地区国际中文教育的蓬勃发展,孔子学院、孔子课堂的广泛建设,埃及、阿尔及利亚、赤道几内亚、赞比亚、刚果(金)、尼日利亚、埃塞俄比亚、刚果(布)、南非、加纳、马达加斯加等非洲国家,墨西哥、巴拿马、阿根廷、巴西、古巴等拉美国家,汤加、萨摩亚等太平洋岛屿国家,汉语学习者人数均有显著增长,在全球库中这些国家和地区的汉语学习者语料均达到了有统计意义的数量水平。

换个角度看,语料可能在一定程度上反映了国际中文教育的实际情况,即不同国家和地区汉语学习者的整体数量。例如HSK语料库是用1992—2005年参加高等汉语水平考试的考生的作文答卷建设的语料库,在一定程度上体现了20世纪90年代至21世纪初各国汉语学习者的分布情况:学习者规模以韩国、日本为最,其次是部分东南亚国家,再次是欧美一些发达国家。而全球库收集的是近10余年来的语料,从其语料分布情况看,韩国仍高居榜首,语料数量多达两万多篇;而日本已退居泰国、越南、印度尼西亚、美国之后,与哈萨克斯坦、吉尔吉斯斯坦、尼泊尔、菲律宾、巴基斯坦等国为“第二梯队”,语料数量均在千篇以上;乌兹别克斯坦、塔吉克斯坦、土库曼斯坦、柬埔寨、老挝、缅甸、伊朗、土耳其、孟加拉国、印度、马尔代夫、阿富汗等亚洲国家和地区,语料也都达到了100篇或30篇以上。

从这些实例来看,语料库的语料分布和近年来全世界国际中文教育的总体形势是基本一致的。例如语料排名前15位的国家中,韩国、泰国、越南、日本、美国、印度尼西亚、哈萨克斯坦、俄罗斯、巴基斯坦等国都是名列前茅的来华留学生生源国。

第三,不同国家语料多少,或者说汉语学习者多少,与其和中国的地缘距离、历史、政治、经济、贸易、外交、文化、教育等因素密切相关。例如1992年中韩建交,经贸关系不断发展,韩国学习者人数持续增长并占据高位;日本与中国历史文化联系密切,相当一部分文字相同或相近,日本的大学又要求学生学习第二外语,因而汉语成为日本大学生所学二外的首选;“随着泰中经贸、文化等方面的交流发展,以及越来越多中国游客前往泰国旅游,掌握汉语的人才在泰国就业市场越来越受欢迎”(环球网,2019),在泰国政府的支持下,汉语俨然已经成为仅次于英语的第二大外语;据人民网(2018)消息,“48万人去年来华留学,‘一带一路’沿线国生源占半数以上”,近年来哈萨克斯坦等中亚国家汉语学习者逐渐增多,与其和中国经济贸易的快速增长密切相关。

第四,其他原因。语料库中有些国家的语料数量比较令人意外,应属“异常值”。例如韩国语料出奇地多,不但高居榜单首位,而且约为排名第二的泰国语料数量的3.87倍。同为中欧国家,瑞士语料数量多达429篇,名列第16位,而其人口只有约876万;高于其邻国法国(第18位,人口约6555万)、德国(第22位,人口约8387万)、奥地利(第28位,人口约906万)、意大利(第33位,人口约6028万)4。而奥地利的语料数量也多于比其人口数量多很多的意大利。

不过,这些“异常值”的出现并不是偶然的,而是有其原因、可以解释的。

第一,多年来,韩国一直是来华留学人数最多的国家,其语料数量排在第一位是很自然的。但语料多达22,411篇,是唯一语料数过万的国家。这是因为参与全球库项目子课题之一的某校提供的基本都是韩国学习者的语料,包括数十万字从韩国收集来的语料。

第二,瑞士语料较多的原因是瑞士某校中文系教师原本就想建设汉语学习者语料库,并已收集、积累了很多语料。得知全球库项目之后,非常支持,把语料交给了课题组。全球库因而得到了这笔宝贵的“意外之财”。

第三,奥地利语料数量排名相对靠前是因为全球库在建库过程中发现德语背景的汉语学习者语料很少,于是主动和奥地利某校联系,得到了该校汉语系教师的大力支持,专门为全球库收集了语料。

这几个所谓的异常值表明,如果能积极主动地想办法,是可以收集到我们需要的语料的。同时也警示我们,要特别注重语料的平衡性。

三、解决问题的方法

语料库中有些国家的语料确实较少,甚至太少。依据这样少的语料在汉语教学、汉语习得研究、汉语中介语研究方面无法得出具有客观性、稳定性和普遍性的研究结论,语料库的价值与优势也就无法得以体现。

语料的平衡性问题可以从以下一些途径解决。

第一,目的语环境下语料的收集。近年来,来华留学生人数逐年增长,是汉语中介语语料的重要来源。“根据教育部发布的统计数据,2018年,共有来自196个国家和地区的49.2万名留学生在国内1004所高校和科研机构学习。”(教育部,2019)如此庞大的来华留学生群体,其所学专业不同,汉语水平不一,为汉语中介语语料库建设提供了巨大的潜在语料来源。如能结合留学生的国籍、母语、汉语水平、学习目的、汉语学习时长、所学专业、年级等情况,以及1000余所高校和科研机构的地域分布、留学生人数等,定期分层抽样、采集语料,目的语环境中的汉语学习者的静态语料和动态语料问题即可得到解决。

第二,邀请国外汉语教学单位或教师参加语料库建设,由他们收集学生的汉语语料,是一个颇有成效的方法。他们熟悉国外的相关规则,可以因地制宜地采取恰当的方法收集语料。这是一个已经被采用的方法,应进一步拓展使用,努力争取更多的国外汉语教学单位和教师个人参与语料库建设工作。

第三,国内众多高校外派的汉语教师是获取非目的语环境汉语中介语语料的重要力量之一。这些外派教师可以与所在国的高校协商语料合作与采集事宜,按语料收集标准收集当地汉语学习者产出的汉语中介语语料。需要特别注意的一个重要问题是,一些国家对学生语料的采集与使用有非常严格的规定,不能随意采集,外派教师须遵守这方面的规定,与所在高校达成协议并征得学生同意之后,才能采集语料。

第四,目前海外孔子学院和孔子课堂约有1700所(个),这是获取非目的语环境汉语中介语语料的另一个重要来源。可以把语料收集作为它们的一项常规任务,定期采集,持续数年,便可积累大量语料,满足语料库建设对非目的语环境汉语中介语语料的需求,特别是对初等和中等教育阶段学习者语料的需求。许津彰等(2021)选取英国学习汉语的高中生群体作为语料来源,探索英语母语背景的青少年汉语口语语料库构建,便是一个典型范例。

第五,由于目前已入库或已采集到的语料多寡不均,不能满足平衡性的要求,因此语料采集应采取普遍收集和定点收集相结合的策略,注重针对性,重点采集语料欠缺国家和地区的学习者语料,以解决语料的平衡性问题。

落实上述语料采集途径需要具备如下条件。

第一,学界的理解与支持。广泛采集国内外学习者的汉语中介语语料是一项非常艰巨的任务,不是哪一个或哪一些汉语教学单位能够完成的,需要国内外汉语学界的广泛共识、大力支持和共同努力,才有可能实实在在地解决这一问题。

第二,强有力的组织保障。要完成这样一项艰巨任务,尤其需要有坚强的组织领导发挥引领和凝心聚力的作用。例如可以由教育部中外语言交流合作中心、世界汉语教学学会等来组织实施语料采集工作。

第三,明确可行的语料采集标准与操作规范。语料采集需制定明确的技术标准与清晰的操作规范,以保证采集到的语料真实、完整、具有代表性、背景信息完备,能够满足汉语教学、习得研究、中介语分析的需要。

第四,专业化队伍与运作。语料收集工作专业、庞杂,工作量巨大,应选派专业人员组成专门机构,派专人负责相关事宜。例如应由语料库研究专家、主持过语料库建设的学者负责制定语料采集标准、流程规范、审核手册等;应选派富有语料库建设实际经验,特别是有语料采集实际工作经验的专业人员负责实施语料采集的相关事宜,以督促、落实与检查语料采集工作的顺利开展。

上述途径与方法可以有效解决语料的平衡性问题,从而进一步推动汉语中介语语料库建设,更好地为全世界的汉语教学与研究服务。

附注

1 计算方法:100国÷18国≈5.56。

2 HSK语料库(2.0版)也不再统计语料不足10篇的国家和地区。

3 老HSK考试的最高证书等级为11级,9级则是高等汉语水平证书的最低一级。

4 上述数据来自“世界人口评论”(World Population Review),总网址:https://worldpopulationreview.com/,数据为2022年实时动态数据。

猜你喜欢
语料语料库汉语
学汉语
金桥(2022年6期)2022-06-20 01:36:16
轻轻松松聊汉语 后海
金桥(2020年11期)2020-12-14 07:52:56
《语料库翻译文体学》评介
追剧宅女教汉语
汉语不能成为“乱炖”
华人时刊(2017年17期)2017-11-09 03:12:08
把课文的优美表达存进语料库
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
《苗防备览》中的湘西语料