焉德才,胡晓清
(1.2.鲁东大学国际交流学院,山东,烟台264025)
“语料库的建设和语料库语言学的崛起,是语言学战略目标转移的一个重要标志。”(冯志伟,2011:13)语料库语言学 “包含两方面的内容,一是对自然语料进行加工、标注,二是用已经标注好的语料进行语言研究和应用开发。” (黄昌宁、李涓子,2007:3)当语料库建设的 “加工”和 “标注”工作基本完成以后,从哪些方面开发其应用价值就成为语料库建设者关注的重要问题。一般认为,汉语中介语语料库的应用开发价值主要体现在 “语言研究”、 “教材编写”和 “词典编纂”三个大的方面。除此以外,如果我们能从服务课堂词汇教学的角度去思考汉语中介语语料库的应用价值,就不难发现,还有一项重要的应用开发工程需要提上议事日程,那就是:基于偏误反馈的汉语词汇教学信息库的建设。
众所周知,语料库语言学的优势在于:它在很大程度上避免了传统语言研究 “重例解,轻覆盖”、 “重直觉内省,轻数据量化”的不足,引领着语言研究向 “实证化”和 “精细化”的方向发展。迄今为止,对于 “实证化”这一概念,学界基本没有异议。但对于 “精细化”这一概念,学界的理解却未必一致。有人从语言研究精细化的角度认为, “语料库研究在本质上是描写性的” (何安平,2004:127),因此,语料库建设的目的之一是培养精细化和实证性的科研能力;从语料标注的精细化角度看,我们会要求语料库信息的标注尽可能的详尽,比如从标点、字、词、句、篇等五个层面进行偏误标注,每个层面都有一系列复杂的标注代码。除此以外,还有一种精细化,我们却常常忽略,那就是从服务于课堂教学的应用角度,给HSK大纲词②本文涉及的HSK大纲词是北语1992年编写的 《汉语水平词汇与汉字等级大纲》中的8822个词。附加上一些来自于偏误反馈的教学提示信息,这些信息可以组织成一个词汇教学的自主应用平台,为教师备课和教学发挥重要的参考作用。这样的信息平台,其内容起码应该包括:每个大纲词的语音、汉字、语法、广义语义的编码难度等级的标注信息,认知难度的评价信息,常见迁移情况的描写信息,典型偏误的展示信息等。目前,这些来自于偏误反馈的、服务于教学的中介语描写信息尚未完全纳入到汉语语料库建设的视野。
“基于语料库的语言描述的应用是语料库进化中最具有创新性的一项活动。” (黄昌宁、李涓子,2007:20)下面,本文将从服务课堂词汇教学的应用角度对 “基于偏误反馈的对韩汉语词汇教学信息库”的建设谈一下初步的设想。
1.1.1 服务教学
不同的语料库,其主要功能也不尽相同。就二语中介语语料库来说,有的偏重 “研究导向” (Research guidance), 有的偏重 “教学导向” (Teaching guidance)。总体来讲,国内已知的汉语中介语语料库大部分偏重 “研究导向”。 “基于偏误反馈的对韩汉语词汇教学信息库”则是一种偏重 “教学导向”的信息库。它主要服务于从事对韩汉语教学的国内外广大教师,向他们提供词汇教学上的参考。我们的设想是通过这个开放型的信息库,让每个从事对韩汉语教学的教师都能够对韩国学生习得汉语HSK大纲词的认知难度、常见迁移情况以及典型的偏误形态有一个比较全面和充分的了解,可以随查随用。
1.1.2 聚焦偏误
本信息库的关注焦点是中介语中的偏误因素。偏误语料主要是以汉语HSK大纲词为搜索项,从已经建成的 “韩国留学生汉语中介语语料库”中提取偏误句,建成子库,为汉语词汇教学信息库的建设提供数据和信息支持。
1.1.3 语料真实
基于偏误反馈的对韩汉语词汇教学信息库所搜集的偏误语料必须是真实自然的,所有偏误形式都必须是在学生的书面作业或者口头话语中出现的真实句子。这一点无需赘言。
1.1.4 开放共享
信息库的 “开放”包含两个层面的内容:一是信息库的建设是一个长期的开放过程,二是信息库会不断吸收学界最新的研究成果,随时修正和完善相关内容;信息库的 “共享”是指所有从事对韩汉语教学的国内外教师,均可通过固定网址凭密码登录这个信息库免费查询所需要的信息和语料。语料库的 “开放”和“共享”是未来的大趋势,崔希亮和张宝林先生 (2011)所倡导的 “全球汉语学习者语料库”就预示着这一趋势即将到来。
1.2.1 对韩汉语词汇教学信息库的内容构成
对韩汉语词汇教学信息库直接面向查询者的内容分五大部分,即:基础附码、编码度标注、认知难度评价、迁移情况描写、典型偏误展示。在这五部分中, “典型偏误展示”是最关键的内容,因为其他内容的撰写大多来源于对这些偏误信息的分析和归纳。
具体来说, “基础附码”分 “词性附码”、“词法附码”和 “词调附码”三种。比如 “半天”一词的词性附码是 “n” (名词),词法附码是 “pz” (偏正结构), 词调附码是 “41”(四声+一声); “编码度标注”是对每个词从语音、汉字、语法和广义语义四个维度标注认知难度系数; “认知难度评价”是对词汇的“认知难度”做出解释和评价; “迁移情况描写”是在对偏误语料综合分析的基础上对词的正负迁移情况做出描写和说明; “典型偏误展示”呈现的是搜集到的典型偏误例句。面向查询者的信息库简化界面如图1:
图1 :对韩汉语词汇教学信息库界面
查询者进入此界面,只要输入查询的单词,然后点击搜索键,就会进入该词的页面浏览需要的信息。同样,输入不同的基础附码,也可以检索出具有相同属性的某一类词。比如,输入词性附码 “lhc”,就可以将大纲词中所有离合词检索出来,输入词法附码 “pz”,就可以将所有偏正结构的单词检索出来,输入词调附码 “32”,就可以将所有声调是 “三声+二声”的单词检索出来。单击检索出来的词,就可以直接进入该词的信息页面。所有检索出来的信息,既可以用于课堂教学,也可以用于大规模的集合研究。
1.2.2 对韩汉语词汇教学信息库的主体框架
对韩汉语词汇教学信息库的主体框架包括“语料处理系统”、 “数据库”和 “用户检索系统”三个部分。 “语料处理系统”中存储的是从 “韩国留学生汉语中介语语料库”中提取的所有偏误语料以及韩国留学生汉语音频语料的偏误信息; “数据库”中包括HSK大纲词、大纲词基础附码集、大纲词词频统计、大纲词汉字偏误统计、大纲词认知编码度集等各种信息;“用户检索系统”的内容分基础附码、编码度标注、认知难度评价、迁移情况描写、典型偏误展示五大部分。信息库的主体框架,如图2:
图2 :信息库的主体框架
本信息库语料收集的形式,主要是学生的书面作业,包括造句作业、语段作业和作文,除此以外,还有一部分音频语料。书面语料和音频语料互补可以使语料的收集更加全面。比如,韩国学生受母语口语 “”语调上挑的影响,其汉语对应词 “再见”的发音也出现了上挑现象。再比如,我们在考察初级阶段韩国学生 “因为”的迁移情况时,本来发现 “为”字有典型的母语负迁移现象发生,即韩国学生在读汉语 “为”的发音时,常发成类似 “雨衣” (“雨衣”二字快速连读)的音,这是可以预测到的。但是我们从学生的音频语料中居然发现了连读变异的情况。 “因为”这个词,有的学生读成了 “in+ [nu+ei]” 的音 ([nu+ei]快速连读),这完全是由韩国语母语发音的连读习惯造成的。以上两种现象,在常规的语音对比中很难被发现。类似现象都需要在信息库中加以提示和说明。
英国应用语言学家Corder曾经将学习者偏误分为 “前系统偏误” (presystematic errors)、“系统偏误” (systematic errors)和 “后系统偏误” (postsystematic errors)三种类型 (王建勤,2011:41)。这种分类缺乏操作性,但有其 “心理现实性”。在语料收集的过程中,我们也确实能感觉到不同阶段语料在质量上的差异。一般来说,初级上半学期的偏误语料基本上是属于 “前系统偏误”,有人认为这一时期的偏误语料的研究价值不大,所以收录的积极性不高。我们收录的原因有二:一是基于偏误研究本身的需要,二是基于纵向研究的考虑。比如以下音频语料:
(1)老师,字小,我不看。 (老师,字太小了,我看不清楚。)
(2)他常常帮忙我,他真好人。 (他常常帮助我,他真是个好人/他真好。)
(3)他很学习努力,所以他很好成绩。(他学习很努力,所以成绩很好。)
(4)旅游以后,我太病了。 (旅游回来以后,我得了一场大病/我病得很厉害。)
以上的语料就比较有价值,我们可以从中更细致、更直观地观察到学生汉语习得的某些历时特点,也有利于我们更全面地认识汉语中介语这一特殊的语言系统。
偏误句的判定是建设对韩汉语词汇教学信息库过程中不得不面对的一个现实问题。比如以下几个造句偏误语料:
(5)我Λ看书。 (想、要、爱、常常、喜欢)
(6)我Λ和妈妈去商店买东西。 (想、要、每天、常常、喜欢)
(7)昨天,我去市里买了Λ衣服。 (一件)
(8)我想听说课的老师很聪明。 (觉得)(9)你今天为什么打扮得Λ漂亮? (这么)
以上五个句子,如果有特定的上下文语境,基本上都能成立。但如果只是这样孤立地出现,语义的自足性不充分,就很可能被判为偏误句。至于究竟如何处理这一问题,见仁见智。我们的原则是 “阶段侧重、从严把握”。
另外,在处理语料的过程中,偏误焦点的确定也是一个比较棘手的问题。比如上文例句(6),偏误焦点究竟是哪些词,就很难做出准确的判断。再比如以下例句:
(10)a.以前他很坏了,3年以后,他变成非常好人。
b.以前他很坏Λ,3年以后,他却变成 了 一个 非常好 的 人。
c.以前他很坏Λ,3年以后,他变成了非常好的人。
严格来讲,例句 (10)a起码有5个偏误焦点,分别是: “了1”误加、 “了1”遗漏、副词 “却”遗漏、数量词 “一个”遗漏、结构助词 “的”遗漏。在常规操作时,一般会将这个句子分别编入 “了”、 “却”、 “一”、“个”、 “的”五个词的偏误语料中。可是这么做,标准似乎过于严格,操作起来也比较繁琐,因此不如根据 (10)c句确定为3个偏误焦点,即 “了1” 误加、 “了1” 遗漏和 “的”遗漏。这样, (10)a句就只需纳入 “了”和“的”这两个词的偏误用例就可以了。当然,在研究的过程中,还需要本着实事求是的态度,具体问题具体分析。
在信息库的建设过程中,我们也发现,有些语言形式会被学生回避。语言形式的回避问题是第二语言习得过程中普遍存在的现象,它的产生跟语言形式实用度、词汇的教材复现率、个体表达的语体风格和学习者的心理状态等因素都有直接关系。比如以下副词:
很 太 真 最 更 挺 极了 非常特别 有点儿
好 够 多么 十分 极其 格外 分外更加 越发 尤其
语料显示,在这20个副词中,前10个词的偏误语料非常多,而后10个词,不只偏误语料极少,甚至在学生的语篇作业中都很难见到这些词。为解决这一语料失衡的问题,我们通常的做法是布置作业让学生用目标词造一些语义自足的单句,或者让他们用给出的单词或语言结构去进行语段或篇章表达。通过这样的方式,语料分布的失衡问题 (稀疏)可以得到一定程度的缓解。
在对韩汉语词汇教学信息库的建设过程中, “编码度标注”是一个比较重要的内容。这里的 “编码度”是一种衡量韩国学生认知汉语词汇难易程度的量化指标。对汉语大纲词进行编码度的标注,有助于对韩汉语教师比较直观地了解韩国学生学习汉语词汇的难点,以便采取针对性的教学方法和教学策略,实现教学效果的最大化。
汉语词汇编码度的标注,可以简单概括为“四维五级”。 “四维”是指编码度的标注分“语音”、 “汉字”、 “语法” 和 “广义语义”四个维度; “五级”是指学生认知汉语词汇的五个难度等级,认知难度最高的词标为5,最低的标为1,其他的根据偏误率、词频等指标信息分别标为2级、3级和4级,各级都有相应的级差标准。需要指出的是,这里的难度等级主要是指韩国学生学习汉语词汇动态过程中起点时的相对静态的难度评价系数,它既包含预测的信息,比如语音,也包含基于偏误反馈的信息,比如语法。
具体来说,语音编码度的确定,需要跟韩国语的语音进行比照,找出难音的偏误规律,同时要兼顾声调难点、语流音变、音频语料的反馈信息等。比如,发音方面, “ü、ue、f、p、 b、 zh、 ch、 sh、 r、 z、 c、 s” 等 是难音 ;声调方面,汉语的 “三声 + 二声”、 “三声 +三声”和 “四声+四声”、 “二声 +二声”等四类双音节词的声调以及 “一” “不”的变调对韩国人来说是最难的,这些难音难调会导致词汇的语音认知难度系数高。相反, “不得不、不得已、新郎、不满”等词的韩语发音跟汉语差不多,有正迁移因素,语音的认知难度系数就低。
汉字编码度的确定起码要考虑如下几方面的因素:汉字笔画数 (一、繁)、汉字结构的复杂度 (旧、翻)、与其他汉字的相似度(爱、受)、简繁体因素 (韩、韓)、汉韩字体笔画相似度 (吕、)、汉字偏误的数量等。
语法编码度的确定起码要综合考虑如下几方面的因素:这个词能否纳入 “介宾 +谓词”框架 (对…感兴趣、为…操心)、是否是语法词 (了、的、反而、还有、随着)、是否属于高难认知的副词 (就、才、都、还、再、又)、是否是离合词 (见面、聊天)、是否常以高难的特殊句式呈现 (把字句、被字句、得字补语句、存现句、主谓谓语句)等等,当然这些最终也要参考语法偏误的数量才能确定。
广义语义编码度的标注起码要考虑如下几方面的因素:是否是汉字词 (不满、新郎)、语义实用度 (非常、极其)、语义差异 (经历、经验)、语义负迁移 (朝、对、向、冲)、语体差异 (勤奋、勤勉)、词彩差异 (造成、快乐)、文化义差异 (白手、黄色)以及语义偏误的数量等。
本文从服务课堂词汇教学的应用角度,阐述了 “基于偏误反馈的对韩汉语词汇教学信息库”的建设设想。我们认为:首先,汉语中介语语料库若想跟课堂教学实现更紧密的对接与融合, “基于偏误反馈的汉语词汇教学信息库”的建设需要提上议事日程;其次,对韩汉语词汇教学信息库的建设有利于为对韩汉语教学和研究提供精细化的信息,这些信息所组建的教学自主应用平台可以实现对韩汉语中介语语料库建设与对韩汉语课堂教学的对接和融合;第三,从基础附码、编码度标注、认知难度评价、迁移情况描写和典型偏误展示等五方面呈现信息库内容的建库范式,是我们在借鉴了二语习得及语料库语言学相关理论成果的基础上提出来的;第四,词汇编码度的研究可资借鉴的前人成果偏少,一方面,我们要开创性地展开研究,另一方面,如何避免主观因素对编码度标注的干扰是我们需要着力解决的问题;最后,对韩汉语词汇教学信息库的建设是一种探索,我们的目标是以此为范例,提炼国别化汉语词汇教学信息库的建库规范,用以指导其他国别化信息库的建设,力争在未来形成系列化、国别化的汉语词汇教学信息库,共同为汉语教学、汉语研究以及汉语国际推广服务。
崔希亮,张宝林 2011 全球汉语学习者语料库建设方案[J].语言文字应用(2):100-108.
冯志伟 2011 从语料中挖掘知识[A].肖奚强,张旺熹(编).首届汉语中介语语料库建设与应用国际学术讨论会论文选集[C].北京:世界图书出版公司:9-22.
何安平 2004 语料库语言学与英语教学[M].北京:外语教学与研究出版社:127.
黄昌宁,李涓子 2007 语料库语言学 (第二版)[M].北京:商务印书馆:3.
———2007语料库语言学(第二版)[M].北京:商务印书馆:20.
王建勤 2011 第二语言习得研究[M].北京:商务印书馆:41.