张瑞朋
(中山大学 国际汉语学院,广东 广州510275)
目前在对外汉语教学与研究方面,中介语语料库的建设与运用是个热门,但是汉字偏误标注信息,尤其是错字信息在中介语语料库中体现得还不够。
北京语言大学HSK动态作文语料库是目前公开的规模较大的综合性语料库。该库从字、词、句、篇、标点符号等角度对语料进行了全面标注,其中关于汉字的标注项目有:错字、别字、漏字、多字、繁体字、异体字、拼音字等。语料库对错字的处理方式是:在语料中用正确字代替错字,并在旁边标注出错字符号,用户要想查看错字原貌,必须打开原始的扫描语料。但因为扫描版中的错字没有编码,故无法直接检索和统计,更无法进行字形对比。其他能见到的语料库中,错字偏误标注信息也不充分,仅仅表示是错字或者别字,这除了与计算机技术水平有关外,也与语言学界对汉字偏误的研究有关。
留学生“学习一定的汉语词汇,对汉语和母语词汇方面的差异有了一定的了解,学生在运用汉语词汇的时候,就会有意识地扩大这种差异,由于掌握的汉语词汇知识的不足,从而导致偏误”[1]。偏误分析自中介语理论引进以来,在我国已全面展开研究。目前关于偏误分析,主要集中于词汇和语法方面,在外国人书习汉字的偏误方面虽已有所探讨,但尚未系统展开。关于外国人书习汉字的偏误,学界主要有对汉字偏误进行分类、考察汉字习得的形音变化情况、汉字国别化区域化研究等几个方面,其中对汉字偏误进行分类研究的主 要 有 朱 志 平、哈 丽 娜 (1996)[2]、施 正 宇(1999)[3]、施正宇(2000)[4]、肖奚强(2002)[5]等。这些分类显得比较随意,有的分类标准不太统一,有的分类交叉重叠,错字和别字仍是汉字偏误的主要界限,并且对偏误成因也没有比较系统的分析,不太适合标注语料库中的汉字偏误。况且众多分类都是给出特定的类型标签之后,再举例说明,个例的分析固然很有必要,但不容易展示一种内在倾向性。本文在大规模语料调查的基础上,尽可能系统、充分地揭示出其内在的规律性,并从汉字认知的角度做出相应的说明。这种大规模语料库驱动的汉字习得研究或许给汉字乃至汉语习得研究提供一种新视角,展示一种新思路。
众所周知,外国学生书写的偏误汉字中有一部分跟中国人的错别字不同,比如,将“竹”字头写成英文字母k,“女”写成近似两个半圆,这与受其母语负迁移影响有关。又如,把“云”写成“台”,把“笔”写成“笑”,把“在”写成“左”,把“受”写成“爱”,把“绝”写成“绿”,这些偏误汉字是成字的,但是音意都无关,只是字形有相似之处。尤其像“在”写成“左”,也可以说是因漏掉一笔而错写成了“左”,中国人一般不会写这样的别字。这些字到底归为错字还是别字,是有争议的,本文不再以错字和别字作为划分汉字偏误的主要界限,而是从语料库中错别字的标注需求出发,立足于现有的对外汉语偏误分析的研究成果,从笔画、部件、整字3个层级,从偏误特征和偏误成因入手,对外国学生汉字书写偏误进行新视角研究。
因为日韩学生有汉字背景,其笔下的汉字有的是不再使用的繁体字,比如,把“书”写成“書”,把“异”写成“異”,有的是跟现代汉字有区别的本国汉字,比如,日本学生把“游”写成“遊”,“赖”写成“”,“坐”写成”,“钱”写成”,有的汉字受本国繁体字影响而局部用繁体局部用简体,如,把“验”写成“ ”,“训”写成“訓”,“结”写成“結”。这些汉字很难说是传统意义上的别字,也很难说是错字,在语料库中标注错别字时必须把这些现象分开来处理,并区别日韩背景和非日韩背景下的汉字。下文讨论主要是针对非日韩背景下的汉字书写。
笔画和部件是现代汉字的结构成分。独体字直接由笔画构成,合体字的结构则有笔画、部件、整字3个层次。本文即从笔画、部件、整字这3个层级来分析汉字的偏误特征,即,笔画偏误、部件偏误、整字偏误。
笔者调查了中山大学汉字偏误标注的汉语连续中介语语料库,一共收集错字种类2103个,错字共8045个,根据字形表面偏误特征,把偏误类型分为遗漏、误加、误代、错位①在词汇和语法偏误中,错序和错位是相同的概念,但在汉字偏误中,因为汉字是平面的、方块的,笔画、部件的位置会写错,所以统一用错位概念比较好。和杂糅5种。我们对偏误类型的归纳虽然仍基于偏误分析中的基本思路而做出概括,但我们侧重于每种偏误类型的内在结构关系,而不是简单地收集错误的用例。(下面举例中,短横“—”之前的为正字,其后的为偏误汉字,用“*”标示出来)
汉字书写中的遗漏情况只能出现在笔画和部件这两个层面。
部件遗漏则基本上是由于不会写某个字而以同音字或近音字代替的结果。如:城—*成、萍—*苹、较—*交、毕—*比、健—*建、稼—*家、历—*力。有时则跟语音并不相关,如:色—*巴。还有部件遗漏后不成字的情况,如:随—*这种情况往往是本字具有较复杂的多层次结构。
相对于笔画遗漏,部件遗漏的偶然性较大。遗漏现象在国别中体现出高度泛国别化特征,但是笔画遗漏多发生在学习者的初级阶段,部件遗漏则在初中高级都会发生。
汉字书写中的误代情况在笔画、部件和整字这三个层面都有体现。
整字误代既有用形近字来代替本字的,如:买—*头、办—*为、云—*会、木—*术、真—*直、见—*贝、来—*伞、代表—*化表、台—*云、夏—*复;也有用音同或音近的字来代替本字的,如:青—*轻、龄—*领。形近字的误代占多数,这跟我们教授汉字的过程相关。
凡是笔画写错位置或者笔画出头与否而导致笔画关系出错的,都是错位。既有笔画的错位,也有部件的错位。
部件错位是指合体字中的两个部件位置互换而形成的错字,如:像“还”写成将半包围结构的汉字写成左右结构),也可看作部件错位。施正宇(1999)有关部件的偏误类别中的“部件异位”和“结构异位”大多属于此,如:“加”写成““规”写成“ ”;肖奚强(2001)“部件的变形和变位”中的“部件镜像变位”也属于这种情况,如“和”写成“ ”,“知”写成”[6]。本文的部件错位的所指范围要比他们的宽泛。
笔画错位和部件错位多发生在非日韩国家学习者的初级阶段。
误加指书写者在写字的过程中,添加了不应有的笔画或部件。笔画误加如:施正宇(1999)在偏误类别中没有谈到“误加”[2],而施正宇(2000)“形符类推”和“形符累加”中的“加形符”都属于部件误加[3];肖奚强(2001)中“部件的增加”也属于部件误加[5]。综观误加的情形,误加后形成的部件大多是一个既已存在的汉字部件;即便有的在现代汉字系统中不存在,但其误加之处也往往受到形似部件尤其是偏旁的影响。这里也可以看出汉字结构化意识对汉字习得的影响。
笔画误加多发生在非日韩学生的初级阶段,部件误加则在初中高级都可能发生。
所谓杂糅,就是讲两个汉字的相关部件“整合”在了一起,造出了一个不存在的汉字。如将“该”写成“ ”,实际是“应”和“该”的杂糅(朱其智,2009)[7]。同样,“她”写成“ ”,应该是“他”和“女”的杂糅,“起”写成,实际是“起床”各取一部分的杂糅,“服”写成,应该是“服”和“务”的杂糅,“那”写成,应该是“那”的左边和“个”的杂糅。可以看出杂糅中有一部分是把经常放在一起使用的两个汉字,各自取一部分放在一起。这是一个值得深入考察的认知现象,其错字形成的机制从一个特殊的角度揭示了汉字形体和意义之间的关联,而这是传统汉字研究所不关心的问题。
杂糅反映了学习者对部件有了一定认识,又没有完全掌握汉字书写,这时就可能发生不同部件混杂在一起的现象。
除上面所述的几种偏误特征以外,跟语法偏误不同,汉字的几种偏误形式是可以同时存在并互相转化的。笔画遗漏可以导致部件误代,如:笔画误加也可以导致部件误代,如:误代也可以导致部件误代,如漏也可导致部件误代,如:明—* ;在同一个汉字中,也可能同时存在笔画遗漏和笔画误加,如:
施正宇(1999)在每类偏误字“表现形式”一栏中所提的“形符形近”、“形符意近”、“词义干扰”、“修饰词干扰”、“量词干扰”、“中心词干扰”其实都是根据“偏误成因”所做的分类,但她只是在“形符类推”一类中,把“形符类推”、“词义干扰”这些偏误特征归为“错误原因”[2]。肖奚强(2002)所列的三大类偏误中的小类,如:形近改换、意近改换、类化改换;母语迁移变形、部件镜像变位都是根据偏误成因再做的分类[4],但分类标准不统一。本文用偏误分析中的偏误成因来统一规范和分析它们。偏误分析在分析语法偏误时把偏误成因分为母语负迁移、交际策略、学习策略、目的语规则泛化、误导等,但汉字毕竟是平面的、方块的,学生在习得汉字时形成的偏误有跟语法偏误成因相同的,也有其不同的,跟汉字本身的独特特点有关。
汉字的基本组成零件是笔画和部件,笔画层面的错字产生的根本原因是学习者没有正确掌握笔画的属性,即笔画的数目、形状、组合关系,甚至于书写过程中的笔顺。如果这个问题解决了,用非笔画单位来代替笔画的现象也就会解决,如:因笔画不规范而造成的错字也可以解决,如象说明学生正处于学习汉字的模糊状态,没有真正掌握汉字笔画书写。
部件是汉字的构形单位,部件层面的错字产生的根本原因是学习者没有把握住部件的意义特征。形声字的形旁表意,声旁表音,抓住这一特点,将会有利于外国学生学习汉字。留学生有些错字反映了学生并未掌握形声字这一特点。比如:疾病— ,表示学生不明白“ ”表示疾病的意义。疗— ,说明学生没有掌握形声字声旁表音特点。这些都说明学生未抓住形旁的意义特征。
笔画和部件是汉字的两个基本组成,不彻底解决这两个层面的问题,外国学习者对于汉字的认识无法达到理性的高度,但是汉字书写并不是解决了笔画和部件就能彻底解决的问题。外国学生书写汉字出现偏误的原因比较复杂,跟汉字本身的特点有关,也与其自身的知识背景和习得过程有关。
1.母语文字系统的负迁移
学界对汉语习得中的母语负迁移现象有了比较深入的探讨,但对汉字习得中的母语文字系统的负迁移现象认识不多。这可以从两个方面来看。
拼音文字背景学生的负迁移主要是在书写时用字母等来替代汉字的笔画。比较常见的如把“竹”字头写成两个字母k,如“笑”、“笔”写成其他偏误。又如把的右半部写成字母写成数字3。当然,这种情况的出现,有些是由于写汉字的随意性造成的。
2.错误类推
错误类推是指,汉字偏误的出现是由于学习者根据上下文或者学生本身的语言知识进行的错误类推而形成的。这是在学习习得一定的汉字部件、并具备了相当的汉字结构意识之后经常出现的偏误情况。汉字习得过程中的错误类推虽然相当复杂,但集中体现为下面3种情况:
受经常作为词出现的另一个汉字的影响。也就是说,如果两个汉字经常在一起出现,频率很高,学生则会把这两个汉字混淆。比如:痛苦—*疼苦,据说—*根说。大概因为“疼痛”这个词经常出现,学生混淆了“疼”和“痛”,把“痛苦”写成“疼苦”。“根”和“据”一起出现的频率较高,学生也混淆了这两个汉字,把“据说”写成“根说”。也就是说,经常作为词出现在一起的两个汉字,学生可能会混淆这两个汉字。这个现象也值得进一步考察,学生在习得一部分汉字的时候,是把他们作为整体词语习得的,但是分开后,对每个汉字,掌握得并不好。
受学生本身已经内化的语言知识影响。除了受上下文影响,有些偏误产生于学生已经内化的语言知识。这可能是书写者根据“亻”与人有关,“忄”、“心”与心理活动有关、“美”与女人有关而类推的。又比已经有了形声字声旁意识,认为“努力”可能跟“女”有关,所以下半写了“女”。又比如:趣—*说明学生已经明白形符的表意作用,只是不懂得不同的汉字形符有时是固定不能随意变化的。再比如,“祝”写成学生考虑到“祝福、祝贺”要用嘴说话,所以写成“讠”;“块”写成“* ”,是因为学生考虑到“块”是“钱”的量词,所以和“钱”的偏旁一样。施正宇(1999)中的形似形符替代、义近形符替代、相关形符替代和形符类推中的偏误字,都是学生根据本身已经内化的语言知识而推出的错误形式。这些例子有些汉字虽然是错误的,却能反映出学生选择汉字时并不是盲目的,有些错误倒带有一定的理据性,还能自圆其说,对这类错误,如果教师平时好好引导应该可以避免。
3.羡余
汉字有一定羡余性,即表意时用了多余的信息来表达。汉字羡余度比拼音文字要大,留学生利用汉字的羡余现象,从而形成汉字偏误。在中山大学的汉字偏误连续性中介语语料库中,分别有一些越南、菲律宾、印尼、俄罗斯等学生把“鲤鱼”、“鲨鱼”写成“*里鱼”、“*沙鱼”的情况,而在“锦鲤”和“大白鲨”等词语中,“鲤”和“鲨”都书写正确。大概是因为“鲤鱼”、“鲨鱼”这些词中,有类名“鱼”存在,专名“鲤”和“鲨”字中的形旁“鱼”就是羡余的,所以学生会把形旁“鱼”漏掉,而在“锦鲤”和“大白鲨”等词语中,没有类名“鱼”存在,“鲤”和“鲨”字形旁就没有遗漏[5]。再比如:在柬埔寨的学生作业中,学生把“米粉”写成“*米分”,但在“吃粉还是吃面”中,因为没有“米”的出现,“粉”的形旁就没有遗漏。在另一个柬埔寨的学生作业中,出现了把“车轮”写成“车*仑”,但是在“轮到我”中,形旁“车”则没有出现遗漏。①朱其智老师提供,来自柬埔寨不同的学生作业。这种因为汉字羡余而形成汉字偏误的现象在不同国别的不同学生中,尤其是非日韩学生的中高级阶段,呈现出一定规律性,并非个别化现象,这种现象值得我们特别的关注。
据前文分析可知,留学生的“错字”和“别字”跟中国人笔下的“错字”和“别字”有所不同,所以,对留学生笔下的“错字”和“别字”重新界定目前还比较困难,上文从笔画、部件、整字3个层级上对偏误汉字做统一的分析,可以避免错别字难以区分的问题。同时,这种分析可以使汉字偏误特征表现得更加细致而有体系,方便汉字偏误研究。我们在实际语料中可以据此标注,先从外观上,对汉字偏误从笔画、部件、整字3个层次按照客观特征来标注。笔画误加标为bhwj,笔画遗漏标为bhyl,笔画误代标为bhwd,笔画错位标为bhcw;部件误加标为bjwj,部件遗漏标为bjyl,部件误代标为bjwd,部件错位标为bjcw,部件杂糅标为bjzr;整字误代标为zzwd。偏误原因可以作为参数,比如个偏误汉字是部件误代,正字是“陌”,原因是母语负迁移。又如:,表示偏误和正字之间是部件误代的关系,偏误成因是偏误汉字跟正字字形相近。领zzwd(龄,音近),表示括号外的偏误汉字和括号里的偏误汉字是整字误代的关系,成因是括号外的偏误汉字跟括号里的正确汉字音近。
我们在错字数据库中将把遗漏的笔画、部件作为这种特征的参数标出来。比如:遗标为bhyl(贰,内横),参数表示“贰”遗漏“内横”,误示“圈”误代了,并且是bhwd(竖横折,撇),表示“贝”误代了“见”,并且是“撇”误代了“竖横折”。标为(起〈走〉,床〈木〉),表示“起”的“走”部和“床”的“木”部杂糅。
中山大学汉字偏误标注中介语语料库已经有200多万字,同时还依据这个语料库建立了一个附属数据库:错字数据库,其目的就是方便各种笔画、部件、汉字错误特征和偏误成因的调查和统计。现在该错字数据库已经收集2000多个错字字类,8000多个错字,本文的各种汉字实例即来自该数据库。同时,我们已经依据这种标注体系在2万字的中介语语料中进行实验,结果表明,这种标注体系可以避免留学生部分偏误汉字到底是别字还是错字的争论。从偏误客观特征进行分类,比较概括,它将分散的类上升到客观特征,便于看出正确与错误的差别。同时这个分类,边界清晰,偏误特征客观易见。
目前,汉语中介语语料库中的汉字偏误尤其是错字标注信息极少,这与计算机技术的发展有关,更与语言学界对汉字偏误的研究有关。语料库中的汉字偏误标注,要求汉字偏误分类边界清晰,符号意义明了,便于检索,同时能用简单的方法标注出偏误成因,则能进一步为用户提供帮助。这样的分类和研究才能适合在语料库中运用。上述研究即撇开了传统的基于错字和别字的分类,而是从笔画、部件、整字3个层面,对偏误特征和偏误成因进行了分析,这种分类可能更有利于汉语中介语语料库中偏误汉字的标注,同时这种体系的设计和规范也是出自正在建设的错字数据库。因此本文的研究来源于语料库,同时得出的结论又应用于语料库,对汉字偏误的进一步标注具有实践价值和意义。
[1]臧志文.HSK作文语料库中出现的逆序词现象分析[J].大理学院学报,2011,(9).
[2]朱志平.汉字构形学说与对外汉语教学[J].语言教学与研究,1996,(4).
[3]施正宇.外国留学生形符书写偏误分析[J].北京大学学报(哲学社会科学版),1999,(4).
[4]施正宇.外国留学生字形书写偏误分析[J].汉语学习,2000,(2).
[5]肖奚强.外国学生汉字偏误分析[J].世界汉语教学,2002,(2).
[6]朱其智.偏误生成学的范围和方法[J].学术研究,2009,(8).