国别化汉语中介语动态语料库建设理念、实践与前瞻*①

2018-11-12 10:47胡晓清
关键词:偏误分词语料

胡晓清

( 鲁东大学 文学院,山东 烟台,264025 )

自1995年国内第一个“汉语中介语语料库”(储诚志,陈小荷)建成至今,中国大陆和港澳台地区陆续建成“HSK动态作文语料库”(北京语言大学)、“外国留学生语法信息偏误库”(南京师范大学)、“汉字偏误标注的汉语连续性中介语语料库”(中山大学)、“东南亚华裔留学生作文语料库”(暨南大学)、“美国学生汉语作文纵向语料库”(南京大学)、“外国留学生汉语口语纵向语料库”(南京大学)、“小型外国学生汉语口语语料库”(苏州大学)、“外国留学生口语语料库”(香港中文大学)、“汉语学习者汉字偏误数据资料库”(台湾师范大学)、“韩国留学生汉语中介语语料库”(鲁东大学)、“多层偏误标注的国别化汉语中介语动态语料库”(鲁东大学)等多个规模不等、特点不一、种类不同的汉语中介语语料库。另有超大规模的“全球汉语中介语语料库”等语料库正在建设中。汉语中介语语料库的建设对汉语作为第二语言教学研究起到了坚实的支撑作用,同时众多研究者还将汉语中介语语料库建设本身作为研究方向,对建库理念、建库范式、建库原则、建库层级、口语语料和书面语语料的采集、语料标注、不同语料库间的差异等进行了专项研究或比较研究。*陈小荷:《“汉语中介语语料库系统”介绍》,《第五届国际汉语教学讨论会论文选》1996年;张宝林:《谈汉语中介语语料库的建设标准》,《语言文字应用》2015年第2期;肖奚强:《汉语中介语语料库标注的全面性及类别问题》,《汉语教学研究》2014年第3期;曹贤文:《留学生汉语中介语纵向语料库建设的若干问题》,《语言文字应用》2013年第2期;任海波:《关于中介语语料库建设的几点思考——以“HSK动态作文语料库”为例》,《语言教学与研究》2010第6期;胡晓清:《韩国留学生汉语中介语语料库的标注研究》,《首届汉语中介语语料库建设与应用国际学术讨论会论文选集》2011年。笔者所在的团队自2006年起也一直在建设汉语中介语语料库,迄今为止已完成两个语料库,在建第三个语料库。建库过程中,随着对汉语中介语语料库认识的加深,汉语中介语语料库建设理念不断更新,建库实践随之改进。本文拟就国别化汉语中介语动态语料度的建库理念、建库实践与前瞻等方面予以讨论。

1 多层偏误标注的国别化汉语中介语动态语料库的建设理念

截至目前,国内已开发的中介语语料库除“HSK动态作文语料库”全开放使用之外,其他语料库部分开放或封闭使用。部分学者曾对单国别汉语中介语语料库的建设有所质疑,认为多国别中介语语料库中已包含的国别,其中介语情况可在多国别语料库中检索、提取,与其建设单国别中介语语料库,不如加大多国别语料库的规模。对此,我们有不同意见。

从语料数量看,目前语料库中单国别中介语语料不够充足。以韩国留学生汉语中介语为例,“汉语中介语语料库”100万字加工语料中朝鲜语占15%(陈小荷,1996),即韩国学生汉语中介语加工语料为15万字。其他中介语语料库未见国别抽样具体数据,但只要是平衡语料,韩国留学生语料应不超过100万字。[注]基于“HSK动态作文语料库”总规模400万字、南京师范大学语料库100万字、中山大学语料库100余万字、暨南大学语料库400万字的初步数据信息。如语料再进行程度分级,分布到每个层级的韩国学生中介语语料会更少,这样无法为单国别中介语偏误研究和国别化汉语教学提供足量的语料。因此,有必要建设较大规模的针对韩国留学生的国别化汉语中介语语料库。

从语料层级看,目前规模最大的“HSK动态作文语料库”采自高级汉语水平考试作文语料,因此,语料均为高级学段作文。“汉语中介语语料库”中15万字韩国学生语料若分布到初、中、高三级,每一层级语料量会更少。其他类同。这就使基于中介语语料库进行汉语字、词、句、篇的难度序列研究受到分层级语料数量不足的制约。因此,有必要对分层级中介语语料库予以关注。

从语料动态性看,文中所涉中介语语料库均为动态语料库,但侧重点各有不同。“HSK动态作文语料库”的动态性偏重于历时的可扩充性,即可随着HSK高级考试的逐年进行不断补充新的语料。然而,库中很难收录到同一学习者的历年动态语料。“汉语中介语语料库”本意也要对同一学习者不同学习阶段语料进行跟踪收集,以便开展跟踪性调查研究。然而在取样时为了“使核心语料中各种属性的语料分布比较均匀”(陈小荷,1996)不得不“损有余而补不足”(陈小荷,1996),规定同一作者的语料一般最多抽取4篇,如此便无法开展学习者个案跟踪研究。要想使中介语语料既能满足面向全体学习者的偏误规律研究需要,又能展开面向单一学习者的个案跟踪研究,语料库建设中的动态性就要既考虑一般意义的历时动态,也要注意针对部分学时较长,学级跨初、中、高三段的学生,对其进行语料的足量跟踪收集。

从语料加工情况看,各中介语语料库基于不同研究目的和用途,加工项目也不尽相同。“汉语中介语语料库”主要进行了文字预处理、断句、分词、词性标注等加工,未对学习者偏误进行标注。其他语料库有的主要进行了句法属性和偏误标注;有的侧重于偏误标注,未进行分词。如果考虑到全面研究的必要,进行更多层面的加工标注,语料库会更高效、实用。我们的语料库则试图在语料加工上更加全面、细致。

另外,多国别中介语语料库在语料加工中制定的规范和规则,应该是面向所有汉语学习者的普适性规律,为此有时要排除、忽略只影响某一国别的特殊情况。而单国别语料库可根据单一国别语料的实际情况,制定最适合该国别偏误研究的标注规范,避免宝贵的个性化偏误现象淹没于宽泛的规则中。

建设一个规模大、数量充足、层级鲜明、加工细致的单国别汉语中介语动态语料库是对通用型汉语中介语语料库的必要补充,国别化汉语中介语语料库与通用型汉语中介语语料库是汉语中介语语料库建设的两翼,共同支撑起汉语作为二语习得研究与汉语教学研究,其建设非常必要,且完全可行。

2 多层偏误标注的国别化汉语中介语动态语料库建设实践

多层偏误标注的国别化汉语中介语动态语料库建设主要建设流程图1所示:

图1 语料库建设主要建设流程图

2.1 生语料库的构建

2.1.1 语料的收集

“多层偏误标注的国别化汉语中介语动态语料库”的语料来源有二:一是鲁东大学国际教育学院从2006年至今,韩国留学生在校期间的作业和考试语料;另一个是合作单位(包括南京师范大学、烟台大学等)提供的韩国留学生的作业和考试语料。语料采集后将纸质语料进行扫描存为jpg格式,并将图片按次序编号。编号做到“一篇一号”,确保语料图片与录入后的语料在内容和序号上完全对应,便于后期检索软件中可以将图片和语料直接匹配。

2.1.2 语料的录入

组织人员将图片语料人工录入计算机保存为word格式,依照“无差别录入”原则,对别字、外文、繁体字、拼音等原样录入。不规范字和错字无法依样录入,在相应处录入标记[G]和[C],无法识别的字录为标记[#]。每一篇语料都进行语料属性登记。在标题记录了该语料的编号、写作者来源(所在学校)、姓名、性别、出生年月、国籍、写作日期、所在年级、写作类型(作文/造句),写作场合(考试/作业)等10余项信息。(外校提供的生语料部分写作者信息不全,信息不全的部分用0来补位。)

语料图片格式与人工录入后的格式如下例所示:

原始图片(图2-1)

图2-1 原始图片截图

人工录入后(图2-2)

图2-2 录入语料截图

从2006年着手收集韩国留学生语料至今,生语料已达400万字(配图片),与外校合作收集到在中国学习的韩国留学生中介语生语料100万字左右,在母语环境下韩国学习者的汉语中介语生语料近100万字。

2.2 加工和标注语料

2.2.1 标注原则的确立

1)多维度标注原则

诚如语料加工情况所显示的那样,各中介语语料库基于不同研究目的和用途,加工项目也不尽相同。在此情形下,对语料进行分词、词性标注、基础句式标注和偏误标注,也要特别突出多维度标注原则。

2)多层次标注原则

对具体标注项的标注有时涉及不同层次。首先,我们遵循“从大到小”原则,即遵循篇章>句式>句法成分>词>字的优先序列。如对同一个偏误,首先检视是否存在篇章偏误,再看句法层次偏误、再看词层面、字层面偏误。这样可有效避免标小略大、重局部轻整体的现象。同时,在保证不遗漏高层偏误信息的前提下,对下一层偏误进行多层标注,这样一则可保证标注的一致性,二则可尽量保留有用信息。当然,若干情况下不能完全照搬该原则(见后文),而应对偏误进行细致分析,否则会导致标注结果不准确。

对语料细致全面地加工和标注,便于使用者从不同层面、不同角度对韩国留学生学习过程中的问题进行全面或单项研究。

2.2.2 标注项目及标记集的确立

“语料标注内容的全面,标注操作的准确度和一致性,标注代码的标准化与通用化,是提升语料库质量和价值的关键所在。”[注]张宝林:《关于通用型汉语中介语语料库标注模式的再认识》,《世界汉语教学》2013年第1期。目前国内比较成熟、影响较大且在网上公布的中介语语料库是北京语言大学的“HSK动态作文语料库”,规则比较系统、全面。在征得崔希亮教授同意的前提下,我们的标注规范中偏误标注类型参考了“HSK动态作文语料库”的标注体系,并按照单国别语料固有的规律和特点对其进行了细化完善。

字层面的问题。韩国留学生处于汉字文化圈内,有一定的汉字基础,理应在字层面出现偏误的情况减少。但在具体标注中,韩国留学生字层面的偏误出现率极高,特别是存在笔画书写不规范的情形,如将“竖弯钩”写为“竖提”,“反犬旁”的第一笔“撇”写成“横”等。检索了部分语料,发现这种现象比较普遍,因此我们增加了“不规范字”类型,标记为[G]。

词层面的问题。原来确定的词层面标记主要有错词标记{CC}、缺词标记{CQ}、多词标记{CD},举凡词层面出现的偏误都归为上述几类。而我们认为错词既然有下设的细类,就应一并给出不同的偏误标记,以方便后期对偏误结果的提取利用。因此,我们将词层面的偏误分为词序颠倒{CCX}、用词不当{CCH}、生造词{CCZ}、离合词{CCL}、外文词{W}、多词{CD}、缺词{CQ}七个种类。

句层面的问题。根据现有语法研究成果,结合中介语实际情况,我们将句层面偏误分为三个层次:句式层面、句子成分层面、短语层面。句式层面由原来的11种扩充到16种,增加了形容词谓语句、名词性谓语句、像字句、否定句、疑问句5种句式。新增了短语层面,共分为定中搭配不当、状中搭配不当、主谓搭配不当、动宾搭配不当、述补搭配不当、主宾搭配不当、介宾搭配不当、成分标记词不当等8种情况。如果缺少了搭配层面的偏误标注,这部分偏误可能会标记为词层面的用词不当,检索时只能提取出被标记词,无法检索到前后搭配,对后续研究不利。

篇章层面,我们也细化为上下文语义缺乏联系、关联错误、指代错误3类。

国别化汉语中介语语料库中的基础标注除词性标注外,增加了正确句式的标注。而汉语中句式的类别在本体研究中各家多有争论,如按照本体研究结果确立标注的句式难以厘清理论上的分歧。同时,中介语语料库的建设目的主要是为了日后进行中介语研究,判断一个句式重要度的一个重要指标应该是该句式在中介语中的使用率与偏误度。因此,我们标注的正确句式所涉类别与偏误标注中的句式偏误的类别等同,以便于后期针对性地进行研究。

2.2.3 标注规范的确立

在前期“韩国留学生汉语中介语语料库”标注规范的基础上,通过完善,制定出新的标注规范。

语料标注从偏误标注和基础标注两个维度展开。偏误标注从字、词、句、篇章、标点五个层面进行,基础标注除分词和词性标注外,对正确句式进行标注。

2.2.3.1 偏误标注

1)标点处理

[BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例:

标注前:勤奋/a,/w刻苦/a的/u精神/n

标注后:勤奋/a、[BC,]/w刻苦/a的/u精神/n

[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。例:

分词后:大/a女儿/n是/v十三/m岁/q小/a女儿/n是/v十/m岁/q。/w

标注后:大/a女儿/n是/v十三/m岁/q{ZQs}[BQ,/w]小/a女儿/n是/v十/m岁/q{ZQs}。/w

[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。例:

分词后:后来/t我/r遇到/v很多/m,/w很/d好/a的/u中国/n朋友/n。/w

标注后:后来/t我/r遇到/v很多/m[BD,/w]很/d好/a的/u中国/n朋友/n。/w

2)字处理

[C]:错字标记,用于标示写作者写的不成字的字。用[C]代表错字,在[C]前填写正确的字。在标注时需要对错误的分词结果进行调整。

例如:地球[C](“球”是错字)

原句:这个电视剧是我和她们一起生活的内[C]答。

分词后:这个/r电视剧/n是/v我/r和/p她们/r一起/d生活/v的/u内/f[/wC/n]/w答/x。/w

标注后:这个/r电视剧/n是/v我/r和/p她们/r一起/d生活/v的/u内[C]容[B答]/n{ZQs}。/w

[G]:不规范的字,用于标记写作者写的不太规范的汉字。用[G]代表不规范的字,在[G]前填写规范的字。同上,在标注时需要对错误的分词结果进行调整。

如下例几种情况均属于不规范字。例如以下几种情况:

这(走之旁不规范)

事(长横不出头)

觉(部首写成了党字头)

狼(反犬旁像提手旁)

今(点写成横)

[#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。分词软件会将“[#]”也做分词处理,需调整分词结果。注意[#]后无词性。

例:我/r不但[B仪]/c在/p课堂/n上/f认真/a地/u{CCB的/u}{CJ-zxy听讲/v}[#]并且/c一/d有/v时间/n就/d跟/p我/r的/u中国/n朋友/n练习/v口语/n发音/v等/v。[BC;]/w

[B]:别字标记,用于标识把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字,并注意调整分词结果。例如:

原句:她的姓各很外xiàng。

分词后:她/r的/u姓/n各/r很/d外/axi/nà/xng/n。/w

标注后:她/r的/u性[B姓]格[B各]/n很/d外向[Pxiàng]/a{ZQxw}。/w

[L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。如:后悔[L](表示“悔”在原文中是漏掉的字。)例如:

原句:父亲问他想什么。

分词后:父亲/n问/v他/r想/v什么/r。/w

标注后:父亲/n问/v他/r理[L]想/n{CJ-sy是/v}什么/r{CJs}。/w

提示:根据上下文,按照写作者的本意来看,是写作者把“理想”一词漏写了“理”,从而导致分词软件把“想”切分为动词。我们先补出“理[L]想”,并给出该词的词性“/n”。

[D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。

例:我/r很/d有/v兴致/n地/u跟/p他/r聊/v起/v[D起/v]天/n来/v。/w

[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单[F單]纯、养[F養]。

注意:

[1]繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]

提示:同样,一个词如果出现繁体字,分词软件会把它切分成两个词,需要合并后给出正确的词性。如:

分词后:留下/v很/d难忘/a的/u记/v憶/x

标记后:留下/v很/d难忘/a的/u记忆[F憶]/n

[2]繁体字写错,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:遍[Y徧]

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。如果学生既给出正确汉字又给出拼音,标为在拼音处标记为[PD](意为拼音多余)。

例如:

分词前:我们打sǎo的时候,我的做事是lā jí reng diào。

分词后:我们/r打/ps/nǎ/xo/n的/u时候/n,/w我/r的/u做事/v是/vl/nā/xj/nī/xr/nē/xngdi/nà/xo/n。/w

标注后:我们/r打扫[Psao]/v的/u时候/n,/w我/r做/v{CCH我/r}的/u事/n{CCH做事/v}是/v<垃[Plā]圾[Pjī]/n>{CJX2}<扔[Prēng]/v掉[Pdiào]/v>{CJX1}{CJP-dz}{CJs}。

如果别字、拼音嵌套,标注方法如下:

原句:她的艮yán睛很大,她的bǐzi很高。

分词后:她/r的/u艮/xy/ná/xn/n睛/a很/d大/a,/w她/r的/ub/nǐ/xzi/n很/d高/a。/w

标注后:她/r的/u眼[B艮[PDyán]]睛/n很/d大/a{ZQxw},/w她/r的/u鼻[Pbǐ]子[Pzi]/n很/d高/a{ZQxw}。/w

3)词处理

{CCX}:词的构成成分写错顺序的标记,简称错序词。

把写错的词移至{CCX}中CC的后面,并在{CCX}前填写正确的词。

例如:

分词后:众/Ng所/u知/v周/q

标注后:众所周知/i{CCX众所知周}

提示:要给填写出的正确的词打上正确的分词标记和词性,并抹掉{CCX}内错序词的词性标记。

{CCZ}:生造词的标记。指学生自造的、或在母语中可能有而汉语中不存在的词。

提示:因为生造词不是一个词,所以要抹掉{CCZ}内原有的词性标记和词性。

例:来/v看/v表演/v的/u人/n都/d说/v我/r的/u演技/n{CCZ演技[Pji]力}很/d好强/a{CJP-zw}。/w

{CCH}:该用甲词而用乙词的标记。由于写作者对词义的理解有偏差,其选用的词不能正确表达他想表达的意思,甚至和其想表达的意思相反。尽管“词不达意”,但不违背语法规则,无语法错误。

例1:王大江/nr想/v检查/v{CCH查/v}汽车/n的/u油箱/n是否/d真的/d没/v油/n了/u。/w(音节造成的搭配不当)

例2:“我/r给/p你/r介绍/v我/r的/u特长/n{CCH特技/n}。/w

例3:{CD但是/c}我/r的/u心里/s{CCH心理/n}像/p{CCH好像/p}{CJ+sy是/v}小/a孩子/n{CCH儿子/n}{CQ一样/a}{CJ+zy就/d}兴奋/a得/u厉害/a{CJs}{CJx}。/w

{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合词的后边,表示前边的离合词用法有误。离合词暂时以《现代汉语八百词》后附录的离合词表为准。

例1:我快要毕业/v{CLH}大学{CQ了}。

例2:虽然这么[L]多年都没见面/v{CLH}过,……

{W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。

例:非洲/n{WAfrica}、爵士乐/n{Wjazz}、节省/v{Wsave}

{CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。例:

例:我/r和/c我/r最好/d{CQ的/u}朋友/n是/v学校/n里/f{CCH以内/f}最/d好/a的/u运动员/n{ZQs}。/w

{CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中CD的后面。

例1:风/n很/d清凉[B浪]/a{ZQxw},/w气氛/n很/d热闹/a{ZQxw},/w人/n也/d多/a{ZQxw},/w{CD在/p}天空/n中/f的/u星星/n亮亮/v地/u照/v着/u我/r。/w

例2:我们/r到/v学校/n的/u时候/n,/w很/d多/a学生/n{CD们/k}和/p父母/n已经/d来/v了/y。/w

{CY}:不清楚或无法理解的词用{CY}标示,表示“存疑”,标在该词的后面。与生造词不同。生造词是标注者可以准确理解其想表达的意思,也可以对错误进行修改的词,而对于{CY}词标注者无法理解,不知道如何修改。

例1:虽然/c这么[L]/r多年/m都/d没/d见面/v过/v{CLH},/w但/c我/r和/p他们/r的/u{CY忆/x惯/v},/w是/v忘/v不/d了/v的/u。/w

例2:那个/r孩子/n很/d聪敏/a{ZQxw},/w孩子/n既/d聪明/a又/d用功/a,/w学习/v上/v进步/v很快/d,/w老师/n们/k都/d说/v[BQ:/w]“/w这/r孩子/n多/a{CY诡/x道/n}!/w”/w

提示:对于“忆惯”“诡道”这样的词,虽然无法理解写作者想表达什么,但肯定的是写作者是把它们当作一个词来看的,经过分词软件的加工,这类未登录词必然会切分开,为了后期程序可以自动提取到准确的信息,我们用{CY}的标记将这类词整个都括起来,原分词后给出的词性不变。如:

{TYC}:同音词引发的偏误。

例:晃眼/a:孩子/n刚才/t还/d在/v这儿/r,/w一/d{TYC晃/v眼/n}工夫/n就/d不/d见/v了/u。/w

{CCB}:成分标记词不当(限制在结构助词“的”“地”“得”、时态助词“着”“了”“过”之间的混用及结构助词和时态助词之间的混用)

例:每个/r周末/n她/r请/v我们/r去/v她/r家/n品尝/v料理/n[BQ,/w]味道/n很/d好/a{ZQxw}[BQ,/w]像/p妈妈/n做/v的/u{CCB得/u}一/m样/q{ZQx*}。/w

提示:如果“记得”是一个词,但将“得”错写为“的”,按别字处理,但分词软件会将其切分开。标注时应修改别字且还原其一个词的原貌并加注词性。如下例所示:

分词后:他/r说/v的/u话/n我/r还/d记/v的/u

标注后:他/r说/v的/u话/n我/r还/d记得[B的]/v

4)句处理:

{CJ}:病句标记,用于标示错误的句子。一般标在有错误的句子之后、该句标点之前,并用小写汉语拼音字母简要标明病句的错误类型。

句子错误类型可细分为:

{CJba}:把字句错误

例:他/r离婚/v后/f{CJ-zy才/d}{CQ把/p}/n这些/r事情/n告诉/v我/r{CJba}。/w

{CJbei}:被字句错误

例:因为/p我/r新/a买/v的/u数码/n相机/n{CQ被/p}偷/v走/v了/u{CJbei}。/w

{CJbi}:比字句错误

例:他们/r身体/n都/d很/d好/a{ZQxw}[BQ,/w]妈妈/n比/p爸爸/n更/d{CCH很/d}好/a{CJbi}。/w

{CJl}:连字句错误

例:那/r时候/n我/r{CQ连/p}“/w你好/l”/w也/d不/d会/v{CJl}。/w

{CJy}:有字句错误

例:但是/c我/r觉得/v贤雅/nr很/d{CJ-sy有/v}魅力/n{CJy}。/w

注意:“有一天”“有时候”不是有字句。还要注意有字句和存现句的区别。

{CJs}:是字句错误

例:你/r平时/t{CJ-sy是/v}小鸡肚肠/a的/u人/n吗/y{CJs}?/w

注意:“是”有时候做句子的状语,表强调。此时该句不是“是”字句。

{CJsd}:“是……的”句错误

例:这样/r的/u施舍/v是/v会/v伤害/v他们/r的/u自尊心/n{CQ的/u}{CJsd}。/w

{CJcx}:存现句错误

例:城墙/n里/f是/v{CCH有/v}很/d繁华/a的/u市区/n{CCH市/n内/f}{CJcx}/{CJy}。/w

{CJjy}:兼语句错误

例:他/r不/d能/v{CQ和/c}女儿/n们/k一起/d玩/v或者/d辅导/v{CCH领导/v}{CJ-by她们/r}学习/v{CJjy}{CJfd}。/w

{CJld}:连动句错误

例:我/r几/m个/q月/n前/f参加/v过/u高级/a考试/v,/w那/r次/q<是/v>{CJX2}<我/r只/d>{CJX1}想/v{CJ+sy试试/v}[BD、/w]碰碰/v{CJ+dy我/r的/u}运气/n{CJld}。/w

对于由动词“来/去”组成的连谓结构有时“来/去”仍然保留着运动趋向的意义,不能互换,由此原因造成的错误标记为连动句错误。如:

例:所以他们挣的所有的钱[BD,/w]都拿给穷{CD的}孩子、[BC,]/w没有父母的孩子去{CCH来}用{CJld}。

{CJshb}:双宾语句错误

例:他/r是/v我/r的/u财神爷/n{ZQs},/w我/r要/v钱/n的/u时候/n,/w他/r就/d{CJ-sy给/v}我/r钱/n{CJshb}。/w

{CJxw}:形容词谓语句错误

例:声援/v的/u场面/n{CJ+sy成为/v}{CJ-zy很/d}壮[C]观/a{CJxw}。

{CJfd}:否定句错误

例:这/r次/q放假/v好像/p没/d{CCH不/d}放假/v一/m样/q{CJfd}。/w

{CJx}:像字句错误【包括“(好)像……”“(好)像……一样”“……似的”“像……似的”等结构】

例:虽然/c他/r的/u个子/n很/d高/a,/w但是/c他/r的/u脸/n还/v{CJ-sy像/v}小孩/n{CCH小童/nr}{CJx},/w很/d可爱/a。/w

{CJmw}:名词性谓语句

例:我/r弟弟/n{CJ+sy是/v}今年/t十八/m岁/q{CJmw}/{CJs},[BC。]/w但是/c弟弟/n身高/n一/m米/q八五/m、/w体重/n八十八/m公斤/q{ZQmw}。/w

{CJyw}:疑问句

例:“/w你/r有/v什么/r{CJ-by事/n}[BQ?/w]{CQ怎么/r}那么/r着急/a{CJyw}?/w

提示:对于一个句子同时涉及两个句式的偏误类型,则用“/”标记。主要涉及到是字句和名词性谓语句,是字句和形容词谓语句,是字句和存现句几种类型。比如下面这个句子,标注者先确认了它是形容词谓语句,在辅助标注工具里选择了特殊句式中的{CJxw}后,还需手动加上/{CJs}。最终形成的标记结果为{CJxw}/{CJs}:

例:我/r记忆/n中/f的/u{CJ+dy一/m件/q}感人/a的/u事/n{CJ+sy是/v}不/d太/d多/a{CJxw}/{CJs}。[BC.]/w

{CJ-}:句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语,标在成分残缺之处。

{CJ+}:句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面,标在成分多余之处。

句子成分采用层次分析法的观点,共8种:

{CJ-/+zhuy}:主语残缺或多余

例:他/r的/u作品/n杜绝/v了/u{CJ-zhuy人们/n}不/d喜欢/v诗歌/n文学/n的/u现象/n。/w

{CJ-/+wy}:谓语残缺或多余

例:如果/c两/m个/q小时/n以后/f回家/v我/r的/u家/n{CJ-sy进/v了/u}小偷[B愉]/n{CJ-wy怎么办/l}{CJyw}?[BC.]/w

{CJ-/+sy}:述语残缺或多余

例:但是/c周末/n的/u时候/n{CJ-zhuy他/r}常常/d{CJ-sy陪/v}女儿/n们/k一起/d玩/v。/w

{CJ-/+by}:宾语残缺或多余

例:所以/c平时/t{CJ+zxy的/u时候/n}他/r不/d能/v{CQ和/c}女儿/n们/k一起/d玩/v或者/c辅导/v{CCH领导/v}{CJ-by她们/r}学习/v{CJjy}{CJfd}。/w

{CJ-/+buy}:补语残缺或多余

例:比赛/v以后/f,/w他/r找/v{CJ-buy到/v}我/r。/w

{CJ-/+dy}:定语残缺或多余

注意:数量短语作定语中,缺少量词,补上的量词标记为缺少定语。

例:我/r来/v中国/ns以后/f{CJ+dy中国/ns}生活/n中/f发生/v{CCH有/v}了/u一/m件/q{CD的/u}事/n{CJy}[BQ。/w]

{CJ-/+zy}:状语残缺或多余

注意:缺少或多余“能愿动词”也放在{CJ-/+zy}中。

例:我/r{CQ的/u}心/n咚[Pdòng]咚[Pdòng]/y{CQ地/u}{CJ-zy快/d}跳/v出来/v了/u,/w

{CJ-/+zxy}:中心语残缺或多余

例:我/r在/p中国/n{CD的/u}生活/v{CJ-zxy的/u时间/n}虽然/c不/d长/a,/w但是/c很/d满意/v。/w

有时成分的多余或残缺发生在短语层面,按照句法层面来处理。

例1:她/r比/p我们/r早/起床/V。/w{CJ-sy起床/v}以后/t自己/r做饭/v。/w(时间短语缺少述语)

例2:我/r找/v她/r向/p{CJ-by她/r}倾诉/v。/w(介宾结构缺少宾语)

{CJX}:语序错误标记,用于标示由于语序错误造成的病句。先把发生语序颠倒的几个部分分别用<>括起来,并打上{CJX}的标记,并在{CJX}中用阿拉伯数字标出正确语序中出现的先后序列。

例1:我/r给/v你/r<我/r的/u丈夫/n>{CJX2}<介绍/v一下儿/m>{CJX1}。(表示{CJX2}前的内容应放在{CJX1}内容之后)

例2:可是/c<这/r两/m个/q问题/n>{CJX4}<同时/d>{CJX2}<要/v>{CJX1}<解决/v>{CJX3}非常/d不/d容易/a,/w

{CJP}:搭配错误标记,用于标示句法层面搭配不当造成的病句。根据搭配错误类型,将其细分为以下几类(句法成分搭配不当的偏误,能通过换词纠错,就换词,在被换词上打上句法成分搭配错误的标记。无法通过换词纠错,则在该句完句标点前打上成分搭配错误的标记即可):

{CJP-dz}:定中搭配不当

例:自己/r有/v双/q聪明/a能干/a的/u手/n,/w什么/r都/d能/v创造/v出来/v{CJP-dz}。

提示:韩国留学生常常将“我做的事”和“我说的话”写为“我的做事”和“我的说话”,类似这样的错误请依照下例进行修改。按照定中搭配不当的偏误类型,将“我”修订为“我做”,将“做事”修订为“事”。

例:我们/r打扫[Psao]/n的/u时候/n,/w我/r做/v{CCH我/r}的/u事/n{CCH做事/v}是/v<垃[Plā]圾[Pjī]/n>{CJX2}<扔[Prēng]/v掉[Pdiào]/v>{CJX1}{CJP-dz}。/w

{CJP-zz}:状中搭配不当

例:他/r慢慢/d地/u冲/v进去/v{CJP-zz}。/w

{CJP-zw}:主谓搭配不当

例:{CP-zd他/r的/u作品/n杜绝/v了/u{CJ-zhuy人们/r}不/d喜欢/v诗歌/n文学/n的/u现象/n{CJP-zw}。/wP}

下面两例是主谓谓语句,构成大谓语的小主语和小谓语存在搭配不当的偏误。

例:不良/b少年/n嘴/n里/f冒/v着/u浓烟/n{CJP-zw}。/w

例:我/r手心/n出/v了/u一/m身/q冷汗/n{CJP-zw}。/w

{CJP-db}:动宾搭配不当

例:这么/r一来/c,/w导致/v{CCH产生/v}了/v小/a店/n的/u没落/v{CJP-db}。/w

{CJP-sb}:述补搭配不当

例:他/r看/v出来/v{CJP-sb起来/v}我们/r是/v韩国/ns人/n。/w

{CJP-zb}:主宾搭配不当

例:谦虚/a是/v人们/r最/d基本/a的/u品质/n{CCH道理/n}{CJP-zb}{CJs},/w也/d是/v人们/r的/u美德[B的]/n{ZQs}。/w

{CJP-jb}:介宾搭配不当

例:好/a习惯/n对/p{CCH向/p}我们/r的/u生活/n影响/v很/d大/a{CJP-jb}。/w

{CJZR}:句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。标在句子末尾,标点之前。

例:我们/r照/v了/u一/m张/q照片/n,/w照片/n中/f带/v着/u天真烂漫/a甜/a甜/a笑/v着/v{CJZR}。/w

{CJcd}:重叠错误标记,用于标示句中动词的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之后。

例:还有/c我们/r{CJ-zy应/v}对/p绿色/a食品/n{CJ-sy加以/v}研究/v研究/v{CJcd}。

该句添加能愿动词“应”后仍然不对,缺少“进行/加以”,有一部分动词在一些格式中不能直接作谓语,需要形式动词的支撑。这种错误建议标注为句层面下的缺少述语。

{CJgd}:固定格式错误标记,用于标示固定格式搭配上的错误。

“一……就……”缺少“一”或者“就”,“越来越”“在…看来”“看上去”“…的是”“对……来说”“特别是”“V来V去”等都属于固定格式。

例:一/d提/v到/v旅行/v,/w我/r{CJ-zy就/d}想/v起来/v了/u1994年/t的/u欧洲/ns旅行/v{CJgd}。/w

{WWJ}:未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾处。

例:她/r的/u男/b朋友/n是/v个/q大胆/a的/u男子汉/n{ZQs},/w其实/d他/r是/v我/r丈夫/n的/u朋友/n。/w我/r丈夫/n的/u朋友/n一定/d好/a的/u不/d是/v{WWJ}

{CJ?}:句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的病句。标在存疑病句之后、该句标点之前。

例:我/r听/v了/u她/r的/u声音/n好像/p嘛/y女/a的/u样子/n了/u{CJ?}。/w

{dyde}:“的”的多余。

例:我/r想念/v我/r{CD的/u}在/p韩国/ns的/u父母/n{dyde}。/w

5)篇章处理(包括复句):

{CP}:篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。即:{CP……,……。……,……。P}

所谓篇章错误,主要指句子和句子之间在衔接方面的错误。最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。

{CP-yy……P}:上下文语义缺乏联系的标记。包括前后句意义无关、缺少过渡句、上下文语义冲突(如作文起题说好习惯能让人取得成功并不是绝对的事情,下文大谈好习惯对事业成功多么有帮助)。

例:我有两个孩子,一个女儿,还有一个儿子。女儿长[L]像跟和我一样,儿子也是跟我差不多。女儿今年高中二年级,所以现在学习很努力,半夜回家的时候太累了。但是女儿每天都对{CCH向}我说“妈妈,谢谢您,不要等我,你也是准备考试很累{CJs}”{CJ-zhuy女儿}这样说[BQ,]{CP-yy我对女儿尤其感谢。为了明年她考上大学!P}

{CP-gl……P}:关联词语偏误的标记。

(1)关联词语误用、多用、漏用,标记为{CP-gl……P}。句内把多用、漏用、错用的关联词语按照多词{CD}、缺词{CQ}和该用甲词而用乙词{CCH}来标记。

例1:{CP-gl家是应该给人舒适{CCH舒服}感和幸福感{CJs}。如果{CCH所以}能感受到这样的感觉我可以拿钱让保姆来做家务。P}

例2:{CP-gl虽然小王受伤而变成了残疾人,但是他的妻子小杨[C]毅然接受了这个现实{CCH情况},[BC。]而且无怨无悔,{CD却}把丈夫看作一个勇士。P}

例3:{CP-gl最近/t她/r的/u身体/n{CJP+zxy健[B建]康/n}不/d舒服/a。/w所以/c{CCH于是/c}我/r每天/r{CJ-zy都/d很/d}担心/v她/r。/wP}

(2)在语料库中,韩国留学生受母语影响频繁使用“然后”和“还有”用来表示顺承、因果、递进、并列等关联义,我们将其先处理为篇章问题,再在内部标注是词多还是词层面的误用。

例1:{CP-gl我朋友的外貌{CJ+sy是}五官[B馆]端[B喘]正{CJs}。{CD然后}她的身高165CM以上[BQ。]P}

例2:{CP-gl我来中国{CQ的}时候会{CCH能}说{CQ的}汉语太少,而且{CCH还有}完全听不懂{CCH1清楚}。P}

(3)“反正”的误用

例:我在房间休息的时候,突然来{CCH过来}了{CQ个}中国朋友,手上拿{CCH带}着一个<一点>{CJX2}<大>{CJX1}的箱子。{CP-gl我有点儿吃惊,<还是{CCH反正}>{CJX2}[BD,]<我>{CJX1}接待{CCH接应}{CQ了}她。P}

{CP-zd……P}:用来标记指称问题引发的错误。包括:

(1)主语、宾语省略不当造成理解的困难。因为省略的内容往往充当句子成分,所以缺少的成分还要按照句层面错误来处理;

例1:{CP-zd他是一个会计[BQ,]周围的人说他有能力[BQ,]还说{CJP-zhuy他}相当温和[BQ、]可亲[BQ。]P}

例2:{CP-zd他的脸上表现出来他的表情非常温柔、善良。不认识的人也一看他,就知道他是个好人。特别是{CJP-zhuy他}对我父母的态度真让我感动。P}

(2)代词冗余。多用的代词还要按照句层面句子成分多余处理。

例:{CP-zd他每天晚上7点45分,{CJP+zhuy他}一定看电视里的运动新闻。P}

(3)指代混乱,指在文中没有明确性别的前提下,人称代词的混乱使用造成的指代不明。如果性别已明确“他/她”混用,按照别字处理。

例:{CP-zd她天天6点起床,背着沉重的书包去上课。下课以后也不让她{CCH我}休息。再去补习班。每天她这样忙碌碌的过日子。P}

2.2.3.2 基础标注

基础标注是对正确的语言表现进行标注,目前基础标注仅在句式层面展开。正确句型分为完全正确的句型和基本正确的句型。前者指的是完全无误的句子或是仅有字层面的偏误不影响句式正确表达的句子;后者指的是有词层面偏误但不影响句子主干的句子和有句法层面的偏误但不影响句子主干的句子。

据此,最终确立基础标注和偏误标注的双维度标注体系下的102个标注项目,并按照汉语拼音缩写确定标注代码。标注清单如表1。

2.3 信息的统计分析与查询提取

利用Qt软件搭建的检索平台对生语料库和标注语料库进行信息的统计分析与查询提取,包括:(1)字表和词表的生成,其结果以txt文本的形式给出;(2)针对字、词、句、篇章和标点等多个元素,从基础标注和偏误标注两个层面、横向与纵向两个维度,以学校、年级、性别、学期等因素为查询条件,对所需语料进行分析和查询,语料查询结果既可以定位到句子,也可以定位到语篇,而且查询结果直接显示在检索平台的界面上。

2.4 软件开发与利用

为语料加工的便利和准确及后续研究中语料提取的便捷,本项目共开发了三种软件,即辅助标注软件、语料加密软件以及用户检索平台。其中,用户检索平台包括检索界面和底层的算法软件包两部分。

辅助标注软件是在VC2008环境下开发的。该软件按篇对语料进行标注,可随时保存和中止标注工作。标注时,标注员在确定要标注的对象后,通过点击鼠标右键,利用弹出菜单,可自动添加偏误标注和基础标注的代码,既提高了语料标注的效率,又保证了所添加的标注代码在形式上的准确性和一致性。

辅助标注工具界面截图如下:

语料加密软件和用户检索平台是在Qt环境下开发的。其中,语料加密软件主要完成了语料加密,语料解密和对语料属性信息的去隐私操作。利用软件可以对语料源进行自动加密和自动解密,大大提高语料源的安全性,在加密过程中自动将语料属性信息中的写作者姓名用阿拉伯数字进行替换,既实现了去隐私操作,又不影响语料查询中的纵向跟踪处理。用户检索平台能使用户按照不同的条件和要求完成对所需的字表、词表、语料属性信息、语料的各种统计数据、语料偏误标注和基础标注的查询统计、对生语料和标注语料的全篇检索查询、对语料跟踪性检索等功能。详见图2-3。

3 语料库建设中遇到的问题与解决方案

3.1 自动分词和词性标注

表1 语料标注代码一览表

图2-3 辅助标注工具界面图

生语料收集整理好后,利用北京大学计算语言学研究所开发的分词系统对其进行自动分词和词性标注。因为中介语语料库本身就是一个繁复的错字、错词、病句库,大大影响了自动分词的准确度和精度。所以,利用自动分词软件进行自动分词后,需人工对分词结果进行校对。一方面要校对分词软件对正确语料的误切,包括交互型歧义字段和组合型歧义字段引起的误切等,更重要的是对非规范用法错误分词或错误标注词性的校对。对这部分非规范词(如生造词、错序词),各个语料库在处理时采用了不同的方法。如“汉语中介语语料库”采用了“猜测其词性标记并记下可信度”[注]陈小荷:《“汉语中介语语料库系统”介绍》,《第五届国际汉语教学讨论会论文选》1996年。的方法。“HSK动态作文语料库”则“遇到这样的词就记下来,分词前输入词表,从而保持分词的正确”[注]张宝林、崔希亮:《关于“HSK动态作文语料库”的建设构想》,《第三届全国语言文字应用学术研讨会论文集》2004年。。我们的做法是抹去非规范词的词性标记,只在替代的规范词后标注词性。非规范词只标注偏误类型、不标注词性的好处是可以避免因猜测词性造成的标记不准,从而也避免了最后词频统计的精度失准。对这部分不标注词性的非规范词,我们将其单独提取整理成非规范词表,供下一步研究使用。

分词后

图3-1 语料分词后截图

标注后

图3-2 语料标注后截图

如上例所示:写作者把“一起走路”的“起”写为“走”,分词软件自动切分为“一/d走走/v路/n”,标注员在标注时既要将第一个“走”标注为“起”的别字,也要将分词结果调整为“一起[B走]/d走路/v”。在词层面,处理错序词和自造词时将不规范词替换为规范词后,只给规范词添加上正确的词性标记,而抹掉不规范词原有的词性标记,即原不规范词的词性标记缺省。

3.2 基础标注与偏误标注的接口

在语料库中,正确句式的标注由于中介语语料的特殊性与偏误标注发生撞车现象,急需将交叉部分厘清,否则会出现双重标准标注问题。如下列句子:

例3-1:秋天/n的/u北京/ns是/v一/m年/q中/f最/d美丽/a的/u季节/n{CJP-zb}。

例3-2:谦虚/a是/v人们/r最/d基本/a{CCH基础}的/u品质{CJP-dz}。/w

例3-3:他/r{CQ的/u}体重/n越来越/l{CCH太/d}轻/a{CCH瘦/a}了/y{CJP-zw}。/w

例3-4:他/r是/v我/r最/d好/a{CQ的/u}朋友/n。/w

例3-1中由于主宾搭配不当,影响了“是”字句的基本结构,是无异议的偏误“是”字句。例3-2中前句存在定中搭配不当的问题,但“是”字句的主干“谦虚是品质”无误,因此将其定为有问题的正确“是”字句。后句中有别字问题,但不影响“是”字句语义,判断为正确“是”字句。例3-3中“体重瘦”为主谓搭配不当,这影响了形容词谓语句的语义,应视为偏误形容词谓语句。例3-4中缺少定语标记词“的”,按照标注规范,存在缺词偏误,不影响“是”字句主干,应标为有问题的正确“是”字句。因此,我们将正确句式归纳为以下四类:

1)完全无误的句子。如:

例3-5:我/r是/v韩国/ns人/n{ZQs}。/w

应标为正确“是”字句,标注符号为{ZQs}。

2)有字层面偏误的句子。如:

例3-6:你为[B办]什么笑{ZQyw}?

字层面的偏误(别字、错字、异体字、拼音字、多字等)不影响句式的正确,因此标为正确句。再如:

例3-7:这/r是/v我/r的[D的]/u错/n{ZQs}。

该句第二个“的”应该是笔误多余了,偏误标注为字层面的偏误,而句式标注为“正确是字句”。

3)有词层面偏误但不影响句子主干的句子。如:

例3-8:他/r是/v我/r最/d好/a{CQ的/u}朋友/n{ZQs*}。

例3-9:他/r是/v我/r妈妈/n{CD的/u}朋友/n的/u孩子/n{ZQs*}。

这两个句子一个缺词,一个多词,但句子主干未受影响,因此标为正确“是”字句。但考虑到毕竟与只有字层面偏误的、完全无误的句子有所不同,为便于研究,将其标为“有问题的正确是字句”,标注符号为{ZQs*}。

4)有句法层面的偏误但不影响句子主干的句子。如:

例3-10:到/v现在/t{CJ-sy为止/v}很多/m事情/n让/p我/r感动/a{ZQjy*}。

该句前面存在述语缺失和固定短语偏误问题,但句子主干为兼语句,主干内容和形式未受影响,因此,将其标为有问题的正确兼语句,标注符号为{ZQjy*}。再如:

例3-11:他/r一/m下课/b{CJ-zy就/d}回家/v照顾/v妈妈/n{ZQld*}。/w

该句“下课”后缺少状语“就”,存在句子成分偏误及固定格式“一......就”的偏误,但句子主干为连动句,未受大的影响,应标注为有问题的正确连动句,标注符号为{ZQld*}。

而下述例句由于偏误已经影响了句子主干而标注为偏误句式。

例3-12:那时/r我/r{CJ-zy有点儿/d}飘飘然/a{CJxw}。/w

例3-13:考试/v失败/v了/y,/w我/r{CJ+zy真/d}难堪/a极/d了/u{CJxw}。/w

在汉语中,形容词谓语句中的形容词很少直接充当句子的谓语,一般要与修饰成分或补充成分共现,所以形容词谓语句中缺少/叠加修饰成分的(状语)或缺少/叠加补充成分,或修饰成分、补充成分相冲突的,都视为影响了句子主干,标注为错误的形容词谓语句。

因此,在基础标注与偏误标注同时进行的中介语语料库中,为了有效避免规范间的冲撞,使正确句式标注和偏误句式标注不会出现缠绕混杂,应将正确句式分层处理,以形式为主,兼顾意义,尽量准确判断何谓正确句,何谓偏误句。

3.3 对不同层面偏误的辨别和处理

前文提及本语料库对偏误的标注遵循“从大到小”的优先原则。这样一则可保证标注的一致性,二则可尽量保留有用信息,提升偏误标注和后续理论研究的价值。这是一条总体原则,对大多数偏误具有指导性。但标注中我们发现,若干情况下不能完全照搬该原则,而应对偏误进行细致分析,否则会导致标注结果不准确。

3.3.1 词层面和篇章层面偏误的辨别和处理

在CSL(Chinese as Second Languang)中,汉语篇章教学往往在中、高级水平学习者层面进行。实际上,汉语学习的各个阶段都会出现篇章连贯和衔接方面的偏误,只是不同学习阶段所出现的篇章偏误类型和比例有所差别。我们将篇章层面的偏误限制在指称问题引发的偏误、关联词语不当引发的偏误、上下文语义缺乏联系三个大类。其中代词的缺失、混用常常会导致指代不明、指代混乱的问题;代词的多余导致了表义的重复累赘,打断了句子原有的连贯性。在汉语中,同一话题链的各小句,如果主语一致,一般情况下会共用一个主语,如果不承前或蒙后省略其他主语会让人觉得累赘,文气不通畅。标注时,仅通过对代词简单地添加或删除即可纠偏。但如果处理为词层面的问题,或句法层面的句子成分缺失或多余,那么篇章层面的问题即被放过,在后期的提取中就会漏掉此类“似错非错”的偏误。如下例所示:

例3-14:{CP-zd我/r去/v过/u不少/m地方/n,/w但/c{CJ+zhuy我/r}还是/d觉得/v杭州/ns是/v最/d美/a的/u城[L]市/n。/w{CJ-zhuy我/r}听/v人/n说/v过/v“/w上/v有/v天堂/n,/w下/v有/v苏/j杭/i”/w[BQ。/w]P}

这段话中的代词“我”有时多余,有时缺失。不标篇章偏误,对中介语来说,似乎讲得通。但会使最后的提取结果中缺少这部分语料,对篇章研究不利。因此,此处应适当从严,应标尽标。但是,下面的情况不能机械地、一概搬用从大到小原则。如:

例3-15:{CP-gl我/r朋友/n的/u外貌/n{CJ+sy是/v}五官[B馆]/n端[B喘]正/a{CJs}。{CD然后/c}她/r的/u身高/n165CM/n以上/f{ZQmw*}[BQ。/w]P}

例3-16:{CP-gl我/r来/v中国/ns{CQ的/u}时候/n会/v{CCH能/v}说/v{CQ的/u}汉语/n太/d少/a{ZQxw},/w而且/c{CCH还有/c}完全/d听/v不/d懂/v{CCH清楚/a}。/wP}

例3-17:为了/p学/v外语/n,/w不仅/c{CJ-zy要/v}学/v语言/n[BQ,]还/d{CCH还有/c}应该/v知道/v那个/r国家/n的/u文化/n或者/c生活/vn习惯/n或者/c经济/n发展/vn的/u情况/n。/w

例3-18:我/r听说/v四川/ns菜/n很/d辣/a,/w但是/c我们/r点/v的/u菜/n不/d太/d辣/a{ZQxw}{ZQfd},/w也/d{CCH还有/c}不/d油腻/a。/w

韩国留学生受母语影响频繁使用“然后”和“还有”来表示顺承、因果、递进、并列等关联义,如例3-15、例3-16。这类偏误按照从大到小的序列首先处理为篇章偏误层面下的关联词语使用不当的问题,将有语义关联的句子用篇章偏误的标记{CP-gl……P}括起来,再对使用有误的“然后”“还有”进行多词、缺词或词语替换的标注。

如例3-17、例3-18所示,韩国留学生也常常用“还有”表示“还”“也”的意思,这种情况只视为词层面的问题,不处理为篇章问题。

因此,标注中必须注意,有些偏误尽管字面形式相似,但由于引发偏误的原因不同,最后标注的偏误类型应属于不同的层面,这种情况一定要根据具体句义有针对性地处理,不能完全套用“从大到小原则”,也不能对同一个词语偏误归类化处理,而应根据具体情况一一加以甄别。当然,这也是人工标注的优势所在,其灵活性是机器自动标注无法比拟的。

3.3.2 句法层面和字层面偏误的辨别和处理

一个熟练的标注者在标注时容易因熟而机械,即常常出现“望形判错”的失误。在句法层面和字层面偏误的辨别上我们遇到过以下情况:

一是对“的”“地”“得”的处理。标注规范中结构助词“的”“地”“得”之间的混用标记为“成分标记词使用不当”,属于句法层面的偏误。如:

例3-19:

标注前:我/r记/v的/u很/d清楚/a。/w

标注后:我/r记/v得/u{CCB的/u}很/d清楚/a。/w

但这不是绝对的。如例3-19,写作者将“记得”一词误写为“记的”,应该属于别字的问题。而且这里的“得”“的”都不是结构助词,因此不应归入“成分标记词使用不当”一类中。

例3-20:

标注前:他/r说/v的/u话/n我/r还/d记/v的/u。/w

标注后:他/r说/v的/u话/n我/r还/d记得[B的]/v。/w

二是对量词偏误的处理。在中介语语料中常常出现名量搭配不当的偏误。标注规范中将量词的错用归为句层面偏误下的定中搭配不当。如:

例3-21:

标注前:他/r从来/d没/d说/v过/u一/m种/q抱怨/v的/u话/n。/w

标注后:他/r从来/d没/d说/v过/u一/m句/q{CCH种/q}抱怨/v的/u话/n{CJP-dz}。/w

而在例3-22中,“一步电视剧”中的“步”经过自动分词后被打上量词的词性标记,所以标注者很容易将其处理为定中搭配不当。而实际情况是,韩国留学生的别字偏误主要有两个类型,一类是形近别字,另一类是音同别字。此处出现偏误的原因更趋近于“步”“部”因同音而成为别字,宜将其处理为别字层面的偏误。

例3-22:

标注前:我/r最/d喜欢/v的/u一/m步/q电视剧/n是/v《/w大长今/nr》/w[BQ。/w]

标注后:我/r最/d喜欢/v的/u一/m部[B步]/q电视剧/n是/v《/w大长今/nr》/w{ZQs}[BQ。/w]

3.3.3 词层面和句法层面偏误的辨别和处理

词层面和句法层面的偏误一般情况下应优先考虑句法层面,但涉及到部分特殊词语则需作两层标注。比较典型的是“着”“了”“过”的问题。在语料库中,由“着”“了”“过”的缺少和多余引发的偏误占有相当高的比例。规范中明确规定“着”“了”“过”作为动态助词的缺少、多余统一处理为词层面的偏误,如例3-23。但在例3-24中,“了”的缺失关涉到“把”字句的成句条件,故不能简单标注“缺词”,而应同时标注“把字句”偏误。

例3-23:他/r原来/d在/p东样机电/nt工作/v,/w可是/c前年/t换/v{CQ了/u}公司[B可]/n。/w

例3-24:小林/nr,/w喝/v完/v以后/f,/w记住/v把/p小/a锅/n和/c杯子/n洗/v{CQ了/u}{CJba}。/w

因此,词层面和句法层面偏误的辨别和处理有时可以两层标注。

3.3.4 词层面和字层面偏误的辨别和处理

有时,从语料字面来看,有些偏误拿不准是词层面还是字层面的。这时,要结合学习者的实际,加以综合判断。如:

例3-25:姐姐/n跟/p我/r差/v2/m岁/q,/w有的/r时侯/n{CCH时/n}跟/p朋友/n一样/a。/w

韩国留学生常常将“时”和“时候”混用,字面上很像漏字。实际上由于这两个词在韩语中的对应词只有一个,韩国留学生在使用汉语词时容易将其混淆。因此,库中统一将其处理为词层面偏误下的“该用甲词而用乙词”(CCH),而不处理为漏字。再如:

例3-26:我/r的/u心里/n{CCH心理/n}很/d高兴/a{ZQxw*}。/w

例3-27:这样/r的/u孩子/n更/d容易/a出现/v心理/n{CCH心里/n}问题/n。/w

“心理”和“心里”的混用也是韩国留学生的通病,同样将其处理为CCH,而不处理为别字。这样便于后期对两组词的用法加以仔细区别和研究。

3.4 句法层面偏误的层次问题

3.4.1 句法结构偏误与句法成分偏误的层级关系

句法层面的偏误包括句式错误、句法成分的缺失/多余、句法成分搭配不当、句式杂糅、语序错误等九种情况。实际上,句式偏误和句法成分的缺失/多余、句法成分搭配不当之间并不是简单的平行关系。如果一个句子出现句法成分的缺失/多余或句法成分之间的搭配不当等偏误,同时该句又是16个“句式错误”类型之一,那么要对该句进行分层标注,除标记句法成分的偏误,还要打上句式错误的标记。这种交叉的关系用文氏图表示如下(见图3-3):

图3-3 文氏图

特殊句式是汉语L2学习者学习的重点和难点。在标注中发现,有些句法成分层面的偏误,实际上是由于写作者对特定句式的句法语义特点没有掌握或没有完全掌握造成的。

例3-28:

标注前:但是/c我/r觉得/v贤雅/nr很/d魅力/n。/w

标注后:但是/c我/r觉得/v贤雅/nr很/d{CJ-sy有/v}魅力/n{CJy}。/w

例3-29:

标注前:他/r大/a笑/v地/u走/v过去/v了/u。/w

标注后:他/r大/a笑/v着/u{CCB地/u}走/v过去/v了/u。/w{CJld}。

例3-28既缺少述语“有”,同时也是“有”字句的句式偏误。例3-29中写作者试图描写“他”走路的状态方式,套用了最常用的状中结构。在现在的语法体系中,“大笑着走过去”这类句子被划入连动句的范围,所以要对该句偏误分两层进行标注:一是成分标记词不当;二是连动句偏误。

3.4.2 短语层面偏误的处理

库中可见到在短语内缺少某个成分的偏误,如介宾短语内出现缺少宾语或缺少介词的问题。这种偏误虽然出现在短语内部,但由于我们没有单设短语层面的偏误,因此将其统一标注为句法层面的偏误。如:

例3-30:我/r找/v她/r向/p{CJ-by她/r}倾诉/v。/w

例3-30中,“向她倾诉”是介宾短语中缺少介词宾语“她”,标记为句层面的“缺失宾语”。

另外,有的句子在短语层面未见偏误,从句法层面看,如去除修饰、限定成分,只保留基本句干,句法搭配也合理。而将修饰、限定成分考虑在内,则句子语义不通。如:

例3-31:我/r手心/v出/v了/u一/m身/n冷汗/n{CJP-zw}。/w

例31是主谓谓语句,谓语部分“手心出了一身冷汗”又是一个“主语+谓语+宾语”结构的小句。“手心出冷汗”“出冷汗”和“出了一身冷汗”的搭配都没有问题,但“手心”和“冷汗”的修饰语“一身”无法搭配。虽然它们不在同一个句法层次上,不是典型的句法成分搭配不当,但考虑到这类偏误数量不多,单立一条标注规范不经济,所以从大处着手,将这类情况标注为句层面的“主谓搭配不当”,待到后期提取偏误后再作进一步的细分。

3.5 标注员的培训与强化

语料库的标注质量关乎语料库的信度,而标注质量的高低则取决于标注规范是否科学完善和标注员的标注水平。

一个标注员同时承担着对语料正误的判别、标注项的选取、标注代码的添加、分词结果的校对等等多项工作。选取语言学基础扎实、了解对外汉语教学状况、初步熟悉外国留学生语言实际情况者作为标注员,其意义不需赘述。但即使是符合上述标准的标注员仍需强化培训。张宝林建议“通过专门课程的形式,详细讲述标注规范的各项细则,并通过反复的实际标注训练,使标注人员深入了解并切实掌握标准(疑为“标注”笔误——引者注)的规范与标准……”[注]张宝林:《汉语中介语语料库建设的现状与对策》,《语言文字应用》2010年第3期。,非常有针对性和实效。我们的做法是集中强化训练,以两个月为期,进行6—8期训练语料的标注,每次标注结束后进行集中校正、集体讨论。标注员熟悉标注规范、反复试标的过程也是不断发现问题,不断完善标注规范,细化偏误类型的过程。事实证明,一支经过培训的专业素养较高的标注队伍的确会在标注过程中发现很多弥足珍贵的问题。正是在他们的慧眼下,我们的标注规范才得以逐渐完善。

为了减轻标注员的记忆负担和标注难度,提高标注效率,也为了保证标注代码形式上的一致性,我们开发了配套的辅助标注工具,利用辅助标注工具添加代码,实现了语料库基础标注和偏误标注的人标机助,大大提升了标注质量。

在第一次标注完成后,进行交叉校对二次过滤,加强对语料标注过程的监控。最后由专人审核统稿,提高语料标注的正确率和一致性。

4 汉语中介语语料库建设的前瞻

汉语中介语语料库建设的目的是应用,而为汉语作为第二语言习得研究和汉语教学研究提供实证是应用的两大重点。已经建设完成的汉语中介语语料库在上述两方面研究中已经发挥了重要的作用,基于各类汉语中介语语料库已经出版了很多专著、发表了大量研究论文。如张宝林将“HSK动态作文语料库”中有关把字句的使用频率与母语者使用把字句的频率进行对比,对学界一直以来的观点“外国留学生对把字句的使用有回避现象”予以证伪。[注]张宝林:《回避与泛化——基于“HSK动态作文语料库”的“把”字句习得考察》,《世界汉语教学》2010年第2期。如没有“HSK动态作文语料库”中统计数据的支撑,有关把字句习得的研究将失之主观甚至以误传误。笔者所建的“多层偏误标注的国别化汉语中介语动态语料库”也是以应用为导向建库并进行多层偏误标注。与前文所提的已建成的很多库相似,自建库做到了在平面化汉语中介语语料库构建中对语料处理的最大广度。

然而,在建库的后期及建库完成后,我们发现:现有汉语中介语语料库依然难以满足日益发展的研究需要。比如在习得与教学研究中,涉及对照语料时,所采用的基准语料常常为报刊标准语料,学习者中介语语料与母语报刊标准语料在语体风格上相差悬殊,两相对照结果不尽人意,亟需建设汉语母语者发展语料库作为学习者中介语发展语料库的对照库。另外,随着汉语作为第二语言习得研究、汉语教学研究的深化,不同语言环境下学习者习得的同异、学习者口笔语表现的差异性、学习者偏误与教材相关性等问题日益引起研究者的兴趣。可以说,早前平面化的汉语中介语语料库已经无法支撑日益丰富、深化的研究需求,必须进行汉语中介语语料库建库理念的再思考。

为此,我们提出建设“多维参照的国别化汉语中介语语料库库群”的设想,并正在付诸实施。新库的建设是原有语料库建设的延伸,但在建库理念上也是对原有平面化建库理念的一种颠覆,即开始由平面化建库思路向立体化建库理念转变。这种理念的转变必将对语料库建设实践及围绕语料库进行的相关研究产生一连串的蝴蝶效应。目前在建的北京语言大学“全球汉语中介语语料库”也正在由平面库向立体库转型。可以预见,未来,汉语中介语语料库类型将不断丰富,通用库规模愈加宏大,国别库愈加深化,而立体化建库理念将逐渐被接受,并经由更多建库实践予以佐证。

猜你喜欢
偏误分词语料
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
“一……就……”句式偏误研究
新HSK六级缩写常见偏误及对策
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
关于《突厥语大词典》汉字译写偏误研究
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法