中介语语料库词汇错误的标注问题及改进建议
——以“HSK动态作文语料库”为例*

2015-06-07 06:00:00
关键词:语料语料库词语

赵 玮

(北京语言大学对外汉语研究中心,北京100083)

中介语语料库词汇错误的标注问题及改进建议
——以“HSK动态作文语料库”为例*

赵 玮

(北京语言大学对外汉语研究中心,北京100083)

文章以“HSK动态作文语料库”为例,从错误识别和错误修改两个角度,考察了中介语语料库词汇错误标注中的问题,发现词汇错误识别存在漏标、多标和误标问题。词汇错误修改存在修改后表达仍不正确、修改不符合作者的原意、改动过大和语言单位层级标注不当等问题,经量化统计发现,各类问题中,以漏标问题最为严重。在此基础上,文章分析了词汇错误标注问题出现的原因,并提出了4点建议。

词汇错误标注;中介语语料库;HSK动态作文语料库

一、引 言

中介语语料库是“以二语习得和外语教学研究为目的,按照明确的设计标准,收集起来的二语和外语学习者真实语篇材料的集合”①笔者译,下引英文文献同。(Granger,2002:7)②Granger,S.A bird’s-eye view of learner corpus research[A].Computer Learner corpora,Second Language Acquisition and Foreign Language Teaching(S.Granger,J.Hung and S.Petch-Tyson)[C].Amsterdam:John Benjamins,2002.。语料的真实性,语篇材料所提供语境的完备性,以及计算机语料库特有的极大的文本容量和便捷的检索工具,使中介语语料库成为语言习得与教学研究的重要资源,而标注则赋予了这一资源更大的价值。标注是“为口头和(或)书面电子语料库添加解释性语言信息的活动”,同时,也可以指称“这一过程的最终产品”(Leech 1997:2)①Leech,G.Introducing corpus annotation[A].Corpus annotation:Linguistic information from computer text corpora(R.Garaside,L.Geoffrey and T.Mc Enery)[C].London:Longman,1997.,而旨在反映“学习者语言异常性(Granger,2002:18)②Granger,S.A bird’s-eye view of learner corpus research[A].Computer Learner corpora,Second Language Acquisition and Foreign Language Teaching(S.Granger,J.Hung and S.Petch-Tyson)[C].Amsterdam:John Benjamins,2002.”的错误标注(error annotation)不仅是中介语语料库特有的标注类型,也是其最重要的标注类型之一(Wible等,2001)③Wible,D.,Kuo,C-H.,Chien,F-Y.,Liu,A.,and Tsao,N-L.A web-based EFL writing environment:Integrating information for learners,teachers,and researchers[J].Computers and education,2001,(37)。一旦错误被完全标注,凭借检索工具,研究者不仅可以大大提升误例提取和错误频次统计的速度,还可以更全面更系统地观察错误分布规律。正如周文华、肖奚强(2011:2)④周文华,肖奚强.首届汉语中介语语料库建设与应用国际学术讨论会综述[A].首届汉语中介语语料库建设与应用国际学术讨论会论文选集(肖奚强,张旺熹主编)[C].北京:世界图书出版公司北京公司,2011.所指出的“中介语语料库必须进行错误标注,这是由中介语的特点决定的,也是学者们研究的需要”。

错误标注虽对中介语研究有诸多益处,但若是标注质量不过关,语料库的功能与使用价值也会受到影响(张宝林,2013)⑤张宝林.关于通用型汉语中介语语料库标注模式的再认识[J].世界汉语教学,2013,(1).,标注中的错误会降低检索结果的准确性,进而对研究结论的可靠性产生影响。以往研究已注意到了汉语中介语语料库中错误标注的一些问题,王洁、宋柔(2008)⑥王洁,宋柔.HSK动态作文语料库错误标注方法研究[A].第四届全国学生计算语言学研讨会会议论文集[C]. 2008.探讨错误标注方法时,提出“HSK动态作文语料库”的人工标注方法存在标注结果缺乏一致性、误归类和遗漏、标记不合规范和标记不合理等问题。张宝林(2010)⑦张宝林.汉语中介语语料库建设的现状与对策[J].语言文字应用,2010,(3).、任海波(2010)⑧任海波.关于中介语语料库建设的几点思考[J].语言教学与研究,2010,(6).、崔希亮、张宝林(2011)⑨崔希亮,张宝林.全球汉语学习者语料库建设方案[J].语言文字应用,2011,(2).探讨现有中介语语料库存在的不足时,提到了错误标注缺乏一致性、标注质量有待提高等问题。张宝林(2013)○10张宝林.关于通用型汉语中介语语料库标注模式的再认识[J].世界汉语教学,2013,(1).专门探讨了通用型中介语语料库的标注模式,详细论述了错误标注的归类问题。肖奚强、周文华(2014)○11肖奚强,周文华.汉语中介语语料库标注的全面性及类别问题[J].世界汉语教学,2014,(3).指出标注的准确度涉及标注集的准确度,以及标注操作时的准确度两方面问题。以上研究均是针对错误标注的共通性问题进行的讨论,但错误标注涉及字、词、句、篇等多个层级。不同层级的错误标注存在哪些具体问题,哪类问题更严重,出现这些问题的原因是什么,如何更有效地解决?这些问题还有待我们进一步的研究。

由于词汇错误也是最常见的错误类型(Gass&Selinker,2008/2011:397)○12Gass,S.and Selinker,L.2008.Second Language Acquisition:An Introductory Course(3rd Edition)(《第二语言习得》(第3版))(赵杨译)[M].北京:北京大学出版社,2011.,涉及的错误数量更多,且与其他错误类型相比,词汇错误的识别与修改更缺少规律性,标注质量更多地取决于标注者的语感和语文水平,更需要进行系统研究,以制定更细致的标注规则,将标注者主观判定对语料库客观性的影响最小化,因此本文将从词汇错误标注入手,考察汉语中介语语料库中的标注问题。

二、研究基础与语料范围

本文以“HSK动态作文语料库”中的词汇错误标注为观察对象,因为“HSK动态作文语料库”是首个也是唯一一个对字、词、句、篇等各类错误现象进行穷尽性标注并向公众开放的汉语中介语语料库,该语料库不仅是学者进行汉语作为第二语言习得与教学研究的重要资源,其制定的标注规则也对其他汉语中介语语料库的标注产生了较大影响(周文华、肖奚强,2011:2)①周文华,肖奚强.首届汉语中介语语料库建设与应用国际学术讨论会综述[A].首届汉语中介语语料库建设与应用国际学术讨论会论文选集(肖奚强,张旺熹主编)[C].北京:世界图书出版公司北京公司,2011.,标注规则具有代表性。

为了更深入地观察“HSK动态作文语料库”词汇错误的标注情况,本文从材料出发,采用分层随机抽样的方法提取一定数量的作文,通过对这些作文中词汇错误标注的分析,归纳标注中存在的问题。具体操作分三步进行:

1.按照国别为作文分组,确定各组拟提取的作文数量。除中国大陆和香港地区外,“HSK动态作文语料库”共收录了99个国家的学生作文,但作文数量超过100篇的国家仅有11个,这11国的作文数量占语料库作文总数的91%,基本可以代表语料库的错误标注情况。我们依据每1个百分点提取1篇作文的数量标准,按照11国作文篇数在语料库作文总篇数中所占比重②作文数量超过100篇的国家的作文篇数及其所占比重分别为:韩国,4171篇,36.1%;日本,3211篇,27.8%;新加坡,843篇,7.3%;印度尼西亚,739篇,6.4%;马来西亚,422篇,3.6%;泰国,374篇,3.2%;越南,221篇,2.0%;缅甸,202篇,1.7%;澳大利亚,123篇,1.0%;美国,118篇,1.0%;英国,108篇,0.9%。11个国家作文数量总计10523篇,占语料库作文总数的91%。,确定了各组拟提取的作文数量,分别为韩国36篇,日本28篇,新加坡7篇,印度尼西亚6篇,马来西亚4篇,泰国3篇,越南2篇,缅甸2篇,澳大利亚、美国、英国各1篇,总计91篇作文。

2.按照各组不同题目下作文篇数在该组作文总篇数中所占比重,及各题目下作文分数的分布情况,提取出作为考察对象的91篇作文。例如,题目为《我看流行歌曲》的韩国学生作文共计500篇,占韩国学生作文总数的12%,按照这一比重,在本研究拟提取的36篇韩国学生作文中,该题目的作文占4篇。该题目下,分数为65分、70分、60分和55分的作文篇数最多,我们在这4个分数下分别随机提取1篇作文,最终得到作为考察对象的4篇作文。

3.按照网上公布的《“HSK动态作文语料库”语料标注及代码说明》③“HSK动态作文语料库”语料标注及代码说明[OL].http://202.112.195.192:8060/hsk/help2.asp.(以下简称《标注说明》)对91篇作文的词汇错误进行重新标注,并与原版标注进行对比,集中观察词汇错误标注中的问题。

“HSK动态作文语料库”标注的词汇错误分为五类,分别为:错词(标注代码为{CC})、多词(标注代码为{CD})、缺词(标注代码为{CQ})、离合词错误(标注代码为{CLH})及使用外文词(标注代码为{W})④依据《标注说明》,“错词标记{CC}”用于标注学习者用错了的词和成语;“多词标记{CD}”用于标注作文中不应有而有的词;“缺词标记{CQ}”用于标注作文中应有而没有的词;“离合词错误标记{CLH}”用于标注和离合词相关的错误;“外文词标记{W}”用于标注以外文词代替汉语词的错误。。其中,离合词错误和使用外文词类错误在语料库中分布较少⑤“HSK动态作文语料库”中,离合词错误共计86例,使用外文词类错误共计16例。,本文所考察的作文中也未出现,因此,本文主要统计和分析了语料库中的错词、多词、缺词类标注。

通过对语料的分析,我们发现语料库的词汇错误标注问题集中在错误识别和错误修改两个方面,下文将从这两个角度出发,描写词汇错误标注问题的主要表现,总结各类问题的分布范围,分析问题出现的原因,并在此基础上提出改进建议,希望能够为汉语中介语语料库的标注工作提供些许参考。

三、词汇错误识别和修改方面的问题

(一)词汇错误识别方面的问题

识别错误即判断语料中是否存在错误,若是存在错误,还需辨别它属于哪类词汇错误。词汇错误识别方面的问题分为3类:

第一,多标

语料中的词语使用是正确的,但标注者认为学习者误用了该词语,在标注上表现为在正确用例上附加错误标记,本文称之为“多标”,如:

1)但也要为{CC1为了}环境着想,所以现在科学家{CD们}正在找不损坏环境又可以提高生产量的药物。①文中例句均取自“HSK动态作文语料库”。为了更清楚地展示词汇错误标注情况,文中仅保留了语例中词汇错误的标记符号,删去了其中的语篇、句子、汉字和标点错误标记符号。本文使用“_”标记语例中存在标注问题的部分。有的误例包含不止一个标注问题,如例1)中,“找”和“损坏”的使用存在错误,应分别改为“寻找”和“破坏”,标注者都未标注,但为了凸显当前的论述主题,仅用下划线标示了误例中与论述主题相关的标注问题,下同。

该例中,标注者认为“们”是多余的词,但这里使用“科学家们”是可以接受的,不应当算作错误。有时,标注者还会将原本正确的词语改成接受度较低的词语,甚至将原本正确的句子改为无法接受的句子,如:

2)并且,吸烟者的肺癌发生机率{CC2率}比非吸烟者高得多。3)所以抽烟{CD是}给别人也添了麻烦的事情。

例2)中,标注者认为“率”应改为“机率”,但事实上“发生率”的接受程度更高,北京大学CCL语料库中,“发生率”共出现269次,而“发生机率”仅出现5次,显然学习者的词语使用应判定为正确。例3)中,标注者认为“是”是多余的词,将正确的句子改成了错句。

第二,漏标

语料中存在词汇错误,但标注者未能识别出来,在标注上表现为未在词汇错误处附加错误标记,本文称之为“漏标”。漏标问题分布广泛,“HSK动态作文语料库”用错词标记标注了4类错误,分别为:把词的构成成分写错顺序,该用甲词而用乙词,生造词以及词语搭配错误。这4类错误均存在漏标,如:

4)我认为应该除消饥饿的人民的生命危机,然后谈这个绿色食品的问题。(消除)

5)比如说,制造一些无毒性的化肥来灌溉农田,养一些动物来防止害虫的侵犯等等。(侵害)

6)听说古代有一块石头上发现了这样的句子“现在的年轻人真没有理礼。”(礼貌)

7)通过困难以后,你就能得到人生的快乐。(克服)

此外,“多词”、“缺词”类错误也存在漏标现象,如:

8)所以在全世界的人们一定要多吃“绿色食品”。(“在”多余)

9)可能对不用挨饿的人来说,只活没什么用的。(缺少“着”)

第三,误标

标注者发现了词语使用错误,但对错误的类属判断不准确,即不清楚学习者的错误到底是什么,在标注上表现为将甲类词汇错误标注为乙类词汇错误,如例10)、11),或是将两类词汇错误合标在一起,如例12)、13)。本文将该类错误标注问题称为“误标”。

10)那个孩子是个弱智{CD者}。

11)这个成功不是得了名誉而收到很多钱,是成为{CC当为}一个好人{CD家}。

例10)、11)均是将词语替换错误标注为了词语多余。例10)中,“弱智者”是学习者类推汉语表人名词的构词规则自造出来的词语,按照《标注说明》的规定,自造词应标注为错词,因此,学习者的错误并不是“者”的多余,而是“弱智者”的错用。例11)出自韩国学生的作文,标注者认为学习者的错误在于多用了“家”这个词,事实上,“人家”和“人”是韩语背景学习者极易混淆的一组词语(申旼京,2011:17)②申旼京.韩语背景学习者汉语词语混淆的母语影响因素研究[D].北京语言大学博士学位论文,2011.,学习者当用“人”时,误用了“人家”的可能性更大。

12)那时候发生一件事{CC一事件}。

13)孩子们都是{CC从}上帝赐{CC借}给我们的。

例12)涉及两个错误,一是误用“事件”,二是缺少量词,但现有标注直接将“一事件”替换为“一件事”。

例(13)中,“是”与“从”之间毫无关联,将之判定为词语替换错误并不妥当,实际上该处包含两类错误:“是……的”句错误和介词“从”的多余。

(二)词汇错误修改方面的问题

修改错误,就是将学习者用错的词语改成正确的。词汇错误修改方面的问题主要集中在4个方面:

1.修改后表达仍不正确

有些词语使用错误,经过标注者的修改,仍是错的,如:

14)所以可说是因为已经达到了信息{CC信讯}的时代,他自己觉得年纪大的人,一定需要适合{CC合适}新媒体{CC道具}。

15)随着经济迅速发展{CC发达},而且生活条件越来越高{CC1提高},人们渐渐地重视绿色食品。

“合适”和“适合”是学习者经常混用的一组词语,例14)中,标注者见到“合适”的误用,可能习惯性地将之改为“适合”,但“适合”用在这里并不恰当,作者想要表达的不是年纪大的人是否符合新媒体的要求,而是建议老年人主动去接触新媒体,应当改为“适应”。例15)中,标注者仅注意到“越来越”不能与补充式动词搭配,却没有注意到“生活条件”不能与“高”搭配,应当将“提高”改为“好”。

2.标注者的修改不符合作者的原意

有些误例,虽然修改后句子通顺了,但标注者的修改不符合作者的表达意图,如:

16)我就想起了我们家里人{CC家属人}第一次去中国的时候了。

17)据统计数据来看,每年在世界{CQ上}生产的农作物和其它的食品(包括海产品)的总量大大满足和解决{CQ了}世界总人口的吃饱问题。

例16)中,联系后文内容,可以看出作者和他的父母一起到的中国,而说“家里人”时,是不包含说话人自己的,应当将“家属人”改为“一家人”;例17)中,作者后文谈到由于分配不均,很多人还在挨饿,这说明作者想要表达的是世界上的食物总量客观上“能够”解决饥饿问题,并不是该问题已经得到了解决,所以添加助词“了”不符合作者的原意。

3.改动过大

胡晓清、许小星、毛嘉宾(2011)①胡晓清,许小星,毛嘉宾.韩国留学生汉语中介语语料库的标注研究[A].首届汉语中介语语料库建设与应用国际学术讨论会论文选集(肖奚强,张旺熹主编)[C].北京:世界图书出版公司北京公司,2011.提出纠正错误应遵循最简化原则,即“在不违背原句作者意愿的前提下,尽量不改变或少改动原句结构”,我们非常赞同这一观点。本文所考察的作文中,一些标注就存在改动过大的问题,如:

18)这{CQ个}问题{CD真实}还是人们一直在争论着的话题。

19)我没考上{CC考不上}{CD了}我想上{CC愿意}的大学。

修改学习者的错误时,应尽量避免删除词语、改变结构,例18)可以将“真实”改为“事实上”,例19)标注者将“愿意”改成了短语,如果将之改为“理想”,改动更小。

4.语言单位层级标注不当

语言单位层级标注不当指标注者修改词语错误时没有以词为单位进行修改,该类问题均出现在错词标注中,有些标注以语素为单位,仅针对词中不能独立使用的语言成分进行修改,如例20),有些标注以短语为单位进行修改,将使用正确的词也纳入了修改范围,如例21):

20)为了我考{CQ上}好{CQ的}大学,为了我的健康,爸爸、妈妈给我{CD的}那么多{CC大}的爱护{CC情}和关心,我永远不会忘记的。

21)我们应当解决这两个{CC两种}问题,这样一来世界会变得更幸福、更充满活力。

语言单位层级标注不当,就不能如实反映词语的误用情况。例20)中,学习者实际上混用了“爱护”和“爱情”,但现有标注将之处理成了“护”和“情”的混用;例21)则是将量词的混用处理为了数量短语的混用。

(三)词汇错误标注问题的分布情况

本文考察的91篇作文中的词汇错误标注问题的分布情况如表1所示:

表1 各类词汇错误标注问题分布情况表

注:ⅰ漏标比重指漏标的错误数量在词汇错误总量中所占比例,

表1显示,91篇作文中,多标、误标及修改方面存在问题的语例数量仅占语料库原有词汇错误标注总量的8.6%①根据表1,多标、误标、修改后表达仍不正确、标注者的修改不符合作者的原意、改动过大、语言单位层级标注不当几类问题在语料库词汇错误标注中所占比重分别为1.4%、1.4%、1.4%、0.6%、1.4%和2.4%,合计8.6%。,即标注者标注的绝大多数错误都是可信的。但同时,还有近40%的词汇错误存在漏标问题,其中,错词现象的漏标情况尤其严重,45%②语料库标注的错词类错误共计424例,漏标345例,多标2例,漏标比重为45%。的替代错误都没有标注出来。这一统计结果与李华(2013:65~73)③李华.计算机辅助下的汉语中介语混淆词研究[D].北京语言大学博士学位论文,2013.进行的误用词标注可信性的统计结果相一致,该文提取了“HSK动态作文语料库”中“产生”、“经验”、“深刻”、“把”4个词语的全部语料,对目标词的不当替代错误进行了重新标注,发现四词多标数0—4例不等,错标数④错标数指“语料库中该词语用错了而且也标注为误用词但当用词填错了的次数”(李华,2013:66),本文提到的“修改后表达仍不正确”、“标注者的修改不符合作者的原意”等问题涉及词语的错标。0~9例不等,漏标数则远远高于多标数、错标数,四词漏标比例⑤四词的漏标比例是笔者利用李华(2013)的数据,按照本文的漏标比例计算公式计算得出的。分别为:22.6%、32.9%、43.1%和59.6%,文章认为“标注者对误用词的实际找出率比较低”。尽管本文与李华(2013)的研究方法不同,本文采用的是随机抽取作文进行全篇标注的方法,李华(2013)则是提取包含特定目标词的全部语例进行有针对性的标注,但两项研究都显示出:语料库已有标注的正确率较高,但漏标问题较为严重。

“目前语料库研究都是以频率或概率统计为导向的”(施春宏、张瑞朋,2013)⑥施春宏,张瑞朋.论中介语语料库的平衡性问题[J].语言文字应用,2013,(2).,基于学习者语料库的研究亦是如此,广泛使用频率数据是该类研究的显著特点(Barlow,2012:335)⑦Barlow,M.2005.Computer-based Analyses of Learner Language[A].Analysing Learner Language(《分析学习者的语言》)(Ellis,R and Barkhuizen,G)[C].上海:上海外语教育出版社,2012.。如此之高的漏标比例,必然会大大降低统计结果的准确性,进而影响研究者对错误严重程度的判断,因此,语料库标注必须对漏标问题加以重视。此外,多标、误标及修改方面的4类问题虽较少出现,但也会在一定程度上影响到相关误例的检索和统计,也应尽量避免。

四、词汇错误标注问题出现的原因

现阶段,中介语语料库的错误标注主要靠人工完成,这使得错误标注不可避免地带有主观性,标注准确与否也更多取决于标注者的“语言文字水平、工作态度、精神状态”(张宝林,2013)⑧张宝林.关于通用型汉语中介语语料库标注模式的再认识[J].世界汉语教学,2013,(1).,可以说,词汇错误识别和修改中的诸多问题很大程度上来源于此。具体来看,词汇错误识别和修改方面几个问题出现的原因主要有4个:

(一)标注者的词汇学知识不够扎实

标注者的词汇学知识不足,会影响词汇错误标注的准确性。以漏标为例,一些误例中的误用词和当用词是近义词,这类错误有时难以单凭直觉判断对错,且由于标注者长期面对学习者语料,已经习惯了学习者的一些表达。这种情况下,可能会对某些错误习焉不察,如果标注者缺乏相应的词汇学知识,对近义词之间的细微差别不甚了解,不确定学习者的表达是否真的偏离了目的语时,犹豫之下,可能会认为学习者误用的词语也可以接受,从而产生误判。如:

22)从书箱里拿出这本书之后{CC前}看了一下,没发觉这本书有什么特别,只不过是一本普通的书籍……(书)

23)社会发展改变得太快的影响下,那问题产生{CC惹[C]起}。(变化)

例22)中,“书籍”是集合名词,不可与数量短语搭配,例(23)强调的是社会自身的变化,而“改变”强调外物致使事物发生变化,应改为“变化”,标注者都未标出。我们还在语料中发现,一些学习者混用“表示”和“表达”、“了解”和“理解”、“欢乐”和“快乐”、“互相”和“彼此”、“再”和“又”等近义词的误例也出现了漏标现象,这都与标注者的词汇学知识不够扎实有关。

此外,一些标注存在的“语言单位层级标注不当”问题,也是标注者词汇学知识不足,不能正确分辨词汇单位造成的,下例中,标注者就是误将词语“真是”和“真正”的混用标注为了构词语素“是”和“正”的混用:

24)真是{CC正}岂有此理!

(二)标注者对词语出现的语境缺乏整体把握

标注者识别词汇错误时,有时不太关注词语出现的语境,导致一些联系上下文才能够分辨出来的词义不合错误,以及需要对句子进行整体观察才能够发现的搭配不当①②张博(2008)提出词语误用分为两种性质:词义不合与搭配不当,词义不合指误用词在意义上与语境不合,不符合说话者实际所要表达的意思;搭配不当指误用词在组合关系上不能与其前后的词语搭配共现。问题,出现了漏标,如:

25)不过,这些禁烟条例始终是“头病医头,脚痛医脚”的做法,虽能治标但不能治本。为了达到事半功倍的目标,政府的禁烟努力应由教育做起。(效果)

26)“代沟”这个问题,凡是有子女的家庭,都会发生,不论中外都是一样的。(存在)

例25)中,单看“为了达到事半功倍的目标”这个小句没有任何问题,但结合上下文,可以看出政府的目标是“禁烟”,而不是“事半功倍”,这里的“目标”应当改为“效果”。例26)则存在搭配错误,“问题”应与“存在”搭配。

词汇错误修改方面的一些问题,也源于标注者没有对词语出现的语境进行充分的分析。如上文中提到的例16)、17),标注者修改时没有关照上下文,所做改动亦不符合作者的原意。

(三)标注者对错误根源不了解

标注者不了解错误根源,就有可能出现误标或改动过大的问题,如:

27)但有些人不喜欢流行歌曲,还有反对歌迷{CD人}的行为。

28)又为了报答{CC报}你们对我的恩情{CC恩慧},{CD爱情}我也尽力而为地{CC的}学习了。

例27)中的“歌迷人”是自造词,应标注为错词,标注者可能不太清楚错误原因,将之标注为了“人”的多余。例(28)出自韩国学习者的作文,据付娜、申旼京、李华(2011)③付娜,申旼京,李华.韩语背景学习者“爱”类同素易混淆词研究[J].云南师范大学学报(对外汉语教学与研究版),2011,(6).考察,由于韩语汉字词“(爱情)”的意义大致对应于汉语“爱情”和“爱”两个词,韩语背景学习者极易混淆两词,此例应当也是如此,作者想要表达的是父母对自己的“爱”,却错用了“爱情”,标注者不了解错误根源,直接去掉“爱情”,改动过大。

(四)标注者的疏忽

一些标注问题是标注者的疏忽所致,以漏标为例:

29)所以,大部分的青少年为了解决自己的压力,喜欢听流行歌曲。(缓解)

30)人在生活和工作中,绝对会碰到许多困难或挫折或失败,这都是免不了的。(“或”多余)

31)……引起了一个非常严重问题是:忽视了家庭,忽视了丈夫,孩子,养父母及亲戚之间感情与精神的需要……(缺少“的”)

以上误例中漏标的词语替代或赘余、遗漏错误,有的单看误用词就能察觉出来,有的对误用词前后的词语稍加注意就能发现,都是较易识别的词汇错误,显然是标注者的疏忽造成的漏标。

五、对词汇错误标注的几点建议

提高错误标注质量,需要尽可能地克服人工标注的不利之处。对此,张宝林(2010)①张宝林.汉语中介语语料库建设的现状与对策[J].语言文字应用,2010,(3).提出了4项措施,分别为:设计完善的、便于操作的标注规范;实施有效的培训;标注后的审核修改以及程序的一致性检验。这些措施是针对语料库所有类型的错误标注提出的,也同样适用于词汇错误标注,对于解决词汇错误识别与修改中的各类问题有很大帮助。此外,针对本文提到的几个问题,我们还有以下建议:

(一)邀请专家学者从不同领域进行专项审核

在审核阶段,可邀请不同领域的研究者对各类错误进行专项审核,如邀请语法研究者审核语法错误的标注,词汇研究者审核词汇错误的标注。不同领域的研究者对本领域的知识掌握得更为系统,对相关错误的错误类型和致误原因也更为熟悉,例如,接受过词汇学专业训练的研究者一般会对词语的不当使用更为敏感,也更善于把握词语之间的细微差别,这有利于审核者及时发现漏标问题,面对不当修改,也更易于想到更恰当的当用词,或是更妥当的修改方式。同时,基于词汇学专业知识的理性判断还可以减少标注者主观性的影响,增强标注的客观性。因此,邀请词汇学领域研究者对词汇错误的标注进行专项审核十分必要。

(二)适当吸收双语专家参与审核

Dagneaux等人发现,本族语者与非本族语者合作标注时,标注质量和效率都有很大提高(Dagneaux,1998)②Dagneaux,E.,Denness,S.,Granger,S.Computer-aided error analysis[J].SYSTEM,1998,(26).,不过,对于文本量极大的大中型中介语语料库来说,不太可能要求所有语料都由中外研究者共同标注完成。但是,语料库建设者可以在审核阶段,根据学习者的母语背景,适当邀请一些精通汉语的非汉语本族语者,或精通外语的汉语者参与审核。由于很多词语误用都是由母语负迁移引起的,双语者更清楚学习者为何会出现这些误用,明白学习者原本想表达的是什么,这有利于他们给出更能反映错误原因、更符合学习者原意的修改意见。

(三)针对标注问题细化标注规范

De Cock、Granger(2005)③De Cock,S.and Granger,S.Computer Learner Corpora and Monolingual Learners'Dictionaries:the Perfect Match [J].Lexicographica,2005,(20).指出:“为了最小化标注者的主观性,增强标注者之间的信度,必须要有连贯的错误标注系统和详细的错误标注手册。”张宝林(2010)④张宝林.汉语中介语语料库建设的现状与对策[J].语言文字应用,2010,(3).也提出,提高标注质量,需设计完善的标注规范。但如何让标注规范更为完善?我们认为,可以从已有的中介语语料库错误标注入手,寻找标注问题,针对具体问题细化标注规范,避免类似问题的再次出现。例如,针对词汇错误修改的第2、3类问题,可以提出尽量符合作者原意和避免改动过大的修改原则;针对语言单位层级标注不当的问题,可以明确说明修改词汇错误时,绝不能仅修改词的构成成分,至于标注者以短语为单位进行修改的问题,尽管按照《标注说明》的规定,标注的范围大于词有时是可以允许的⑤《标注说明》规定:“错词、多词、成分赘余的一个标注符号中可以包括两个或两个以上的词”。,但根据《标注说明》的举例“没有{CC2重视做未经}污染的食品就是绿色食品。(重视/做/未/经)”,可以看出,这种情况下,标注符号的左侧是单个词语,即需要将多个词语替换为一个词语时,标注符号内才可以存在两个以上的词,标注规范应补充这一修改条件;此外,针对误标中用一个标注符号标注两类错误的问题,标注规范应明确一错一标的标注原则。

(四)在确保准确的前提下逐步扩大标注规模

错误标注本身就是一项费时费力的工作,中介语语料库的错误标注需要标注者以极大的细心和耐心,付出长时间的努力才能完成,在这一过程中,如果过于追求速度,贪大贪多,必然会影响到标注的准确性,而标注准确性的下降,又会影响到错误统计结果的可靠性,研究者可能由此对语料库的错误标注产生不信任感,提取到相关语料后,还要根据自己的研究目的对语料进行重新标注,这样一来,错误标注的意义就会大打折扣。因此,我们认为,错误标注应以准确为第一要务,当然,保证了准确性,标注的量就有可能受到影响,对此问题,我们同意施春宏、张瑞朋(2013)①施春宏,张瑞朋.论中介语语料库的平衡性问题[J].语言文字应用,2013,(2).提出的“急用先建”的主张,即“以需要为出发点,一时间不必贪大求全”,具体到语料库标注问题,可“先建无标记文本”。“再逐步完善标记文本”,这样既可以满足研究者的需求,又可以给标注工作留出足够的时间,以提高错误标注的准确性和科学性,确保标注出来的语料能够直接为研究者所用。

六、结 语

“HSK动态作文语料库”开汉语中介语语料库错误标注之先河,全面的错误标注为研究者的研究工作提供了极大的便利,系统的标注规范也为其他中介语语料库的标注提供了诸多可资借鉴的经验。然而,由于错误标注主要靠人工完成,加之参与人员众多,难免会存在一些问题。为了使错误标注更为完善,本文以“HSK动态作文语料库”为例,对词汇错误标注问题进行了初步探讨,重点分析了词汇错误识别和修改中的问题,对各类问题进行了量化统计,并针对这些问题提出了一些建议,希望能够对词汇错误标注的进一步完善有所帮助。

The problems of lexical-error annotations in the interlanguage corpus and some suggestions:A case study of the dynamic corpus of HSK compositions

ZHAO Wei

(Center for Studies of Chinese as a Second Language,Beijing Language&Culture University,Beijing 100083,China)

This paper examines the lexical-error annotations of HSK compositions in the interlanguage corpus from the perspective of error identification and error correction.It concludes that there are three kinds of problems concerning error identification:missing annotations,redundant annotations and false annotations.Besides,there are four kinds of problems concerning error correction:incorrect corrections,the corrections differing from the author's original intention,redundant corrections and improper annotations at the level of the linguistic unit.The quantitative analysis reveals that the missing annotation is the most serious.It finally traces the causes of such lexical-error annotations and proposes some suggestions.

lexical-error annotation;interlanguage corpus;dynamic corpus of HSK compositions

H195

: A

: 1672-1306(2015)02-0001-09

[责任编辑:赵昆艳]

教育部人文社会科学重点研究基地重大项目(2009JJD740005);北京语言大学研究生创新基金项目(中央高校基本科研业务费专项资金)(14YCX152)

赵 玮,女,河北保定人,北京语言大学在读博士研究生,研究方向为现代汉语词汇、对外汉语词汇教学。

猜你喜欢
语料语料库词语
容易混淆的词语
找词语
《语料库翻译文体学》评介
把课文的优美表达存进语料库
词语欣赏
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
一枚词语一门静
《苗防备览》中的湘西语料