语料库在《对外汉语新词语词典》微观结构中的运用

2011-10-30 03:31
重庆理工大学学报(社会科学) 2011年10期
关键词:词目词形义项

崔 乐

(中国传媒大学文学院,北京 100024)

语料库在《对外汉语新词语词典》微观结构中的运用

崔 乐

(中国传媒大学文学院,北京 100024)

随着计算机技术的发展与语料库技术的日益成熟,语料库在词典编纂中的巨大功用已成为共识。《对外汉语新词语词典》是面向以汉语作为外语的中高级水平学习者的外向性、积极型学习词典。语料库在《对外汉语新词语词典》编纂中的运用渗透在每一个微观结构中,语料库技术提供的丰富的语言知识与语言资源使词典编纂更加方便快捷,有力地促进了外向性词典编纂由传统的经验型向现代的科学型转变。

语料库;《对外汉语新词语词典》;微观结构;运用

《麦克米伦高阶英语词典》对语料库的定义为:“a collection of written and spoken language stored on computer and used for language research and writing dictionaries.”[1]定义显示语料库最基本的用途之一就是词典编纂。《对外汉语新词语词典》是面向以汉语作为外语的中高级水平学习者的外向性、积极型学习词典,是专为外国学习者“量身定做”的、能够满足其查询和学习新词语需求的对外汉语学习词典。笔者参与了这一词典的编纂实践。该词典编纂时主要运用了国家语言资源监测语料库,也根据需要辅助使用其他语料库来改进词典微观结构的编纂。

一、语料库与词典编纂史

利用语料库辅助词典编纂的传统由来已久,可以追溯至17世纪。英语词典编撰之父Samuel Johnson编纂《英语语言词典》时,为保证引证来源的真实权威,为大约4万个词条从当时150年间的名家名作中收集了15万余条例句,建立了第一个用于词典编撰的大型手工语料库。James Murray在编纂《牛津英语词典》时,曾用手工方式从公元1000年之后的英语文学作品中选取了500万条引证作为编纂词典的基础。1961年出版的韦氏第三版词典则使用了包含约1 000万条例句的语料库来解释说明近50万个词条的意义和用法。韦氏第三版很可能是最后一部应用手工语料库编纂而成的大型英语词典[2-3]。1961年布朗语料库(Brown Corpus)在美国诞生,这是世界上第一个机读语料库。1978年,英国建成结构与布朗语料库基本相同的LOB语料库(Lancaster-Oslo-Bergen Corpus)。但限于自身规模,这两个语料库并未引起词典学界的兴趣。1980年,柯林斯出版公司和伯明翰大学合作建立COBUILD语料库,并基于该语料库的数据陆续出版了一系列COBUILD词典。COBUILD语料库是世界上最大的经过切分标注的语料库,到20世纪90年代已达3.2亿词的规模。朗文—兰开斯特语料库(Longman-Lancaster Corpus)是继COBUILD语料库之后建立的中型语料库,由含有5 000万词的语料组成。之后建立的英国国家语料库(British National Corpus)由含有1.17亿词的语料组成。这三个语料库成为20世纪90年代柯林斯出版公司、朗文出版社、牛津大学出版社等编纂词典的重要资源[4]。如今,随着计算机技术的不断发展与语料库技术的日益成熟,语料库在词典编纂中的运用日益普及。著名的词典学家Landau预言:“从长远的观点来看,真正使用语料库将成为全世界词典编纂的一条准则。”[5]

二、语料库在《对外汉语新词语词典》中的应用

语料库在词典中的巨大应用价值已成为词典编纂者的共识。那么,语料库究竟对于词典编纂有何效用呢?下面以《对外汉语新词语词典》为例予以说明,语料库在该词典中的功用可以呈现在表1中。下文将以词典的微观结构为序一一阐述。

表1 语料库在词典微观结构中的应用

(一)提取新词语

长期以来,传统的新词语词典主要靠人工阅读的方式在报章杂志中选取词目,具有很大的偶然性、局限性与主观性,难以全面地搜罗新词语。自2007年起,国家语言资源监测与研究中心首次采用语料库自动提取技术搜集当年产生的新词语,先用机器自动筛选出新词语候选集,再经人工审核,剔除不合标准的词语。这种基于语料库的新词语搜获手段较之传统手段更为科学可靠。《对外汉语新词语词典》的词目多源自新词语资源库,资源库中的大部分词条均提取自国家语言资源语料库。该语料库具有“流通度高、开放性强、规模巨大”三个特点。语料范围囊括了主流的、影响力较大的报纸语料、广播电视语料、网络新闻语料,且以每年度10亿字次的规模持续滚动增加。“到目前为止,各子语料库都已经积累了从2000年到最近的语料,总体规模近50亿字次。完全具备了自动搜获新词语的基础条件。”[6]

(二)确定词目

《对外汉语新词语词典》收录词语的一个重要原则是高频性原则。高频性是指词语在语言生活中常见常用。鉴于这部词典的功用是辅助学习者进行解码与编码活动,故所收词目应以供学习用的积极词汇为主,允许收录少量供查询与理解用的消极词汇,不收冷僻、低频的非常用词。只有保证词典的词目以积极词汇为主体,才不会模糊积极学习型词典的定位。收词时,筛选词目候选集所参考的两个重要指标就是词目在语料库中的频次与文本数,二者分别反映出词语的常用程度与流通范围。此外,还借助互联网,在“百度新闻”中检索考察词语频次,保留高频词,剔除低频词。

(三)确定同义异形词的词形

语料库所提供的词频不仅可以在收词时决定词语的去留,还可以决定词形的选择。新词语在产生之初往往是不稳定的,不论是词义还是词形都处于动态变化中,常常有多种词形表示同一语义。当一个词义具有多个不同词形时,应在不同词形中选取一个相对高频的词形作为词目。例如:在“青年旅馆、青年旅舍、青年旅社”中选择“青年旅馆”作为词目;在“人体炸弹、人肉炸弹”中选择“人体炸弹”作为词目;在“洗面奶、洁面乳”中选择“洗面奶”作为词目。在几种词形中,频次相对较高的词形作为词目出现,频次相对较低的词形如果也足够高频,就在释义中以“也写作……”、“也称……”的形式介绍出来;如果不够高频的话就可能只是非正式、不规范的写法,不必介绍。例如,“发飙”与“发彪”相比较,两个词形的频次有绝对差距,“发彪”的频次很低,那么“发彪”就只是不规范写法,不应该以“也写作……”的形式介绍出来。

(四)确定参见释义的主副词条

当几个同义异形词都有必要收录进词典时,不同词语的释义方向是从副词条指向主词条。这就需要利用语料库考察频次,选取高频词作为主词条。低频词作为副词条,以参见主词条的方式来释义。例如:【部落格】参见“博客”。【电视直销】参见“电视购物”。

(五)确定读音有分歧的词语的读音

对于读音有分歧的词语,可以在口语语料库中考察其读音,根据从俗从众的原则,选取高频的发音方式作为词典的规范读音。由中国传媒大学开发的传媒语言语料库是国家语言资源语料库的子语料库,既包括音视频文件,也包括转录的文本文件。对于读音有争议的词语,可以首先在文本语料中进行检索,进而追踪该词语在对应的视频或音频中的发音。由于广播电视媒体的有声语言具有很强的示范性,因此从该语料库中统计得到的读音结果的可信度和权威性较高。

(六)确定词语的词性

当词典编纂者不能确定词目词的词性时,可以通过语料库检索出的大量语料考察词性。例如,对于“糗、晕、抓狂、脑残”等表示心理状态的词语的词性存在争议。《2007汉语新词语》[7]将“脑残”标注为动词,但从词语在检索语料中的使用情况来看,这个词可以受程度副词修饰,可以作定语修饰名词,可以替换为“傻、笨、愚蠢”,属于形容词。同理,“糗、晕、抓狂”也标注为形容词。

(七)确定兼类词不同词性的标注顺序

在标注兼类词的不同词性时,应先标注相对高频使用的词性,再标注相对低频使用的词性。语料库为考察兼类词不同词性的使用情况提供了充足语料。以“小资”为例,在传媒语言语料库2007年、2008年的广播电视语料中,一共检索出125例(检索语料片段如图1),剔除诸如“小资产阶级、小资金、小资料”等伪词频后,频次为69。其中,名词用法为47例(68%);形容词用法为22例(32%)。因此“小资”的词性标注为“名词/形容词”。

图1 “小资”在语料库中的检索结果片段

(八)辅助词目翻译

当为词目词选取对等或近义的英文翻译时,利用英汉双语平行语料库辅助翻译可以大大提高翻译的准确率。平行语料库将一种或多种语言形式出现的文本及其译文在段落层次上左右对齐,在句子乃至短语层面尽量相对应。由于平行语料库收录的译文多出自专家之手,可以保证翻译的规范与准确,因而被广泛应用于翻译领域[8]。在双语词典的编纂中,利用双语平行语料库可以保证英语译文忠实、地道。

(九)发掘词语的语用特征

很多时候,外国学习者对词语的概念意义已经理解清楚,句法规则也已掌握,但生成的句子还是有碍交际,其原因往往是违背了语用规则。词语的语用规则是词语在具体语境中遵守的隐性的规则,往往不易引起人们注意。通过语料库检索工具可以大量分析词语运用的真实语境,发掘出一些具有规律性的语用规则。语料库提供的上下文语境有助于显示出词语的感情色彩。例如,“死党”原本是个贬义词,但当表示“亲密的好朋友”这个新义时则是褒义词,这可以从上下文语境中“要好、亲密、友情”等共现词中体现出来。语料库还可以显示词语主要用于哪种语体中。如果检索出的文本特点具有某些共通性,则说明词语具有固定的语体特征。例如,通过语料库检索发现,“惊爆”多用于新闻标题中,“抓手”多用于政府公文或领导讲话中。

(十)发掘词语的句法特征

词语的句法特征包括词类、句法功能、常见搭配等。以“小资”为例,通过分析检索语料可以发现,“小资”是名形兼类词,当“小资”作名词时,最常见的用法是与“情调”共现;做形容词时,常受程度副词“很、那么、这么、比较”等修饰。搭配是“在自然说话或写作中,两个或两个以上的单词在一起出现的频率比它们与其他词在一起出现的频率高的词语组合”。“只要搭配中有些成分固定不变,其他部分也可以有所变化。”[5]搭配往往是隐匿在言语之中,只有通过语料库才能发现。例如“抓手”一词,在国家语言资源语料库中检索该词不难发现(检索语料片段如图2),其常用在下列结构中:“以……为抓手”、“把……作为……的抓手”、“……是……的重要抓手”。

图2 “抓手”在语料库中的检索结果片段

(十一)辅助释义

释义是词典编纂的核心环节。确定词语内容的所指范围是一项复杂的工作,需要掌握好准确性与包容性的平衡。著名词典学家Landau曾用画圆圈的比喻来阐述二者关系[5]:如果把释义看成是一个圆圈,圈内是成千上万密密麻麻的任意圆点,每个点都代表着词语的一个具体用法。圆圈的外围分布着一些零散的点儿,这些点代表词典释义未能包含的用法。如果圈外圆点的用法数量增大到一定程度,圆圈就要适当扩大。编词典时既要把相关用法包含进来,又要不至于把圈扩得太大。不能简单地认为词典释义未能包含的用法就是错误的,因为释义仅仅是从“大多数”用法中抽象出来的意义。词典释义的过程就如同一个“画圆圈”的过程,而圆圈的边界则是由一个个“圆点”来决定的。语料库提供的大量语料显示出的词语用法就是这一个个“圆点”。因此,若想考察“圆点”的分布范围,必须借助语料库检索工具。只有对词语所在真实语境中的大量自然言语进行抽象分析,才能提取出核心义位。对于多义词的语义而言,则有不只一个“圆圈”,“圆点”的分布状况更为复杂。这时就更需要借助语料库来甄别不同用法的语义区别,以归纳出不同的义项。以“超女”为例,在国家语言资源语料库中的检索语料片段如图3。可以看出,“超女”既可以指比赛,也可以指比赛选手。因此归纳出两个义项:①“超级女声”比赛的简称。②指参加“超级女声”比赛的选手。一般而言,义频越高,义项被收录的可能性就越大,义频越低,义项被收录的可能性就越小。

图3 “超女”在语料库中的检索结果片段

(十二)确定多义词义项的排序

多义词的不同义项依照义频排序,常用的放在前面,次常用的放在后面。之所以按照频率排列义项,是为了方便用户锁定目标义项。因为越是常用的义项,被查阅的概率就越高,优先将常用义项置前,可以节省用户的查找时间;即便排在前面的义项不是用户所要查找的义项,用户也可以轻易跳过这个他已经熟知的义项,继续向后查找。根据义频排列义项可以大大节省用户的查找时间。例如,“城市病”既可以指城市存在的社会问题,也可以指这些社会问题带给人的疾患。通过语料库考察可发现前者更为常见。因此,义项排序为:“①现代大城市普遍存在的社会问题,如人口增多、交通拥挤、环境污染等;② 由于上面原因使城市人容易得的疾病。”又如,“小资”根据词性的频次高低应按“名词/形容词”的顺序进行词性标注。相应地,义项排序与词性顺序保持一致:“①名词。指追求物质和精神享受、讲究生活品味和情调的人。② 形容词。形容人或环境有品味、有情调。”

(十三)为配例提供原始例句与语境

传统的词典编纂采用的例证主要来自现有的报刊书籍,编者需要花费大量时间和精力从印刷资料中摘选例句,既拖延了编纂周期,又往往难以找到合适的例句。而借助于语料库,则可以轻松迅捷地找到大量例句。从语料来源来看,外向性学习词典主要采用改编例和自撰例。语料库可以为改编例句提供大量原始语料,编者可以从中挑选适合的语料加工编辑,编写出既难度适宜又能体现词语真实用法的例句。如果编者选择自撰例句,应尽量让不同例句的内容有所区别,以保证例句内容的多样性与趣味性。当编者“词穷”或缺乏灵感之时,语料库里的大量例句可以为编写例句提供语境参考,激发出编者的创作灵感。

(十四)采集词语的相关背景知识

《对外汉语新词语词典》的知识窗板块用于向读者介绍与词目词相关的背景知识,并根据需要有意识地输入文化信息。由此,其所提供的知识应当精确、权威,避免含糊或错误的表述。为了保证知识的客观性,避免夹杂编纂者的主观因素,就必须借助语料库。语料库为编者采集合适的背景知识提供了大量可供选择的语料,既减轻了搜集信息的劳动量,又能保证信息来源的准确性。但由于语料来源的纷繁复杂,并不能保证所有语料信息一定都是权威准确的。因此,编者不能不加批判地盲目引用语料,应当根据语料库显示的语料出处评估语料信息的权威性,尽量选取主流媒体发布的权威信息作为知识来源。

三、结语

随着计算机技术的发展与语料库技术的日益成熟,语料库在词典编纂中的巨大功用已成为共识。语料库在《对外汉语新词语词典》中的运用渗透在每一个微观结构中,语料库技术提供的丰富的语言知识与语言资源使词典编纂更加方便快捷,有力地促进了外向性词典编纂由传统的经验型向现代的科学型转变。

[1]麦克米伦出版有限公司.麦克米伦高阶英语词典[K].北京:外语教学与研究出版社,2003.

[2]刘庆荣.语料库与词典编纂[J].上海师范大学学报,2001,30(3):109 -112.

[3]杨晓军,李赛红.语料库在词典编撰中的优势——兼评《牛津高阶英语学习词典》(第6版)[J].外语与外语教学,2003(4):47-51.

[4]Cowie A P.英语学习词典史[M].北京:外语教学与研究出版社,2002.

[5]Landau,Sidney.词典编纂的艺术与技巧[M].北京:商务印书馆,2005.

[6]侯敏,周荐.2008汉语新词语[K].北京:商务印书馆,2009.

[7]侯敏,周荐.2007汉语新词语[K].北京:商务印书馆,2008.

Application of Corpus in Microstructure of New Words Dictionary of CFL

CUI Le
(Communication University of China,Beijing 100024,China)

With the development of computer technology and corpus technology,application of corpus technology to lexicography has become consensus.The new words dictionary of CFL is a kind of foreigner-oriented,active dictionary which is specially compiled for learners who regard Chinese as a foreign language and have middle or high level language competence.Corpus is fully employed to enhance the compilation of every microstructure of the dictionary.The rich language knowledge and language resources provided by corpus make compilation of dictionary more convenient and efficient,and strongly promote the transformation of compilation of foreigner-oriented dictionary from experiencebased method to Science-based method.

corpus;new words dictionary of CFL;microstructure;application

H164

A

1674-8425(2011)10-0084-06

2011-03-15

崔乐(1986—),男,河北沧州人,博士研究生,研究方向:应用语言学、词典学。

(责任编辑 王烈琦)

猜你喜欢
词目词形义项
词形变换解题指导
藏语传统辞书词目编排法探析
韩国学校语法中副词形语尾的变迁
带前置功能的词形《 в сопоставлениис 》的结构与搭配
白编《近代汉语词典》词目补遗
日语中“V1+V2型复合名词”的分类
——基于《广辞苑》从有无对应动词形角度
两用成语中的冷义项
Enhanced Precision
《汉语新词新语年编2003-2005》词目年代研究——兼论《编年本〈汉语新词语〉系列词典部分词目的著录年代》