孙文龙++邹晓玲
摘要在《计算词典学与新型词典》的基础上,《计算词典学》对近十年来国内外计算词典学领域中的学术研究进行系统梳理,展示了现代计算机技术应用于词典学研究、辞书编纂和电子词典出版的新发展、新理论和新成果。《计算词典学》可读性强,在丰富和完善计算词典学理论框架上取得了进步,对我国辞书现代化有着重要的引领作用。虽然还有疏漏不足之处,但白璧微瑕,仍不失为一部为时代而唱的力作。
关键词计算词典学新型词典电子词典辞书现代化启示
一、引言
二十世纪六七十年代,计算词典学研究在西方国家崭露头角,之后经过约二十年的发展,其学科理论体系的构建日趋明朗。20世纪90年代初,电子词典犹如雨后春笋般发展起来,国内外市场出现了一波电子词典出版的高峰。在这种国际学术背景下,以章宜华教授为学术带头人的项目组,以广东省“‘九五重点理论规划项目——90年代新型词典研究”为契机,以现代词典学理论为基础,进行新型电子词典种类、功能特点和构造单元,及其对词典学编纂理论和实践影响的研究,取得了以《计算词典学与新型词典》(2004)为代表的标志性成果。黄建华教授(2004)赞誉“他敏锐地把这场‘计算机给词典学带来的革命(Svensén 1993)的脉搏摸准了”,为建立计算词典学理论框架、促进我国词典学研究和词典编纂实践与现代数字技术尽快接轨做出了贡献。
时至2010年夏秋之交,恰逢上海辞书出版社策划出版“辞书研究文库”系列丛书,章宜华教授对《计算词典学与新型词典》(以下简称“旧版”)进行了全面修订,于2013年推出了一部学术性和前瞻性兼具的新作——《计算词典学》(以下简称“新版”)。作者以深厚的语言学和词典学理论素养,使新版真正成为一部具有纵深度、富于立体感、理论与实践水乳交融的时代力作。因此,旧版到新版绝非书名的简单更换,其在理论和实践上的贡献值得我国辞书界和广大辞书研究者关注,同时也对我国计算词典学的发展具有重要的意义。
二、新版变化特点
较之于旧版,新版最突出的特点之一是写作资料新,具体体现在文献新、案例新和数据新三个方面;其次是语言精确,进一步提高了其可读性。
1.资料新
首先,以英文文献为例,旧版中最新英文参考文献截至2002年,而新版中新增了2003年以来的重要英文文献18篇,其中包括2010年到2012年的文献8篇,占新增文献的44%。这些新文献反映了近十年来国外计算词典学领域理论研究的最新发展动态,如与计算词汇学紧密联系的电子词库理论、与词典语料深加工有关的语料库模式分析和常态与拓展理论、框架网标注的注释分层技术、电子词典知识信息词汇层次的词汇共核理论等。有了这些学术前沿文献的支撑,新版在构筑计算词典学的理论框架方面更能以“理”服人。
其次,新版对介绍现代计算机技术在词典编纂实践中的应用的内容几乎全部进行了置换或重写,并辅以较新的案例。例如,新版第九章在介绍光盘和芯片词典时,全部选用有代表性的新案例,分别介绍了《牛津高阶英语词典》光盘版第7版(2005)、《朗文当代英语词典》光盘版第5版(2009)、好易通牛津词典王CD810、诺亚舟考试王416和卡西欧EW5000L。而旧版中所介绍内容多为20世纪90年代的光盘词典,内容也稍显庞杂。
最后,计算机技术经过近十年的发展,旧版中提供的一些数据在今天看来只具有参考价值和历史意义。新版对数据信息的更新非常及时,见表1:
表1
新旧两版数据信息变化示例
旧版新版
例1
语料库迅速从“十万级”向“百万级”、“千万级”和“亿级”发展,目前COBUILD语料库的容量已超过5亿词。如果没有运算速度达到每秒几亿次、几十亿次的芯片和超大容量的存储介质,大规模语料库的建立和运行是不可想象的。(p.9)
语料库迅速从“百万级”向“千万级”和“亿级”发展,目前COBUILD语料库的容量已超过5亿多词,其中包括一个用于教学的5600万词的子语料库。美国近年新建立的“当代美国英语语料库”也达到了4.25亿词,而2010年11月发布的基于网络的英语语料库达到了33亿词(1.0版)。(p.15)
例2目前运行于网络上的词典很多,很难精确统计。笔者于2003年4月26日利用“google”搜索引擎对“dictionary”进行检索,得到的结果是1320万项。(p.319)
目前运行于网络上的词典很多,很难精确统计。笔者于2011年9月10日利用“谷歌”搜索引擎对“dictionary”进行检索,得到的匹配数字是6.77亿条。(p.359)
2.语言精准
新版中,作者在语言上字斟句酌,下足了功夫。试看从书中摘取的几个例子,见表2:
表2
新旧两版语言变化示例
旧版新版
例1
人类有着五千多年悠长的文明史,而词典编纂史若从词集开始算起也有四千多年了。(p.1)
人类有史可考的文明有五千多年了,词典编纂史若从词集开始算起已有四千多年。(p.1—2)
例2多媒体词典的诞生是当代词典学的重要标志之一。(p.2)
集音频、视频和文本材料于一体的多媒体词典的诞生是当代词典学的重要标志之一。(p.4)
例3计算语言学实际上就是语言学的一种研究方法,即以数理的方法……对语言的各个层面进行统计分析和处理。(p.6)
计算语言学实际上就是凸显语言学的一种研究方法,即以数理模型的方法……对自然语言的各个层面进行统计分析和处理。(p.8)
例4
世界上最早的芯片词典诞生于1983年。(p.356)
世界上最早的芯片词典诞生于1981年10月,是卡西欧公司在小型计算器和数码技术的基础上开发出来的。(p.325)
从表2可以看出:新版中例1的表述更科学,避免了主观臆断;例2经过重新扩充,命题内容更有助于读者加深对“多媒体词典”的理解;例3通过新增三个词语,使计算词典学的本质特征更加明晰;例4通过重新考证,更正了旧版中的事实错误,反映出作者一丝不苟的治学态度。上述例子在新版中俯拾即是,不胜枚举。简言之,同旧版相比,新版的语句用词更加准确,意义描述更加清晰,语言表达也更有说服力。
三、新版在理论上的贡献
从计算词典学形成的理论背景和社会基础出发,旧版较为系统地阐述了计算词典学的研究特色、任务、目标、研究范围及内容,探讨了计算词典学与计算语言学、计算词汇学和语料库语言学等相关学科的联系,“首次建立了计算词典学的理论框架,填补了国内相关研究的空白”(夏立新 2005:154)。在旧版的基础上,新版从计算词典学的定义、产生的内外因及研究背景入手,首次明确地论述了计算词典学的性质特征,提出了计算词典学的理论基础和研究方法,重新评估了计算词典学的主要研究任务,从而使计算词典学的理论框架更加明晰和系统。
1.明确计算词典学的性质特征
计算词典学作为一门不断发展的新兴学科,其理论框架的构建和完善离不开对其学科性质特征的明确定位。新旧两版均在第一章第二节中从三个方面分别描述了计算词典学的学科性质特征,但在结构安排和内容侧重上有所不同,如表3所示。
表3新旧两版对计算词典学性质特征的论述
旧版新版
第二节计算词典学的研究特色
一、计算词典学的特色
二、语料库词典学的特色
三、计算词典学与相关学科
第二节计算词典学的性质特征
一、计算词典学的理论特征
二、计算词典学的实践特征
三、计算词典学的学科交叉融合
从表3可以看出,通过对旧版的调整,新版在结构上更具系统性,内容上更有条理性。首先,新版从两个已被广泛认可的论断出发,对计算词典学的性质特征进行了较为全面的阐述:其一,依据“词典学是研究词典编纂理论和实践的学科”(章宜华 2013:16)的论断,新版区分了计算词典学的理论特征和实践特征;其二,根据“计算词典学是一个综合性的、跨学科的、崭新的研究领域”(章宜华 2004:19)的论断,新版进一步强调了计算词典学的交叉学科性质。
其次,从研究内容的角度来看,计算词典学、计算语言学、计算词汇学与语料库语言学有着密切的关系,彼此相互交织,难以明确分隔,比如它们研究的主要对象——词汇及其语言属性相同,只是研究的角度、方法、重点和目的略有不同,现在没有可能也没有必要将它们分开来对待。(章宜华 2013:19;Ooi & Vincent 1998:37—38)由此,新版明确了计算词典学的理论特征和实践特征,前者是基于计算机技术的词典研究和编纂的一种新型研究范式,呈现出不同学科理论交叉的特点;后者则主要体现在三个方面:即词典语料库和数据库、计算机辅助词典编纂和电子词典,它们“分别代表了目前计算词典学的三个主要研究方向”(章宜华 2007:4—8),其中,“语料库是计算词典学发展的原动力”(章宜华 2013:20)。
第三,新版没有过多地纠缠于“计算词典学是否已发展为一门独立的学科”“计算词典学作为一门交叉学科与其他学科的分野是什么”等理论问题,而是在分析计算词典学产生的内外因的基础上,用更多的笔墨凸显了计算词典学的交叉学科性质。在21世纪的信息社会,传统词典等工具书提供信息的方法、手段、内容等已经满足不了人们学习的需要,这个主要矛盾促使传统词典学必须进行研究范式的变革,拓展新的研究领域,这是计算词典学产生的内在原因;计算机技术的不断发展,特别是自然语言处理中对拥有超强数据处理能力的大型词库或电子词典的迫切需求,是计算词典学产生的一个重要外因。正是这些复杂的内外因交织在一起,才使词库和语料成为计算机科学、语料库语言学、词汇学、词典学、自然语言处理等学科研究的共同焦点,“计算机正好是不同学科融合的一个交叉点”(章宜华 2013:23)。
总之,经过几十年的发展和完善,计算词典学已成长为一个系统的学科(章宜华 2013:22),计算词典学的理论框架在新版中更加明晰。
2.提出计算词典学的理论基础和研究方法
旧版中,作者从与计算词典学紧密相连的两个学科——计算语言学和计算词汇学入手,较为具体地论述了计算词典学产生的理论背景,但没有明确指出该学科的理论基础和研究方法。几年后,章宜华教授(2007:3)才首次提出计算词典学的技术基础是计算语言学,理论基础为计算词汇学。新版在此基础上更进一步,将计算语言学也纳入到计算词典学的理论基础中,并辩证地指出“计算词典学与计算语言学密切相关,后者是前者的理论基础,前者是后者的具体实践”(章宜华 2013:5—6)。新版对计算词典学理论基础的论断是有充分依据的:首先,计算词典学作为一个交叉学科,计算语言学是其与其他学科联系的桥梁,计算语言学学科理论的建设和发展将会直接带动计算词典学的发展;其次,出于自然语言处理形式化的需要,20世纪80年代中期以来词汇论悄然兴起,在语言事实解释的焦点从“以句法规则为中心”向“以词汇描写为中心”转移的大背景下,词库研究由于与计算语言学的结合,成为现代词汇学的主要研究内容,它侧重于“词库语法功能和语义结构的分析,与着重于语法功能和语义结构描写的计算词典学相辅相成”(章宜华 2007:3)。因此,计算词汇学成为计算词典学汲取理论营养的另一个重要来源。
此外,有关计算词典学的研究方法在旧版中也付阙如。新版中则明确指出“计算词典学研究的方法有词典语料库、数据库、计算机辅助词典编纂和电子词典等”(章宜华 2013:13),它们是实现辞书编纂、出版、发行和修订自动化这一计算词典学终极研究目标的重要保证。其中值得一提的是,新版中作者新增了四个与此相关的重要内容:其一是有关词典语料的精加工与数据化,主要包括词汇属性速描、英语词汇数据库、语料库模式分析和框架网词汇数据库四个方面,提出了国际辞书现代化技术的新理念;其二,在论述计算机技术与词典编纂创新之间的关系时,作者介绍了国际上三个比较有代表性的词典编纂平台:法国IDM的词典生成系统DPS、俄罗斯泰比词典编写系统和南非TshwaneLex词典编纂系统,为我国计算机辅助词典编纂工具及商业编纂平台的开发提供了借鉴;其三,就目前技术水平而言,作为词典的主要生成方式——基于数据库的词典生成,作者从词典数据库的性质特征、理论基础和数据定义三个方面,首次详尽论述了电子词典数据库的特点;其四,在开发供“人机两用”电子词典的原则指导下,作者首次尝试提出了电子词典编纂与制作的标准化原则,与传统词典编纂原则互相补充,充实和完善了词典学理论框架。
3.重估计算词典学的研究任务
从形成历史的角度出发,新版重新对计算词典学的研究任务进行了评估,表4是新旧两版在此方面的对比。
表4新旧两版“计算词典学研究任务”对比
旧版新版
研究任务
计算词典学的首要任务是解决词典知识内容的“电子化”和“机读性”问题;其二是研究如何实现词典编纂自动化;其三是研究如何实现大型词典的发行无纸化。(p.14)
计算词典学的首要任务是解决自然语言处理所需的机读词典问题;其二是纸质词典内容的“电子化”和“机读性”问题;其三是研究如何利用词典数据库生成词典;其四是研究如何实现词典编纂自动化;其五,研究如何实现大型词典的发行无纸化。(p.19)
首先,从表4可以看出,从计算词典学的发展历史来看,将其研究的首要任务定位为“解决自然语言处理所需的机读词典问题”是符合客观事实的。因为词典与计算机结合的最初构想始于自然语言处理领域对机器翻译的研究,而对机器翻译系统的开发直接推动了机器词典的发展。近年来,机器词典的研制已成为一种专门学问,在语言信息的处理中变得越来越重要。“在计算语言学界,越来越多的专家把机器词典的规模和质量看作是自然语言处理系统的‘瓶颈。”(林杏光 1999:156)因此计算词典学视角下的用户不再仅仅是人,编者还要为机器着想,开发可以直接或间接地服务于自然语言处理的机器词典,这也是编纂机读人用词典的技术基础和前提。
其次,新版中及时补充了目前计算词典学的另一个主要研究任务:研究词典数据库的建设,以及数据的统计分析、自动存取、自动识别、自动转换成各类词典的问题。可以预见的词典生成有两种方法——基于语料库的词典生成和基于数据库的词典生成。前者是指利用语料库直接生成各类词典,可以说是计算词典学研究的最高境界,也是词典学家最美好的梦想,但目前的研究水平还不能让词典学家这个“最美好的梦想”得以实现;后者是借助词典辅助编纂系统,按词典的微观结构框架构建词典数据库,在数据库的基础上生成词典,是目前词典生成的一个主要手段。(章宜华 2007:10—11)
总的来说,随着计算机技术发展的日新月异,词典学中新理论和新技术应用的不断深化,除部分基础理论外,旧版中原来介绍的技术和描写的事实已经发生巨大变化或不复存在了,新版对计算词典学的整个框架内容进行重新评估、研究和重构,为学科的发展奠定了坚实的理论基础。
四、新版对我国计算词典学发展的启示
我国从20世纪70年代末才开始接触计算词典学的相关研究,起步较晚,在理论研究方面主要以介绍国外理论为主,这种情况在90年代之前尤为明显,其研究内容驳杂,研究成果不成系统,散见于各个刊物或论文集中。目前国内在计算词典学方面的系统研究还处在初级阶段,与国外相比还存在很大差距,这一现象值得我国辞书界思考。章宜华教授的新版著作对推动我国辞书现代化进程有着重要的启示。
1.转变研究思路,进行理论创新
受语言本体主义研究方法的影响,我国大多数研究仍将词典编纂看成是纯粹的语言活动,视词典研究为一个封闭的系统,就词典而论词典,囿于词典本体研究范围内。具体表现在:个案孤立分析多,系统研究成果少;随感经验总结多,宏观理论概括少;编纂工艺研究多,学科理论构建少。此外,国内辞书研究者对与自然语言处理和计算语言学相关的前沿理论研究不多,如广域短语结构语法、中心词驱动短语语法、逻辑数理语义学、蒙泰格语义学、篇章—语义理论、框架语义学等,这些理论在国外词典学界已引起广泛的讨论和研究。(章宜华 2005:6)我国计算词典学的发展离不开现代辞书理论,结合中国实际,吸收国外先进理论并进行创新,是加快我国辞书现代化进程的必由之路。
2.瞄准国际辞书现代化技术的新理念——辞书语料数据化
在信息化时代,辞书现代化的关键是计算机技术和数字化技术的应用,其实质就是文字处理与传输的智能化和信息化。在辞书现代化技术方面,国内辞书界的主要精力仍放在语料库的建设和使用上。而实际情况是,由于语料搜集的方便和国际上免费大型语料库的出现,语料库的建立和使用已经不存在技术和资源问题。国际研究重点已转向语料的深加工和数据库建设,因为他们认识到,编者要想梳理海量语料并从中找到有用的东西绝对是一件既耗时又费力的事情。(章宜华 2012:1—9)因此,我国辞书工作者应看清国际学术发展潮流,利用语言学研究的新成果和数据挖掘技术,将研究重心从语料库建设逐步转移到词典数据库建设上来,从而大大提高语料的精加工能力和词典编纂的效率。
3.加强电子词典的开发
电子词典是辞书现代化技术的具体体现。从表面上看,我国电子词典市场呈现出一片繁荣的景象,各种类型、各种价位的词典应有尽有,但看似繁荣的电子词典市场背后却危机四伏。这与我国电子词典发展的策略问题不无关系。欧美电子词典的发展策略定位准确——以辞书而不是电子为本体来开发电子词典,因此他们的电子词典大多是由著名辞书出版机构在原版纸质词典数据的基础上开发出来的。我国的情况正好相反:电子词典的出版是商业行为占主导地位,很少有专业辞书出版机构参与。(章宜华 2013:417—420)其结果是,欧美国家基于现代化技术和编纂理念开发出的电子词典,占据了世界英语和与英语相关的双语词典的大部分市场(包括我国的辞书市场)。(章宜华 2005:8)为此,国内辞书界应及时总结经验教训,分析辞书市场和中国英语学习者的需求,立足当前,着眼未来,为我国电子词典的长远发展制定出切实可行的规划。
五、新版的不足
首先,由于主客观等多方面的原因,书中出现了一些疏漏之处,见表5:
表5新版中“疏漏之处”示例
例证疏漏之处
例1
人类有史可考的文明有五千多年了,词典编纂史若从词集开始算起已有四千多年[1]。(p.1—2)上标符号“[1]”所指注释在文中缺失。
例2正如刘根辉(2005:2)所说……(p.11)新增引文在参考文献中疏漏未列
例3本章(第九章)主要对欧美国家以及我国台湾地区和内地的光盘电子词典做一些探讨……(p.327)内容概要和下文具体章节内容安排不相符
表5中例1和例2主要是疏忽所致,再版时增补释文和参考文献即可;例3和旧版257页第八章“光盘电子词典”的内容概要完全相同,但新旧两章的结构及内容安排已全然不同,因此新版中第九章的内容提要需要置换。
此外,新版第八章虽然明确了电子词典编纂的一般原则和标准化原则,但并没有进一步就“如何建立起一套电子词典评估体系”这个问题进行探讨。计算词典学评价和批评理论体系的构建也是整个计算词典学理论框架的重要组成部分。新版第九章在介绍光盘与芯片电子词典时,主要以常识描述和知识性介绍为主,缺少对各类词典的对比分析和优劣评判,如可以对《牛津高阶英语词典》《朗文当代英语词典》等英语学习词典的光盘版进行横向或纵向的对比分析,指出其变化发展特点和优缺点及其对我国英汉学习词典光盘版开发的启示等。
六、结语
一部好的学术著作必须倾听时代的足音,把握时代的脉搏,真正做到为时代而唱。章宜华教授以其深厚的学术功底、精益求精的治学态度和“为时而著”的历史使命感,把近十年来我国和西方主要国家对现代计算机技术在词典学理论和实践中的应用进行系统的调查和梳理,为我们描绘了一幅令人向往的图景。尽管新著中仍存在一些不足,但瑕不掩瑜。正如黄建华教授(2004)所指出的那样:“当然,写进书中的某些内容不久也会过时而归于无用,但始终力求站在当代学科前沿的精神,那是永存的。”
参考文献
1.黄建华. 《计算词典学与新型词典》序.∥章宜华. 计算词典学与新型词典. 上海: 上海辞书出版社,2004.
2.林杏光. 词汇语义与计算语言学. 北京: 语文出版社,1999.
3.夏立新. 一部学术性与实用性俱佳的词典学力作——《计算词典学与新型词典》评介. 辞书研究,2005 (1).
4.章宜华. 计算词典学与新型词典. 上海: 上海辞书出版社,2004.
5.章宜华. 我国计算词典学发展的问题及对策.∥张绍麒. 辞书与数字化研究. 上海: 上海辞书出版社,2005.
6.章宜华. 关于计算词典学理论框架的探讨. 辞书研究,2007 (6).
7.章宜华. 国际辞书现代化技术的新理念:辞书语料数据化. 辞书研究,2012 (2).
8.章宜华. 计算词典学. 上海: 上海辞书出版社,2013.
9.Ooi V B Y. Computer Corpus Lexicography. Edinburgh: Edinburgh University Press, 1998.
10.Svensén B. Practical Lexicography: Principles and Methods of DictionaryMaking. Oxford: Oxford University Press, 1993.
(青岛理工大学基础教学部临沂273400)
(责任编辑李潇潇)