我国计算机辅助词典编纂系统初步调查研究

2012-05-09 09:42亢世勇王兴隆谢晓艳
辞书研究 2012年3期
关键词:辞书例句词典

亢世勇 王兴隆 谢晓艳

一、引 言

词典编纂是一项异常繁重而又极其严谨的工作。在高科技迅猛发展的今天,传统的词典编纂方式已不能适应现代社会发展新形势的需要。早在20世纪50年代中期,国外就有专家尝试用计算机进行图书编目、资料管理等工作,如R.Busa在世界范围内首先采用卡片穿孔机来处理文献古籍,以便编制其作品的一般词汇索引与重要语词索引。自1956年起,这类工作采用了计算机技术,课题范围也有所扩大,其中包括编纂频率词典、倒排词典、为词典卡片库准备卡片、处理语言材料等。进入60年代后,法国、英国、联邦德国、瑞士等西方国家,先后开展了词典编纂自动化、计算机化的研究,将计算机引入到了词典编纂的全过程,改变了传统的词典编纂模式,极大地提高了词典编纂的效率,词典的内、外在质量得到很大的改善。(郑恩培,陆汝占1999)

今天,西方国家在计算机辅助词典编纂方面已经取得了一系列的成果,主要是一些新型词典的出版,如:“牛津”系列词典,包括《牛津儿童图解词典》、《牛津基础英语学习词典》、《牛津成人英语图解词典》等;“朗文系列”词典,包括《幼儿学习词典》、《少年学习词典》、《成人初学者词典》等;“柯林斯COBUILD系列”词典,包括《柯林斯COBUILD高级英语学习词典》、《柯林斯COBUILD积极型英语词典》等。这些词典的出版和热销,印证了计算机辅助词典编纂的重要性和紧迫性。

而在我国,20世纪80年代前,由于汉字的输入和存储技术不过关,计算机辅助词典编纂技术进展不大。80年代后,汉字输入和存储技术取得重大突破,各种汉字输入平台层出不穷,受其影响,计算机技术在汉语词典编纂中有了一定的应用,如利用计算机辅助编制资料卡片、索引等,但这种应用只是局部的,效果有限,影响也不大。

我国真正的计算机辅助词典编纂系统是从20世纪90年代开始的,至今已形成了蓬勃发展的局面。从整体来看,当前我国计算机辅助词典编纂系统的优势是:可以比较充分地利用语料库的资源和技术,比如利用语料库提供词典例证、辅助词典释义、辅助义项划分、辅助词典立目、辅助语用注释、提供句法信息、辅助语法注释、揭示文化信息、揭示同义词的分布和使用等。这些功能在章宜华的专著《计算词典学与新型词典》中曾着重介绍。

二、计算机辅助词典编纂系统(工具)介绍

计算机辅助词典编纂系统是为词典的编纂、编辑、排版以及词典的修订工作而编制的专门的文字处理平台和管理软件。词典编纂的整个过程包括词典信息的录入、例句的提取、语料库信息的统计分析、语义排版以及词典文本的编辑等。目前,在词典学研究和辞书出版领域,自动化、数字化、计算机化的编辑操作已经涉及词典编纂的各个方面,如资料的收集和存储、编纂过程以及词典发布的形式等。利用计算机技术、信息技术进行词典编纂已经成为词典编纂领域发展的必然趋势。

眼下,我国的计算机辅助词典编纂已取得了长足的发展,我们将重点介绍一下目前国内比较有代表性的计算机辅助词典编纂系统(工具),由于计算机辅助辞书编纂系统是一个广义的概念,因此我们从以下几个方面分别介绍:

(一)计算机辅助词典本体编纂平台或系统

(1)商务印书馆与南京大学联合开发的“‘CONULEXID’词典编纂系统”

该系统采用CLIENT/SERVER的局域网结构,较好地实现了数个客户端对服务器内语料库资源不同程度的获取和共享,提高了语料资源的利用率。它包括词典编辑和词典维护两个子系统。系统的主要功能包括词典录入、例句选取、综合文章查询、文章句式统计及文章词频统计等。这个辅助编纂系统已经成功应用到了《新时代英汉大词典》的编纂、编辑和出版过程中。(章宜华2007)

(2)上海交通大学的陆汝占等开发的“汉语词典编纂一体化环境”

它的功能主要包括语料的采集、加工处理、词典编纂管理、词典质量检测、词典编纂过程中的自检等。该系统主要由语料库、词典编纂、词典检测三个子系统构成。语料库子系统的主要功能是对语料库进行管理、加工和查询。词典编纂子系统致力于实现词典编纂过程的便利化。该子系统又分为词典格式转换、词典查询、词典自检、词典编辑、词典编纂项目管理五个次子系统。词典检测子系统又包括词表构成、查询、词概念关系库编辑系统三个小子系统。经试用,此汉语词典编纂系统得到了好评,其结果是令人鼓舞的。(陆汝占2001)

(3)山西大学开发的“基于语料库的汉语辞书编纂辅助系统”

系统总体上分为“电子辞书数据库及其查询模块”、“现代汉语语料库及其检索模块”及“电子词典编辑模块”,各组模块可分可合,既可以独立使用,又可以联合使用。它将软件工具、语料库及其他电子词典资源有机结合,成为一个具有资源建库、语料检索、信息统计等功能的应用平台。该系统提供多种输出方式,从而为汉语辞书编纂人员提供较为强大的电子信息服务。它主要是基于静态的语料,为了保持更新,山西大学在此基础上进一步设计完成了基于因特网的汉语辞书编纂辅助系统。(张绍麒2005)

(4)北京大学计算语言学研究所开发的“计算机辅助词典开发和管理系统”

该系统主要用于词典检索、编辑、排序、校订、检测、版本比较、自动翻译、任务管理等。它主要包括四个子系统:词典编辑、自动检测、自动翻译、项目管理。词典编辑子系统主要对数据库格式的词典文件进行编辑和整理。自动检测子系统保证了属性填写的正确性和一致性。自动翻译子系统可利用词法分析器,在计算机自动获取的英语译文的基础上,将编辑工作转化为校订工作。项目管理子系统可全面掌握修订信息,及时发现和防止漏校的信息。(王惠,李康年2004)

(5)广东外语外贸大学词典学研究中心开发的“基于微观数据结构的双语词典生成系统”(简你DICT-Generator系统)

该系统是基于广域网环境设计开发的计算机辅助词典编纂及生成平台,适用多语种外汉词典的编纂和自动生成。它主要使用VB.NET和VC++.NET编写,采用Microsoft.SQL server 2000数据库存储词典数据库和语料库数据库。该系统主要包括语料库接口、词典编纂或数据录入、词典数据库、词典审定、词典生成和管理等几大功能模块,其中词典数据库和生成模块是该系统的核心部分,语料库、词典编纂和管理模块是为它服务的。

该系统将词典编纂中的体例结构和微观信息结构设计,以及词典信息的格式化编排和排版等繁琐的工作流程计算机化,改变了传统的词典编纂方式,提高了工作效率。此外,该系统通过互联网建立了安全、稳定的词典编纂及生成平台,实现了互联网上的词典编纂,词典编纂人员可以在世界上任何地方、任何时间使用该系统共同参与词典的编纂工作。该系统打破了现今词典编纂生成的局限,实现了词典编纂生成全过程数字化、自动化、规范化,它将语料处理、词典编纂、词典出版和工作管理等领域的操作有机融合在一起,实现了全方位、多角度的词典信息处理数字化,最大限度地利用现有资源,能高效率地完成词典编纂、修订和出版工作。(刘辉等2006)

由于该系统是在10多年前设计的,原来的开发平台和技术工具已经不适应数字化信息处理的需求;因此,在两年前广东外语外贸大学词典学研究中心就开始对该系统进行升级改造,利用 C#.net2010,Sql 2005,ASP.Net,XML Edit进行词典数据和词典生成平台建设。改造后的平台界面将更加友好,数据处理能力更强大,索引更智能化。

(6)教育部语言文字应用研究所承担的“基于语料库的数字化辞书编纂平台”

该系统突破了传统的辞书编纂概念,建立了一种新型的辞书编纂模式。它是国家863计划“中文信息处理基础应用研究”课题的子课题,以国家语言文字工作委员会大规模现代汉语语料库为基础,以数字化典范辞书为目标,以语义计算理论为基础,以语言信息处理的计算机技术为支撑,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台。具体研究内容包括辞书编纂的新模式研究、数字化辞书生成系统、辞书雷同检查和冲突检测技术、语料库在辞书编纂中的应用、语言处理技术应用于辞书编纂等。该系统提供了多样化的辞书编纂工具,并提倡和建立了辞书编纂的新理念、新模式,使计算机辅助辞书编纂达到了新的高度。

(7)商务印书馆开发的“辞书语料库及编纂系统”

它是该馆在新的历史时期为实现辞书编纂现代化、巩固与保持在工具书出版领域的领先地位而确立的重大科技项目。项目一期工程于2004年11月通过了新闻出版总署、中国出版集团组织的专家验收。该系统建立了从语料采集、辞书编纂到编辑出版的辞书编纂现代化一体化系统,开创了一种新型的汉语辞书编纂模式,在辞书编纂现代化方面取得了突破。项目二期工程主要致力于语料的采集与加工、核心工具书数据库、中小学语文教材教辅语料库、例句查询系统、例句优选系统、辞书数据库排版系统、小学生辞书编纂平台等。

该系统已形成较完善的“三库两平台”架构,即语料库、数据库、资源库和辞书编纂编辑平台、辞书数据库排版平台(系统),以实现从语料采集、辞书编纂编辑到排版出版等环节的全过程现代化、数字化。商务印书馆在此基础上开发了跨库例句查询系统,集成了核心工具书数据库、基础语料库、例句语料库、教材教辅语料库等多库查询功能。正在开发例句优选系统,建立基于句法功能、搭配、词类、词频、句长等条件的分项组合查询功能,以提高例句选择的效率和有效性。

该系统是基于《现代汉语词典》修订需求开发的词典编辑软件,包括编辑、排序、检索、汇总、排版、管理等模块。其中编辑、排序、检索、汇总模块已完成,并进行了相当长时间的多方面测试。排版、管理等模块有待进一步开发。该系统的最终目标是要建立一个综合、全面、高效的词典编辑信息化处理平台,彻底实现词典编辑的无纸化和计算机化。(张绍麒2005)

(9)学者张卫国提出的“计算机辅助编纂系统设计方案”

它由语料库系统、数据库系统和编辑软件等三个子系统构成,包括现代汉语共时描写语料库、语文词典数据库、语文词典编辑应用软件三部分。

实际上,随着信息技术的高速发展,为数不少的词典编辑辅助平台已经研发出来,投入使用且取得了不错的成果。(张绍麒2005)

(二)计算机辅助词典语料检索系统或软件

(1)北京语言大学语言信息处理研究所开发的“汉语语料检索软件”(CCRL)

CCRL的检索目标包括字串、词串、词属性串及词与词属性的混合串,是一种面向语言教学研究的汉语语料检索软件系统。它具有自动分词、自动建立索引、索引检索速度快、可支持多用户远程检索等十个突出特点。CCRL使人们摆脱了收集卡片的体力劳动,还可以进行大规模的语言现象调查工作。使用该软件不需要进行人工标注就能对任何生语料全自动地生成索引并进行检索,能最大限度地提高准确率和查全率,大大提高了语言研究水平,促进了语言教学和语言信息处理的发展。CCRL在应用过程已经取得多项有意义的研究成果。(张绍麒2005)2003年1月,CCRL 1.0版开发成功;2003年5月,测试版正式发布;2004年1月,CCRL通过了教育部鉴定。

(2)清华大学计算机系司宪策和孙茂松开发的“基于WEB的汉语例句自动检索系统”

WEB是一个动态性和时效性很强的语料来源,能及时反映新词语、新用法。随着WEB规模的扩大和信息社会的发展,网络成了语料的重要来源。传统的搜索引擎查询方式比较烦琐,效率也不高。该系统是基于WEB的汉语例句自动检索系统,可以自动地利用搜索引擎来得到与给定词汇相关的文档和信息,并从文档中提出词汇所在的句子。它分为采集和查询两层,较好地克服了开发过程中的句子分割、例句去重、术语定义的粗提取等难题。它先用网络爬虫得到词汇相关网页并从中抽取例句放在磁盘上,然后系统根据用户的配置对例句进行过滤和处理,以得到用户想要的例句。该系统在词典编纂过程中得到了现实应用,鲁东大学亢世勇在编纂《现代汉语新词语词典》的过程中就使用了它,收到了很好的效果。

到长大,你会发现,身边净是随口的赞美“你又瘦了”“你真不错”……不是你真的逆生长,也不是你真的很优秀,只是没人在乎你的成长。烂泥扶不上墙,那不扶也罢;朽木不可雕也,扔回原处就是。

(3)北京大学计算语言学研究所开发的“汉英双语语料库检索系统”

该系统运行环境为微软Windows系列平台,主要采用C++语言实现。它可实现汉英语特定词的检索、汉英语特定模式的检索、检索结果的选择和筛选、检索结果的聚类排序、汉英词语的词频统计、搭配信息的统计分析等六个方面的检索和语料分析需求。该系统立足于双语语料库,通过语料索引进行加载语料、浏览语料、词频统计、语料检索、结果排序、搭配分析等方面的工作。它可以针对词典编纂专家、语言学家的特殊需求提供高效、灵活的高级检索手段,并进一步提供检索结果的经验统计数据,为词典编纂人员做出科学合理的编写或研究决策提供强有力的保证和支持。(张绍麒2005)

(三)计算机辅助词典质量保障系统

上海辞书出版社开发的“辞书质量技术保障系统”。该保障系统主要包括参见系统、交叉处理、审定名词、机构组织、国名地名和词目表、词表索引六个部分,参见系统与交叉处理部分主要利用系统数据库的超链接功能进行工作,审定名词等部分则主要利用复合数据库、计算机检索等相关技术开展工作,它们的共同目标都是最大程度地保证辞书质量。该系统的核心,是将书稿的电子文档或辞书排版的数字化文件,转换成相应的书稿数据库。这些数据库文件需达到数据交换平台的一致性、数据的规整性、非纯文本数据的可视性、数据的可检索性及数据的可迁移性等方面的要求。另外,辞书质量技术数据库还需建立一些诸如历史纪年数据库、国名数据库、机构组织数据库等之类的复核数据库。利用辞书质量技术保障系统,减轻了编辑人员在处理书稿时的复核工作量,提高了核查工作的效率,是一个较为实用的计算机辅助词典质量保障系统。(乐嘉民2007)

(四)计算机辅助词典排版系统

南京理工大学开发的辞书数据库排版系统。该系统由辞书录入、排版和浏览、检索两个子系统组成。它以XML文件为数据交换媒介,以数据库为存贮介质、以方正书版和方正RIP为排版输出引擎,针对辞书排版的特点,提供了包括录入、存贮、排版、预览、输出和检索的全套解决方案,解决辞书出版中比较突出的资源共享、检索、查询、借库更新等难题,为编辑审读文稿提供了便利,缩短了出版周期,降低了出版成本。(张绍麒2005)该系统较为有效地改善了我国的词典排版系统。

(五)计算机辅助双语词典编纂系统

(1)北京大学计算语言学研究所开发的“基于语料库的双语词典编纂平台”

该系统由通过互联网连接在一起的两个部分组成:一部分位于高性能服务器上,为编写人员提供服务。另一部分位于词典编写人员的词典编辑工作台上。这样,词典编写人员就可以通过本地词典编辑工作台接受来自高性能服务器所提供的服务,并在其所提供的服务内容的基础上做出正确、合理、高效的词典编写决策。该系统设定了语料库与参考词典的定制和索引、词典编纂项目管理条目与释义词表的生成管理等11项功能目标。其中语料的检索和统计是核心功能之一,它可以进一步为词典编写人员提供词频表的生成、词的检索、表达式检索、检索结果的聚类排序、搭配及搭配强度的统计分析等5项功能。(常宝宝2006)

(2)解放军国际关系学院李德俊开发的“汉英词典编纂自动化平台CpsDict系统”

解放军国际关系学院的李德俊研发了拥有完整知识产权的汉英词典编纂系统。目前来讲,国内还没有真正进行基于平行语料库的双语词典编纂研究和实践,以及相关软件的开发和使用。该系统是我国第一个基于平行语料库的双语词典编纂系统。它的功能主要是检索对等词、自动提取例证、研究搭配、提供关键词的语境等。面对传统双语词典编纂中释义不当、以解释代替释义词、缺乏必要的语用信息、例证不当或重复等弊端,该系统都较好地予以克服,满足双语词典编纂自动化的要求。

(3)北京大学计算语言学研究所开发的面向语言学家和词典编纂专家的汉英双语语料库检索系统。以上已做过介绍,这里不再赘述。

语料建设WEB语料平行语料语料检索例句提取数据统计词典比较词典编辑词典排序词典生成词典检测质量保证词典排版管理系统广东外语外贸大学:基于微观数据结构的双语词典生成系统++ + +商务印书馆与南京大学:“CONULEXID”词典编纂系统+ + + +上海交通大学:汉语词典编纂一体化环境+++ + +山西大学:基于语料库的汉语辞书编纂辅助系统++ +北京大学:计算机辅助词典开发和管理系统++ + + +

三、计算机辅助词典编纂系统(工具)的功能考察与比较

通过各个系统自身的介绍以及完成的情况,我们可以从“语料建设”、“WEB语料”、“平行语料”、“语料检索”、“例句提取”、“数据提取”、“词典比较”、“词典编辑”、“词典排序”、“词典生成”、“词典检测”、“质量保证”、“词典排版”、“系统管理”等功能模块来对各个系统进行单一性和比较性考察。需要说明的是,以下图表中,“+”表示此功能模块在该系统中显著一些,也就是说,功能模块的考察是相对的。

(续表)

通过上表我们可以发现:

(1)不同的计算机辅助词典编纂系统侧重点是不太一致的。这样的优点是不同类型、特点的词典可以选用不同的词典编纂系统,再就是体现学术上百花齐放、百家争鸣的宗旨,有利于编纂系统的整体推进;缺点是反映出目前我国的词典编纂系统的共享率有待提高,发展层次和功能良莠不齐。这导致重复建设和一定程度上的资源浪费。

(2)从所列出的功能模块看,有几个是比较集中的,比如“语料建设”、“语料检索”、“词典编辑”、“系统管理”等。从学科角度上看,这反映了当前我国多数的计算机辅助词典编纂系统主要还是属于语料库词典学的范畴。

追求词典编纂的自动化是我们的目标,也是计算词典学的主要任务,即开发词典的计算机辅助编纂系统和自动生成系统。这样,不仅可以大大解放人力,还可以提高效率,增强辞书的科学性。语料库词典学和计算词典学与当前我国的计算机辅助词典编纂系统的关系如下图:

(3)对衡量自动化程度比较重要的模块如“词典生成”、“词典排序”、“词典检测”等,多数系统是不具备的。上边我们说了,这属于更高层次的词典编纂自动化领域的内容,是计算词典学所追求的目标,也应该是我国计算机辅助词典编纂系统以后努力的方向。

(4)指向“平行语料”模块的计算机辅助词典编纂系统比较少。这反映了在当前双语词典的市场需求比较大的形势下,可以辅助进行双语词典编纂的系统是比较缺乏的。

(5)指向“WEB语料”模块的计算机辅助词典编纂系统比较少。当前的系统多是静态的或人工建设的语料库,当前WEB网中大量的非数据结构信息是我们取之不尽、用之不竭的新鲜资源,WEB语料的另一个优势是它可以保持很大的动态性。因此,WEB语料库的开发与建设,包括检索系统的完善,也是我国计算机辅助辞书编纂领域今后要努力的方向。

(6)指向“词典检测”和“质量保障”模块的计算机辅助词典编纂系统比较少。词典的编纂不是朝夕之功,必须反复检测、修订、改善,因此,从计算机辅助词典编纂方面来看,是离不开一个成熟的检测或保障系统的。

四、结 语

上述计算机辅助编纂系统的开发只是计算词典学和语料库词典学发展的一个缩影,随着信息技术的进一步发展,将会有更多功能齐全、技术先进的辞书编纂系统被开发出来,词典编纂、出版过程将发生更加深刻的变化:第一,数据输入方式更加便捷。利用计算机多媒体处理技术开发的语音输入法、图文识别技术等应用到辞书编纂中去,能有效提高辞书编纂的效率、质量。第二,出现商品化的辞书编写专用软件,辞书编纂的时效性得到保证。第三,信息高速公路带来了便利,辞书编纂人员利用网络与世界各地的同行进行快速信息交流、学术研讨、合作开发,辞书的科学性、实用性增强。

但是,计算机辅助词典编纂系统应该只是我们暂时的目的或任务,最后的目标是要达到完全的自动化,排除过多的人工因素,实现词典的自动生成。如下图:

从这个目标上说,目前能初步具备这个功能的为数极少,其中的代表就是广东外语外贸大学的“基于语料库的WEB词典编纂及自动生成系统”和“基于网络的词典辅助编纂及生成系统”等,其他的系统主要多是辅助人工进行语料的建设、检索、筛选、排序,例句的提取,以及词典的检测、排版、修订等。

总之,我国的计算机辅助词典编纂系统呈现出了欣欣向荣的蓬勃局面,但如要实现真正的词典编纂和生成的自动化,还需要各个系统互相借鉴、通力合作,更需要转变发展的思维和方式,积极进行理论创新和技术革新,力争从语料库词典学领域慢慢转型到计算词典学,实现两个领域的优势互补,这样,真正的计算机自动词典编纂系统才能得到开发与应用。

1.常宝宝.基于语料库的双语词典编纂平台的构建.辞书研究,2006(5).

2.乐嘉民.辞书质量技术保障系统的研发与应用.中国编辑,2007(1).

3.刘辉等.基于语料库的WEB词典编纂及自动生成系统设计与实现.沈阳师范大学学报,2006(3).

4.陆汝占.汉语辞书编纂一体化环境(上)、(下).辞书研究,2001(2)、(3).

5.王惠,李康年.大型词典编纂的计算机辅助开发与管理系统.辞书研究,2004(2).

6.张绍麒.辞书与数字化研究.上海:上海辞书出版社,2005.

7.章宜华.关于计算词典学理论框架的探讨.辞书研究,2007(6).

8.郑恩培,陆汝占.汉语词典编纂计算机化的若干问题.语言文字应用,1999(2).

猜你喜欢
辞书例句词典
大型辞书疑难字考释七则
米沃什词典
评《现代汉语词典》(第6版)
词典例证翻译标准探索
好词好句
好词好句
好词好句
好词好句
科举干禄与语文辞书编纂
《胡言词典》(合集版)刊行