张永伟
摘要:自计算机发明伊始,文字处理就成为计算机技术的核心课题。世界上主要的文字系统包括拼音文字、楔形文字、象形文字等,如何对其进行编码、显示、识别,一直是非常棘手的问题,解决方案不胜枚举。紧随文字处理技术的是辞书编纂系统,即利用计算机文字处理技术辅助人编纂各类人用辞书。这项研究国内外都已经开展多年,然而汉字处理仍然对辞书编纂系统研发和使用带来挑战。文章选择多个有代表性的辞书编纂系统进行评估分析,指出它们目前存在的问题,同时提出解决方案。
关键词:辞书编纂系统汉字编码汉字处理挑战解决方案
一、汉字处理标准
为使计算机能够处理汉字,必须对汉字进行编码。在计算机中使用汉字,涉及汉字的输入、存储、处理、交换、显示、输出等。根据使用目的的不同,汉字的编码可以分为输入码、内码、交换码、字形码等。(闫鸿滨2013)其中,内码是汉字在计算机内部存储、处理时使用的代码,交换码是用于汉字处理、汉字通信等系统之间信息交换的代码。二者和汉字处理关系密切,有许多相关的编码标准。
(一)国家编码标准对汉字的处理
现行的汉字国家编码标准有GB/T2312—1980、GB/T13000—2010、GB18030—2005等,以下分别简称GB2312、GB13000、GB18030。
GB2312(全称为《信息交换用汉字编码字符集·基本集》)于1980年3月9日发布,收录了6763个简体汉字,解决了大部分简体汉字的计算机信息处理问题。《信息交换用汉字编码字符集》除基本集外,还包括多个辅助集,对汉字简体罕用字和偶用字,以及简体字对应的繁体字进行扩展。完整的《信息交换用汉字编码字符集》共收录汉字近3万个,但由于大量简体字、繁体字字位一致/重叠,简繁汉字不能共存,极大限制了辅助集的实际应用。此外,GB2312也不兼容任何国际编码标准。
GB13000于2011年1月10日发布,收录了世界上多种文字字符。其中,汉字包括中、日、韩(以下简称“CJK”)统一汉字扩展A和扩展B等区域,总数超过7万个。GB18030于2005年11月8日发布,是汉字内码的国家标准,向下与GB2312所对应的内码兼容,收录了GB13000.1—1993的全部CJK统一汉字和我国部分少数民族文字的字符,合计70244个汉字。GB13000和GB18030都参考、兼容同期国际编码标准,繁体汉字和简体汉字也分别使用不同字位,解决了国际标准兼容和简繁汉字共存的问题。
(二)Unicode国际编码标准对汉字的处理
Unicode编码(又称“万国码、国际码、统一码”)于1991年10月发布1.0.0版,2019年5月7日发布最新版12.1.0版。Unicode是国际编码标准,在全球广泛应用。Unicode的编码体系包含128个组,每个组包含256个平面,每个平面包含256个行,每行包含256个字位。每个字符在编码空间上的一个字位上进行编码。Unicode收录多国语言字符,其中88889个汉字主要在基本多文种平面(0号平面,码值范围为0000—FFFF)和表意文字补充平面(2号平面,码值范围为20000—2FFFF)进行编码。更具体地,最常用汉字主要在0号平面的CJK基本区编码,其他汉字在0号平面的CJK基本区扩展区、扩展A区及2号平面的扩展B—F区等区间进行编码。
Unicode彻底避免了简繁汉字无法共存的问题,在被广泛应用的同时,也被国家标准兼容。例如GB13000、GB18030收录的汉字范围均等同于同期Unicode的汉字范围,是新版Unicode收录汉字范围的子集。
(三)汉字编码与辞书编纂系统的汉字处理
国内销售的软件系统都需要参考或执行汉字的国家编码标准[1]。辞书编纂系统并非独立存在,也依赖于操作系统、汉字输入法等其他软件系统,辞书编纂系统也应该支持国家编码标准。
国外辞书编纂系统声明支持国家标准的比较少,但几乎全都声明支持Unicode标准。通过对国家标准和Unicode标准的收字对比得知,如果一个编纂系统,完全支持Unicode标准,则它也完全可以支持现行国家标准所编码的汉字。甚至,支持Unicode标准的辞书编纂系统可以比只支持国家标准的编纂系统处理更多的汉字。
辞书编纂系统对汉字处理水平直接反映了汉字编码标准执行情况,但辞书编纂系统不仅仅是执行、使用各种汉字编码标准的一般软件系统,它是运用汉字编码标准最充分的系统之一,是检验汉字编码标准科学性、完备性最好的窗口之一。
二、国外五大系统概况
国外辞书编纂系统有许多,无法一一分析。本文选择了5款具有代表性的国外辞书编纂系统,分别从系统研发单位、用户群体、影响力、是否免费、编纂辞书种类、体系架构[2],以及特色功能等方面进行介绍。选择这5款国外辞书编纂系统主要出于以下几点考虑:
(1)选择影响力大、用户多、具有代表性的系统,同时兼顾系统功能设计及技术实现的多样性。
(2)慎选长期没有更新,疑似停止开发维护的辞书编纂系统。例如Glossword、Matapuna、MyVocabtionary、DictionarySystem等系统。此类系统一般都免费、开源,并且功能相对较少。
(3)不选尚未获取系统副本或试用账号的商用辞书编纂系统。例如IDMDPS、ABBYYLingvoContent、Lexonomy等系统。
(4)同一组织参与开发的,只选择最有影响力的辞书编纂系统。例如FLEx、LexiquePro[3]和WeSay系統都由同一组织开发或参与开发[4],本文只选择FLEx系统。
(5)不选完全没有考虑支持汉语、汉字的辞书编纂系统。例如爱沙尼亚语辞书编纂系统EELex、捷克Symfonie公司开发的LEXIK系统等。EELex系统正在支持的单语、双语辞书有50余个,没有一个和汉语辞书有关。
此外,还有一些辞书编纂系统,除有关文献外,找不到更多的系统信息,这类系统也不在本文选择之列。例如荷兰词典研究所研发的INLDWS系统(Tiberiusetal2014)。
(一)TLex系统
TLex(又称TshwaneLex)系统由南非TshwaneDJe公司研发,是商用软件,被全球多家出版社、政府组织及个人采用,包括牛津大学出版社、培生朗文公司、加拿大司法部、马来西亚语言与文化学院等。TLex可以编纂单语或多语辞书。TLex系统是一个专业、功能丰富、国际化、使用方便的辞书编纂系统,支持语料库查询,高级显示样式,条目字段自由定制,实时预览,自动编号,自动索引,自动交叉引用,有多种输出、排版、出版接口,支持团队协作,支持XML、Unicode等各类工业标准。
TLex是C/S架构系统,同时也是单机版架构系统。不选择任何远程服务器(局域网或互联网)的情况下,用户也可以在本地打开/创建辞书项目,此时TLex可以作为功能独立的单机版系统使用。
(二)FLEx系统
FLEx(FieldWorksLanguageExplorer的简称)系统开放源码,允许任何人免费下载使用。FLEx在全球范围内拥有广泛的用户群体。到目前为止,已经有270种语言的辞书借助FLEx辅助编纂。FLEx可以编纂单语或多语辞书,尤其适用于编纂少数民族语言辞书。FLEx包括词库、文本与词、语法、笔记本、列表等五大功能模块,支持语料库自动分析、检索,支持高级显示样式、条目字段自由定制、实时预览、自动编号、自动正/逆向索引、自动交叉引用、语义领域列表、批量编辑操作,支持多种格式的辞书输出。此外,SIL国际开发了辞书开发过程(DDPWebsite2017),成为一种新的辞书创建方法。FLEx系统也是辞书开发过程的一个典型实现。
与TLex系统类似,FLEx系统也是C/S架构系统兼单机版系统,用户既可以在远程服务器上创建、编纂辞书,也可以只在本地创建、编纂。
(三)Termbases系统
Termbases系统由爱沙尼亚WerkdataO公司设计开发,主要用于编纂术语辞书,但其开放的功能设计完全可以用于编纂普通的单语或多语辞书。Termbases系统采用当前主流Web开发技术开发,界面简洁、操作友好、浏览器兼容性强。Termbases系统实现了多种格式的导入、导出,条目属性字段自由定制,交叉引用等辞书编纂系统的核心功能。此外,Termbases系统还支持自定义主题分类树,允许条目在该主题分类树下有效组织。但是,Termbases系统未提供详细的用户操作手册,更适用于具有熟练计算机操作技能的个人或小团队编纂小型辞书使用。
Termbases系统是B/S架构系统,用户需要连接互联网使用。
(四)DEBWrite系统
DEB(DictionaryEditorandBrowser)系统是为捷克科学院捷克语研究所开发的一套通用辞书编纂平台,由多个子程序组成。DEBWrite系统是DEB系统中相对独立的一个部分,主要用于辅助辞书编纂。DEBWrite系统可免费注册使用,采用开放标准研发。DEBWrite系统已被多个辞书项目采用,例如捷克布尔诺理工大学开发的《美术术语词典》(Rambousek&Hork2015)、捷克国家民俗文化研究所开发的《捷克语英语民族学术语词典》等。DEBWrite系统可以用于编纂单语或者多语辞书。
DEBWrite系统是B/S架构系统,可以快速创建、发布辞书。系统用户分为管理员、编纂人员和普通用户三种角色。DEBWrite系统支持条目字段自由定制、基于多模板的多样式实时预览、自动交叉引用,支持团队协作,支持XML、Unicode等各类工业标准。除此之外,DEBWrite系统还支持图片、音频、视频等多媒体附件的上传与预览。所以,借助DEBWrite系统可以辅助编纂多媒体辞书,这是DEBWrite系统的特点之一。
(五)Lacslann系统
Lacslann系统由爱尔兰都柏林城市大学研发,旨在实现可以处理任意结构化数据集的通用的数据处理平台。借助Lacslann系统,可以编纂管理地名数据库、参考文献数据库、图书目录等,当然也可以编纂单语辞书、多语辞书等。例如,爱尔兰国家术语数据库就是借助Lacslann系统编纂管理。
Lacslann系统是B/S架构系统,采用微软ASP.NET、C#等技术开发,系统稳定、兼容性好。Lacslann系统支持条目字段自由定制、自动交叉引用,支持团队协作,支持XML、Unicode等各类工业标准。Lacslann系统允许定义多个线性分组,针对每个分组定义不同的条目字段及不同的字段属性,每个条目都只能在一个分组下管理。Lacslann系统提供了强大的检索功能,除支持针对整个条目内容的普通字符串检索外,还支持针对条目每个自定义字段构建复合查询条件的高级检索,这对辞书版本修订、专项核查等工作尤为有用。
三、国外五大系统的汉字处理功能与特点
(一)汉字录入、存储与显示
TLex、FLEx、Termbases、DEBWrite、Lacslann等系统均支持Unicode标准,但未说明具体支持Unicode标准的哪个版本,或者说支持Unicode标准哪些平面、哪些区间的汉字。许多辞书编纂系统开发时都会选择UTF8字符编码表(Unicode标准的一种编码方案),存储0号平面字符会比存储2号平面字符使用更少的存储空间,但缺点是系统不能直接支持2号平面的汉字。除Unicode标准明确编码的汉字外,还存在许多Unicode标准尚未编码的汉字,下面分别讨论。
1.Unicode标准明确编码的汉字
TLex系統的预览区无法同时显示分属不同字库的汉字。FLEx系统支持0号平面汉字和2号平面汉字的录入、存储、检索。但由于只支持一种字体,所以在条目编纂、列表、检索、显示等界面都无法同时显示分属不同字库的汉字。由于Unicode支持的汉字数量超过单个字体文件所能编码的字符个数,无法同时显示分属不同字库的汉字意味着系统无法同时显示Unicode标准的所有汉字。
Termbases系统支持0号平面汉字,不支持2号平面汉字。保存条目时,Termbases系统自动删除第一个2号平面汉字及其之后的所有字符。例如保存条目“白豚”(其中“”是2号平面汉字,“白、豚”都是0号平面汉字),则实际只可以成功保存“白”,“”及其后面的“豚”均被自动删除。DEBWrite系统支持0号平面汉字,对2号平面汉字的支持同样存在缺陷。使用DEBWrite系统编纂条目时,条目一旦保存,重新编辑或者进入条目列表界面时系统就只能显示这些汉字的HTML转义形式,例如“”显示为“𬶨”。DEBWrite系统无法保存包含HTML转义字符的条目,只有将“𬶨”这样的HTML转义字符再改回汉字“”才可以再次保存。此外,DEBWrite系统条目的搜索、导入、导出等功能对2号平面汉字的支持也都存在类似问题。
Lacslann系统兼容性较好,可以完美支持0号平面汉字和2号平面汉字。
2.Unicode标准未明确编码的汉字
汉语辞书中会收录一些Unicode标准未明确编码的汉字。例如《新华字典》第11版收录了37个Unicode9.0标准没有明确编码的汉字,Unicode标准更新到12.1.0版时,CJK扩展F区新收录了其中的17个,还有20个汉字尚未编码,例如“、、、”等。TLex、FLEx、Termbases、DEBWrite、Lacslann等系统均没有对Unicode标准未明确编码的汉字的录入、编辑、存储、检索、显示、导入、导出等给出解决方案。
(二)汉字样式设置
许多辞书编纂系统都支持条目样式的设置,如字体、字号、颜色、加框等。对于整个条目字段,TLex、FLEx、DEBWrite等系統均支持复杂的样式设置;Lacslann系统只支持简单的样式设置,包括字体颜色、字号、字形、字体粗细四种;Termbases系统不支持任何样式设置。为整个条目字段设置样式可以满足大部分国外辞书条目的显示需求。
为了正常显示分属不同字库的汉字组成的多字条目,需要为一个条目字段设置不同的字体。此外,汉语有儿化现象,许多辞书使用小字号[5]的“儿”表示,例如“挨个儿、爆肚儿、板儿寸、豆瓣儿酱”等。这些都要求为同一条目字段设置不同的汉字样式。TLex、FLEx、Termbases、Lacslann等系统均不支持为同一字段内的不同汉字设置不同的样式。DEBWrite系统使用XSLT配置条目显示模板,可以为同一字段设置不同汉字样式。
(三)汉语条目辅助注音
标注条目读音是汉语辞书的通常做法。条目读音和是否轻重读,是否可以插入其他成分,是否是专有名词,是否两读等密切相关,条目读音无法完全依赖系统自动标注,但编纂系统可以给出候选建议,供编纂人员参考。
TLex、FLEx、Termbases、DEBWrite、Lacslann等系统均不支持汉语条目自动注音。
(四)汉语条目自动排序
汉字的读音、笔画数、笔顺、部件都可以作为汉语条目排序的参考依据。汉语条目的排序方式比字母文字语言条目的排序方式要多,算法也更加复杂。
TLex系统支持极为丰富的条目排序方式,包括汉字偏旁部首/笔画数排序(先按汉字偏旁部首排序,偏旁部首排序相同的,再按笔画数排序)、汉字拼音排序等。但是,TLex系统排序所需的汉字偏旁部首、笔画数、拼音等资源无法修改和补充。如果辞书收录的词目用字超出系统内置资源范围,条目将无法正常排序。除上述内置排序方式外,TLex系统还支持编写脚本语言定制个性化的排序方式。
FLEx系统支持四种排序方式,其中参照某种语言排序规则的排序方式支持简体中文,但它既不是单纯的通过笔画数和笔顺排序,也不是完全的音序排序,汉语条目排序时会出现错误。FLEx系统还提供了两种自定义的排序方式,均无法通过编写少量规则实现条目自动排序。《彝汉英常用词词汇》是借助FLEx系统编纂的三语辞书,它对条目的汉语排序最终是通过编写计算机后处理脚本辅助实现的。(Walters2009)
Termbases系统支持按照概念对条目进行分组,支持对条目每个字段的正序排序或逆序排序。DEBWrite系统同Termbases系统一样,支持对某个字段的正序排序或逆序排序,但均未针对汉语条目排序进行任何优化。Lacslann系统只提供系统默认的唯一一种排序方式,不支持单一字段的正向、逆向排序。
(五)汉语条目内容自动检查
条目内容需符合汉语语言文字规范标准,符合辞书选词立目、释义、配例的一般规律,针对辞书编纂目的及用户群体特点进行有针对的规范、约定,避免各种类型的错误与问题。辞书编纂系统应该可以替代或辅助人工进行编纂内容的检查。
FLEx系统在设置其文字系统时,可以设置合法字符、部分标点符号用法等。借助合法字符的设置可以自动检查条目注解中是否包含不合法汉字,从而避免收录表外字。借助标点符号用法的设置可以自动检查汉语标点符号的部分错误用法,如括号是否匹配、单双引号是否交替使用、同类括号是否嵌套等。除此之外,FLEx系统没有更多针对汉语辞书的编纂内容自动检查。
TLex、Termbases、DEBWrite、Lacslann等系统均不支持汉语条目内容的自动检查。
四、国内五个系统的逆向局部检测
国内研发的辞书编纂系统与国外辞书编纂系统相比更加封闭,难以获取,但公开的辞书查询系统很多。从技术的角度而言,辞书查询系统和辞书编纂系统都涉及汉字的输入、存储、查询、显示等操作,是辞书编纂系统的重要组成部分和用户使用辞书的接口。因此,对国内辞书查询系统的分析可视为对国内辞书编纂系统的逆向局部分析。
(一)国内系统选择
上海海笛数字出版科技有限公司(以下简称“海笛”)研制了诸多语种、上百款词典及语言学习类手机数字产品,包括商务印书馆的《新华字典》《新华大字典》,上海辞书出版社的《现代汉语规范字典》等权威辞书,在手机版辞书查询系统方面具有代表性。
同方知网公司研制发行了《中国工具书网络出版总库》(以下简称《工具书库》),集成了120余家出版社的9000余部工具书。此外,同方知网还采用同类技术制作了《商务印书馆·精品工具书数据库》《汉语大词典》和《康熙字典》(知网版)等辞书库,在网络版辞书查询系统方面具有代表性。
本文选择海笛和同方知网两家国内公司研制的5款具有代表性的辞书查询产品进行分析,分别是海笛研制的《现代汉语规范字典》《新华大字典》《商务国际·现代汉语词典》手机版,以及同方知网研制的《工具书库》中的《学生新华字典》和《现代汉语大词典》网络版。
(二)测试汉字的选择
本文选择测试汉字如表1所示:
测试汉字均源自《通用规范汉字表》(2013年国务院公布),包括2个二级字、3个三级字,均是Unicode扩展区间汉字,且分布于不同区间,是具有代表性且计算机不容易处理的汉字。
(三)国内辞书检索系统对测试汉字的处理
本文选择收录汉字、拼音/部首查询、录入查询、字形显示、复制可用、繁体字查询等6个方面进行分析,处理结果如表2所示。其中,收录汉字指辞书是否收录该汉字;拼音/部首查询指辞书是否可以通过拼音检索或者部首检索的方式查询到该汉字;录入查询指在搜索框中直接输入汉字,观察是否可以得到正确的查询结果;字形显示指系统是否可以正确显示所查汉字字形;复制可用指是否可以复制查询出来的汉字并在辞书系统之外使用;繁体字查询指是否可以通过查询汉字对应的繁体字间接地查询到该汉字。
通过表2不难看出,海笛公司研制的3款辞书产品在拼音/部首查询、字形显示、繁体字查询方面处理得很好,但这5个测试汉字均无法录入查询,查询结果也無法复制到系统之外使用。经过分析,海笛对5个测试汉字分别自定义编码,同一汉字在不同辞书中的编码也不相同。例如“”在3款辞书中的编码分别是“ED79”“E1D1”“F52D”,“”在3款辞书中的编码分别是“F346”“E026”“F4E2”。相同汉字在不同辞书中使用不同编码,导致这些汉字在不同辞书之间也无法直接查询参考。
同方知网研制的《工具书库》可以通过拼音/部首检索查询到测试汉字并准确显示汉字字形,但均无法通过直接录入查询到任意测试汉字,也无法通过查询繁体字间接找到测试汉字。《工具书库》中存在部分测试汉字未使用Unicode已有编码,而采用了自定义编码。比如《学生新华字典》中的“”编码为“EC52”,《现代汉语大词典》中的“”编码为“E243”。自定义编码的测试汉字可以显示正确的字形,且在不同辞书间自定义编码一致,但无法复制到辞书系统外部使用。
通过以上对国内两大电子辞书产品研制公司的辞书查询系统或者辞书产品的分析不难看出,国内辞书查询系统对汉字的处理存在许多不足,国内辞书编纂系统应该也存在类似的不足。
五、改进方案
以下分别从系统研制者和使用者两个视角给出更好处理汉字的解决方案。前者有助于编纂系统的改进,后者有助于辞书编纂人员选择合适的编纂系统或者使用现有编纂系统时可以更好地处理汉字。
(一)支持汉字录入、存储与显示
编纂系统初研或改版时,应选择支持Unicode标准2号平面字符的开发语言、开发框架及数据库等产品。
对于Unicode标准尚未编码的汉字,编纂系统应该在自定义编码区为这类汉字定义编码,同时要保证系统内这些编码的唯一性。此外,编纂系统还需要维护这类汉字的字模字库(也可以是某种汉字描述语言描述的汉字信息)、字形结构、读音、偏旁部首、笔画数等信息。借助这些信息,编纂系统才可以支持这类汉字的查询、输入、处理及显示等功能。此外,要加强与Unicode标准相关组织及表意文字小组的沟通,提供相关汉字信息,促成汉字被Unicode正式编码。
对于Unicode标准已经编码的汉字,也依然有许多汉字缺少输入法、汉字字库的支持。对于这类汉字,编纂系统可以采取与Unicode标准尚未编码汉字类似的方式处理。只有这样,本文第四节介绍的国内辞书产品的输入查询和汉字复制到系统外使用的问题才可以得到解决。
如果编纂系统无法改用支持Unicode标准2号平面汉字的技术,也可以使用汉字的HTML转义形式。此时,编纂系统在处理汉字时需要准确识别2号平面汉字,并进行汉字与其HTML转义形式的互相转换。当Unicode标准发布新版本时,许多原Unicode标准未编码的汉字被编码。编纂系统应该不断跟进Unicode标准编码汉字的变化,做好与新编码汉字的编码转换。
在汉字的输入问题上,编纂系统应该提供单独的汉字输入模块,用于输入普通汉字输入法无法输入的汉字及Unicode标准尚未收录的汉字。在汉字的显示问题上,编纂系统应该可以为缺少字模字库支持的汉字提供字模字库,或者字形图像,保证不同用户在编纂、预览、导出等阶段看到的汉字字形完全一致。
对于编纂人员而言,选择编纂系统时,辞书条目用字范围(如是否需要收录2号平面汉字),不同类型、不同Unicode平面汉字是否可以被输入和显示都应该是考虑因素。
(二)支持汉字样式设置
为了显示条目一个字段中分属不同字库的汉字,也为了正确显示诸如儿化这样的汉字格式,编纂系统应该可以支持为同一字段的内容设置不同的样式,已定义的样式应该可以复用在其他字段内容上。也就是说,样式的最小应用单位不应该是条目字段,而应该是条目字段的某段文本内容。系统应该支持多种样式,例如字体、字号、字重、加框、加圈、颜色等。
编纂人员选择编纂系统时,首先需要确定辞书条目用字是否分属不同字体文件。如果是,则只能选择和DEBWrite一样的系统。如果使用TLex、FLEx、Termbases、Lacslann等系统,就需要增加额外标记来标识不同样式。例如,可以使用〈儿〉表示小字号的“儿”,使用“挨个〈儿〉”表示“挨个儿”。这种方案的缺点是会影响条目预览的直观效果。
(三)支持汉语条目自动注音
编纂系统应该可以根据词目、词性等信息自动注音。对于包含多音字的,应该可以给出候选读音列表,并按音序或概率排列,也可以将其他辞书中的词目读音列为参考。有的辞书,如《新华字典》会同时对字头标注拼音和注音,为简化编纂人员工作、保证拼音与注音的一致性,编纂系统还应该支持拼音与注音的自动转换。
需要指出,系统自动标注拼音时,应遵循《汉语拼音方案》(1958年由第一届全国人民代表大会第五次会议批准颁布)、《汉语拼音正词法基本规则》(2012年由国家质量监督检验检疫总局、国家标准化管理委员会发布)等汉语拼音有关规范标准。辞书另行规定的,也要提供相应的扩展接口支持。
(四)支持漢语条目自动排序
编纂系统应该支持音序排序、部首排序和笔画排序等多种排序方式。为实现这些排序方式,编纂系统应该管理每个汉字的读音、部首部件、笔画数、笔顺等信息。编纂人员可以随时修改上述信息,修改结果也可以及时反馈在排序结果上,不再需要人工干预。对于多字条目,编纂系统应该支持多字条目组成汉字及其读音的自动切分、对齐,这是汉语条目自动排序的基础。
如果编纂人员需要在编纂过程中实时查看排序结果,则应该优选TLex、FLEx等部分支持汉语条目排序的编纂系统。使用本文介绍的5款辞书编纂系统编完辞书后,通过编写后处理脚本的方式来排序条目、验证排序结果都是非常必要的。
(五)支持汉语条目内容自动检查
编纂系统应该依据语言文字国家规范标准、行业规范对条目内容进行自动检查。例如,自动检查辞书中使用的标点符号是否符合《标点符号用法》(2011年由国家质量监督检验检疫总局、国家标准化管理委员会发布)、《夹用英文的中文文本的标点符号用法(草案)》(2014年由国家语言文字工作委员会发布),用字是否使用了汉字的旧字形、是否落实了《通用规范汉字表》,用词是否使用了《第一批异形词整理表》(2001年由教育部、国家语言文字工作委员会发布)中规定的不推荐词形,等等。除落实规范标准外,辞书还可能有特殊的检查需求。例如,编纂中小学学生使用的辞书时,注解用词需参考中小学教学大纲和中小学学习词表。目前,受制于语言信息处理技术的限制,基于字符匹配的条目内容自动检查是可行的,更深层的句法、语义、语用等自动检查还难以实用化,这也是条目内容自动检查的发展方向。
为实现编纂内容的自动检查,编纂系统需维护汉语各类规范标准、字表、词表、教学大纲等语言资源,同时还要支持这些资源的动态更新。
六、结语
汉字数量巨大,编码标准不断修订,属性多样,自动化算法复杂,这些特点对辞书编纂系统提出了更高的要求和更大的挑战。许多国外辞书编纂系统旨在支持多国语言辞书的编纂,在汉字处理上存在许多不足。通过国内辞书查询系统的逆向局部检测发现国内辞书编纂系统在汉字处理问题上也存在类似的不足。为更好地支持汉语辞书编纂与应用,这些辞书编纂系统、查询系统需进一步优化汉字处理。辞书编纂人员可以结合所编辞书收字、收词、体例要求选择最合适的辞书编纂系统,也可以采用多种变通方法弥补系统在汉字处理方面的不足。
附注
[1]GB2312,GB13000曾经都是强制性的或者部分强制性的,自2017年3月20日起,都转化为推荐性标准,不再强制执行。GB18030中的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩展A区部分为强制性,其余为推荐性的。对于CJK统一汉字扩展BF区的汉字如何处理,国家标准并未给出强制规定。
[2]体系架构指编纂系统是单机版架构、C/S(Client/Server,客户端服务器)架构、还是B/S(Browser-Server,浏览器服务器)架构。其中,单机版架构的系统可以独立安装在用户个人电脑里,无需连网就可以使用系统全部功能。C/S架构的系统安装在用户个人电脑里,有部分功能必须借助互联网才能实现。B/S架构的系统不需要在用户个人电脑里安装任何软件,用户只需通过通用浏览器就可以使用系统的全部功能,全部数据存储在服务器端。C/S架构和B/S架构的系统更适用于团队协作和编纂更大规模的辞书。
[3]LexiquePro系统的汉语名称为辞书宝。
[4]FLEx由SIL国际(SIL最初是SummerInstituteofLinguistics的简称,现在SIL称为SIL国际,被大家所熟知)开发,LexiquePro系统由SIL马里开发,WeSay系统由Payap软件开发组织、SIL巴布亚新几内亚以及SIL国际合作开发。
[5]这里的小字号是相对于条目中其他正常的汉字字号而言的。
[6]海词研制了20多个语种词典及80多个行业词典的手机程序,包括商务印书馆的《新华字典》《新华大字典》,上海辞书出版社的《现代汉语规范字典》等权威辞书,在基于手机程序的辞书出版方面具有代表性。
[7]同方知网公司研制发行了《中国工具书网络出版总库》(简称《知网工具书库》),集成了近200家知名出版社的近7000册工具书。此外,同方知网还采用同类技术制作了《商务印书馆·精品工具书数据库》《汉语大词典》和《康熙字典》知网版等辞书库,在网络电子图辞书出版方面具有代表性。
参考文献
1.华烨,李亮.国际计算机辅助词典编纂系统管窥.辞书研究,2012(5).
2.亢世勇,王兴隆,谢晓艳.我国计算机辅助词典编纂系统初步调查研究.辞书研究,2012(3).
3.李开编著.现代词典学教程.南京:南京大学出版社,1990.
4.闫鸿滨主编.计算机科学技术概论.北京:清华大学出版社,2013:44.
5.张效祥主编.计算机科学技术百科全书(第2版).北京:清华大学出版社,2005.
6.中国标准出版社.信息交换用汉字编码字符集·基本集.北京:中国标准出版社,1981.
7.中国社会科学院语言研究所词典编辑室编.现代汉语词典(第7版).北京:商务印书馆,2016.
8.中国社会科学院语言研究所编.新华字典(第11版).北京:商务印书馆,2011.
9.RambousekA,HorkA.DEBWrite:FreeCustomizableWeb-basedDictionaryWritingSystem.ElectronicLexicographyinthe21stCentury:LinkingLexicalDataintheDigitalAge.ProceedingsoftheeLex2015Conference.Trojina,InstituteforAppliedSloveneStudies/LexicalComputingLtd.,2015.
10.TiberiusC,NiestadtJ,SchoonheimT.TheINLDictionaryWritingSystem.SlovencˇinaEmpiricˇneAplikativneinInterdisciplinarneRaziskave,2014,2(2).
11.WaltersD.FromDatabasetoPublication:ToolsforTypesettingaThree-languageDictionary.SILForumforLanguageFieldwork.2009(3).
12.GB13000.1—1993.信息技術通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面.
13.GB18030—2000.信息技术信息交换用汉字编码字符集·基本集的扩充.
14.GB18030—2005.信息技术中文编码字符集.
15.GB/T13000—2010.信息技术通用多八位编码字符集(UCS).
16.GB/T2312—1980.信息交换用汉字编码字符集·基本集.
17.ABBYYLingvoContent系统网站.http:∥www.abbyy.cz/products/smb_enterprise/dictionary_writing_system/(accessed:16/03/2017).
18.DDPWebsite.DicationaryDevelopmentProcess.http:∥www.sil.org/dictionaries-lexicography/dictionary-development-process(accessed:01/01/2020).
19.DEBWrite系统网站.https:∥abulafia.fi.muni.cz:9050/(accessed:24/03/2017).
20.DEB系统网站.http:∥deb.fi.muni.cz/(accessed:23/03/2017).
21.DictionarySystem系统网站.http:∥dictionary-system.hvalur.org/(accessed:07/04/2017).
22.EELex系统网站.http:∥eelex.eki.ee/(accessed:15/03/2017).
23.FLEx系统网站.http:∥fieldworks.sil.org/(accessed:15/03/2017).
24.Glossword系统网站.http:∥glossword.biz/(accessed:17/04/2017).
25.IDMDPS系统网站.http:∥www.idmgroup.com/(accessed:18/03/2017).
26.Lacslann系统网站.http:∥lxln.prettydata.eu/(accessed:25/03/2017).
27.LEXIK系统网站.http:∥www.lex-ik.cz/(accessed:16/04/2017).
28.LexiquePro系统网站.http:∥www.lexiquepro.com/(accessed:04/03/2017).
29.Lexonomy系统网站.http:∥www.lexonomy.eu/(accessed:16/04/2017).
30.Matapuna系统网站.https:∥sourceforge.net/projects/matapuna/(accessed:06/04/2017).
31.MyVocabtionary系统网站.https:∥sourceforge.net/projects/phpvocabtionary/(accessed:06/04/2017).
32.Termbases系统网站.http:∥www.termbases.eu/(accessed:01/04/2017).
33.TLex系统网站.http:∥tshwanedje.com/cn/(accessed:14/03/2017).
34.WeSay系统网站.http:∥wesay.palaso.org/(accessed:15/03/2017).
(中国社会科学院语言研究所/辞书编纂研究中心北京100732)
(责任编辑 郎晶晶)