王怿旦 张雪梅
电子词典检索功能分析及其发展构想*
王怿旦张雪梅
摘要电子词典作为一个以查询检索为主要任务的工具,检索必然是其中的重中之重,因此其检索性能直接决定了其质量的高低。传统纸质词典的检索路径单一,而数字化环境下的电子词典的检索功能却不断朝智能化、多元化、个性化、层次化方向发展。文章通过对近年来产生的电子词典特有的检索模式的综合分析以及对未来电子词典检索模式的一些构想,以期为电子词典检索系统的优化研究提供一个良好的开端,同时也希望对电子词典用户在查询活动中最大限度地利用现有资源起到一定的促进作用。
关键词电子词典检索纸质词典数字化
引言
20世纪40年代中期,随着对机器翻译研究的深入,电子词典的开发也逐渐进入人们的视野,尤其从20世纪80年代中后期开始,随着计算机技术尤其是微型处理器的发展及个人电脑的普及,电子词典开始步入其黄金发展期。虽然电子词典已为公众所认识和使用,但使用者和研究人员对电子词典仍未形成统一定义。Hartmann等(2000: 47—48)将其界定为“一种基于计算机技术将数据信息呈现于显示器上的方式。”Landau等(2001: 102—103)则将其定义为“借助计算机读取使用以二进制代码的数字化方式存储的文本及多媒体图文声像信息的工具”。有些学者甚至将机器词典,即供机器翻译或自然语言处理用的编码计算机语言词典也纳入电子词典的范畴。(Wright J. 1998: 62—63)可以看出,电子词典是依靠计算机及其技术建立的,这是它与纸质词典的本质区别。我们认为,电子词典是数字化的辞书,但它不是将纸媒词典文本简单电子化或机械照搬印刷辞书的文本内容,而是以电子计算机技术为依托,以数字化语料库(即文本型数据库)、多媒体数据库(如图像数据库、音频数据库、视频数据库等)等为核心的具有自动化性质的语词信息查询检索系统。电子词典按其用途可分为学习型与研究型词典,按其使用介质可分为芯片词典、手机词典、计算机词典和网络词典等。
电子词典功能模块一般包括数据库、检索、界面设置(如语言设置等)、附加功能(如生词本、历史记录、收藏、信息统计等)、系统帮助等。电子词典作为一个以查询检索为主要任务的系统,检索必然是其中的重中之重,是其核心功能模块,其检索性能直接决定其质量的高低。词典检索就是根据用户需要从词典信息集合中找出所需要信息的过程和技术。传统纸质词典的检索方式非常有限,词目字符构成形式往往是其唯一的检索依据,如汉语一般只有笔画、部首、拼音等检索途径,而英语一般只有字母顺序检索,对于这些检索模式,纸质词典的前言、后附页等往往会给出提示,学习者在学习过程中一般也会受到相关的指导。而电子词典的检索功能却要多得多,同时使用者也很难得到较为系统的检索知识与指导。Hill等学者(1989: 83—93)也曾指出,电子文字信息检索系统必将替代纸质词典检索。目前,对电子词典检索模式进行分析的文章国内仅有2004年源可乐的《词典的突破——谈谈光盘词典的特殊检索功能》一文,而国外也鲜有学者对电子词典的检索功能展开探讨。
电子词典检索功能不断发展,除了早期就支持的对检索框中输入语言的自动识别搜索、多语言互查、短语检索等最基本的检索功能外,近年来还发展出了多种便利、高效的检索模式。因此,本文将对目前电子词典的其他主要检索功能做一个较为详尽的综合性分析,并对其未来发展做出一些构想。
一、 电子词典检索模式综合分析
目前,电子词典已构建了较为完备的检索体系,为用户提供多种非常实用的检索功能,其科技化与人性化并重的多元检索模式或路径大大提高了词典信息检索的性能,为使用者提供了极大的便利。下面笔者将就这些方面对当前的电子词典检索模式进行综合分析。
(一) 追踪检索与跨典检索
追踪检索与跨典检索是电子词典使用频率最高的两大基本检索功能与重要特色。
在电子词典中,任何出现在释义和例句中的单词都是一个超链接,可以指向该单词的详细解释,追踪检索技术就是基于这种可以通过程序自动生成的单词之间的超链接性。(孙东云,邱东林2009: 106—114)章宜华(2007: 1—13)也指出:“电子词典实际上是由语言数据、相关语料和语言处理技术构成的超文本语言文字信息框架。”学习者在查阅电子词典中某个单词的释义和例句时,如要对其中的相关目标信息(如新词等)继续深入检索,只需直接点击即可跳转到相应词条的正文,查询完毕后按后退键就可退回到原先页面,这就是追踪检索,亦可称追加査询、连续查询、交叉查询或跳查。使用纸质词典时,要满足同样的需求,使用者只能按照字母顺序再次检索单词,这样的重复操作费时费力;而这种词与词之间的互查功能优势突出,它可以帮助学习者按照语义关联性或自己的兴趣、思路而非线性顺序去主动、迅速查阅并习得更多词汇,这无疑比纸质词典方便得多。这给词典的使用方式开辟了一个新途径,也带来了根本上的改变。(Aust Retal. 1993: 63—73)需要指出的是,这种追踪查询的检索模式目前主要为计算机词典、手机词典及部分芯片型电子词典(如卡西欧、步步高E900)所有,而大多数在线词典与早期开发的EBWIN等电子词典则不具备这种超文本性检索功能。
一部电子词典往往收录整合多部大型、权威词典,包括综合型(如《牛津高阶英语词典》《麦克米伦英语词典》等)、专业型(如《金融和商业英语词典》《计算机术语词典》等)和百科型(如《英文维基百科》《神话百科全书》等)词典。一些甚至可以收纳上百部如巴比伦、灵格斯等PC版电子词典,这是基于目前大部分电子词典所具有的词库开放性,即使用者可根据自身需求下载安装词典并自由设定其使用和排列方式。纸质词典和早期的电子词典通常一次只能查一部词典,而目前的电子词典往往可以在同一界面上同时呈现数十部词典关于某个词语的释义和例句,即实现了跨典检索。跨典检索实现了多部词典内容的完全共享,有效减少了检索上的盲区,扩展了电子词典的功能和范围,显然要比在多部纸质词典中查询同一单词或短语高效便捷得多,信息丰富得多。学习者若遇到不能确定意义的词汇,就可以通过跨典检索综合参照对比这些词典的相关释义后做出恰当选择。同时在电子词典中,上述追踪检索不但能直接链接至同一收录词典的某一相关单词,而且还能直接链接至其他收录该相关单词的众多词典内,这又进一步深化了对跨典检索的具体应用。
(二) 操作符检索
操作符检索,指査询目标词语时,若使用者记忆不清,只能确定其中部分,就可以借助电子词典的各类逻辑运算符和通配符来限定检索范围进行模糊检索,这些逻辑运算符和通配符大都源自计算机程序中的通用操作符。电子词典中的常用通配符包括:“?(问号)”——代表单个字符如一个任意英文字母或汉字;“*(星号)”——代表任意长度字符串,如一个或若干个任意英文字母或汉字。常用逻辑运算符包括:“AND”——表示并列或需同时满足的要求,即组成项必须要同时包含某些字符;“OR”——表示对所列条件满足其一即可,即组成项中只要包含某个字符即可;“NOT”——表示排他性条件,指明确排除项即限定组成项中不出现某个字符,有时亦用“-(减号)”表示。学习者在使用纸质词典时,必须知晓目标词语的正确拼写或构成,否则很难查到,而电子词典的操作符检索功能使学习者在无法确认词目的确切构成或对词目没有把握的情况下,依然可以利用操作符检索到单词。例如,若学习者对reconciliation一词中到底是“e”还是“i”不确定,就可直接输入通配符问号替换得出结果,若对到底是“ci”“ce”还是“si”或“se”无法确定时,则可直接输入通配符星号替换来锁定结果;若学习者对中文“一蹴而就”的“蹴”写法不熟悉或只能确定“一……就”也可用此法解决其查询问题。同时,这种操作符查询检索模式也有利于对同一类型的词,尤其是相同词根或词缀的词进行归类比较,例如学习者可输入“*scibe”从而对含有-scibe 词缀的英文单词进行归纳总结,也可对相同构式的词组进行查询,如输入“一?一?”就可以查出含有这种构式的所有中文词语,如“一心一意”“一生一世”等。另外,字符串运算符“+(加号)”也会被用于电子词典的操作符检索,它是以中文的汉字或英文的单词为基本单位,一般被用于查询较长的短语或句子,如输入“踏破+10功夫”就可从全库语料中查出“踏破铁鞋无觅处,得来全不费功夫”,或输入“All work and no play+5”就可查出“All work and no play makes Jack a dull boy”。上述各种操作符可被组合起来,通过设置更加多样的检索条件,从而更精确地得到所需要的查询结果。例如,输入“*day* AND *night*”,可以检索到词库中包括day和night两个词的所有条目和例句,输入“*old OR new trick*”,可以检索到词库中包括old trick和new trick两个词的所有条目和例句。这种组合检索方式可以在写作中用来查询某种概念的表达式,如想找夏天开黄花的植物,就可输入“*summer* AND *yellow flower*”,然后通过搜索到的释义反查概念。目前,绝大部分计算机词典、芯片词典和网络词典都有这种操作符检索功能。
(三) 修正检索
修正检索主要包括两类——还原式检索和纠错式检索。其一,电子词典为了更精确地查询,在对用户提交的查询式进行检索时一般都会进行预处理,即自动识别并滤去词形变化或屈折变化和词缀,还原至目标语的原形或标准形式,这就是还原式检索,它主要适用于英语等具有词形屈折变化的语言。电子词典可以直接过滤屈折变化和词缀等元语言知识,如将resembling自动还原成resemble,scarves还原成scarf,involved 还原成involve。学习者使用纸质词典查询时,由于语言知识和推导能力方面的局限,其去屈折变化和词缀过程存在一定变数,容易对生词产生误判,如遇到“considerable”时去查consider,遇到“cunning”时去查cun。电子词典这种还原式检索不仅能减少学习者对屈折变化和词缀的误判,也能减少学习者的认知负荷。(De Schryver, Gilles-Maurice 2003: 134—199)其二,当使用者输入不够准确以致在词库中检索不到目标词汇时,电子词典会自动将纠错提示标示出来,并提供一组供用户参考的拼写建议,这就是纠错式检索。一般而言,这组备选项与用户输入的查询项很相似或接近,仅有少量词语成分不同。在纠错建议的帮助下,使用者可以极大地节省自己的时间和精力,并获得满意的查询结果。例如要查询“expense”而错误输入“expence”时,电子词典即可提示出“expense”。目前,计算机词典和网络词典一般都能够轻松应对“查无此词”的情况,能提供对错词的纠正建议,而芯片型电子词典由于其硬件配置方面局限,一般不具备这种自动纠错功能。除了根据词形相似度纠错外,部分电子词典还会基于Soundex或Metaphone 语音算法技术,根据发音相似度给出近似输入的选择。(Phillips L. 1990: 39)如《柯林斯高级英语词典(第五版)》光盘版以及微软的英库在线词典等都具备中英文同音校正功能,此外英库还能给出英文的近音词,如欲查询“peasant”而错误输入了“pesant”时,英库除了给出同音目标词“peasant”外,还会列出“pleasant”“present”等近音词。需要指出的是,目前的在线词典尤其是一些搜索引擎自带的在线词典,会结合对搜索引擎相关输入查询中纠错数据的统计分析,向使用者推荐一组高质量的相关査询匹配,供用户参考,帮助用户轻松地获取满意的检索结果。
(四) 递进式检索
当电子词典使用者输入目标语时,输入栏下方下拉选单会自动出现可供选择的词汇提示滚动列表,学习者可以直接从中点击选取目标词汇,显示窗就会出现关于该词汇的词条正文信息,这种自动填充功能就是递进式检索,亦称接近性检索。这些下拉选单中的词汇一般按字母或拼音顺序排列,随着输入信息的不断增多,这种提示信息也会逐步减少,这使使用者能迅捷准确地查找到目标词。目前大部分电子词典均具备这种边输入边检索的查询提示功能。如使用巴比伦词典查询“pleasure”时,输至“plea”时,下拉选单中会出现“pleach”“plead”“please”等数十种选择,而输至“pleas”时就仅剩“please”“pleased”“pleasant”“pleasing”“pleasure”五个选项,使用者可以很方便地选取目标对象而无需继续输入。递进式检索主要是基于输入内容与词库中目标词汇逐渐扩大的相似度。还有一种特殊的递进式检索模式,它是基于用户在实际应用中的査询历史记录的数据库,在用户输入査询条件时,电子词典按照以往的査询条件自动筛选并推荐给用户一些匹配的选项,从而促进信息检索的完成。如灵格斯词典,它会自动为本地使用者的査询历史建立一个本地数据库,并依据该历史记忆处理后续相应的词汇扩展以便于该特定用户的二次查询。大部分在线词典则会基于所有用户及具体使用者历史查询行为的统计分析(如查询词共现概率、查询者兴趣学科归类等),为使用者提供更为个性化、更为有效的信息检索指导或查询扩展。目前,大部分电子词典都将历史性检索融入普通递进式检索,且将历史性检索置于普通递进式检索结果之前,如用百度在线词典以未登录身份查询“plateau”一词,当输入“pl”时,下拉列表前面依次出现“plot”“plug”“plum”“plaza”这些被检索频率较高的词,其后才是按照字母顺序排列的“PLA”“place”等词。可见,通过递进式检索,使用者更容易得到符合自身查询意图的检索结果。
(五) 发音检索
除了通过词形检索之外,语音检索也为电子词典提供了新颖的检索途径。发音检索主要包括音标输入检索与语音输入检索。首先,音标输入检索是指通过在电子词典中键入目标词的音标检索到相关词目,它主要针对英文的查询检索。目前具备音标输入检索的电子词典不多,主要限于发音词典的电子版,如《剑桥英语发音词典(光盘版)》《朗文发音词典(光盘版)》等。这些发音词典将英语中所有的单元音、双元音、辅音等分别罗列出来并做成按钮形式,使用者只需按顺序将音标点击输入进去就可查到符合该读音的词,例如输入 /w/+/e/+//+//就可检索出weather与whether两个单词。音标输入检索都支持通配符“*(星号)”检索功能,使用者对不清楚或模糊的语音可用其代替进行检索,如输入/d/+/i/+*+/ʃ/+//+/s/就可检索出delicious一词。另外,英库在线词典为不懂英语音标的使用者开发了一种基于字母直接拼读的输入检索模式,即使用者可以输入与英语发音相近的汉语拼音代码,如输入“mao-si(音节处加上连接符)”,英库词典就可自动给出与该拼音相似的英文单词“mouse”。其次,语音输入检索是指一些电子词典融入了目前刚刚流行起来的语音输入技术,如有道词典手机版、金山词霸手机版等,其界面上一般有录音话筒标志,点击之后,进入录音状态,使用者录音完毕之后电子词典就会自动识别检索。由于目前智能手机语音识别技术的软硬件配套均较完备,所以为其开发的手机词典有不少融入了语音输入检索功能,而电脑端词典大多尚未融入此功能,但用户可单独下载安装语音输入软件并配备语音输入设备后将其作为附加功能使用。发音检索使查询方式更加灵活和全面,它使使用者在学习过程中,尤其是学习外语的过程中(如听广播、观看外语影视节目等)可以通过把握一个陌生语词的发音进而查到其含义,从而避免了按单词发音猜拼写这种传统方法带来的低效率。语音检索将成为电子词典检索的一个新亮点。
(六) 提取式检索
除了传统拼写检索(包括键盘/虚拟键盘拼写、复制粘贴和手写输入)以及发音检索方式外,电子词典还支持提取式检索。最先出现的提取式检索是屏幕取词检索,又称“鼠标取词检索”或“即指即查”等,指使用者可以实现对屏幕上任意位置的词汇进行实时抓取与检索,包括文档、图片、浏览器页面、软件界面、flash动画等的文字内容,即将光标定位到该单词所在处便可查询到该词的释义和用法。目前大部分具有该功能的电子词典(如必应词典桌面版、金山词霸PC版等)仍主要借助Windows操作系统的hook(钩子)技术及API拦截技术等在Windows环境下实现屏幕取词检索,但该检索模式局限性较为明显,即仅适用于Windows操作系统的电子词典及检索处理结果还受文档加密等因素影响。目前随着OCR(光学识别)技术的普及与推广,它也正被逐渐融入电子词典检索技术中,如有道词典就加入OCR检索模块,该检索模式的优势就在于其摆脱了前者的限制因素。此外,伴随着智能移动终端(如智能手机、平板电脑)的普及运用,另一种全新的提取式检索——摄像头取词检索也应运而生。由于智能手机普遍配备了自动对焦摄像头,一些手机电子词典借助此功能加上OCR技术,开发出了摄像头取词检索功能,如北京文通科技有限公司开发的基于安卓平台的慧视手机词典,使用者只需将手机摄像头对准或扫一下目标词即可实时检索,这种检索基本不受目标词载体所限制,不管目标词出现在纸质书籍、电脑屏幕、标示牌抑或其他介质上。市场上还出现了一种扫译笔,如蒙恬扫译笔、QuickLink-Pen Elite电子扫译笔和汉王速录翻译笔等,其实质也是一种提取式检索的电子词典,它们也是借助光学扫描设备和OCR技术实现检索,但其局限性比较明显,即仅适用于印刷文本。另外,提取式检索除了使使用者免于输入词汇,还能自动识别处理短语,如使用金山词霸或巴比伦对“regard”一词进行提取式检索,而该词前后分别为“with”和“to”,那么当光标置于regard位置或点击该词时,词典会直接识别并查询出该词组,而非先进入regard一词的整个释义。提取式检索功能符合数字化环境下使用者的学习习惯,较大地提高了查词效率,因而在电子词典中得到广泛的应用。
(七) 语义联想检索
若学习者对检索目标词汇只知概念含义,却不知其词形与发音时,也可以通过一些电子词典提供的语义联想检索功能,根据意义相关的词汇检索到其目标词,这就是语义联想检索。最早提供这种语义联想检索功能的是普林斯顿大学心理学家、语言学家和计算机工程师联合开发的一种基于认知科学的WordNet,该研究型电子词典实质上就是一个覆盖范围宽广的英语词汇语义网,它将语义作为其组织与检索原则,使用者通过它可集中査询某一语义场下所有相关单词即同义词、上位词或者下位词等。随后,一些学习型电子词典也采用了这种语义联想检索功能,如《牛津英语联想词典(光盘版)》《麦克米伦高阶英语词典(光盘版)》《朗文英语联想活用词典(光盘版)》等,它们大都为这种语义联想检索设置了专门的类义词词库(即与目标词同一个语义场的相关词语库),将英语词汇按意义归类,虽然涵盖范围不及WordNet,但它们也搭建起了一定规模的以同义关系为中心角色的语义互连辐射网。如使用者欲查询某种颜色的英文,自己未掌握但同时手头的汉英词典又查询无果时,可以在语义联想型电子词典中输入“color”,其类义词词库就会显示出数十余种颜色的英文单词,使用者可以通过追踪检索这些单词的具体含义,从而做出正确选择。再如,使用者若在翻译或写作中对选择“咆哮”的英文对应词没有把握,便可输入“shout”通过语义联想检索查找出“roar”“yell”“bawl”“bellow”等相关表达式,进而可基于此做出辨析选择。可见,这种以义聚类的语义联想检索模式符合使用者的认知规律与习惯,为使用者理解掌握词汇提供了相当的便利与支持。
(八) 通库例句检索
通库例句检索是指电子词典利用数据挖掘技术(通常是以Lucene开源全文检索引擎作为后台检索模块),实现在整个词库文本中对涉及某个特定单词、词组或其他表达式的集中式例句检索,即使用者只需输入一个单词、词组或其他表达式,电子词典就会自动把含有该单词、词组的例句无一遗漏地搜索显示出来,其实质是一种语料库索引。例如,使用者只需在巴比伦词典例句检索框中输入“undertake”一词,电子词典就会把词库中所有包含“undertake”一词的例句显示(如《英汉大词典》中找到28例、《牛津搭配词典》25例等)并高亮显示关键词,这是纸质词典无法做到的。此外,操作符检索也常常被融入全库检索中,如用户输入“growth AND economy”可检索到词库语料中所有包含这二者的内容。大部分计算机词典(如《牛津高阶英汉双解词典(光盘版)》、金山词霸)和部分芯片型电子词典(如卡西欧EW-V2800H)具有通库例句检索功能。通库例句检索使电子词典实现了词目和词条内容的双向査找,使词库信息得到了充分有效的利用,例句的集中显示让使用者能接触到目标表达式的更多实例与共现规律、丰富语境和文化信息,其感性认识与语用知识会被进一步加强与扩充。若词库中包含双语或双解词典,那么对其高质量语料库的通库检索也将会对积极言语活动如翻译、写作产生很好的指导作用,使双解词典产生逆向效应,如英汉词典反过来就成了内容丰富的汉英词典。
(九) 网络释义检索
网络释义检索功能指利用强大的搜索引擎后台及先进的网页萃取等技术从海量的网页数据资源中抓取提炼大量平行语料,并根据其在不同网页中的共现频次、网页可靠度等来缜密分析判定相关表达式的最佳、最精准的语义匹配关系,从而自动生成一个庞大的、自动实时更新的动态词库。人类语言不断发展变化,文化交流和信息社会的发展更是大大推动了新表述的产生,仅网络上每天就有数十个新词产生,因此无论质量多高、词库多大的词典都难以涵盖所有这些信息,即使是更新速度最快的在线词典词库搜集新词也需要一定的更新时间,因此网络释义检索功能主要是针对那些电子词典本地离线词库或在线词库均尚未收录的各类词汇或新用法等,提供及时、强大的网络词库补充与支持。有道词典率先推出了网络释义检索功能,它利用有道搜索引擎对数十亿网页进行数据挖掘和技术分析,获取了大量存在于网络,但普通词典中查找不到的流行词汇、外文名称和缩写,包括很多影视作品名称、品牌名称、名人姓名、地名、专业术语等。随后,爱词霸、海词、QQ云词典、必应词典等也相继推出了网络释义检索功能,实现了同步搜索互联网上出现的新鲜表述,及时反映了新词语和新用法。如IMHO这一网络热词,在现有普通离线词库或在线词库均无法查到,而在必应词典中输入后直接就跳出了网络释义检索结果“依本人愚见(In My Humble Opinion);以我个人的浅见而言;依愚人之见”,必应词典中其他词典也均未显示任何结果。同样,若在有道词典中输入“腐女”一词,显示出来的仅有网络释义检索结果“英语: Yaoi fandom;日语: 腐女子;法语: Fujoshi”。可见,网络释义检索功能具有很强的实用性,它也将成为大数据和云计算环境下电子词典的重要特色之一。
二、 电子词典检索模式的发展构想
目前的电子词典检索技术虽然已经比较成熟,但仍有待改进与提升之处。笔者下面就这些方面对未来电子词典的发展提出一些构想与建议。
(一) 多媒体数据检索
信息技术和互联网的发展大大推动了多媒体数据的产生、传播和存储。面对海量的多媒体数据,智能的多媒体数据处理技术已成为信息科学的一个重要研究课题。由于多媒体数据能生动形象地体现语言的语用性,在电子词典领域,借助网络大量的音视频构建多媒体词库也必将成为发展趋势,即通过相关音视频材料对目标词进行释义和例句展示。因此,如何对这些多媒体数据进行检索也必将成为重要的研究课题。电子词典用户必然希望能像文本检索一样检索音视频文档并找到感兴趣的信息。相比于音视频数据而言,文本式数据更具可把握性。因此,对于多媒体词库的检索,笔者认为基于语音输入的内部转换机制将成为解决音视频检索的主要途径之一,即电子词典通过内置的语音输入设备自动为音视频文档添加对应文本,这样对音视频的检索实质上就转换为了对文本的检索。当然,对于多媒体词库,词库构建者也可以在构建之初就为其中的音视频文档配备对应的电子文本文档,但是在大数据的环境下,笔者认为要构建大规模的多媒体词库,这种模式显然费时费力,难以跟上数据发展要求。常规的语音识别(如语音输入检索中的语音识别)是人直接与机器的交流,语音的速度通常为正常语速甚至略慢,若说话者语速过快,语音识别系统的识别准确度就会降低。因此,对于电子词典内置的以音视频文档作为识别音源的语音识别应具备目前许多视频播放器具备的变速不变调的性能,即能做到对目标降速不变调,从而确保语音识别的准确度。另外,鉴于目前国内外字幕影视的迅猛发展,电子词典未来的多媒体数据词库也可与其结合,依据从字幕影视中提取出来的字幕进行检索,这样也会非常便利。
(二) 检索结果的聚类排序
检索结果的聚类排序对电子词典未来的发展也相当重要。首先,目前电子词典中的义项排列仍主要参照纸质词典,要么主要遵循历史发展原则,即按词义发展的先后大体时间顺序或词义历史演变过程编排词条的各个义项(如《韦氏新世界词典(第三版)》《牛津英语大词典(第二版)》等),要么遵循逻辑联系,即把关联义项按与本义的联系紧密程度排列(如《美国传统词典》《美国传统学生词典》等),要么遵循使用频率原则,即按常用性或使用频度由高到低排列义项(如《朗文当代英语词典(第三版)》《简明牛津词典(第七版)》等)。这三种义项排列一旦确定就基本固定不变。虽然三者优势都很明显,但也都存在不足,如遵循历史发展原则的词典中,有的目标义项虽然常用,却排在诸多古旧废弃义项后,这就会大大降低词典的查询效率;遵循逻辑联系会造成对语言实际使用情况的忽视;遵循使用频率原则就会造成对逻辑联系的忽视,不利于使用者对词项各义项的理解和记忆,当然三者之间也存在一定程度的重合。义项排列在词典学界历来是个大难题,笔者认为未来的电子词典可以借助设立二次检索功能使使用者对义项排列自行选择(如淘宝购物选项排序一样),即通过融合三大排序原则来满足不同学习者对义项检索的要求。其次,例句的优选排列。电子词典由于其数据载体的特殊性,其所承载的数据信息量极其庞大,这突出体现在其例句的翔实方面,但这也会给使用者造成例句选择上的困惑与麻烦,因此,未来电子词典必须建立一定的例句筛选功能,即学习者可以根据自身水平、学科范围、所含目标词汇语法类别和使用区域(如澳大利亚、美国)等通过电子词典的二次检索从例句信息库中筛选出相应难度、对应语域中最切合自身需求的例句,当然词典用户还可以结合其他要素设定更为复杂、灵活的例句综合检索系统。这种个性化分级分类优选模式可以加强与用户的互动,将是印刷型辞书固定式例句呈现所无法企及的。
此外,需要补充的是,目前一些检索功能并未在所有电子词典中普及,所以如何将这些优势很好地融合在一起进行深层次的开发与利用,也将是电子词典发展中的一个重大问题。
三、 结语
电子词典是现代科技与传统词典编辑相结合的产物,是一种具有革命性意义的词典形式、学习工具,它具有广泛的发展前景和潜力, 它是信息时代中非常重要且必不可少的词典形式。现代科技有力地推动了电子词典的发展,但电子词典不是纸质词典的简单翻版,它除了利用数字介质的特点来承载数据信息外,更是充分发挥了数字技术强大的检索功能和优势,使词典单一的线性检索方式发生了深刻变革,不断朝智能化、多元化、个性化、层次化方向发展,从而实现与数字化潮流、大数据环境的高度兼容。本文重点综述了近年来产生的电子词典特有的主要检索模式,对其做了一个较为系统的定义归纳与分析,同时针对现有的不足探讨了对未来电子词典检索模式的一些构想,希望能为电子词典检索系统的优化研究提供一个良好的开端,同时也希望对电子词典用户在查询活动中最大限度地利用现有资源起到一定的促进作用。
参考文献
1. 孙东云,邱东林.电子词典的超文本性与词汇直接学习.辞书研究,2009(5).
2. 源可乐.词典的突破——谈谈光盘词典的特殊检索功能.辞书研究,2004(1).
3. 章宜华.关于计算词典学理论框架的探讨.辞书研究,2007(6).
4. Aust R, Kelley M J, Roby W. The Use of Hyper-reference and Conventional Dictionaries.EducationalTechnology,ResearchandDevelopment, 1993(41/4).
5. De Schryver, Gilles-Maurice. Lexicographers’ Dreams in the Electronic Dictionary Age.InternationalJournalofLexicography, 2003(2).
6. Dodd S. Lexicomputing and the Dictionary of the Future.LexicographersandTheirWorks, 1989(6).
7. Hartmann R R K, James G.DictionaryofLexicography.北京: 外语教学与研究出版社,2000.
8. Landau S I.Dictionaries: The Art and Craft of Lexicography.Cambridge:CambridgeUniversityPress, 2001.
9.PhillipsL.HangingontheMetaphone. Computer Language, 1990(7).
10.WrightJ. Dictionaries.Oxford:OxfordUniversityPress, 1998.
(王怿旦三江学院外国语学院江苏210012)
(张雪梅南京林业大学外国语学院江苏210042)
(责任编辑李潇潇)
*本文得到江苏省高校优秀中青年教师境外研修项目、国家社科基金项目 (11BYY116)和教育部社科基金项目(13YJA740038)的资助。