基于学习者视角词典编纂自动释义的理据

2013-04-10 21:19王纯磊
湖北社会科学 2013年12期
关键词:电子化词典学习者

王纯磊

(宿迁学院外语系,江苏宿迁 223800)

基于学习者视角词典编纂自动释义的理据

王纯磊

(宿迁学院外语系,江苏宿迁 223800)

信息化词典学的发展必须满足学习者的个性化需求和特殊学习需求。在此我们探讨词典编纂面向学习者自动释义功能的理据:一是纸质词典信息的重现是电子化词典的主要编撰方式;二是从查询自动化发展到内容生成自动化是编纂自动化的基本需求;三是发展到面向用户的自动化是自动化编撰的有效跨越;四是可拆解的系列自动化计算过程是人工释义过程的基础。

学习者;词典编纂;自动释义;理据

在高度信息化的当代社会,词典编纂依然是数年乃至数十年的大工程,而互联网时代的信息爆炸和技术进步已经让词典编纂自动化的脚印日渐凸显。在紧跟词典编纂者的多样化需求的背景下,通过建设一系列的语言信息数据库和语言分析引擎,词典编纂在众多环节已经由手工发展到自动化,而且其自动化与智能化的程度不断提高。[1](p138)实现词典编纂的自动化是传统计算词典学的至高追求。建立起面向常人阅读的巨大词库与面向机器存取的巨大词库是词典编纂的自动化过程中的主要任务。但是我们认为:建立宏观与微观的计算词典学的体系可以从面向编纂者的自动化发展到面向词典用户的自动化。之所以要发展到面向词典用户的自动化是因为纸质词典信息的重现是电子化词典的主要编撰方式,同时国内外的主流词典编纂系统还徘徊在排版自动化和查询自动化的两个层次。因此发展到内容生成自动化成为迫切所需。[2](p94)本研究将基于读者的认知视角来分析为词典编纂而进行的自动释义研究的相关理据。

一、学习者的学习型双语词典和释义模板的建构

学习型英英词典是一种单语词典,它往往是学习型双语词典与学习型双解词典的原型词典,因此在学习型词典中居于核心和全局的重要地位。一般而言学习型双语词典提供的对等词也是基于源语释义的,然而学习型双解词典更是源语释义及其释义译文来直接呈现。[3](p85)基于语言符号的任意性,言语概念层次的差异性和跨文化认知的趋异性,我们许多研究者坚持这样一种观念:外语学习者由单纯使用双语词典到高频地使用双解词典再到有规律地使用单语词典的复杂过程体现了词典编撰中源语释义的独特的文化认知价值与理解性学习价值和元语言的侵略性影响。

贯而言之,不同释义版本之间优劣评判的参照点是:释义输出中的实词。它是释义输出中的核心,释义方式是多元的,但是内在实质是一元的。无论是整句释义方式或者短语释义方式或者近义词释义方式,也或者是人工释义或是自动释义,它们释义的核心是一个要素:实词。确立具有一定针对意义的释义模板是应对自动释义模式的基本条件,无论是采用整句释义还是短语释义的时候都需要建立基本的释义模板。由介词、连词、冠词等构成的虚词和代词以及模式化实词词块是释义模板的主要内容。这些内容与模式化实词词块所构建的释义框架是把自动释义所生成的名词、动词、形容词、副词等按需要进行匹配和嵌入。此时架构的释义框架中核心的释义元素是基本名词、动词、形容词与副词。基于现有权威词典的释义数据库我们可以针对不同性质的词目批量化地自动抽取出词目呈现模式而构成自我需求目的的释义模板。[4](p31)在词汇的层级概念体系中处于相同地位的词都会有类似模式与结构的模板。例如,对于所有的鸟类名称,我们可以采用与提取出a kind of bird which“体形特征捕食特征活动环境”等类似的释义模板。当然此类研究的焦点是名词,所以动词、形容词、副词等词性的词目的释义是否适用该释义模板不在本研究讨论的范畴。

二、词典编纂自动释义的相关理据

1.纸质词典信息的重现是电子化词典的主要编撰方式。

网络与电子产品的普及使得电子化词典的存储媒介形式较为丰富:掌上专用型、手机内嵌型、光盘附带型、硬盘安装型、在线网站型等等不一而足。无论是哪种类型的电子化词典都是面向学习者的电子化词典。肇始于20世纪40年代末期美国的机器翻译研究建立了大量的电子化的语言信息词典数据库,该数据库是针对自动化处理的电子化词典编撰的契机。可以说电子化词典的编撰与使用是以计算机编程用途的电子化词典数据库的建设为前提的。然而影响是双向的,面向普通学习者的各种类型的电子化词典的发展也一定程度上反过来促进了计算机编程用途的电子化词典的发展。在1992年牛津英语词典第一次发布光盘版之后,国内外的面向学习者的电子化词典开始迅速普及。在90年代后期电子化词典成为计算机用户的必备软件,而在中国2005年之后网民普遍进入宽带时代,电子化词典的下载、使用和制作发布蒸蒸日上。[5](p157)

电子化词典普及的基本优势体现在:一是携带方便,查询便捷,检索丰富;二是词句可以朗读,语法可以扩展,用法可以操练。网络版的超级在线词典甚至可以一次查询多部词典和添加用户自定义的新词。这个与纸质词典相比可以说是翻天覆地,但是即便是现今最新的电子化词典依然是在重现纸质词典的信息。目前的电子化词典尽管在鼠标取词与词句朗读等查询性上与模糊检索、全文检索、分类检索等检索性上与便携性与多媒体性已经给众多词典用户带来了前所未有的便捷,但是电子化词典的本质优势不仅在于重现纸质词典的完整内容,还在于应该承担起满足学习者的个性化认知需求和群体化的识别需求。根据用户的话题需求和难度需求而从海量的互联网语料中获取与优化读者所需是理想化电子化词典的构想之一;根据用户的词汇能力覆盖范围和释义风格偏好而由计算机自动生成相关释义内容是理想化电子化词典的构想之二。理想化电子化词典的近义词辨析是基于语料库以及特定语域网页语料再根据用户的词汇能力覆盖范围来有选择性地呈现;[6](p223)理想化电子化词典也能多维度的依据用户的阅读兴趣、词汇能力覆盖范围与语言能力水平来定性定量分析并抓取合适的语篇来满足用户的精读与泛读需要。

2.从查询自动化发展到内容生成自动化是编纂自动化的基本需求。

80年代中期在我国出现针对词典编纂的计算机辅助软件的研发,编程开发者包括了语言教学与研究者、计算机专业人员、图书情报管理人员、其他行业从业人员、出版社辞书工作者。随着计算机编程技术与数据库管理技术的飞速进步,随着宽带在我国教育系统和社会生产生活中的迅速普及,词典编纂系统及其辅助软件也不断地升级换代与更新。我国词典编撰已经从排序、查询、排版为主要特征发展成为分布式、工作流管理、大型平行语料库为主要特征的编撰形式。在国际上,英美和欧洲其他国家是词典编纂系统研发与实践的主要集中区。在21世纪前的,分散性、稀少性与私密性是词典编纂系统研发的主要特征。但是从2002年起欧洲举办了多次国际性的词典编纂系统研讨会,开会地点主要包括英国(2002,2003)、捷克(2004)和意大利(2006)。这些词典编纂系统研讨会极大地促进了基于词典编纂系统研发的创新与技术交流。[7](p8)与国内研发技术与实力相比,国际上的研发团队和个人更多地依赖于政府和出版商的支持与资助。同时国际水平词典编撰的研发呈现出:技术上多样化;平台复杂化;语种多元化。

考察国内外的词典编纂系统的历史研发过程后,我们发现:词典编纂的自动化可以区分为从初级到高级的三个不同相位的历史发展阶段。第一阶段是自动化排版,即通过构建友好的输入界面,包含释义、例证和近义词等具体要素由词典编纂人员直接输入本地数据库。本地数据库中建立释义字段、例证字段、近义词字段等相应字段。最终,根据字段的具体格式自动生成排版界面。第二阶段是查询与参考的自动化,即在词典编纂中建立计算机辅助编撰策略,以交互式编纂体系来构建集成化的独立编撰界面,进行多种语料库分析和多种数据库查询,提高编纂效率,促进编纂释义的相关决策进程。第三阶段是内容自动生成阶段,编撰人员预先设定各种任务参数,由计算机根据任务参数,自动筛选语料库并进行相关条目的数据库查询。由计算机辅助自动地进行各种编纂环节的决策,可以编撰出只需少量修改的词典释义条目。而且自动化编撰的可靠性主要可以规避人工操作在微观释义方面:词目范围、语体标签、频率等级、近义反义词汇、对等词、词汇句法搭配、辨析、例证、释义所造成的误差。[8](p28)

计算机辅助词典编纂系统在现代词典编撰中已经取得了长足的发展,尤其体现在:排版自动化。但是距离可操控的内容自动化、决策自动化方面还有很大差距。客观地说排版自动化充其量也只是简单的数据转换过程,而决策自动化、编纂自动化涉及到广泛而深入的多学科领域,具体到内容生成自动化更是我们词典应该继续研究的重大课题。

3.发展到面向用户的自动化是自动化编撰的有效跨越。

内嵌式的词典编纂系统从本体上说其自身本来就是一个自动化的电子词典软件。自动化的电子词典软件为编纂者的词条信息制作提供语料和海量的微观释义信息。[9](p301)即便是在某个词典完成了全部编纂工作后,电子词典软件也以光盘版、硬盘版、掌上版或者在线版形式游离于纸质词典之外。当然孤立运行状态的电子化词典是否一定只是纸质词典的信息重现,完全取决于最初词典编纂者的需求决策,同时也受到词典编纂系统后台设计与前台设计本身自带的功能特性影响。我们认为,对学习者的个体化需求和群体化需求的功能的关注是新一代电子化词典的核心价值。建设词库并实现自动化是计算词典学的最高理想,其本质上就是面向编者的自动化。这种以词典编撰者为核心服务对象的固化必然导致词典编纂系统的功能局限。而我们所倡导的是:在加速词典编纂各项任务的同时,更要面向用户的个性化需求或群体化需求来探索词典的有效编撰。[10](p78)

面向词典用户的个性化需求或群体化需求的突出的特征体现在五个方面:第一,在视觉呈现与信息呈现自由度上要有较为开阔的空间。视觉呈现与信息呈现的自由度让电子化词典的用户可以自由选择个性化的用户界面,也让用户可以选择个性化的信息项目。例如,用户不需要阅读例证时,系统会自动屏蔽所有的例证。当用户只需要阅读某种词汇难度以下的例证时,系统也会自动屏蔽所有的更加偏难的例证。[14](p25)第二,对词典用户的个性化关注。最大限度地关注电子化词典用户的当前语言能力水平和词汇语法知识点缺陷,以隐藏和提示学习者所应该关注的细致释义信息。例如,用颜色来标记不同难度系数的词和句子。第三,借助海量的互联网资源来挖掘电子化词典的使用空间。电子化词典既要为用户满足稳定兴趣和临时兴趣的丰富的例证阅读,也要提供近义辨析和量化信息,彻底改变电子化词典的“千人一面”的僵化的使用模式。例如,让用户可以根据需要查阅某个词或当前词目在美式英语与英式英语之间的使用频率差异以及搭配差异。同时也可以让用户根据需求随时查询若干近义词之间的语体语域的使用频率差异以及搭配差异。[11](p132)第四,在词汇能力、语法能力与用法能力等方面为电子化词典用户提供个性化的历史跟踪。例如,通过自动收集所有用户查询的单词或跳转查询的单词的词汇难度来自动判断并且自动通知用户的词汇能力发展的新动向。第五,丰富的前后台语料及时更新系统以满足其它个性化的需求。例如,用户在使用和学习过程中遇到的生动而富有特色的例证可以通过系统的云计算推荐和提交并嵌入到其他用户的电子化词典中。当然如果用户希望读到某些主题内容的新闻标题作为例证,则电子化词典也能从后台的云计算库回应用户的需求而实现这项功能。[12](p559)

4.可拆解的系列自动化计算过程是人工释义过程的基础。

词典也与其它书籍一样是有序化呈现人类认知与文明的精神产品。具有只供理解的消极型词典与具有丰富产出的积极型词典是词典的两种基本类型,其它也还有许多分门别类的分法,研究者都可以从不同角度进行其范式研究,它们各自编纂特点也各不相同。对外语学习或外语习得过程的精心关注与尽力协助的词典是外语学习者词典的核心体现。由语言智能、非语言智能、有限体能所构成的具体释义能力三要素是词典编纂过程中首先要考虑到的主要因素。一般而言,我们可以说词汇能力、句法能力、语义能力、语用能力、语篇能力、交流能力、查询能力、模仿能力与语言输出的参数控制能力是构成语言智能的基本要素,而情感与情绪是构成非语言智能的基本要素。而语言输入输出、文字的计算机录入或手写文字等都需要有限的体能。故而自动释义和人工释义相比较而言:一是自动释义效率高、参数精确、海量资源调用,但是也缺乏认知个性、缺乏体验性、输出单调性、缺乏句法正确性;二是人工释义具有认知模糊性、句法正确性、认知个性,但是工作效率低下、参数缺乏精确控制、输出随意性、资源调用范围窄、语言能力有限性。[13](p9)因此人工释义与自动释义在系统构建初期与使用过程中都是相辅相成的。

三、余论

释义评价的心理计算机制与释义生成的心理计算机制科学地构建了词典释义者的释义思维过程。[14](p26)我们可以尝试构建多维释义驱动的意义构建模式,选择特定词类为调查群体,基于学习型词典为语料,在理论思辨、释义评价算法、释义生成算法、生成实验评测等体系下,系统地构建学习型词典的自动化多维释义模型。

[1]陆谷孙,王馥芳.当代英美词典编纂五十年综述[J].外语教学与研究,2006,(2).

[2]李红印.构词与造句:汉语学习词典编纂的两个重心[J].语言文字应用,2008,(2).

[3]Levin,Judith.The Syntax and Semantics of Complex Nominals[J].1978.

[4]解海江,章黎平.词典编纂理念的二度转向[J].辞书研究,2010,(6).

[5]Vanderwende,Lucy.Algorithm For Automatic Interpretation of Noun Sequences[J].1994.

[6]Lauer,Mark.Designing Statistical Language Learners: Experiments on Compound Nouns[J].1995.

[7]尹世超.语体变异与语言规范及词典编纂——以标题语言为例[J].修辞学习,2005,(1).

[8]Diarmuid O Seaghdha.Learning Compound Noun Semantics[J].2008.

[9]Warren,Beatrice.Semantic patterns of noun-noun compounds[J].1978.

[10]谢元花.语料库与词汇研究[J].外语教学,2002,(3).

[11]成文丽,曲开社,等.计算机辅助词典编纂的技术分析与系统设计[J].山西大学学报(自然科学版),2003,(2).

[12]杨自俭.语言多学科研究与应用[M].南宁:广西教育出版社,1997.

[13]亢世勇,王兴隆,等.我国计算机辅助词典编纂系统初步调查研究[J].辞书研究,2012,(3).

[14]夏立新.对汉英语文词典编纂和出版的一些思考[J].出版科学,2011,(2).

责任编辑邓年

H16

A

1003-8477(2013)12-0128-03

王纯磊(1977—),男,宿迁学院外语系副教授,硕士。

江苏省“333工程”资助项目;江苏省高校社科基金项目(2013SJD740028)。

猜你喜欢
电子化词典学习者
你是哪种类型的学习者
十二星座是什么类型的学习者
米兰·昆德拉的A-Z词典(节选)
米沃什词典
推进外汇窗口服务电子化
1 我省市级国库集中支付电子化系统首次上线运行
汉语学习自主学习者特征初探
高校学习者对慕课认知情况的实证研究
汽车电子化,没有假设
漫画词典