基于数据处理技术的《必应词典》编纂模式研究

2019-03-15 03:42廖海宏
绵阳师范学院学报 2019年1期
关键词:词条语料搜索引擎

廖海宏

(厦门理工学院外国语学院,福建厦门 361024)

词典编纂技术与计算机和网络技术同步发展,随着数据时代的到来,基于数据处理技术的词典编纂模式不断发展。词典学者开始关注和研究数据处理技术对词典编纂模式的影响,具体可参见章宜华[1]1,马立东、吴光华[2]43,林皓、张逸[3]26,耿云冬、魏向清[4]65等的文章讨论。其中,耿云冬和魏向清[4]66提出的“语言数据驱动模式”更是直接指出数据处理技术对词典编纂发展的方向性影响,他们认为:“如果说传统的词典编纂更多是编者主体经验驱动模式,那么当代及未来的词典编纂则无疑应是语言数据驱动模式。” 近年来,在理论发展的同时,数据处理技术在词典编纂实践领域不断得到应用,基于数据处理技术的词典编纂模式逐渐发展并趋于成熟。鉴于数据处理技术对词典编纂未来发展的方向性影响,有必要加强对此类词典产品的研究。

《必应词典》是微软亚洲研究院研发的带翻译功能的在线英汉双语词典。经过近10年发展,《必应词典》现有网络版、桌面版、移动版等,最新版本是Win10版。根据手机内置的不同操作系统,移动版又细分为Windows10App版、Windows10Android版、Windows10iphone版、Windows10WinPhone版等版本,各版本均拥有庞大词库、海量词条、海量双语例证库,提供词典查询和以词典为基础的双语翻译服务。本文从数据处理技术的角度出发,分析基于数据处理技术的词典编纂模式对《必应词典》发展进程、编纂过程、编纂结果等的影响,并以点带面,管窥数据处理技术对词典编纂模式未来发展的影响。

一、《必应词典》数据处理技术应用沿革

“数据处理是对数据的采集、存储、检索、加工、变换和传输,数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。”[5]6《必应词典》一向注重数据处理技术的词典应用,最新版《必应词典》是综合应用网络数据挖掘、搜索引擎、云计算、大数据等技术的词典产品。

《英库》是《必应词典》的前身。2009年12月,微软亚洲研究院在线英语词典研究项目成果《英库》上线,这是一款用户需求导向、针对中国人英语学习特点设计的词典。《英库》研发之初就注重数据处理技术的词典应用,根据微软亚洲研究院官方微博:“《英库》基于全新网络数据挖掘技术,不断挖掘、扩充双语数据库,以数以千计的速度扩展单词和例证,达到千万词汇和例证。通过扫描几十亿量级的网页,应用网络数据挖掘技术挖掘海量网络数据,建设千万级词汇库和双语例证库等。”①2010年9月,《英库》更名 《必应词典》,并把词典发布到微软必应搜索引擎首页。新版词典在《英库》网络数据挖掘技术基础上进行了技术升级,融词典功能和搜索引擎功能为一体。刘超[6]36指出:“搜索引擎通过网络爬虫获取大量相关资料和信息,采用机器学习或者网络数据挖掘的算法进行网络数据挖掘,进一步分类和提取,将用户最想要的搜索信息返回给用户。”数据处理是搜索引擎的主要功能之一,把搜索引擎技术融入《必应词典》是把数据处理技术融入词典编纂的又一次技术创新。在获取词典编纂所需的数据和处理数据的过程中,搜索引擎后台海量数据为数据挖掘提供数据基础,而搜索引擎的数据搜索、存储、挖掘功能为词典编纂提供技术基础,词典编纂自动化程度提高。2011年5月,微软宣布在云计算技术基础上推出基于“云”服务模式的“必应云词典”,词典具备云端与本地词库查询双重搜索模式,提供词典查询服务和基于词典的翻译服务。必应云词典官方网页(2011)指出:“必应云词典是由海量数据驱动的、基于机器学习和统计建模的最新一代机器翻译引擎……提供云服务模式词典和翻译服务。”②网络数据挖掘技术是云计算技术的功能之一,基于云计算技术的词典“云”服务模式是《必应词典》把数据处理技术融入词典编纂的又一轮技术创新。邹燕飞[7]186认为:“海量网络数据挖掘对网络环境和应用条件要求较高,而云计算技术的应用有效提高了网络数据挖掘效率和云计算技术在海量网络数据挖掘中的应用研究。” 云计算技术应用提高了《必应词典》对网络数据的挖掘和应用的效率。进入大数据阶段,种类繁多、数量庞大的网络数据成为《必应词典》编纂重要的语料来源,词典编纂开始从纷繁复杂的网络数据中采集、筛选、分析和挖掘有效数据,大数据技术开始在《必应词典》编纂中得到应用,为基于数据处理技术的词典编纂打开了更广阔的视野。

二、《必应词典》编纂过程的数据处理特色

数据处理技术赋予词典编纂过程新的特色。常规的词典编纂过程包括语料采集、语料加工、选词立目、释义和例证的收集、筛选等,数据处理技术对《必应词典》语料采集途径、语料加工方式、选词立目条件,以及释义和例证的采集、筛选、收录等过程都产生了深刻影响。

(一)《必应词典》语料采集与加工方式

《必应词典》在语料采集方面既兼顾传统又谋求创新,来自权威词典的语料和在网络数据基础上挖掘的语料共同构成《必应词典》语料,在种类和规模上打破了传统格局。《必应词典》内置牛津大学出版社系列牛津词典、微软Office词典、微软电子百科全书等权威词典和百科全书,权威词典为词典提供严格按词典标准规范加工的语料,语料来源得到较好的质量保证;数据处理技术应用拓宽了传统的语料采集途径,网络数据成为词典编纂重要的语料来源。2011 年,世界知名咨询公司麦肯锡指出: “数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”[8]14如果说数据是数据时代的重要生产因素,那么种类繁多的网络数据则是数据时代词典编纂的重要语料来源和生产因素。互联网空间为《必应词典》编纂提供了千万亿字节规模的数据采集库,互联网空间开放共享的在线词典、词典数据库、翻译网站、大型语料库等提供经过语料加工的百万、千万、亿级的语言数据库。

《必应词典》语料来源和采集方式的变化带动语料加工方式的变化,以数据挖掘为主要特征的语料数据化技术在《必应词典》编纂中得到应用。章宜华[1]2认为:“语料数据化是辞书现代化的新理念,即应用语言学研究的新成果和网络数据挖掘技术,在海量的语料中提取词典所需的各种有效语言数据,把语料库变为词汇/词典数据库,从而大大提高语料使用和词典编纂的效率。”《必应词典》编纂过程充分应用语料数据化技术,从互联网空间采集海量数据,再从所采集数据中提取适用于词典编纂的有效数据,挖掘词汇的词法、句法、语义、语用等方面的词汇知识和实用信息,语料加工方式更加智能化。

(二)《必应词典》选词立目原则

词典只有不断满足用户需求,才能持续维护生命力。数据时代,用户查询内容发生很大变化,查询需求趋向实用性、百科性和实时性,对词典选词立目提出了更高要求。《必应词典》选词立目手段数据化、信息化,选词立目体现“以用户为中心”的实用原则。

必应搜索引擎和网络数据挖掘等技术的融合应用使得词典可以发掘和反映不断变化的语言现象。词典收词趋于海量,除收录内置权威词典词条外,借助搜索引擎后台数据仓库以及网页数据抓取、更新、存储等技术,从海量数据中提取词条,达到了为用户提供千万级以上词条查询的能力;词条收录呈现百科特征,在分析用户查询内容、查询行为和查询意图等词典使用数据的基础上,词典收录大量应用于网络、普通词典不收录而用户常常需要使用和查询的百科词条,收录各类专业术语、缩写、名称等, 甚至收录Facebook(脸书网)、WeChat(微信)、Twitter (推特)等网络平台名;词典收词趋于实时,从网络空间挖掘大量新词,如selfie(自拍)、Brexit(英国脱欧)、clicktivism(网络点击行动主义)等,在数据处理基础上实时更新词库。林皓、张逸[3]28指出:“互联网加速了语言的发展、变化速度,一个新词创造后,人们常常以几何级的速度传播和使用它。”按传统编纂模式,词典通常只能数年甚至十多年才修订更新一次,传统在线词典由于技术局限更新速度也还不够,数据处理技术使词典在实时反映语言发展方面又前进了一步。

(三)释义采集、分类与表述特色

数据处理拓宽词典释义的采集途径,丰富词典释义的分类和表述方式。《必应词典》采用权威英汉双解释义、英汉释义、英英释义、图片释义、网络释义等形式对释义进行分类。权威英汉双解释义、英汉释义、英英释义主要来源于内置的牛津系列词典和微软Office词典,按词典规范化标准收录释义,网络释义、图片释义是基于数据处理的新型释义方式。

“网络释义”不同于传统释义方式,是在数据处理基础上从网络采集的词条意义,呈现基于数据处理的词条释义。《有道词典》官方网页对“网络释义”的说明是:“网络释义指的是应用搜索引擎抓取并获得多达数十亿海量网页数据后,利用网页萃取技术进行信息理解、网络数据挖掘和文本分析,从中找出互为关系的释义,再根据它们在海量网页中出现的频次、位置等因素优化调整,从而得到与词条相关度最高的释义。”③用必应搜索引擎搜索词条“blog”,国内版和国际版分别抓取41 500 000 和41 000 000条结果,在所抓取的千万级数据的基础上,必应词典进一步筛选出309 050个和236 607个网页,对数据进一步理解、挖掘、分析后,通过“网络释义”收录“blog”的释义,第一个义项:博客,一种简易的个人信息发布方式。任何人都可注册,完成个人网页创建、发布和更新。wenwen.soso.com|基于309 050个网页。第二个义项:部落格,部落格(BLOG)是什么?部落格到底能够做什么?dp.tsh.ttu.edu.tw|基于236 607个网页④。

以相关关系为逻辑基础,《必应词典》从网络空间挖掘与词条语义相关的图片,以直观易懂的方式收录在“图片释义”栏。由于微软在设计上把《必应词典》平台和搜索引擎平台融为一体,“图片释义”栏链接搜索引擎平台,因此,除词典界面提供的图片,搜索引擎界面也为使用者提供与词条语义相关的海量图片,图片顺序按语义的相关关系排列,相关关系最强的图片排在最前面。

新技术应用使得词典更深层地挖掘词汇语义特征,更客观地反映语言在真实应用中体现的社会、文化、技术等表征。

(四)例证采集、分类与表述特色

例证具有印证词目、辅助释义、提供搭配信息、文化信息、用法提示等功能,词典通过例证帮助使用者加强对词条语义信息、语法信息、语体信息和语用信息等的理解。在数据处理的基础上,《必应词典》在编纂过程中采集海量英汉汉英双语平行句对,经筛选、分析、比对、分类后收录数量可观的例证,各个版本收录的例证数量有所不同。网络版和桌面版《必应词典》为每个词条收录250个按词典规范加工的例证,这些例证来源于内置的权威词典和网络数据;移动版除收录网络版收录的250个例证外,还收录大量来源自网络的精加工和粗加工例证,并收录每个例证的网络来源。

由于例证数量多,《必应词典》对例证进行了分类,按类别分为口语、书面语、标题、技术类例证;按来源分为来自权威词典和网络的例证;按例证难度分为简单、中等、难三种。词典使用者可按实际需求自由组合和选择所需的例证,既可选择来自权威词典,也可选择源自网页的例证。

《必应词典》还对所采集海量英汉汉英双语平行句对进行数据比对和分析,以英汉对照的方式收录例证,并以动态显示的方式标示例证和例证翻译中每个词汇的一一对应关系,使两种语言在语义框架层面对等呈现,多层面映射和匹配英汉两种语言符号。英汉两种语言符号在特定语境下的多层面映射为词典使用者理解语言提供了极大方便。

三、《必应词典》词条信息表述特色

词典编纂过程的改变必然改变词典编纂结果,数据处理技术赋予《必应词典》词条信息诸多新特点。“词条是词典的基本结构单位和功能单位,也是词典的主体。”[9] 47数据环境下,基于数据处理技术的编纂过程改变了词典语料来源和加工方式,词典信息采集和加工能力大大加强,过程趋于自动化,大量采集的语料来源于真实使用的语言环境且数量趋于海量,词条信息构成方式、表述方式、表述内容随之改变。

(一)词条信息的有机构成

完整意义的《必应词典》词条信息涵盖收录于各种版本的相同和不同的信息,存储于各版本的词条信息以整合或分述的方式构成一个有机的整体。网络版、桌面版、移动版,以及移动版的各种版本均提供英汉释义、英英释义、权威英汉双解释义、网络释义、例证、搭配、同义词、反义词、图片等,但收录信息有所不同又互为补充。“数字化环境下,只有建立宏观认知概念,才能正确认知词典内容,提高词典的使用效能,正确分析和研究词典。”[10]90《必应词典》通过不同载体的各种版本收录互为补充的词条信息,因此,只有建立宏观认知概念,才能正确认知、使用和研究词典。

《必应词典》网络版、桌面版整合了词典平台和搜索引擎平台,词典提供词条信息的能力在量上得到提升。两个版本的词典界面均设置图标 “”以链接搜索引擎界面,搜索引擎界面也设置词条查询入口,并为用户分别设置国内版和国际版查询入口,方便查询搜索引擎采集、筛选的词条信息;在词条信息排序上,搜索引擎界面把与词条相关的词典信息、词典网站信息、翻译网站信息置顶页面,同时,国内版把《必应词典》内容置顶,国际版把牛津系列词典内容置顶⑤,紧跟其后的是国内外的主流词典网站,如www.iciba.com、www.dictionary.com、www.thesaurus.com、www.merriam-webster.com、www.thefreedictionary.com等,这些网站是词条信息采集的重要来源,最后才是与词条相关的百科信息。

词条信息或整合或分述。根据载体特点,词典为不同版本设置互为补充的栏目,相同栏目收录的信息互为补充。与网络版和桌面版相比,在分析与词条相关的有效数据的基础上,移动版增设联想词汇栏,以动感的网状图式呈现词条语义关系,收录词条同义词、反义词、上下义词等,如词条“hate”收录 “envy, detest, loathe, adore, love”等与词条语义相关的联想词汇;词条 “emoticon”收录 “emoji, smiley,symbol, cartoon, animated, graphics”等联想词汇。相同栏目收录的词条信息有所不同,以“网络释义”栏为例,移动版为“emoticon”提供简单的英汉释义和该释义的来源网页,emoticon:1.表情符号,来源:whatis.com.cn;2.表情图标,来源:blog.sina.com.cn。网络版和桌面版具体说明释义采集依存的网页数量和具体语境,“emoticon:1.表情符号,表情符号(emoticon)是一短串键盘字母和符号,通常仿效一个面部表情,用来补充文字信息……”

(二)词条信息的丰富形态

互联网空间数据格式纷繁复杂,除文本数据外,图片、图形、音频、视频等数据也为词典所用。数据处理技术使得《必应词典》可以通过更为丰富的形态表述词条信息,帮助词典用户建立多维度的词汇认知空间,在更宏观的层面认知词汇。

除通过词典界面表述多形态的词条信息,通过词典界面所链接的搜索引擎界面,词典用户还可以在搜索引擎设置的词条查询栏查询到大量源自网络空间的各种形态的词条信息,如查询词条“dance”,使用者可以查看大量与舞蹈相关的图片、音频、视频等。

(三)词条信息的兼收并容

规定主义和描写主义之争在词典史上由来已久,李明和周敬华认为[12]150:“规定主义恪守正统的、规范的、符合逻辑、符合经典作家用法的传统并以此为标准对语言进行规定的编纂方针,描写主义主张不是以经典传统为依据而是以对语言全面的、系统的、客观的描写资料为依据进行词典编纂。”在线英汉汉英双语词典肩负着沟通英汉两种语言的作用,除了忠实反映两种语言的最新发展和应用情况,也应准确和规范地收录词条信息以引导语言健康发展,因此必须平衡好规定主义和描写主义倾向。《必应词典》词条信息在内容上具有兼收并容的倾向,既注重对内置牛津系列词典等权威词典的词条信息的收录,又注重全面、系统、客观地描写和记录语言。

传统上,由于全面、系统、客观地描写语言难度很大,词典编纂高度依赖编纂者语言能力和人工经验,词典编纂以规范词汇的标准用法为主要目的;数据时代,随着词典用户查询行为的改变,为词典用户解决语言应用的实际问题发展为词典编纂需要解决的主要矛盾,基于数据处理技术的词典编纂把数据采集拓展到网络空间的海量数据,全面、系统、客观地描写语言有了可能性。在数据处理的基础上,《必应词典》词条信息在内容上体现了一定的描写主义特色,通过采集网络空间海量数据描写语言生存和发展状况,在更为客观的层面收录语言实际应用过程中产生的词汇应用信息。

词典通过词条信息记录和反映人类认知社会的过程和结果,基于数字处理的词典编纂模式在内容上拓宽了词典记录和反映人类认知社会的范围。

四、结语

当数据和数据处理发展为社会快速信息化的重要表征,研究基于数据处理技术的词典编纂模式就显得尤为重要。《必应词典》是数据时代在线双语词典应用数据处理技术的典型代表,反映了数据时代词典编纂模式的发展趋势。数据处理技术融入词典编纂的具体过程,赋予词典编纂新的方法,词典信息在构成和表述方式上都发生很大改变。数据时代,数据处理技术不仅对数据计算和分析领域有很大的影响,而且对人文学科领域也产生了深刻影响。随着数据处理技术在人文学科领域应用的推进,语言学领域也越来越重视数据处理技术对语言学学科发展的影响,作为语言学分支学科,词典学领域应当更多地关注数据处理技术对词典编纂模式未来发展和词典学学科发展的影响。

猜你喜欢
词条语料搜索引擎
Chrome 99 Canary恢复可移除预置搜索引擎选项
面向低资源神经机器翻译的回译方法
世界表情符号日
利用简单的公式快速分隔中英文词条
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌
英语教学中真实语料的运用