《牛津计算语言学手册》评介

2015-05-30 19:07冯志伟
现代语文 2015年10期
关键词:评测语言学语料库

一、引言

我从事计算语言学教学和研究已经50多年,在这半个多世纪的漫长岁月中,针对计算语言学的跨学科性质,我在北京大学学习过语言学,在中国科学技术大学研究生院学习过信息科学,在法国格勒诺布尔理科医科大学学习过数学,前后花了将近20年的时间更新自己的知识,成为跨学科背景的计算语言学家。现在我们已经进入了信息网络时代,以自然语言信息处理作为研究目标的计算语言学正越来越受到语言学家的关注。然而,由于大多数语言学家仅具有文科背景,他们对于计算语言学中涉及的数学知识和计算机知识了解不多,尽管他们怀着关注计算语言学的强烈愿望,可是一旦看到计算语言学的专业文献、接触到其中的数学和计算机方面的问题,往往望而生畏,敬而远之。他们精研通达的语言学知识,难以与数学知识和计算机知识融会贯通起来,这是十分可惜的!

我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。

2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。

2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。2009年9月,《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事!

本书由Ruslan Mitkov教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联、浑然一体、可读性强。《牛津计算语言学手册》内容丰富、深入浅出,全面地反映了国外计算语言学的最新成果,是我们了解国外计算语言学发展动向的一个窗口,正好满足了我国语言学界学习和了解国外计算语言学的研究成果和最新动态的要求。

本书主编Ruslan Mitkov是计算语言学家及语言工程专家,毕业于德国德累斯顿大学(Dresden University),现为英国伍尔弗汉普顿大学(University of Wolverhampton)教授。他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002年出版过名为《回指消解》(Anaphora Resolution)的专著。著名计算语言学家Martin Kay(马丁?凯伊)为本书作序。Martin Kay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。

二、内容简介

本书内容分三大部分:1.与计算语言学有关的语言学基础理论(1~9章);2.计算语言学中自然语言的处理、方法与资源(10~26章);3.计算语言学的应用(27~38章),几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表,每个术语均有简要的定义和解释,便于读者查询。下面分别介绍各章的内容。

第1章“音系学”(phonology)介绍了描写音系学和计算音系学的基本知识,着重介绍了非线性音系学中的有限状态模型、音位的特征-值矩阵描述方法以及音系学研究中的计算工具。

第2章“形态学”(morphology)介绍了诸如语素、词、屈折、派生等形态学的基本知识,分析了形态学对于音系学的影响,着重介绍计算形态学中的有限状态分析方法,并介绍了双层形态学和双层规则的形式化描述方法。最后介绍了结构段形态学。

第3章“词典学”(lexicography)首先简要地回顾了词典学的发展历史,接着讨论了人编词典在计算机应用中的不足,说明了计算词典学对于传统的词典编纂技术提出的挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用;说明了计算技术改变了词典编纂工作的面貌,为新型词典的编纂提供了有力的技术手段。本章强调指出,计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。

第4章“句法学”(syntax)首先列举了一些有趣的句法现象,分析了这些现象在计算上的意义,接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法(功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR语法)。最后,介绍了两种在语言学和计算上有意义的句法框架(广义短语结构语法、树邻接语法)。

第5章“语义学”(semantics)集中介绍了计算语义学的基本内容。首先讨论语义的表示问题,介绍了语义的高阶逻辑(higher-order-logic)表示法和语义的特征值矩阵(Attribute-Value Matrix)表示法。其次讨论句法语义接口,介绍了“并行对应模型”(Parallel Correspondence Model,简称PCM);针对 Frege的“组成性原则”(principle of compositionality),介绍了“非组成性的语义学”。最后介绍了语义解释的动态模型。

第6章“话语”(discourse)首先列举了一些话语平面的现象,阐明“话语”研究的对象是句子之间的关联问题,计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示(referring expressions)和话语结构(discourse structure),说明参照表示的工作原理和参照表示的选择方法,并讨论主题(theme)与述题(rheme)、话题(topic)与焦点(focus),以及预设(presupposition)、蘊含(implicature)等问题。最后讨论“话语树”(discourse tree),介绍了“修辞结构理论”(rhetorical structure theory)和“中心理论”(centering theory)。

第7章“语用学和对话”(pragmatics and dialogue)讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为(speech act)、言外语力(illocutionary force)、合作原则(cooperative principle,简称CP)、关联(relevance)等语用学的基本概念,并且介绍了意图(intention)、信念(belief)、知识(knowledge)和推论(inference)等与概念表达有关的问题。着重讨论了计算语用学中的对话模型(dialogue model),说明了从话语行为到对话行为的计算机制,并介绍了对话的管理模型(dialogue management models)。

第8章“形式语法与形式语言”(formal grammars and languages)介绍形式语言理论的基本知识,分别论述了形式语法和自动机,把形式语法看成是语言的生成装置,把自动机看成语言的识别装置。为了便于文科背景的读者理解本章的内容,对于一些基本概念都给出了定义和实例;为了避免抽象的数学推理,对于一些基本的结论不在数学上加以证明。首先介绍了Chomsky的形式语法,给出了形式语法的Chomsky分类,分别讨论了上下文无关语言(context-free languages)、线性和正则语言(linear and regular languages)、半线性语言(semilinear languages)、上下文有关语言(context-sensitive languages)、柔性上下文有关语言(mildly context-sensitive languages)。接着介绍自动机理论,分别讨论了有限自动机(finite automata)、下推自动机(pushdown automata)、线性有界自动机(linear bounded automata)、图灵机(Turing machine)。

第9章“计算复杂性”(complexity)介绍自然语言处理中的计算复杂性问题。首先介绍计算复杂性的度量方法和计算复杂性的类别,分别讨论了多项式算法(Polynomial algorithm,简称P)和非确定多项式算法(Nondeterministic Polynomial algorithm,简称NP),并介绍了自然语言处理中关于“NP完全问题”(NP-complete problem)的一些研究。接着讨论正则语言问题的计算复杂性,介绍了确定性(determinism)和非确定性(non-determinism)的概念、线性(linearity)和有限状态特性(finite-stateness)的概念,说明了有限状态方法的可应用性。然后讨论上下文无关语言的计算复杂性,介绍了基于搜索的上下文无关识别(search-based context-free recognition)、自顶向下识别(top-down recognition)、线性时间与空间中的确定性语法识别(deterministic grammar recognition in linear time and space)。最后讨论了概率语法和启发式搜索、并行处理和实际效用等问题,说明计算复杂性分析在理解自然语言的复杂性以及在建立实际的自然语言处理系统中的用途。

第10章“文本切分”(text segmentation)介绍两方面的内容:一方面是“词例还原”(tokenization),一方面是“句子分离”(sentence splitting)。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来,以便进行进一步处理。本章分别介绍了单词自动切分、缩写切分(例如:“Mr.,Dr.,kg.”中的小黑点)、连字符处理(例如:“self-asessment,forty-two,F-16”中的连字符)的技术,并且讨论了汉语和日语等东方语言中有关“词例还原”(也就是“切词”)的特殊问题。句子分离的目标是把文本中的句子分离出来,在很多自然语言处理系统中,都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。

第11章“词类标注”(part-of-speech tagging)介绍了词类标注器(POS tagger)的设计技术以及兼类词的排歧(disambiguation)方法。简要回顾了词类标注发展的历史,介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型(Hidden Markov Models)的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器,重点介绍了手工排歧语法(handwritten disambiguation grammars)。

第12章“句法剖析”(parsing)介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同,有浅层的句法剖析(shallow parsing),也有深层的句法剖析(deep parsing)。本章首先介绍了浅层句法剖析,这种剖析只要把句子剖析为语块(chunks)就可以了。之后,介绍了依存剖析(dependency parsing)。在介绍上下文无关剖析(context-free parsing)时,比较详细地讨论了CYK算法、自底向上剖析、左角分析法、自底向上的活性线图分析法(bottom-up active chart)。在介绍基于合一的剖析(unification-based parsing)时,讨论了特征-值矩阵。剖析时可能得到若干个结果,因此,本章还讨论了剖析结果的排歧问题。最后,讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。

第13章“词义排歧”(word-sense disambiguation,简称WSD)讨论如何利用上下文来确定多义词的准确意义。首先介绍了在计算语言学研究早期所提出的WSD优选语义学方法、词专家剖析方法。这些方法由于缺乏可供使用的词汇资源,出现了“知识获取的瓶颈问题”(knowledge acquisition bottleneck)。这些问题由于大规模词汇库和知识库的出现而得到缓解,又由于统计方法和机器学习方法的应用而可以从語料库中获取精确的数据。近年来,在WSD中普遍使用基于词典的方法、联结主义方法(connectionist)、统计方法、机器学习方法,取得了很大的进步。最后讨论WSD的评测,介绍了SENSEVAL的评测活动,并介绍WSD的一些实际应用。

第14章“回指消解”(anaphora resolution)首先列举了一些回指现象,说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状,讨论了今后回指消解研究中应当注意的问题。

第15章“自然语言生成”(natural language generation,简称NLG)介绍了自然语言生成研究的理论和实践问题,力图说明在人们的心智上以及在计算机中,语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题,可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题,也可以把它看成一个选择问题,还可以把它看成一个规划问题。自然语言生成可以分为四个问题:宏观规划(macroplanning)、微观规划(microplanning)、表层实现(surface realization)、物理表达(physical presentation)。对于宏观规划,介绍了说话内容的规划、文本的规划,以及使用修辞结构理论的规划方法;对于微观规划,着重介绍了词汇生成的问题。最后介绍了表层生成的技术。

第16章“语音识别”(speech recognition)研究如何把作为声学信号的声波转换为单词的序列。现在,最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术:声学语音信号的建模、语音识别中的词汇表示、语音识别中的语言模型和解码。重点介绍独立于说话人的大词汇量连续语音识别(large-vocabulary continuous speech recognition,简称LVCSR)的最新的技术。目前,语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别技术未来的研究前景。

第17章“文本-语音合成”(text-to-speech synthesis,简称TTS)介绍文本-语音合成的最新成果。TTS既涉及自然语言处理技术,也涉及数字信号的处理技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS系统的概貌以及它的商业应用价值。然后描述TTS系统的功能结构以及TTS系统的组成部分,TTS系统中的自动形态-句法分析、自动语音分析、自动韵律生成,说明了如何从文本中近似地计算语音的声调和时长。最后介绍了声波生成的两种技术:规则合成技术(synthesis by rules)与毗连合成技术(concatenative synthesis)。

第18章“有限状态技术”(finite-state technology)首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念,然后介绍基本正则表达式的运算方法和复杂的正则表达式,最后讨论有限状态网络的形式特性。

第19章“统计方法”(statistical methods)介绍了计算语言学中的统计方法。目前,统计方法已经成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念(如:样本空间、概率测度、随机变量、条件概率、熵、随机过程)以及如何把它们应用于自然语言的模拟问题,分别介绍了隐马尔科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介绍了这些模型的一些技术细节,如:韦特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。

第20章“机器学习”(machine learning)介绍了如何通过有指导的训练实例(supervised training examples)来自动地获取语言资源中蕴含的决策树(decision-tree)和规则(rules),描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术,并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法(instance-based categorization),較详细地介绍了k-邻近分类算法(k nearest-neighbour categorization algorithm)。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动排歧、信息抽取、前指消解等各种各样的问题。

第21章“词汇知识的获取”(lexical knowledge acquisition)首先介绍了词汇知识自动获取的一些背景,包括词汇知识的形式、词汇知识获取的资源和工具、单词的共现和相似度。然后介绍了从语料库中自动获取词汇的搭配关系(lexical collocation)和联想关系(lexical association)的方法,词汇相似度(similarity)计算与叙词表(thesaurus)构建的方法,动词的次范畴框架(subcategorization frame)的获取方法;分析了词汇语义学(lexical semantics)和词汇知识获取的关系。最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用,自然语言处理的形式模型中越来越多地采用“词汇化”(lexicalized)的方法,词汇知识的自动获取是当前计算语言学研究的亮点之一。

第22章“评测”(evaluation)专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段,评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测(technology-based evaluation),在自然语言处理技术比较成熟时,就可以使用以用户为中心的评测(user-centred evaluation)。根据评测时的输入与输出,评测技术又可以分为分析成分的评测(evaluation of analysis components)、输出技术的评测(evaluation of output technologies)和交互系统的评测(evaluation of interactive systems)。分析成分的评测把语言映射为它的内部表达作为输出(例如:有标记的片段、树形图、抽象的意义表达式等)。输出技术的评测要把处理的结果用具体的语言表示出来(例如:文摘、生成的文本、翻译的译文等)。这种评测可以分别使用内部评测指标(intrinsic measures)和外部评测指标(extrinsic measures)来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术,并指出它们的优点和缺点。

第23章“子语言和可控语言”(sublanguage and controlled language)首先讨论了在限定语义领域中的计算语言学,指出了在当前的水平之下,在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发形成的子语言,分析了子语言的特性,讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中的应用问题。接着讨论可控语言,分析了使用可控语言的必要性和局限性,介绍了可控语言的一个实例——简化英语AECMA。最后讨论子语言与可控语言的关系,分析了把子语言转变为可控语言的途径。

第24章“语料库语言学”(corpus linguistics)主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求,简要地回顾了语料库的发展历史,然后着重地讨论了语料库的标注(annotation)问题。标注过的语料库的优点是:开发和研究上的方便性、使用上的可重用性、功能上的多样性和分析上的清晰性。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后,作者指出,不论标注过的语料库,还是没有标注过的语料库,在自然语言处理中都是有用的,语料库语言学有助于计算语言学的发展。

第25章“知识本体”(ontology)讨论了知识本体及其在自然语言处理中的应用。首先,分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体,并讨论了语言学中的知识本体与词汇语义学的关系;然后,说明在自然语言处理中,知识本体可以用来帮助系统进行语言的结构分析(例如:英语中的PP附着问题、错拼更正、句法检错、语音识别),也可以用来进行局部的自然语言理解(例如:信息检索中的问题搜索、文本分类),并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义排歧中的应用。

第26章“树邻接语法”(tree-adjoining grammar,简称TAG)介绍一种局部化的语法形式模型:树邻接语法(TAG)和词汇化的树邻接语法(lexicalized tree-adjoining grammar,简称LTAG)。首先讨论上下文无关语法CFG的局部化问题,说明TAG与CFG的不同:TAG以句法结构树作为核心操作对象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式来表达二维的树结构;而CFG以符号串作为操作对象,CFG是一个基于符号串的形式语法,而TAG是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题,介绍了LTAG。LTAG对于TAG的扩充主要在于把每一个初始树(initial tree)和辅助树(auxiliary tree)都与某一个或某一些叫作“锚点”(anchor)的具体单词关联起来。最后讨论LTAG的一些重要特性及其与别的形式系统的关系。

第27章“机器翻译:总体回顾”(machine translation:general overview)介绍了从20世纪50年代到90年代的基于规则的机器翻译系统(rule-based machine translation,简称rule-based MT)的主要概念和方法:直接翻译方法、中间语言方法、转换方法、基于知識的方法,并介绍了主要的机器翻译工具,简要回顾了机器翻译的历史。

第28章“机器翻译:新近的发展”(machine translation:latest developments)介绍了当前机器翻译系统的研究、开发和应用的情况,讨论了经验主义的机器翻译系统:基于实例的机器翻译(example-based MT)和统计机器翻译(statistical MT),并把它们与传统的基于规则的机器翻译系统进行了对比,同时还介绍了把各种方法融为一炉的混合机器翻译系统(hybrid MT)。当前基于规则的机器翻译的开发中,回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大进展,本章也做了介绍;此外,还介绍了口语的机器翻译,讨论了少数民族语言和不发达语言的机器翻译前景,讨论了因特网上的机器翻译(特别是网页翻译)问题。最后,本章介绍了译者的电子翻译工具,特别讨论了双语语料库、翻译记忆、双语上下文索引等问题,并介绍了一些面向译者的词处理工具。

第29章“信息检索”(information retrieval)主要介绍了文本的信息检索。信息检索系统的任务在于,对于用户提出的提问或者命题,给出与之有关的文献集合,作为检索的结果。首先分析了信息检索系统的软件组成成分,包括文献处理、提问处理、检索匹配技术。然后讨论自然语言处理技术对于信息检索的推动和促进作用,讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术,并且指出,当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。

第30章“信息抽取”(information extraction,简称IE)讨论如何从自由文本中自动地识别特定的实体(entities)、关系(relation)和事件(events)的方法和技术。本章主要讨论两种类型的信息抽取:一种是名称的自动抽取(extraction of names),一种是事件的自动抽取(extraction of events),并介绍书写抽取规则的方法。对于名称的自动抽取,本章介绍了名称标注器(name tagger);对于事件的自动抽取,介绍了事件识别器(event recognizer)。同时,还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习和抽取规则的方法,这种方法也就是信息抽取的统计模型。最后,介绍了信息抽取的评测和应用。

第31章“问答系统”(question answering,简称QA)讨论如何从大规模真实的联机文本中对于指定的提问找出正确回答的方法和技术,这是文本信息处理的一个新的发展趋向。由于QA要对指定的提问给出一套数量不多的准确回答,在技术上,它更接近于信息检索(information retrieval),而与传统的文献检索(document retrieval)有较大的区别——QA要生成一个相关文献的表作为对于用户提问的回答。与信息抽取相比,QA要回答的提问可以是任何提问,而信息抽取只需要抽取事先定义的事件和实体。在开放领域的QA系统中,使用有限状态技术和领域知识,把基于知识的提问处理、新的文本标引形式以及依赖于经验方法的回答抽取技术结合起来,这样,就把信息抽取技术大大地向前推进了一步。本章首先介绍了QA系统的类别和QA系统的体系结构,接着介绍了开放领域QA系统中的提问处理、开放领域QA系统中的提问类型以及关键词抽取技术,并讨论了开放领域QA系统中的文献处理方法和提问抽取方法,最后展示了QA系统的发展前景。

第32章“自动文摘”(text summarization)介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段:第一阶段是主题辨认(topic identification),第二阶段是主题融合(topic fusion),第三階段是文摘生成(summary generation);并介绍了多文本的自动文摘。最后,介绍自动文摘的评测方法,讨论了自动文摘评测的两个指标:压缩比(compression ratio,简称CR)和内容保留率(retention ratio,简称RR)。

第33章“术语抽取和自动索引”(term extraction and automatic indexing)介绍术语自动处理的技术。术语广泛地出现在科技文献中,术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性作用。随着网络的普及和数字技术的发展,出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多,术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本章把面向术语的语言自动处理分为术语发现(term discovery)和术语识别(term recognition)两个部门,分别介绍了主要的技术和系统,最后介绍了双语言术语的自动抽取技术。

第34章“文本数据挖掘”(text data mining,简称TDM)介绍了本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别,分析了文本数据挖掘与计算语言学和范畴元数据(category metadata)的关系。本章举出实例,具体说明了怎样使用生物医学文献中的文本数据来推测偏头痛(migraine headaches)的病因,怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系,并介绍了LINDI(Linking Information for Novel Discovery and Insight)系统。这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。

第35章“自然语言接口”(natural language interaction简称NLI)介绍计算机自然语言接口系统。这样的NLI系统可以把用户使用的口头自然语言或书面自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI系统的基本组成部分、意义表达语言(meaning representation language,简称MRL)、同义互训软件(paraphraser)、问题生成软件(response generator)以及可移植工具(portability tools)。然后介绍口语对话系统(spoken dialogue systems,简称SDS),分别介绍了SDS的单词识别软件、任务模型、用户模型、话语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS系统的灵活性、现状以及将来的应用前景。

第36章“多模态和多媒体系统中的自然语言”(natural language in multimodal and multimedia systems)讨论自然语言在多模态系统和多媒体系统应用中的重要作用,说明了怎样把自然的口语或书面语与多媒体输入协同地融合为一体,怎样把自然语言与其他的媒体结合起来以生成更加有效的输出,怎样使用自然语言处理技术来改善多媒体文献的存取。首先介绍包含自然语言的多模态和多媒体输入的分析问题,讨论了怎样把自然语言处理技术作为多模态分析的基础,怎样把不同的模态结合起来的技术。接着介绍包含自然语言的多媒体输出的生成问题,讨论了怎样把自然语言处理技术作为多媒体生成的基础,并讨论了不同模态的协调问题(包括不同模态的配置、不同模态输出的裁剪、模态输出中空间和时间的配合)。还讨论了用于多媒体数据存取的自然语言处理技术(包括基于自然语言处理的图形和图像检索、图形和图像数据库的自然语言接口、多媒体信息的自然语言摘要)。最后讨论在多媒体环境中使用语言的问题。

第37章“计算机辅助语言教学中的自然语言处理”(natural language processing in computer-assisted language learning)介绍在计算机辅助语言教学(computer-assisted language learning,简称CALL)中使用自然语言处理技术的问题。首先介绍CALL的发展历史,接着介绍在自然语言处理背景下的CALL,语料库与CALL,双语语料库,讨论自然语言处理技术在形态学教学、语法教学、偏误的识别与诊断中的应用。最后讨论自然语言处理技术在CALL中应用的评估问题。

第38章“多语言的在线自然语言处理”(multilingual on-line natural language processing)讨论在因特网上的多语言处理问题。因特网现在已经发展成多语言的网络,英语独霸互联网天下的局面已经成为历史,非英语的网站越来越多,语言障碍日益严重。为了克服语言障碍,机器翻译当然是一个最重要的手段,除了机器翻译之外的各种使用自然语言处理技术的多语言处理工具也雨后春笋般地开发出来。本章介绍了语种辨别(language identification)、跨语言信息检索(cross-language information retrieval,简称CLIR)、双语言术语对齐(bilingual terminology alignment)和语言理解助手(comprehension aids)4个方面的研究情况。语种辨别的目的在于让计算机自动地判断书面文本是用什么语言写的,这显然是多语言自动处理必须经过的第一步。跨语言信息检索CLIR的目的在于使用一种语言提问来检索其他语言文本的信息。本章介绍了在CLIR中的译文发现技术(finding translation)、翻译变体的修剪技术(pruning translation alternatives)和翻译变体的加权技术(weighting translation alternatives)。在这些应用中,双语言词典或多语言词典是最重要的资源,而这些词典的覆盖面可以通过使用双语言术语对齐的技术来加以提升。语言理解助手的功能在于给用户提供软件工具来理解外语书写的文本,而不必使用全自动机器翻譯的技术。本章介绍了施乐公司欧洲研究中心(Xerox Research Centre Europe,简称XRCE)的语言理解助手LocoLex和语义模型,并介绍了施乐公司使用语言助手来改善数字图书馆Callimaque的技术。

本章最后附有各章作者简介、计算语言学术语表、作者索引和主题索引,便于读者查阅。

三、简评

本书是手册性的专著,有如下三个明显特点:

1.深入浅出。本书各章写作风格一致,内容协调,浑然一体,特别适合对计算语言学感兴趣和初入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题,尤其适合文科背景的读者阅读。

2.专家执笔。本书的38章分别由各个领域内的46位知名专家执笔,由于这些专家具有所属领域的精湛知识,对于自己的领域有深刻的理解,有力地保证了本书的学术质量和专业水平。

3.涵盖全面。本书几乎涵盖了计算语言学的所有领域,反映了当前计算语言学的最新成就,使我们对计算语言学能够获得全面而系统的认识。

我国曾经翻译出版过有关计算语言学和自然语言处理的大部头专著,如冯志伟和孙乐翻译的《自然语言处理综论》(电子工业出版社,2005)被称为自然语言处理教材的“黄金标准”。但是,这部专著主要针对理工科背景的读者而写,数学公式较多,文科背景的读者阅读和理解起来常常会感到困难。与《自然语言处理综论》相比,本书尽量避免使用繁难的数学公式,文笔浅显而流畅,内容新颖而有趣,更适合文科背景的读者阅读。目前,计算语言学这个新兴的学科不仅吸引了大量理工科背景的研究人员,同时也有不少文科背景的研究人员投身到计算语言学的研究行列中来。本书的上述特点正好可以满足文科背景研究人员的需要。当然,由于本书内容涵盖面广、专业性强,对理工科背景的研究人员也有很大的参考价值。

Ruslan Mitkov(editor),2003,The Oxford Handbook of Computational Linguistics,Oxford University Press,784 pp.2009年9月,由外语教学与研究出版社、牛津大学出版社合作在国内出版,ISBN: 978-7-5600-6913-3.

(冯志伟  浙江杭州 杭州师范大学外语学院  310036)

猜你喜欢
评测语言学语料库
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
《语料库翻译文体学》评介
攻坡新利器,TOKEN VENTOUS评测
Canyon Ultimate CF SLX 8.0 DI2评测
认知语言学与对外汉语教学
基于JAVAEE的维吾尔中介语语料库开发与实现
社会语言学名词
语料库语言学未来发展趋势
基于认知语言学的“认知修辞学”——从认知语言学与修辞学的兼容、互补看认知修辞学的可行性