上海外国语大学 杨春雷
《面向自然语言处理的语言学要义》述评
上海外国语大学 杨春雷
《面向自然语言处理的语言学要义》从跨语言的视角,探讨了如何通过分析句子各组成部分之间的相互关系(主要是形态和句法结构)来构建更准确的语言描写系统,从而为更成功的自然语言处理系统奠定基础。
自然语言处理;形态;句法
LinguisticFundamentalsforNaturalLanguageProcessing: 100EssentialsfromMorphologyandSyntax(《面向自然语言处理的语言学要义:形态学和句法学的100个要点》,下文称《面向自然语言处理的语言学要义》)的雏形是2012年国际计算语言学协会组织的一次授课讲义。作者Emily M. Bender是美国华盛顿大学语言学系和计算科学与工程系的双聘教授,也是中心语驱动的短语结构语法(Head-driven Phrase Structure Grammar,简称HPSG)理论的最主要旗手之一。
本书凝聚了作者跨学科的学术思想和成果,其中体现的主要特点和作者的专业领域高度契合。作者在计算语言学、形式语法和语言类型学等各领域皆颇有建树。在计算语言学方面,她是华盛顿大学计算语言学专业的负责人,长期为《计算语言学》、《语言和计算研究》、《语言技术中的语言学问题》等杂志撰稿;在形式语法方面,她是HPSG理论的权威著作《句法理论》(Sagetal. 2003)的作者之一,而HPSG理论是计算语言学领域应用最广泛的形式句法理论框架(Backofenetal. 1996);在语言类型学方面,她负责的斯坦福大学语言与信息研究中心“语法母体”(Grammar Matrix)项目经过近20年的发展,建立了跨语言语法的开发平台,并在该平台上开发出20种语言的可计算语法。
本书分为4个部分,共10章,包含100个知识要点,每个要点集中解释一个语言学问题,篇幅从一段到两页不等。
第一部分(第1章“介绍/动因”)是全书概述,共有7个要点,介绍形态学和句法学的基本概念,并阐述本书的写作目的——研究两个领域的关键知识,分别是:1)自然语言处理(Natural Language Processing,以下简称NLP)领域:NLP的核心任务是提取语句中的依存关系,即“谁对谁做了什么”。人类语言依靠各种手段体现句子各部分之间的关系,找到并精确描写这些手段对NLP中特征的提取与设计以及错误分析至关重要。2)语言学领域:理想的NLP程序不仅能处理语言内部结构,也能处理不同语言的自然语料,但如何描写跨语言差异对NLP领域的学者来说是个巨大挑战。因此,语言学家需要从NLP的角度构建普遍适用的语言学知识体系。作者特别强调了语言学知识对NLP的重要性,认为如今的NLP系统大多只适用于有限的几种语言,是否适用于其他语言令人怀疑。书中丰富的多语种语料可以用来测试这些NLP系统的解释力。
第二部分(第2章至第4章)聚焦形态学。
第2章“形态学介绍”共有15个要点,介绍词素、派生、屈折变化等基本概念,并重点结合多语种语料讨论词素与音素和词的复杂关系。例如,在希伯来语中,表示屈折变化的中缀会插入动词词根;关于didn’t的词汇属性存在争议;untieable中词根tie与前缀un-和后缀-able的组合顺序决定最终的语义差异等。
第3章“形态音位学”共有4个要点,结合多语种语料描写了形态音位学的3种主要变化过程:1)仅涉及词素形式的变化,如名词复数的规则变化;2)涉及前后词素的变化,如主谓一致;3)完全无规律的词素变化,如不规则动词变化。
第4章“形态句法学”是形态学部分内容最丰富的一章,共有16个要点,介绍与形态学相关的句法功能,如时、体、态、人称、性别、数、格、否定、限定性、言据性、敬语和所属格等,重点讨论形态学特征间的一致关系。作者详细讨论了许多形态学标记的范畴在不同语言中的差异。以时态系统为例,最简单的是两分法,其中最常见的是过去时VS非过去时(如日语)和将来时VS非将来时。英语是三分法,即过去时、现在时和将来时。但有些语言的时态系统要复杂得多。根据Dahl & Velupillai(2011: 36)对222种语言的调查,秘鲁亚瓜语中仅过去时就有5种,分别是:“最近1类”,表示几个小时前;“最近2类”,表示1天前;“过去1类”,表示大约一周到一个月前;“过去2类”,表示大约一两个月到一两年前;“过去3类”,表示很久以前或传说中的过去。又如,最简单的格系统是两分法;最复杂的匈牙利语有21种格。
这一章的突出特点是跨语言语料丰富。48组例句中除了12组来自英语,其他36组分别来自五大洲的20种语言,其中既包括汉、日、德、法、阿拉伯语等使用广泛的语种,也包括澳大利亚和美国的土著语言等小语种。丰富的跨语言差异形象地证明了语言的多样性,提醒两个领域的学者不应仅关注一种语言的特征,而应寻求跨语言的普遍特征,对于面向广泛应用的NLP系统(如机器翻译)的设计者来说尤其如此。处理跨语言语料时,应注意形态标记系统间的差异。相同的形态学特征在语言A中的值可能等于语言B中的两个甚至更多的值的集合。例如,复数标记在英语中的值{复数}等于多种大洋洲语言中除单数外的4个值的集合,即{双、三、大于1的小数目、复数}。
第三部分(第5章至第9章)聚焦句法。
第5章“句法介绍”共有3个要点,作者将句法定义为附加在语句上的约束条件,并为语义“搭建脚手架(scaffold)”。作者根据“弗雷格原则”,重点讨论了约束条件如何影响语句的语法正确性和语义阐释,认为信息组合成语义结构的方式很大程度上取决于句法。
第6章“词性”共有4个要点,分别介绍如何根据形态、句法分布以及功能来定义词性。作者还指出词性划分的复杂性,并强调没有任何广泛适用于所有语言的词类体系,但弱化的、规模较小的词类体系能满足一些实际应用(如机器翻译)的需要。
第7章“中心语、论元和修饰成分”共有17个要点,分别定义这3种句法成分并研究它们的句法表现。例如,作者分别从句法和语义角度讨论了修饰语的7个特点;在讨论中心语的词类时,她特别指出由动词和形容词派生的名词(如invitation和likelihood)也可做中心语,并且可以选择自己的论元。作者重点讨论了成分结构的主要测试方法,如并列、句中特定位置和可替代性等;作者也讨论了区分论元和修饰语的测试方法,如句法必要性和语义蕴含等,并结合例证讨论如何以科学的态度看待这些测试方法。
第8章“论元种类和语法功能”共有15个要点,首先讨论不同语义角色和句法功能以及它们之间的关系。作者结合宾州树库(Penn Treebank)、框架语义网(FrameNet)和英语资源语法(English Resource Grammar,简称ERG)等NLP应用,从句法和语义的角度分析如何对各种依存关系进行分类、标注以及建立层级结构。例如,主语可标注为名词性、被动名词性、小句、被动小句和控制性主语5个子类。又如,ERG区分了193个词项类别,其中仅提升和控制动词的配价关系就有45种,涉及501个动词。本章还研究了如何使用词序、一致和格标记等特征甄别语法功能以及形态句法如何改变句法功能。
第9章“句法位置和语义角色的不匹配”共有16个要点,分别讨论了5类不匹配现象。第1类是句法位置和语义角色间的明显错位,如被动、反被动、与格换位和具有形态标记的使役关系等;第2类涉及语义为空的词汇,如功能词和虚词等;第3类结构中一个谓词的语义论元在句法上实现为另一个谓词的论元,如提升和控制结构;第4类包括复杂谓语和并列结构,前者中单个小句的论元允准涉及不止一个词,后者则可能产生“多对一”和“一对多”的匹配关系;第5类中句法论元实现的位置离它们的中心语较远,如长距离依存。
在第三部分,作者准确定义和区分了一系列的句法概念,讨论了许多特殊的句法结构,并有针对性地推荐了NLP的相应成果。但是,一方面,一些理论语言学的讨论对NLP的学者们来说理解起来可能有些困难。例如,在讨论提升和控制动词的区别时,作者没有解释一些重要的抽象语言学概念,如“未充分赋值”(unsaturated)和“允准”(license)等,而且也未在内容索引中列出。另一方面,虽然作者提供了一些相关NLP文献和资源,但书中缺少与NLP相关的技术手段的支持,如语法开发平台的安装及使用、可计算语法的读取及修改等。如果理论语言学家想了解如何计算实现抽象的句法概念,很难迅速有效地使用书中推荐的NLP资源。为此,如果能附上NLP和形式句法的相关术语解释并增加NLP资源的使用说明,相信会有所帮助。
第四部分(第10章“资源”)共有3个要点,分别提供了形态分析器、深层句法自动剖析器和形态学数据库方面的实用资源信息。
本书的主要特色有3个:
1)跨学科的知识体系:作者具有跨理论语言学和计算科学的知识背景,写作目的明确,内容丰富切题并且体系完整,观点有说服力,在理论语言学和NLP之间搭建了沟通的桥梁。本书不仅能为NLP领域的学者提供系统的形态学和句法学框架,也可帮助理论语言学家从NLP视角探索具有普遍意义的深层语言规律。书中的许多语言学描写,尤其是前6章的内容,可以直接应用于机器翻译。同样,从NLP的角度描写语言现象对理论语言学家也有所启发。
本书的内容和技术细节的安排真正兼顾了两个专业领域的学者。在这方面其他相关著作就稍显逊色。一方面,NLP的学者常参考的语言学经典著作(如Fromkinetal. 2013; O’Gradyetal. 2010)虽然都辟专章介绍了NLP,但篇幅有限,内容仅限于结合少数例证介绍NLP的主要概念和研究领域。另一方面,语言学家常参考的NLP经典著作(如Jurafsky & Martin 2008)主要关注语言学各层面NLP的构架、技术细节、算法和应用,关于语言学的讨论不够深入,系统性也不强。但遵循本书构架,既能有深厚的语言学本体(尤其是普遍语法)研究基础,又能方便地对本体研究成果进行计算实现,从而建立面向NLP、针对特定语言的可计算语法系统。
2)跨语言差异的丰富语料支撑: 书中的讨论涉及多达82种语言,而且绝大部分要点都有例句支撑。这些例句来自斯瓦希里语、希伯来语、土耳其语、芬兰语、塞尔维亚—克罗地亚语、车臣语、印古什语、楚克奇语、尤卡吉尔语等20多个语种。此外,书中详细讨论的大量跨语言差异可以帮助语言学家更深刻地理解跨语言变化规律对设计机器翻译系统和其他多语言应用软件的重要意义。
3)可读性强,使用方便:本书介绍了面向NLP的形态和句法结构体系,言简意赅,深入浅出。本书简洁的排版、一目了然的目录编排、详细的内容和语言索引、附录、参考文献以及正文中频繁出现的交叉引用都非常便于快速检索。例如,附录中列出了行间标注中使用的语法术语缩略形式、全称、上层语法类别以及书中相关知识要点等详细信息。此外,20多页参考文献全都列出了引用出处的确切页码,因此扩展阅读会非常高效。
本书也存在以下两点不足之处:
1)作为一本实用手册性质的著作,书中没有深入讨论语言学家和NLP学者共同关注的一些重要内容,例如:特征提取的原则、构建特征结构的方法和词性标注等。
2)多语种语料分布不均,大多集中在形态学部分,而句法部分有近80%的语料都来自英语。句法结构在不同语言中的变化非常丰富,能提供更多启发。如果在这一部分能进一步丰富多语种语料,更能凸显本书跨语言的独特视角。
总的来说,本书信息量大、系统性强,是一本可读性很好的NLP和形式语法实用工具书。因此,本书出版后短短一年多时间即受到学界的广泛关注和好评,已被《计算语言学》和《机器翻译》等SCI和SSCI顶级期刊推介,并已有多所著名高校将其列为研究生跨系教材,如美国麻省大学和达特茅斯学院(常春藤盟校)计算机科学系、华盛顿大学语言学系和印度孟买大学语言学系等。
Backofen, R.etal. 1996.TheEAGLESFormalismsWorkingGroup.FinalReport(TechnicalReport) [R]. Saarbrücken: German Research Center for Artificial Intelligence.
Bender, E. M. 2013.LinguisticFundamentalsforNaturalLanguageProcessing: 100EssentialsfromMorphologyandSyntax[M]. San Rafael: Morgan-Claypool.
Dahl, Ö. & V. Velupillai. 2011. Perfective/imperfective aspect [OL] // M. S. Dryer & M. Haspelmath (eds.).TheWorldAtlasofLanguageStructuresOnline. Munich: Max Planck Digital Library. http://wals.info/chapter/65.
Fromkin, V.etal. 2013.AnIntroductiontoLanguage(10thedition) [M]. Wadsworth: Cengage Learning.
Jurafsky, D. & J. H. Martin. 2008.Speech&LanguageProcessing(2ndedition) [M]. Upper Saddle River: Prentice Hall.
O’Grady, W.etal. 2010.ContemporaryLinguistics:AnIntroduction(6thedition) [M]. Boston: Bedford/St. Martin’s.
Sag, I. A.etal. 2003.SyntacticTheory:AFormalIntroduction[M]. Stanford: CSLI Publications.
(责任编辑 任凤梅)
通讯地址: 201620 上海市 上海外国语大学英语学院
本文系国家社会科学基金项目“类型学视野下的汉语短语结构语法及其计算实现研究”(16BYY136)、教育部人文社会科学研究规划基金项目“面向深层语言处理的汉语短语结构语法”(13YJC740118)和上海外国语大学规划基金项目“语言量化现象的多维度研究”(2013XJGH023)的阶段性研究成果。
H043
A
2095-5723(2016)02-0095-04
2016-02-26