黄华新,洪峥怡
(浙江大学 逻辑与认知研究所, 浙江 杭州 310028)
《自然语言信息处理的逻辑语义学研究》[1]一书于2018年9月出版,作为国家社会科学基金重大项目“自然语言信息处理的逻辑语义学研究”的部分研究成果,该书对范畴类型逻辑CTL与组合范畴语法CCG进行了系统而深入的研究,并以汉语信息处理为导向,综合逻辑学、语言学、计算机科学研究成果,为计算机自然语言处理提供了一些新的思路。
自然语言和逻辑有着天然的渊源关系:一方面,逻辑学的研究对象是人类的思维规律以及推理的有效性,而抽象思维首先也主要是通过自然语言表述出来的;另一方面,人可以习得语言,并深入探究语句的形式和意义,证明自然语言不是任意的符号组合,而必须有逻辑作为内在理据与骨架。由此,就诞生了逻辑语义学这门语言学和逻辑学的交叉学科,它依据现代逻辑的思想或采用现代逻辑的工具研究自然语言的句法生成和语义组合规律,揭示和刻画自然语言生成中的组合特性,并对自然语言句法-语义的组合生成过程给出形式化的解释。
自20世纪70年代以来,数理逻辑和理论语言学研究的深入推动了逻辑语义学的迅猛发展。蒙太格提出“普遍语法”思想,认为自然语言和形式语言在本质上并无差别,两者都可以作精确的数学描述[2]264,由此创立了著名的蒙太格语法。此后,这一思路的继承者又提出了广义量词理论、话语表现理论、情境语义学和类型-逻辑语法等一系列理论,构成了内涵丰富的逻辑语义学。这些理论尝试一方面为解释语言学问题提供了新思路,另一方面大大推动了当今逻辑科学的发展,随着计算机科学和人工智能领域的发展,更是引起了自然语言信息处理领域学者的高度重视。在我国,这也是语言逻辑研究的一个重要方向,学者们已对上述理论作了较为充分的介绍,同时开始尝试解决汉语句法和语义中的一些特殊现象,对汉语信息处理中的疑难问题进行理论探索。
邹崇理等几位老师潜心学术,坚持数年,完成了《自然语言信息处理的逻辑语义学研究》一书。该书的作者团队是国内逻辑语义学研究的主要力量。该书可以视为对国内逻辑语义学方面成果的一次重要整合和拓展。
该书内容分为三编。第一编为总论,介绍了逻辑语义学的学科性质和研究概况。莫特盖特曾提出著名的口号“认知=计算;语法=逻辑;解析=演绎”[3],以此阐释逻辑语义学的核心思想。这是因为自然语言和逻辑语言根本的结构机制都是递归生成组合机制,句子的语义是其各部分语义的函项。当然,自然语言的丰富性和复杂性使它很难完全符合某一原则,很多情况下句法生成和语义组合难以实现完美的对应,句法、语义、语用等多重机制往往交互作用。也正因为如此,基于组合性原则的自然语言模型论语义学更显示出自己的独特的存在价值,它针对不能简单对应的情况进行深入的探索和方法的更新,主要给出了两条解决路径:一是增加规则,二是扩充词库。
第二编介绍了范畴类型逻辑CTL。CTL以兰贝克演算为基础,主要理论包括非结合的兰贝克演算(NL)、结合的兰贝克演算(L)、多模态兰贝克演算(ML)、对称范畴语法等。作者梳理了这一发展历程,对每一种理论给出其公理表述、根岑表述、自然演绎ND表述、树模式表述4种等价的表述。接着介绍了兰贝克演算匹配λ词项的CTL类型语义学,通过λ演算和兰贝克演算的匹配实现了句法和语义的一一对应。最后,作者在贾戈尔的LLC系统的基础上进行改造,为汉语反身代词、空代词等照应省略现象构造了相应的CTL系统。
第三编介绍了组合范畴语法CCG。理论层面,作者回顾了斯蒂德曼的原生态CCG和鲍德里奇等人的多模态CCG,揭示了CCG“词汇主义”“实用主义”“面向大规模真实文本”等特征。应用层面则首先讨论了汉语中一些特殊句式的处理,包括非连续结构(话题句、兼语句、连动句、复杂谓语并列结构)、特殊句式(把字句、被字句、得字句)、形容词谓语句、主谓谓语句等。进而,在吸收宾州树库转换为CCG推演树已取得的成果的基础上,重点关注汉语树库的建设,给出了CCGbank转换系统的构架与设计,并最终将基于短语结构语法的宾州汉语树库转换为基于组合范畴语法的汉语CCGbank。
全书有着清晰的架构和充实的内容,在以下3个方面体现了鲜明的特色:
1.理论性与应用性结合
在理论梳理方面,该书系统地介绍了范畴类型逻辑和组合范畴语法的基本内容。在这一过程中很好地凸显了不同理论的自身特色。对于CTL,重视逻辑的系统构建和元理论证明;对于CCG,重视对各种具体的句法语义现象的解释。更重要的是系统地比较了两种理论,并将两者打通[4]79-80。多模态CCG的每条规则都对应于一条范畴类型逻辑的结构公设,这样便可以使刻画兼顾贴近自然语言实际和追求逻辑系统性这两方面的需求。
在应用方面,该研究直接面向自然语言信息处理。研究方法上重视语料库的建设、计算机程序的解释和大样本的数据支持。而其最终成果是构建汉语分析树库,这将有效提高大规模文本中汉语语句自动生成理解的效率和准确度。
2.对汉语特殊性的关注
英汉语言在许多方面存在着较大的差异,诞生于讨论英语语言现象的逻辑语义学理论并不完全适应对汉语的解释。该书以汉语信息处理为导向,以现代汉语中一些具有典型性的句法-语义现象为研究素材,列举了大量的汉语例子来进行详细刻画。书中尤其针对汉语照应省略问题进行了深入细致的考察。贾戈尔在其专著《照应与类型逻辑语法》[5]中,通过增加竖线算子构造了一个带受限缩并规则的兰贝克演算LLC,用以解决非连续问题。该书中作者针对回指照应的一些特殊情况,通过对LLC系统的扩张,给出前后搜索的LLC——(Bi)LLC。具体做法是,在贾戈尔的竖线算子基础上,进一步定义了区分方向的向前的竖线算子和向后的竖线算子(解决先行语后置问题),并对用于处理照应关系的下标算子(解决长距离约束、次统领约束、主语倾向性等问题)给出严格的定义,使得下标的引入和消去具有逻辑依据。该系统可以有效解决汉语中空代词的语义生成,同时作者也证明了该系统的可靠性和完全性。
3.多学科交叉融通
该书充分体现了逻辑语义学多学科交叉的属性:研究对象是自然语言,CCG语料库的建设面对的是大量的真实语料样本,其中涉及了大量语言学关注的句法和语义现象;研究工具是现代逻辑,对自然语言采用以函项运算为核心的类型论和范畴语法进行刻画,给予模型论上的解释,进而能构造一个逻辑系统并证明其可靠性和完全性;研究的主要目的是服务于计算机科学的自然语言信息处理,树库的建设实质是将逻辑系统进一步转化为算法并进行计算机编程,最终实现机器理解自然语言的效率和准确度。各个板块因其特性在学科上各有偏重,又在逻辑语义学的总框架下相互交织。
《自然语言信息处理的逻辑语义学研究》一书以CTL和CCG这两个同源并行的理论串联汇总了该团队近年来的研究成果,其突出价值体现在以下方面:
在理论方面,逻辑语义学分支众多,不同分支之间又存在本质上的联系,该书对范畴语法这一重要分支的梳理可谓清晰详细,使读者对此有一个更完整的认识。逻辑语义学是自然语言信息处理的基础性先期工作,自然语言体系的复杂性远远超出人们最初的想象,如果没有逻辑语义学对一些特殊语言现象的处理,自然语言处理(如机器翻译等)只能是以扩充样本为主的量的提升,而对于无界依存、回指照应、语义歧义等依赖逻辑语义结构的复杂问题依然束手无策。汉语作为一种“意合性”语言,词序更为灵活,省略更为常见,上下文依赖性也相对更强。该书立足于汉语的独特性的范畴类型逻辑以及组合范畴语法研究,切实地通过技术手段上的创新实现了对汉语部分句法语义的解释,这些思路和成果可以推广,以充实逻辑语义学研究的理论宝库。
而从应用角度来看,把逻辑语义学对自然语言,尤其是对汉语形式化研究的成果应用到汉语的信息处理领域,将拓宽我国计算机自然语言处理的思路,提高处理的效率。CCG树库的建立在提高机器生成和理解自然语言的效率和准确度方面具有重要意义,但此前,汉语CCG库只有微软和清华合作的成果,该书在这一方向上有较大的突破。
在学科建设方面,国内逻辑语义学方向的研究比较边缘,成果也较零散。该书通过对范畴语法的两个分支的梳理、应用与创新,给出了一条相对清晰的逻辑、语言、计算的跨学科交叉研究的路径,其研究思路、理念和方法对国内语言逻辑以及相关的跨学科研究有重要的启发价值和促进作用。
当然,以逻辑语义学为工具对汉语语言现象的研究才刚刚起步,还有巨大的探索空间。尤其CCG面对的是大规模的真实文本,其中涉及的问题更为复杂。目前,利用CCG对汉语特殊句式进行处理时实用色彩过于浓厚,只是针对不同的句式调整了特定成分的句法范畴,显得比较零散,描述的意味多于理论抽象。由此,也让人进一步追问,词汇的范畴是否能够穷尽?如果不能,则范畴的赋予会始终处于不确定的开放状态;如果能够穷尽,机器在选择时是否将无差别地搜索出一切可匹配的范畴?另外,通过对词条给出不同的范畴得到不同的组合,或者以不同的顺序进行范畴组合,是否会使一个本无歧义的句子生成多种存在差异的语义?类似的问题还有许多,均值得我们下功夫深入探究。