田丁月
渤海大学
随着计算机技术的不断发展,从最早的计算机语料库BROWN(由纳尔逊和库切拉建立的美国英语语料库)建成至今已过近六十年,语料库语言学既可以被看作一门新兴学科,又可以被看作20世纪美国结构主义语言学研究方法的延续,是现代语言学的一个重要分支。
语料库语言学有着经验主义的哲学基础,注重语言事实,以大量的语料素材为研究基础是该学科的突出特点,研究者们通过计算机批量处理语料素材,形成电子语料库,再进一步系统化分析形成论述成果,因而语料库语言学与计算机技术密不可分,但也因此令人望而生畏,使很多初学者失去了了解语料库语言学学科的兴趣。
梁茂成的《什么是语料库语言学》(上海外语教育出版社,2016)在一定程度上弥补了以上的遗憾。
本书是一本工具性很强的问答书,采用问题解答的方式,将语料库语言学相关知识拆解成55个具体的问题,主要内容分为五个部分:
在第一部分,作者从“什么是语料库”基本概念出发,简要介绍了语料库的定义、建设、实用价值、类型、局限等基础知识。作者旁征博引,为读者构建了一个语料库基础知识的整体框架,为后面的四个章节作铺垫。
在第二部分,作者以第一部分的“语料库”为引,从语料库语言学学科的命名过程讲起,介绍了该学科的哲学基础、与计算机技术和计算语言学的关系、学科发展、研究范式等概念。讲解时注重对比,如在论述语料库语言学的哲学基础时,除对经验主义的介绍外,作者还对比了与之不同的理性主义研究方法,肯定了理性主义思辨的严密性、解决问题流程的清晰性,并从经验主义与理性主义双方的优劣势之中做出取舍,得出“理性主义和经验主义的融合才是语言学研究发展的必由之路”的结论。此外,本书补充了“类联接”、“语义倾向和语义韵”、“OSTI报告”等知识,使得讲授内容更加专业化。
在第三部分,语料库的处理和加工,作者增加了专业术语的使用,问题也趋向于名词解释,作者开始抽象地对学科知识进行讲授。在这部分,作者介绍了文本清理、元信息、语料库的标注、分词和词形还原、词性标注、句法剖析、双语对齐七个独立的知识点,并运用普适度较高的示例与简明清晰的图表辅助读者理解。
在第四部分,全书的难点知识,是关于语料库分析方法的介绍。作者从相对简单的“词表”概念出发,逐步介绍了“N元分析”、“型次比”、“索引分析”、“正则表达式”等十个具体概念。
在第五部分,本书的问题重新回归具体,把讲解的重点放在了学科应用上。这部分作者主要介绍了常用的中英语语料库、语料库翻译学、中介语及相关知识、词汇大纲等知识。这部分内容结构层次清晰,比如在回答“什么是微型文本?”时,先举出实操环节中数据驱动学习存在的困难,再基于这些困难提出微型文本的概念,使讲解更加易懂。
在本书的末尾,作者列出了详尽的参考文献与推荐的阅读书目,并在附录中列出该书涉及到的语言学术语汉英对译总览表和CLAWS词性标注集,方便读者查找和学习。
语料库语言学的发展日益兴盛,我国的相关研究者也日益增多,除本书外,还有贾爱武、濮建忠主编的《语料库语言教学与研究》、杨惠中的《语料库语言学导论》、余国良的《语料库语言学的研究与应用》等学术著作。
《语料库语言教学与研究》(以下简称《教学与研究》)以论文集的形式呈现语料库语言学的教学与研究方面的研究成果。全书甄选了22篇优秀论文,内容包含范围广,如政府报告、演讲稿、新闻报道、英语教学、英文写作等。
《教学与研究》与《什么是语料库语言学》(以下简称《什么是》)是完全不同的两类书籍,《教学与研究》注重应用成果的展现,适合有一定英语或英语教学基础的读者学习,而《什么是》是一本答疑解惑的工具书,更适合初学者。
《语料库语言学导论》(以下简称《导论》)是一本用于高等院校英语语言文学专业研究生教学的系列教材之一,该书中外结合,史论结合,广泛搜集资料,有着很强的实用性、系统性。全书分为三部分,每一部分由专门的专家负责编撰,并由杨惠中先生做最后的审阅工作。该书第一部分主要是语料库语言学的理论研究,分三章讲解了基础知识;第二部分是语料库的分析方法与技术,从基本统计手段及原理与文本索引工具及应用两部分,对实操的环节进行详细的讲授;第三部分则是偏向应用类的专题研究,包含英语词语搭配种类、学术英语语体研究、学术英语语义韵研究等方面。该书在附录部分列出了术语表、书面英语词语类码表、英汉术语对照表等实用价值极高的工具表,对学习者帮助极大。
《导论》相比于《什么是》,在基础知识的详细讲解上增加了学科专业性、系统性,使理论与应用结合得更密切,此外,分章讲解的学位论文模式是该书的内容编排特点,这样的编排对研究生的学位论文的写作也具有指导意义。
《语料库语言学的研究与应用》(以下简称《研究与应用》)通过七个章节运用理论阐释和实例分析的方法,对语料库语言学进行了知识梳理。该书第一章介绍了语料库语言学的学科概貌,明确了学科定位;第二章与第三章从语料库的建设发展、加工利用两个方面进行细致的讲解;第四章到第七章可以看为一个整体,介绍了语料库语言学在外语教学、翻译、文体学等领域的具体应用与价值。
《研究与应用》与《什么是》都对语料库的定义、分类、发展等基础知识做了介绍。但《研究与应用》并未涉及语料库分析方法的部分,《什么是》中的语料库研究应用也比《研究与应用》中涵盖的学科范围窄,内容不如《研究与应用》丰富。此外,不同于《什么是》的解答式编排,《研究与应用》将内容的重心放在了语料库语言学对其他学科领域的影响与应用上,该书用了将近一半的篇幅(四个章节)来证明语料库语言学的研究科学性、工具便捷性。该书还对语料库的加工和利用展开了更细致的阐释,关于应用的实例也比上述提及的其他著作涉猎的多,但有利有弊,应用实例较多,对于不了解语料库语言学的初学者,理解起来可能会有困难,阅读有定一定门槛。
以上例举的几本著作仅是我国语料库语言学研究成果的一小部分,如今已有越来越多的学者以不同的角度在该领域笔耕不辍,我们相信,随着时代的进步,语料库语言学会有着更美好更广阔的的发展前景。
本书以解答为重点,循序渐进地为读者传授语料库语言学的知识。但因此的不足就比较明显:不能很好的将知识系统化,个别问题前后之间的关联松散,一定程度上使个别知识的前因后果不够连贯。例如开篇对“什么是语料库?”的介绍,仅仅解释了语料库的概念,概述了其他学者对语料库的两种认识,并未对其发展进行大致的梳理,有种“意犹未尽”之感。
在计算机技术飞速发展的今天,如何顺应科技化潮流与时俱进是每门学科不可回避的问题,语言学已借助语料库这门新技术有了累累研究硕果,观之我们中国的汉字,虽早已通过发达的信息处理技术进入计算机之中,但汉字学的新时代创新仍充满了挑战。传统汉字学的研究方法已不能满足当今学者研究的需要,我们该如何利用好计算机技术这一有利工具,将传统知识与新科技的结合起来,是汉字学研究者普遍面临的问题,因而,书中提及的语料库语言学建设方法就为汉字学的新发展提供了很好的参考范式。
不同的语言有与之对应的语料库,那么触类旁通,汉字则应对应有自己的汉字字料库,字料库汉字学正是此类新兴学科,它“以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有的汉字学理论”(柳建钰,2017),对汉字学的新发展有着不可忽视的贡献,是一门富有研究价值的交叉学科。王宁在《汉字构形学导论》中,将汉字学的研究分支归为四类:汉字构形学、汉字字体学、汉字字源学和汉字文化学,这四类分支在字料库的辅助下势必会有新的、卓越的发展。令人欣喜的是,这样的预设并非空想,目前汉字学的字料库建设与发展有着欣欣向荣之势,已有许多学者投入到对此的建设中来,他们从字料库的基础定义、理论建设、实际应用等诸多方面辛勤研究着新时代汉字学理论,同时证明着字料库的运用会给汉字学的新发展提供无限可能。
本书第三章的“语料库的处理和加工”可为字料库汉字学的字料信息计算机化提供参考,尤其是第一问涉及到的文本清理,本书从编码转换、规范格式、字符替换等方面为汉字学语料库处理提供了详尽的参考,例如推荐了UTFCast的编码转换工具,PowerGREP的拼写检查功能,并分享了“文本清理是一项需要细心和耐心的操作技术,需要在实践中不断增强意识提高操作效率”的经验。又如“什么是语料库的标注?”中谈到的不同层面的语料标注分类:语音、语义、语用、语篇、词类、句法,尽管语料标注在语言学研究领域是存在争议的,但有此分类作为参考,能极大方便研究者对掌握的语料进行语言特征的分析,同时也为字料库汉字学中的字料标注提供了参考。
本书的第五十五问“大数据时代的语料库语言学会有什么新的特征?”也同样引人深思,这个问题的回答不仅是针对语料库语言学,更适用于当今语言学广泛的相关学科。在新时代条件下,各学科在大数据的影响下,会有怎样的发展与创新,读者能在此回答上窥探一二:
(1)研究规模会发生变化,资源会越来越丰富;(2)研究内容会更庞杂,降噪会成为学科建设的重要课题之一;(3)网络爬虫智能化、工具便捷化;(4)研究材料的存储方式会发生改变;(5)研究分析方法会有变化;数据的解读更有挑战性。
在当今日新月异的世界,随着社会开放程度、人们的认识水平与认识能力的不断提高,新思想、新技术层出不穷,促进了不同文化之间的交流融合、取长补短、互利共赢。这一点体现在学术界,便是学科与学科之间、学科与新研究方法之间的碰撞,产生了大量如“国际中文教育”、“字料库汉字学”等等新兴学科,交叉学科的兴盛更是大势所趋。
愿我们各学科之间能够相互学习借鉴,愿我们汉字学的后辈研究者们能学好、借鉴好语料库语言学学科的发展经验,结合前辈们辛勤耕耘出的成果,建设好我们的字料库,做好研究,做好创新,为汉字学的发展尽一份绵薄之力。