兰卡斯特大学（语言、话语与社会）语料库语言学2019暑期学校综述*

2020-07-22 06:02:08杨石乔

深圳职业技术学院学报 2020年4期

杨石乔

杨石乔

（深圳职业技术学院商务外语学院，广东深圳 518055）

本文主要介绍兰卡斯特大学（语言、话语与社会）语料库语言学2019暑期学校的重要内容，包括基于语料库的话语分析及其常见问题与原则，语料库统计学，语料库方法在法律语言学、健康交际、莎士比亚研究中的应用，以及基于#LancsBox工具建构自己的语料库或使用已有语料库的实践操作。暑期学期的宗旨是逐步从语料库语言学研究转向基于语料库方法的社会科学各领域的研究，其前瞻性对我们的研究不无启发。

语料库话语分析；#LancsBox；语料库社会科学研究

1 引言

笔者受国家留学基金委资助，于2018年8月至2019年8月前往英国伦敦大学学院（University College London）访学一年。访学期间，笔者有幸参加了在语料库语言学研究重镇兰卡斯特大学（Lancaster University）举行的语料库语言学暑期学校（2019年6月24日至6月27日）。暑期学校受到英国ESRC（英国经社研究委员会）资助，对参加者免费，其主要目标是培养参加者使用语料库技术和软件的实践技能，以及将其应用于不同的语言领域乃至整个社会科学研究。

整个暑期学校分为三个小组（班）同时进行：语言、话语与社会分析语料库语言学（Corpus linguistics for analysis of language, discourse and society），语言学习、教学与测试语料库语言学（Corpus linguistics for language learning, teaching and testing），语料库语言学统计与数据可视化（Statistics and data visualisation for corpus linguistics）。课程形式采用讲座与计算机上机操作相结合的方式。笔者所在的小组是语言、话语与社会分析语料库语言学小组，以下的介绍基于该小组的活动。第一部分介绍讲座内容，第二部分介绍上机实践操作即语料库统计分析及数据可视化工具#LancsBox的使用①暑期学校主讲嘉宾Prof Paul Baker, Dr Vaclav Brezina, Dr Gavin Brookes, Dr Luke Collins, Prof Jonathan Culpeper, Dr Claire Hardaker, Dr Andrew Hardie, Prof Tony McEnery and Prof Elena Semino的讲座内容或下发资料成为本文写作的重要参考，此外还有#LancsBox 4.5网站上的视频讲解特别是使用指南对本文都有重要帮助，在此一并致谢。。

2 基于语料库的话语分析

Tony McEnery教授主讲基于语料库的话语分析，将话语定义为“大于句子或小句的语言”[1]1，指出批评话语分析将话语视为社会实践，对语言或文本中的意识形态和权力关系感兴趣。语料库方法背后的理据是，大容量意味着模式具有代表性，程序公正，关注不可预见模式。列举的研究问题有，某种群体、身份、概念在语料中如何呈现，周边有什么话语？两种群体或两种语料之间是否存在差异与相似之处？这些话语是如何为之服务的？

语料库研究的两种方法：语料库驱动的研究方法——例如使用频率列表或关键词列表来“驱动”分析的重点；基于语料库的研究方法——将检索用于验证假设；或者两者相结合的方法。

语料库语言学研究模型可以分为描述（Description）、理解（Interpretation）、解释（Explanation）、评价（Evaluation）。

·描述：语料库里出现的语言模式；

·理解：怎样理解这些模式对话语的作用；

·解释：为什么会出现这些模式或话语？将之与历史、社会或语境联系起来；

·评价：谁将（不）受益于这些模式或话语？应该改变什么或怎样改变，分析者的评价。

Tony McEnery教授以搭配词（Collocates）和关键词（Keyness）为例，对语料库研究进行列举。词语以其特有的搭配方式出现，这些搭配包含了词语的联想和内涵，因此也包含了词语所包含的假设[2]172。如果搭配和固定短语在媒体讨论和其他场合被反复用作未分析的单元，那么人们就很有可能会用这样的术语来思考问题[2]195。一个词语在一个语料库里出现的频率高于在另一语料库里出现的频率，这个词语就是关键词。关键词是分析的指路标，提供语料分析的切入点。我们可以检查索引及其搭配，以理解其重要性。

Tony McEnery教授的第二个讲座是基于语料库方法研究社会历史，实例探讨了用语料库研究过去边缘词的意义，探索17世纪英格兰的边缘群体。

Paul Baker教授基于语料库的话语分析讲座侧重于语料库话语分析中常见的方法问题、结果阐释问题以及一些有用的原则。

Paul Baker教授指出，语料库话语分析方法可能因人而异。5名分析者曾独立分析关于外国医生的相同新闻语料[3]，每个人使用的分析方法都不同（例如有人研究“foreign doctor”的搭配，有人研究关键词）。大部分人还有25%的研究结果没有发现（如外国医生建构为语言能力不太好、不太能胜任、需要更好地监管）。只有1名分析者发现了2/3的模式，出现了两种“多产”策略——花费很长时间在一种技术上，如阅读每一条检索项，或使用很多不同的技术。

语料库话语分析在阐释结果或报告时容易出现解释不足或过度解释两种极端问题，分析结果报告时需要对模糊性进行界定。Baker（2013）认为最佳报告是使用精确数字和比率，给出样本大小，如“981例女孩中有280名（占28.5%）表达负面情绪”；中等报告使用大多数、大约几乎一半、少数，如“仅四分之一多一点的女孩表达负面情绪”；糟糕报道使用一些、几个、许多、相当多等，如“一些女孩表达负面情绪”[4]。

Paul Baker教授提出语料库语言学研究的三个有用原则，透明原则：尽可能全面描述数据/方法，尽可能使其可用。一致原则：尝试在方法中应用一致的决策。反思原则：你为什么要做这个研究，你之前和它的关系是什么，又是如何变化的？让别人看你的数据，考虑三角测量（triangulation）。

3 其他讲座内容

Vaclav Brezina博士讲座的题目是“语料库分析统计学概论”，他介绍了什么是统计学？语料库语言学与统计学的关系、基本统计学术语、语料库的构建与研究设计、语料研究与可视化等。作为#LancxBox项目的负责人，Vaclav Brezina博士（2018）著有《语料库语言学中的统计学实用指南》一书[5]。

C. Hardaker博士讲座内容是语料库方法在法律语言学中的应用，介绍了法律语言学的概念，包括法律语言学研究领域、法律语言学分析类型，并就如何将语料库语言学方法应用到法律语言学进行了案例分析。

Elena Semino教授作了“语料库语言学与健康交际：以慢性疼痛为例”的报告，主要内容有疼痛与交际、语料库语言学与慢性疼痛的诊断（语料库方法与疼痛的诊断问卷、语料库方法与疼痛专家咨询中的视觉图像），并介绍了CASS（corpus approaches to social science即语料库方法的社会科学研究中心）的健康研究主题，基于语料库语言学方法的：

·患者对NHS(National Health Service）服务的在线反馈研究

·癌症和临终隐喻研究

·英国媒体对肥胖的报道研究

·英语口语中的精神疾病标识研究

·英国媒体中“社会关怀”报道研究

·媒体与在线论坛中的焦虑感知研究

·卫生专业人员英语语言测试研究

J. Culpeper教授作了“用语料库技术探索莎士比亚及其同时代人的语言”以及“用语料库方法揭示莎士比亚语言的神话”两个报告，使用语料库研究方法，探究莎士比亚使用的语言在词、短语、语义主题等层面的特征。作为大型语料库语言学研究项目《莎士比亚语言百科全书》的负责人，J. Culpeper在暑期学校结束的第二天，即6月28日，为此项目举行了一个大型的研讨和成果发布会，通过对莎士比亚及其同时代人所写的数百万字的分析，揭示了莎士比亚的语言对伊丽莎白时代的意义。

4 基于#LancsBox的讲座及介绍

A. Hardie是兰卡斯特大学语言学系与计算机系共同组成的语料库研究中心主任，同时也是兰卡斯特大学语料库检索服务器的维护者，Hardie的讲座题目是“语料库工具与技术”。还有讲座如“建立自己的语料库”（G. Brookes）、“基于GraphColl的搭配网络与话语分析”和“语料库语言学与在线交际”（L. Collins）、“语义标注与关键域”（P. Rayson），实践性非常强，很多都是基于#LancsBox且在计算机实验室讲座与实践操作同时进行。因此，我们把讲座内容融合在以下对#LancsBox的介绍当中。

#LancsBox是兰卡斯特大学语料库工具箱（Lancaster University corpus toolbox）的简称，由Vaclav Brezina博士于2015年领衔软件设计人员开发的用于分析语言数据和语料库的新一代软件包，是免费的非商业软件。该工具箱可以使用现有的语料库或自己的数据，可对语言数据进行可视化，可用于语言学、语言教学、历史学、社会学、教育学以及其他社会科学领域的研究。目前#LancsBox的版本已经是4.5版[6]，更新日期为2019年6月1日，其著作版权引用参见文后参考文献[7]和[8]。

我们在2019年7月5日检索CNKI期刊网“全文”含有“LancsBox”的文献，仅查询到四篇文献使用过该工具，其中两篇为期刊论文，两篇为硕士学位论文，且都发表于2018-2019。可见国内对该语料库软件的了解和使用还处于起步阶段，我们对其功能进行简要介绍，以期能为我们将来的语料库语言学研究乃至其他社会科学研究服务。

4.1 下载和运行#LancsBox 4.5

在http://corpora.lancs.ac.uk/lancsbox/主页下载#LancsBox，注意选择合适的操作系统（Windows，Mac，Linux等）的版本。安装#LancsBox软件时，注意解压缩后文件的位置在电脑硬盘不能太深，否则软件将无法识别路径，导致无法运行。安装好#LancsBox之后，发送快捷方式到桌面，以后每次需要运行时，左键双击即可。

运行软件后，在Corpora工具栏下有两个功能，加载（Load data）和下载（Download）语料库和词表。#LancsBox加载语料库和词表的功能可以让我们方便地创建和使用自己的语料库。我们可以事先将自制语料库或词表（#LancsBox兼容各种不同格式.txt，.xml，.doc，.docx，.pdf，.odt，.xls，.xlsx，.zip的语料以及.csv格式的词表）存储在电脑上或移动硬盘上，在Load data下左键单击语料库或词表，导航到存储语料库或词表的位置（文件夹），可以选择一个或多个特定的文件，左键单击“打开”加载文件。加载完成后，左键点击import，导入语料库。

下载语料库和词表。#LancsBox允许使用现有免费的八个语料库，包括LCMC，Brown，L-O-B，Climate，Newsbook，Shakespeare，V-U-L-C，BNC64，还有一个其他资源列表。

在图1Corpora语料库选项工具中，左键单击“下载”下的语料库或词表，会弹出语料库或词表列表，通过左键点击需要下载的语料库，可以看到语料库的附加信息，包括语言、日期、文本类型、许可等，勾选同意语料库许可，左击import将语料库导入#LancsBox。

4.2 KWIC工具

KWIC是Key Word in Context（上下文中的关键词）的缩写。KWIC工具以索引的形式生成检索项按照指定的跨距（span，以字母或者单字计算）在语料库中的实例列表，并将检索词（即nod节点词）居中的方式显示。其功能有：检索语料库中单词或短语的频率；检索不同词类的频率，如名词、动词、形容词；使用智能搜索检索如被动语态、分裂不定式等复杂的语言结构；对索引行进行排序、过滤或随机调整；在两个语料库中搜索检索词的使用情况，并进行对比统计分析。索引功能是语料库语言学研究中一个非常重要的内容。

4.3 GraphColl工具

GraphColl工具是搭配图像化工具graphical collocations的缩写。GraphColl工具可以识别搭配，通过表格显示或图形网络显示。通过前面的KWIC索引，我们也能了解检索词的搭配，但往往会比较零碎，而通过GraphColl工具搭配统计功能，能够将检索词的搭配从高到低或者从低到高排列，并通过图形展示。

其主要功能有：检索单词或短语的搭配；检索语法类别的共现；搭配和搭配网络的可视化；识别单词或短语的共享搭配等。

GraphColl生成搭配图前必须为搭配检索进行适当设置，1）Span指检索搭配时，要考虑节点（检索项）的左边（L）和右边（R）有多少个单词[默认左边5右边5]。2）Statistics指的是用于计算搭配强度的关联测度。3）Threshold是搭配的最小频率和统计截止值。4）Corpus指的是正在检索的语料库。5）Unit是用于搭配的单位（type，lemma，part of speech [POS] tag）。

设置完成后，在搜索框中键入检索项（图3左上角）并左键单击search，将生成一个搭配表（图3下左）和一个搭配图（图3下右）。

图3标示各列的含义为：1）Status表示是否展开了搭配，如果是黑圆点则表明展开了搭配，如果是白色圆圈则表示没有展开搭配。2）Stat（03-MI）显示该节点的文本位置，可以是节点的左（L）、右（R）或中（M），即L和R频率相等。3）Collocate搭配显示。4）Stat显示所选关联度量的值。5）Freq（coll）：显示搭配的频率（结合node+collocate）。6）Freq（语料库）：显示语料库中任意位置的搭配频率。

图1 Corpora工具

图2 KWIC工具

图3 GraphColl工具

图3左侧搭配表是显示搭配的一种传统方式。图3右侧搭配图显示了搭配强度、搭配频率、搭配位置三个维度。搭配强度由节点与搭配之间的距离表示，搭配距离节点越近，关联就越强（磁效应）。搭配频率由搭配颜色的强弱来表示，颜色越深，搭配频率就越高。搭配位置围绕节点，反映了文本中搭配的准确位置。有些搭配主要出现在节点左侧，有些则主要出现在右侧。

搭配图可以扩展成搭配网络，显示出共享的搭配和多个节点之间的交叉关联。要将一个简单的搭配图（见图3右侧）扩展到搭配网络中，可以搜索更多的节点，或者左键双击搭配。

4.4 Whelk工具

Whelk工具提供检索项在语料库中的分布信息，如查找语料库中检索项的绝对频率和相对频率、根据不同的标准过滤检索结果、根据检索项的绝对频率和相对频率对文件进行排序。

图4中，File列显示语料库中各个文件的名称。Tokens列提供有关每个文件的字数。Frequency列提供检索项的绝对频率，即每个文件中有多少个检索项实例。Relative frequency per 10k列提供以10,000单词为基础标准化相对频率，此值在不同文件和语料库之间具有可比性。

4.5 Words Tool工具

如图5所示，Words Tool除了可以使用关键词技术比较语料库外，还可以深入分析词项（type）、词元（lemma）、词性（POS）的频率，如，计算type、lemma和POS的频率和离散度、将语料库中的频率和离散度可视化、使用关键词技术比较语料库、可视化关键词。

图4 Whelk工具

图5 Words Tool工具

图6 N-gram Tool工具

图7 Text Tool工具

4.6 N-gram Tool工具

N-gram是一种统计语言模型，根据前（n-1）个item来预测第n个item。Ngram工具可以深入分析n-grams的频率（bigram、trigram等）。N-grams可以定义为相邻的词项（types）、词元（lemma）和词性（POS）组合，还可以使用类似keywords的技术，通过比较两个语料库生成key Ngrams，可以识别N-grams、词串和短语框架，计算Ngram词项、词元和词性的频率和离散度，可视化语料库中Ngram的频率和离散度，可视化key Ngrams等。

4.7 Text Tool工具

文本工具能够深入了解单词或短语使用的上下文语境，可以在完整的上下文中查看检索项、预览文本、预览作为运行文本的语料库、检查文本/语料库的不同注释级别。

5 结语

从Tony McEnery教授在暑期学校social dinner上的简短发言得知，作为世界语料库语言学研究重镇的英国兰卡斯特大学已经连续8年举办语料库语言学暑期学校。不仅如此，兰卡斯特大学还开设免费在线课程《语料库语言学：方法、分析和阐释》，使学习者了解语料库在话语分析、语言教学与学习、社会语言学等多种领域的应用。正如举办方所言，暑期学校的主要目的是将语料库技术和软件应用于不同语言领域，乃至整个社会科学研究。这也正是我们将来努力的方向。

[1] Stubbs M. Discourse Analysis: The Sociolinguistic Analysis of Natural Language[M]. Chicago, IL: The University of Chicago Press, 1983．

[2] Stubbs M. Text and Corpus Analysis: Computer-Assisted Studies of Language and Culture[M]. Oxford: Blackwell, 1996．

[3] Baker P. Does Britain need any more foreign doctors? Inter-analyst consistency and corpus-assisted (critical) discourse analysis. In N. Groom, M. Charles, & S. John (Eds.), Corpora, Grammar and Discourse[M]. Amsterdam: John Benjamins, 2015：283-300．

[4] Baker P. Discourse and Gender. In K. Hyland and B. Paltridge(Eds.), Continuum Companion to Discourse Analysis[M]. London: Continuum, 2013．

[5] Brezina V. Statistics in Corpus Linguistics: A Practical Guide[M]. Cambridge: CUP, 2018．

[6] #LancsBox 4.5 manual [EB/OL]. [2019.07.02]. http:// corpora.lancs.ac.uk/lancsbox/help.php．

[7] Brezina V, McEnery T, & Wattam S. Collocations in context: A new perspective on collocation networks. International Journal of Corpus Linguistics [J]. 2015，20（2）：139-173．

[8] Brezina V, Timperley M, & McEnery T. #LancsBox v. 4.x [CP/OL]. [2019.07.02]. http://corpora.lancs.ac.uk/ lancsbox, 2018．

A Review of the 2019 Summer School in Corpus Linguistics for Analysis of Language, Discourse and Society by Lancaster University

YANG Shiqiao

（）

This paper mainly introduces the 2019 summer school in corpus linguistics for analysis of language, discourse and society by Lancaster University, including corpus-based discourse analysis and its problems and principles, corpus statistics, corpus approaches in forensic linguistics, health communication, and the study of Shakespeare, and practical sessions in computer labs using # LancsBox tools to build and analyze our own corpora or use the existing corpora. The aim of the summer school is to demonstrate how these methods can be applied to different linguistic areas and other social science research, which sheds new light on our research.

corpus discourse analysis; # LancsBox; corpus analysis of social science

2019-07-18

*项目来源：本文受到国家留学基金委资助，编号为201708440485

杨石乔（1973-），男，博士，教授，主要研究方向为语料库、会话分析与医患互动交际研究。

H030

1672-0318（2020）04-0024-07

10.13899/j.cnki.szptxb.2020.04.004

兰卡斯特大学（语言、话语与社会）语料库语言学2019暑期学校综述*

1 引 言

2 基于语料库的话语分析

3 其他讲座内容

4 基于#LancsBox的讲座及介绍

4.1 下载和运行#LancsBox 4.5

4.2 KWIC工具

4.3 GraphColl工具

4.4 Whelk工具

4.5 Words Tool工具

4.6 N-gram Tool工具

4.7 Text Tool工具

5 结 语

1 引言

5 结语