许家金 梁茂成
(北京外国语大学,北京,100089)
对比分析(contrastive analysis)是语料库语言学的常见方法和分析视角。国内语料库学者谈及对比方法,最容易想到“中介语对比分析”(Contrastive Interlanguage Analysis,简称CIA)和“英汉对比研究”。中介语对比时,需要比较英语母语和学习者中介语的语言特点,或比较不同母语背景的外语或二语学习者的中介语,还可能会比较语言水平较低和较高的中介语表现(Granger 1998)。英汉对比时,可能会比较翻译的双方向(汉译英、英译汉)语言表现(Baker 2000;王克非2006),也可能对比英汉语料内部的不同语类,如小说类语料或者科技类语料。在进行对比研究时,语料通常是分别存储的,研究者只需对两批语料分别检索,再对比数据和语言特点即可;若试图在语料库内部再做对比(比如四级和六级学生作文的对比、小说类科技类对比),则需将大的语料库拆分成若干小语料库,或者从大的语料库中抽取符合条件的子语料库(sub-corpus)。
比如,“英国国家语料库”(British National Corpus)是一个集英国英语口语和笔语的大型通用语料库。Rayson,Leech 和 Hodges(1997)利用该语料库进行了一项社会语言学研究。在该研究中,研究者对英国不同性别的对话口语进行了对比和分析。因研究问题所需,先从通用语料库中抽取对话口语,然后再区分对话者的不同性别,建成了两个子语料库——英国男性对话口语语料库和英国女性对话口语语料库,以满足对比的需要。
子语料库的创建正是本文要讨论的主要问题。在实际研究中,视研究的需要,常常依据某种条件从一个大的语料库(如通用语料库)中抽取若干个符合条件的文本构建一个子语料库,以达到对比的目的。对语料库的拆分和抽取,可以拓展语言对比的研究层面,同时引发新的研究选题。
语言对比涵盖范围很广。本文以探讨学习者语言对比和英汉语言对比为主,并着重讨论创建子语料库的操作方法,从而服务于语言对比研究。以往的检索工具多数不能对语料库中的特定文本,或文本中的特定内容进行检索,因而限制了多层面的语言对比研究。这是基于语料库的语言对比研究中缺失的一环。如能从技术上简化创建子语料库的方法,则能有效弥补这缺失的一环,同时还能扩展语言对比研究的层面。
以下将通过一些具体的研究选题,展示对比在语言研究中的重要性,以及语言对比研究的层面。之后,本文将就其中一些选题,简述如何通过创建子语料库,促成对特定语言内容的考察和对比。
利用语料库,可进行多个层面的语言对比分析,比如:
A) 出现较多动宾搭配错误的学生语言特点研究;
B) 使用较多复杂句的学生语言特点研究;
C) 英美新闻语料中有关中国崛起(或中国威胁)的报道;
D) 学习者语料库中成绩居前30%与后30%的语言特点对比研究;
E) 中国学生英语口语复述与其英语会话之间的话语特征比较;
F) 不同主题作文之间的语言特点的异同;
G) BNC中少年与成年话语的对比研究;
H) 《时代周刊》中2001年9月11日(911事件)前后新闻报道的异同;
I) 新闻语料中的社论、评论与现场报道话语的异同;
当然,还有基于复合条件的语料分析。比如,
J) 不同年龄女性话语中的被动用法。
综上,有关注语料文本内部语言特征(如A、B、C)的研究,有基于语料文本外部特征(也称为社会语言学变量)(如D—I)的研究,以及综合语言特征和社会语言学变量(如J)的研究。
要获得上面选题所需的研究语料,有不同的思路。一些在线语料库检索系统(如http:∥corpus.byu.edu/)可按文本外部特征分别检索和呈现结果。比如,《时代周刊》语料库(1923-2006)就提供了按年代进行检索的设置。因此,检索terrorism,bin Laden就会得到2001年前后明显不同的语言分布,进而还可以分析2001年前后这两个词的典型搭配的情况。然而,在线语料库的使用只能是“因陋就简”,网站提供怎样的选项设置,使用者就只能在给定的范围内使用。比如,若要对比BNC中男性与女性话语的特点,利用http:∥corpus.byu.edu/bnc/就无法实现。在线语料库检索界面的设计者,不可能考虑到各个用户的不同需求。因此,利用语料库中的元信息等创建子语料库,才能使我们的研究需要得到满足。
如果用户电脑上存储了相关的语料库(如BNC、CLEC、SWECCL等),希望从这些语料库中提取所需的语料,创建子语料库,本文提出一个简便易行的方法。其核心是获得所需文本的文件名。文件名可以通过两种方式获得,即“基于元信息”和“基于内容检索”。两种方法都需要通过检索实现,前者的检索针对非语言特征,后者针对语言特征。
虽然,语料库的格式多种多样,主要有:纯文本格式、SGML格式、XML格式等,但一般都有元信息标注,常见标注格式如下:
CLEC
SWECCL
书面语:
口语:
北外通用汉英平行语料库
CROWN语料库①
从上面的各种标注格式可见,元信息可以接排,也可分行排列。一般来说,学习者语料的元信息常包含:学生类型(如ST 3,大学低年级)、性别、入学年份、年级、作文得分(如SCORE 7及RANK=3)等。双语语料库的元信息会包含:当前文本的语言(如)、源语语言(如)、原作者及译者等。通用型语料库一般需标明出处(如
上面所列不同格式之间可以互相转换,一般推荐格式为XML格式(见上文北外通用汉英平行语料库和CROWN语料库的标注格式)。元信息的标注可简可繁。目前常见的元信息标注,以BNC最为繁复。BNC采用TEI标注规范,记录多达三十多种信息。语料的元信息多数记录在语料文档的开始部分,因此元信息又称“头部信息”(head、text head或header)。也有的元信息记录在文件名中,比如USWRAR01.txt这个文件名表达的是美国人的书面语议论文第一篇(ARgumentative WRiting of US speakers)。再如,CROWN语料库的命名(如A01A.txt)中,根据BROWN语料库的取样和文件命名原则,第一个A表示“新闻报道”类,01表示新闻报道类44个文本中的第1号,最后一个A表示该语料属于美国英语,而A01B.txt则是对应的英国英语文本。此外,还有一种称之为“分离式标注”(stand-off annotation)的元信息标注法,即相关信息单独存储为一个文件,而不是存放在文档头部。这种标注方法使用较少,因此,本文不做重点讨论。
本文介绍的子语料库创建方法,主要依靠获得含有特定元信息以及含特定语言特征的文本的文件名,然后批量拷贝出所需语料。为此,我们编写了软件Sub-corpus Creator②,方便研究者自行创建子语料库。下面通过实例简单介绍利用Sub-corpus Creator创建子语料库的过程。
如果希望从SWECCL的口语语料库(SECCL)中获得谈论“我”和“老师”之间交往的口语叙事语料,可以先选中SECCL所在语料的目录(Browse Directory)(见图1),然后设定检索条件。因为Sub-corpus Creator支持正则表达式检索,我们可以检索同时含有teachers?(?表示前面的s可有可无)和I|me|my(表示I、me或my三者有其一)的文本,点击OK后所有相关文本的文件名即会在软件界面的中间窗口中列出。若希望在结果中得到2000年以后学生的英语口语语料,可在File names match下面的检索框里,增加一个限制条件:0S+,即以0开头的文件(SECCL的口语文本的文件名方式为“年份-组别-序号.txt”,其中的“年份”以00、01等两位数表达),重新点击OK,就可得到筛选后的文件名列表。在这个例子中,1148个文件中有687个符合条件的文本。同时,为便于检查文本是否确实是我们所需要的文本,还可单击中间窗口中的文本名,从而预览文本内容。
按同样方法,可以得到2000年以前的相关语料。如果按类似方法将SWECCL语料中每年的相关语料分别抽取出来,甚至可以分析十年中国英语专业大学生谈论自己同老师之间的交往时所用语言存在怎样的变化。
图1 Sub-corpus Creator主界面
上面这个例子主要是通过检索文内信息,并结合文件名中所含的年份信息抽取出子语料库。研究中,还会遇到这样的案例:有120篇学生作文(这120篇作文成绩单独存储在一个文件中),若要得到120篇作文中成绩靠前25%(即前30名)和成绩靠后25%(即后30名)学生的作文进行对比,可以先将学生成绩降序排列,选取前30名学生的文件名。然后,将文件名存为一个纯文本(*.txt)文件,比如,可以将其命名为top30.txt。同理,可以创建一个成绩靠后学生的poor30.txt文件。
Sub-corpus Creator还设计了另一种利用已准备好的文件名列表创建子语料库的方法。如果已有所需语料的文件名列表,则可利用Sub-corpus Creator左下方的第2个选项卡From Filelist(见图2)进行子语料库创建。首先,通过Open a Filelist读入准备好的文件名列表(如top30.txt和poor30.txt),点击OK;再点击Create Sub-corpus,按弹出窗口提示,为子语料库创建一个新的文件夹,命名后,就可得到成绩靠前25%(即前30名)和成绩靠后25%(即后30名)学生作文的两个子语料库。需要提醒的是,通过Sub-corpus Creator软件加载文件列表时,列表中的文件名应包含完整路径。
基于给定文件名列表创建子库这种方法,还特别适合从BNC中抽取特定语料。比如,可以利用在线版BNC Indexer③得到所有男性说话人和女性说话人的文本的文件名列表。通过导入这两个文件名列表,就可以从BNC语料库中生成两个子语料库,一个是男性话语子库,一个是女性话语子库。
图2 Sub-corpus Creator基于给定文件名列表建库界面
第2节谈到的研究选题,绝大多数可以在Sub-corpus Creator中通过检索元信息或语料内容得到相应的子语料库。这里补充谈一下,有时面对得到的大量文本,需要再做随机抽样。比如得到四级作文2000篇,由于无法分析上千篇文本,于是必须对这2000篇文件进行随机取样。如果只需随机抽取其中的100篇,则可以利用Concordance Randomizer④对2000个文本的文件列表进行随机取样,即可实现这一目的。
除了随机取样,如果语料文本命名有规律,比如文件名以0-9结尾的话,在Sub-corpus Creator的File names match框里输入S+5。txt,就可以得到所有文件名为*5.txt的文本。这样就实现了通过分层取样(stratified sampling)的方法建立子语料库。
对于双语语料库,可以采用类似的操作。以“北外通用汉英平行语料库”为例,如果要聚焦在语料中的小说部分汉译英的译文语言特点上,则可通过检索语料库中含有的文件,按上面的步骤即可获得相应的文本。同样,还可依照类似的方法获得中文及英文的原生语言与翻译语言的子语料库,以便进行翻译共性研究。
本文介绍的子语料库创建方法,虽然主要以中国学习者英语对比语料和英汉语对比语料为例,但显然这一方法广泛适用于各类语料库的子语料库生成。需要提醒的是,为方便创建子语料库,拓展对比研究的层面,语料库建库之初,规范统一详细的元信息标注十分关键。同时,语料库文本的命名应尽可能有规律,尽可能记录元信息。本文着重介绍的是创建语料库的思路,而非软件的使用。任何一款软件都不可能满足所有的研究需要。只有掌握了方法,打开了思路,才有可能得到更多的研究选题。
附注:
① CROWN语料库是许家金、梁茂成主持创建的一个200万词级的英语语料库。
② Sub-corpus Creator下载网址:http:∥www.fleric.org.cn/pub/scc.rar.
③ BNC Indexer网址:http:∥ucrel.lancs.ac.uk/bncindex/form.html.
④ Concordance Randomizer下载网址:http:∥ishare.iask.sina.com.cn/f/13929531.html.
Baker, M.2000.Towards a methodology for investigating the style of a literary translator [J].Target12(2): 241-266.
Granger, S.1998.The computer learner corpus: A versatile new source of data for SLA research [A].In S.Granger (ed.).LearnerEnglishonComputer[C].New York: Longman.3-18.
Rayson, P., G.Leech, & M.Hodges.1997.Social differentiation in the use of English vocabulary: Some analyses of the conversational component of the British National Corpus [J].InternationalJournalofCorpusLinguistics2(1): 133-152.
王克非.2006.语料库翻译学——新研究范式[J].中国外语(3):8-9.