华中科技大学外国语学院 潘 璠
多维度分析法(multi-dimensional analysis, MDA)是一种自下而上的基于语料库和多元统计技术对多种语域进行定量对比分析的研究方法。该方法早期被称为多维度多特征分析法(multi-dimension/multi-feature analysis, MD/MF),由北亚利桑那大学的Douglas Biber教授首创,最初应用于英语口笔语的语域变异(register variation)研究。
多维度分析法改变了以往语域变异研究多基于单项语言特征的局面,能基于大量语言特征对多种语域进行系统的描写和解释,为精确分析复杂的英语语域变异提供了有力工具,因而在语言学研究中得到了广泛应用,如学术语篇、方言和性别语言变异、历时语域变异和跨语言变异等,为语言学研究提供了新的研究思路和方法。然而,多维度分析法在国内尚未得到广泛应用,主要原因在于该方法的理论和实际操作方法非常复杂,能掌握该方法的国内外学者暂为数不多,而国内外文献中尚无对该方法整个操作流程的完整详细的介绍。鉴于此,笔者基于多年的多维度研究经验和大量国外研究文献,梳理出多维度分析法的理论基础、研究现状、发展趋势和具体操作方法,以供国内学界参考。
早在二十世纪七十年代,研究者们就开始认识到语言特征的共现型式在语域对比研究中的重要性。Brown & Fraser(1979)认为,语域研究不应只聚焦单个孤立的语言特征,而应考虑一组语言特征的系统共现。Chafe(1982)则提出基于语言变量的两对参数(紧密性vs.松散性、分离性vs.交互性)对比口语和书面语,每对参数由一组相关语言特征组成。Chafe的研究已清晰体现了语言特征共现的概念,在综合考虑大量语言特征分析口笔语差异方面迈出了重要一步。之后,Halliday(1988: 162)将语域定义为“有共现趋势的一组相关特征”。这些早期研究者的思想和研究发现为多维度分析法的诞生提供了重要的理论基础。Carroll(1960)的研究则提供了方法论基础。Carroll采用因子分析统计了150篇文本中39个语言特征的共现型式,识别出六个主要的文体风格矢量,每个矢量包含若干个语言特征。这些矢量从概念和方法论上都与多维度分析法中的维度非常相似。
基于前人的理论研究以及Carroll(1960)的研究方法,Biber将编程技术和多变量统计用于识别语言共现型式,并将不同共现型式作为潜在的变异维度进行分析,从而使语言共现的概念通过多维度分析得到了证实和广泛认可。1983年Biber开发出词汇语法赋码软件,对LOB和London-Lund语料库中41项词汇语法特征进行了赋码,并通过因子分析识别出这些特征的共现型式。这实质上是Biber最早的多维度研究。随后Biber改进了研究方法,从LOB和London-Lund语料库中选取了23个口笔语语域,并将41项语言特征拓展为67项语言特征,通过因子分析识别出能区分口语和书面语语域差异的七个功能性维度,其中五个主要维度为“交互性vs. 信息性”、“叙述性vs.非叙述性”、“指代明确vs.指代依赖情景”、“公开说服性”和“抽象vs.非抽象性”。Biber再基于这些维度对23个语域进行描述,全面系统地揭示了各类口笔语语域的差异。该研究表明,英语的口笔语变异非常复杂,不同语域间差异在五个维度上均有体现,不可能用单一维度进行全面准确的描述。口笔语之间并不存在简单的一分为二的对立,而是在不同维度上显示出不同程度异同。例如,私人信件虽是书面语,却具有较强交互性、情境依赖性和非抽象性等口语语域特征。该研究为后续多维度研究奠定了重要的理论和方法论基础,诞生了Biber(1988)具有开创意义的专著《口语和书面语的变异》(Variation across Speech and Writing),该书被广泛视为Biber的首次多维度研究。
多维度分析法的理论基础在于: 语域差异源于一组核心词汇和语法特征在不同语域中出现的相对频率差异(Biber, 2009),只有综合考察一组共现的语言特征,才能揭示语域间重要差异,而某一项语言特征的相对频率差异无法作为区分语域的可靠凭证。因此,语言特征的共现型式成为多维度分析法的基石。所谓语言特征的共现,是指一组语言特征在特定语域中呈现出相似的频率分布,即共同频繁出现于某些语域,而较少出现在另一些语域中(Biber, 1988)。例如,被动形式和名词化在学术语篇中均高频出现,而在口语中均低频出现,反映出这两种语言特征具有共现性。语言特征不会在语域中任意共现,如果一组语言特征确实经常共现,意味着这组特征受到潜在的共同功能制约而聚类。例如,被动形式和名词化的高频共现是为了满足学术语篇中信息传递的交际需求。由此可见,语言特征与语篇功能之间存在着密切关系。当一组特征在文本中持续共现,这些特征就表达了一种功能维度。这就是多维度分析中隐含的假设: 语言特征的强共现模式标志着潜在功能维度,所以多维度分析的核心思想是强调语言形式与功能之间的对应关系,这种对应关系不是一对一的关系,而是一种多对多的关系。语篇中某一功能对应的不是单个语言特征,而是一组相关的具有共现关系的语言特征,这组共现的语言特征对应的也不只是单个功能,而可能是多个功能。同时,这种语言形式与功能之间的对应关系反映了语境、社会认知等功能,例如,省略与缩略形式的共现反映出口语语域因其实时产出性而受制于时间无暇打磨词语的特点。语言特征都具有功能属性,它们出现在特定语域是由该语域的目的及情境所致(Biber & Conrad, 2009)。
多维度分析法在理论上有三项重要创新。第一,语域变异是复杂和多维度的。早期研究主要基于单一参数比较口语和书面语,而多维度分析法将单一参数拓展为多维参数,识别出多个维度的差异,描述出任何单一参数无法描述的语域整体变异,彻底改变了语言学界看待语言变异的观念和视角。第二,多维度分析法显示出口笔语之间语言差异是个连续体而不是两分法的两端,语域间差异表现在多种功能(维度)上,不同语域可以定位于各功能(维度)连续体上的不同点,语域间差异只在于程度不同,而不是绝对相反(Biber, 1995)。例如,电子邮件是“口语化的书面语”,而有准备的演讲是“书面语化的口语”,两者之间语言学差异表现在多个功能维度上,且与两者在交际目的、语境特征、认知处理等情景因素上的差异有密切关联。第三,大多数研究是凭借主观直觉预先选择与研究相关的语言特征,而多维度分析法改变了主观选择少量语言特征的做法,根据目标语域特点选择大量语言特征,再通过因子分析等实证方法筛选出该语域中高频共现的语言特征(即少数重要的语言特征),大幅提高了语域分析的全面性、客观性和准确性。
多维度分析法在诞生后的三十年间,以标志性的代表性著作划分,经历了四个主要的发展阶段。第一个阶段主要是社会语言学领域的英语文本的口笔语变异研究,以Biber(1988)专著《口语和书面语的变异》为代表。第二个阶段从早期以英语文本为主拓展为多语种(如,韩语和索马里语)的非英语文本研究,代表性著作为Biber(1995)的《语域变异的维度: 跨语言比较》(Dimensions of register variation: A cross-linguistic comparison)。第三个阶段的代表性著作为Conrad 和 Biber(2001)的多维度研究论文集《英语中的变异》(Variation in English)。在该阶段,多维度分析法的应用范围从社会语言学领域扩展到应用语言学领域的学术语篇研究、专门用途英语、学习者语言发展、历时语域变异、地域方言及性别语言变异等多个领域。语域研究的时间跨度也从早期的共时研究拓展到历时研究。第四个阶段的代表性著作为Sardinha和Pinto(2014)的《多维度分析: 25年》(Multi-Dimensional Analysis, 25 years on)。这个阶段的多维度研究呈现出四个特点: (1) 语域研究范围进一步拓展与细化,拓展到人口学变异、历史演变、语言发展等一些新的语域;(2) 更多研究开展了新多维度分析,以识别专门语域特有的维度(而非使用以前的维度框架,如Biber 1988年创建的框架);(3) 部分研究在多维度分析的基础上,补充了多种辅助性统计方法,增强了多维度分析法解决具体问题的能力,如,发现隐藏的地域分布模式、评估维度解释的强度以及识别能解释变异的显著变量;(4) 一些研究将更多影响语域变异的情景变量整合进多维度分析框架,增强了多维度分析法的解释功能,拓展了多维度研究的范畴,对未来多维度方法的发展具有重要意义。
三十年来,多维度分析法因其独特的宏观研究视角,在语言学界得到越来越广泛的应用,从口笔语语域拓展到越来越细化的其它语域。
1) 语域变异研究
多维度分析法诞生于Biber(1988)的英语口笔语语域研究。此后,Biber等人(2004)基于TOEFL学术口笔语语料库(T2K-SWAL),对美国大学不同学科不同水平的口笔语语域进行了多维度对比。研究显示,美国大学生使用的口语和书面语之间存在明显差异。所有口语语域都具有交互性较强、所指更依赖情境等特性,而所有笔语语域都具有高信息密度、低叙述性、所指明确和非个人化等特性。
近年来,多维度研究开始转向网络语言和电影等非传统语域。Grieve et al(2011)对两百万词的博客语料库进行了多维度分析,识别出四个主要维度,并将这些维度通过聚类分析对博客进行了分类,识别出两种主要博客(个人博客和主题博客)。之后,多维度分析法不断拓展到更多新的语域。Pinto(2014)分析了1930年到2010年间美国电影的话语演变,识别出七个维度,展示了如何应用ANOVA识别显著的情景变量(如,电影体裁、发布年度),以及如何借助ANOVA数据解释维度变异。Bertoli-Dutra(2014)调查了1940年到2009年间流行歌曲的语言变异,对词汇语法特征和语义特征进行了两次多维度分析,分别识别出三个变异维度。该研究的特点在于,将多元结构纳入多维度分析框架,分析了自动识别的语义场和人工标注的语义范畴。
2) 学术语篇的内部变异研究
继英语口笔语变异研究之后,多维度分析法也被广泛应用于学术英语语篇的各类研究中,如描述不同学科特性(Conrad, 2001)、比较同一学科内部两个子语域(Conrad, 1996)、对比六个学科内三类研究论文(理论性、定量和定性论文)(Gray, 2015)、比较不同时期同一类医学研究论文的历史发展(Atkinson, 2001)、比较医学论文内部不同部分(引言、方法论、结论和讨论)的语言变异(Biber & Finegan, 2001b)。近年,Thompson等人(2017) 对比了十一本环境学术期刊在六个维度上的差别。与以往研究不同的是,他们根据文本的维度特性识别出跨学科期刊中具有相似特征的文本聚类。此外,不少研究采用多维度分析法对英语本族语者和非本族语者学术语篇的系统差异进行了对比调查(Gardner et al., 2019)。这些研究均揭示出不同层次语域之间异同,并证明多维度方法能成功识别出细分语域的独特维度。
3) 方言和性别语言的变异研究
多维度分析法也被应用到方言的变异研究中。Biber(1987)考察了英式和美式英语的九个笔语语域,发现英式英语比美式英语口语化程度更高且更具交互性,而美式英语使用名词和专业性表达更多。Grieve(2014)将美国各地读者写给报纸编辑的信收集建库,通过多维度分析识别出该库中地区性语言变异。不同于标准多维度方法的是,他采用了辅助性统计技术“局部空间自相关分析”,在未见清晰分布模式的情况下识别出三个区域性维度。
在性别语言研究方面,Rey(2001)对系列美剧对话语料的多维度分析识别出该剧中1966—1993年间男女语言风格的变化,发现女性语言从高度交互性发展为更具信息性的话语,而男性语言则表现出相反发展趋势。Biber和Burges(2001)研究了ARCHER语料库中男女作者和说话者在1650—1990年间语言的历时变异,发现男性和女性对话方式各异,但两者均倾向于朝更具交互性的话语风格发展,尤其是女性。
4) 历时语域变异研究
有些研究将多维度分析法应用于历时语域变异研究。Biber & Finegan(2001a)对ARCHER语料库中口笔语语域的多维度分析发现,在过去四百年间,日记、小说、书信、新闻报道等通俗语域呈现出向口语化风格发展的趋势,而医学、科学和法律论文等专业性书面语域则变得更为抽象、信息密度更高。Westin & Geisler(2002)对《卫报》、《每日快报》和《泰晤士报》1900—1993年间的新闻社论进行了历时考察,发现新闻社论的说服性和辩论性逐渐增强,而叙述性、抽象度和所指情景依赖性均呈现下降趋势。Souza(2014)通过结合Biber(1988)维度与新多维度分析,考察了《时代》杂志的语言和情景特性的历时变化。值得一提的是,Souza创造性地将维度一的维度值按年代分解,揭示出该杂志从高信息度到高交互性的演变过程。
5) 跨语言变异研究
除英语外多维度分析法还被用于分析非英语语域。Biber(1995)采用Biber(1988)的维度框架,对英语、韩语、图瓦鲁语和索马里语的语域变异进行了共时和历时比较,发现这四种语言的语域变异虽然存在明显差异,但也表现出惊人相似性,首次揭示了语域变异的跨语言普遍性。Sardinha,Kauffmann和Acunzo(2014)使用了ANOVA统计方法识别出巴西葡萄牙语特有的六个维度,将23个网络语域与Biber(1988)框架中的语域对比,发现该框架能成功捕捉新语域的变异。这些研究不仅揭示了非英语语言独特的语域变异特点,也显示出不同语言中可能存在普遍性变异维度。
6) 小结: 多维度研究中的独特维度和普遍性维度
在这些研究中有不少研究针对新语域开展了新多维度研究,揭示了特定语言或特定语域中的独特维度。如,Sardinha,Kauffmann和Acunzo(2014)识别出巴西葡萄牙语独特的“评价性语篇”维度,将政治语篇和其他语域区分开来。Gray(2015)识别出“人际焦点 vs. 非人际焦点”维度,根据研究主题是否聚焦人类认知活动,区分了不同学科的研究论文。这些针对特定语域的新多维度分析识别出的独特维度,反映了该语域中特有的交际优先级,解释了特定交际目的和目标语域中的情景特征。
尽管这些研究分析的语域范围和语言特征集各不相同,但几乎所有后续多维度研究均识别出Biber(1988)中的“交互性vs.信息性”维度和“叙述性vs.非叙述性”维度。其中,前者本被认为是区分口语和书面语的典型维度。然而,一些只调查口语或书面语的研究也识别出该维度(且多为第一维度),表明该维度不仅仅区分口语和书面语。从语言学特征看,该维度区分了依赖代词、动词、副词和从句的口语类语篇以及依赖名词和名词修饰语的书面语语篇(Friginal, 2013)。从交际目的看,该维度区分了关注人际交互和立场表达且无修改机会的交互性口语语域与有修改机会的信息性书面语语域,这表明不同程度的交互性或信息性是区分不同语域的重要标记。同样,“叙述性vs.非叙述性”维度也出现在大部分多维度研究中,显示出不同程度的叙述性也是区分不同语域的重要标记。在跨语言多维度研究中也识别出该维度,反映出不同语言和文化都需要描述过去时间和现在时间的语篇。Biber认为,这两个维度在跨语言和跨语域多维度研究中出现的稳定性表明,无论在口语还是在书面语中,这类修辞方式都是人类交际的基础(转引自Friginal, 2013)。当然,这些基本维度的普遍性和通用性还有待未来更多跨语言和跨语域研究的进一步确认。
如上所述,国外研究者已将多维度分析法广泛应用于多个领域的研究,取得了丰硕的研究成果,但囿于该方法操作的复杂性,国内的多维度研究还为数不多。其中,部分研究(如,江进林 许家金,2015;张绵,2016)采用了Nini在2014年开发的多维度分析赋码软件Multi-dimensional Analysis Tagger(MAT)开展研究。该软件可以自动完成语言特征赋码、赋码频数统计、生成维度值等操作步骤,即下面的步骤3(不含抽样复查),4和5,但不足之处在于该软件完全基于Biber(1988)的维度框架开发,因而只能提供Biber(1988)中语言特征集的频率数据。下面将详细描述标准多维度分析的操作步骤、原理和部分释例,旨在帮助感兴趣的研究者理解每一个步骤中蕴含的语言学或统计学原理。
1) 建库和语料选取
要进行多维度分析,首先要设计和建立适合研究目的且代表多个语域的大型机读语料库。根据Biber(1985)的建议,建库需要确定目标语域的不同交际功能和交际目的,识别该语域情景变量的参数,明确参与交际双方之间的不同关系,收集代表该语域变异范围的文本,注明每个口语和书面语文本的情景特性(如,语域目的和产出环境等)。
2) 确定要分析的语言特征集
在多维度研究中,语言特征的选择非常关键(Biber, 1985),直接影响到是否能够成功提取出具有语域区分度的维度。确定语言特征集时,应尽可能识别出所有与目标语域交际功能关联的特定词类、语法范畴和句法结构,即对该领域变异至关重要的语言特征,并将尽可能多的语言特征纳入研究范围。例如,Gray(2015)在分析期刊论文的语言学变异时,纳入分析的语言特征达130个,涉及到英语中16 类主要词汇语法和功能范畴,特别是期刊论文中高频出现的语言特征。Friginal(2008)在研究电话通话时,则把相关口语特征(如,话语标记语、反馈语)加入了特征集,以充分反映电话通话的语言特点。在确定语言特征集时,可参考相关多维度研究文献或语法书,如《朗曼口语和书面语英语语法》,该书提供了大量词汇语法特征在口语、学术英语、新闻和小说等语域中的分布数据。此外,还需保持语言特征总数和文本数之间的合理比例,通常要求语料库的“文本数达到语言特征总数的五倍”(Gorsuch, 1983: 332),以确保这些语域中有足够变异以及多维度分析的可靠性。
3) 赋码和统计频率
在确定特征集后,应用赋码软件对语料库中的大量语言特征进行词性和语法赋码,然后对赋码后的文本进行抽样复查,特别是与语法范畴相关的赋码(如,动词的第三人称单数形式,带-ing的后置修饰形式),对有规律的系统性错误进行批量处理。随后,应用软件统计每个文本中所有语言特征的出现频率,并以千词为单位标准化,得到用于因子分析的频率数据集,为后续因子分析提供基础。其中,部分语言特征的频率能高达每千词200次(如,名词),或低至每千词0.001次(如,wh-从句)。
4) 因子分析
得到用于分析的数据集后,首先需要对这些频率数据进行描述性统计,检验这些数据集之间是否存在足够的相关性以及是否适合因子分析(Tabachnick & Fidell, 2007)。通常需计算Kaiser-Meyer-Olkin Measure(KMO),以观察变量间的关系强度是否达到因子分析的要求,以及观察Barlett’s Test for Sphericity(卡方检验的一种)是否达到显著水平。符合要求的数据集可使用SPSS或其他统计程序进行一系列因子分析,识别出重要的特征组合,为最终因子分析做准备。在多轮实验性因子分析中,不断删除频率过低、与其他特征重叠度较高或对相关性贡献太小的特征,保留共同度大于0.25和至少在一个因子上负荷大于0.30的语言特征,以进行最终因子分析。
然后,对筛选出的语言特征进行最终因子分析,基于碎石图或结构矩阵显示的特征值,确定最佳因子的数量(通常选择3—6个因子方案)。最后,根据研究目的、数据集性质及因子间相关系数,选择适当的旋转方式(如,Promax, Varimax),以确保每个特征变量落在尽可能少的因子上。这样,每个因子就能得到少数最具代表性的高负荷语言特征,从而使最终得到的因子结构反映出语言特征的多种共现模式。以这种方式,因子分析将大量语言特征变量减少为几组因子,每个因子代表高频共现的一组语言特征。其中,因子负荷为正的语言特征之间为高频共现关系,而因子负荷为负的特征与正值特征之间多为互补关系。
5) 因子(维度)值计算
因子分析识别出的几组因子,被看作区分语域间语言变异的功能维度。确定最终因子结构(即维度框架)后,即可计算因子(维度)值。首先,基于各语言特征的标准频数计算其Z值。如步骤3)所述,语言特征的频率差异很大,而高频特征对因子值的影响比低频特征要高得多,所以需将所有频率变量以0.0的均值和1.0的标准偏差进行标准化,将语言特征的频率值转化为标准方差单元,从而使高频特征和低频特征在因子值上影响相同,即在计算维度值时具有相等权重。然后,基于Z值计算出每个文本在各维度上的维度值。根据Biber(1988)的做法,只有在各因子上负荷大于0.30的语言特征才用于计算维度值,且每个特征只在其负荷最大的因子上纳入计算(部分多维度研究计算多次,即不限于负荷最大的因子)。最后,计算出每个库的维度值,也就是每个语域的维度均值,这些维度均值反映出该语域的语言学特性。
6) 维度的解释
因子分析识别出多组在文本中高频共现的语言特征,其前提假设是: 这些高频共现的特征至少共有一个功能(Biber, 1985)。换言之,因为这些语言特征共有特定的交际功能(潜在维度),它们才一起频繁出现。这些特征之间的相关性使得构建潜在维度成为可能。因此,维度的建立与解释以分析语言特征的共现型式为基础,这些共现型式可以从这些语言特征所共有的情景、社会和认知功能等方面进行解读。确定特定维度的功能意义主要有四种方法: 一是根据该维度上大多数语言特征的功能共性;二是根据各语域在该维度上的分布特点和语域特性;三是通过对特定文本中的共现特征进行定性分析以解读其潜在功能;四是通过面谈帮助解读定量方法识别出的共现模式。每一组共现语言特征(包括互补分布的共现特征)均根据该因子上该组特征通常共有的话语功能进行解释,同时考虑不同语域如何与那些变异维度相关联(Conrad & Biber, 2001: 24)。
以Biber(1988)的研究为例,该研究得到的第一维度由两组共现特征组成,正值特征包括第一二人称代词、省略、缩略形式、动词现在时等二十多项特征,负值特征包括名词、介词、词长、被动等特征。观察发现,正值特征多在以人际功能为主且交互性强的口语语篇中高频共现,而负值特征在信息密度高的正式语篇中高频共现。因此,Biber将第一维度上的正值特征共现解读为“交互性产出”,将负值特征共现解读为“信息性产出”,分别代表人际交流功能与信息传达功能。
7) 语域比较
在识别和解释各维度之后,即可在确定的维度框架内对目标语域进行对比分析,同时进一步确定各维度的功能意义。具体做法是: 根据因子分析结果,计算出不同语域在不同维度上的维度值。然后,通过比较各语域在各维度上的维度值差异分析语域之间异同,再按照多个维度的功能属性对不同语域的语言特性进行描述。在Biber(1988)的语域分析中,23个语域在维度一上的分布再次体现了“交互性产出”和“信息性产出”这两种功能意义的对比。例如,电话通话的维度值最高(正值),表明其交互性最强,人际功能和口语特征最明显。政府文件的维度值最低(负值),表明其信息性最强,信息密度最大,表达最为具体准确。不同口笔语语域在维度一上呈现的不同分布特点体现了这些语域的功能特性,从而进一步证实了维度一的功能意义。此外,在语域对比时,还可应用单因素或双因素方差分析和独立T检验等统计方法进行显著性检验,以确定两个语域的维度值差别是否具有统计性显著差异。
本文阐述了多维度分析法的理论基础和方法论优势,梳理了多维度分析法在语域变异、学术英语研究、历时语域变异、地域方言及性别语言变异等多个领域的研究和发展趋势。可以看到,在多维度分析法诞生后的三十年间,该方法应用的语域广度和深度不断拓展,研究方法日益多样化,其在跨语言研究领域的可适用性也得到有力证明,展示了多维度分析法强大的生命力和广阔的应用前景。任何语言产出都可归结为不同阶层、种族、性别或年龄的社会群体在不同交际情景下为实现不同交际目的而使用的语言特征组合(包括语言、语调、词汇和句法等),而多维度分析法提供了从全新视角对这些语言产出进行多维度宏观描写和分类比较的可能性。正因如此,多维度分析法未来还将发挥更为积极和重要的作用。