任 慧
(上海大学,上海 200444)
语域是与特定使用情境相联系的一种语言变体[1]。英国语言学家Halliday将语域定义为可以按照使用情况划分的语言变体。
语域变异分析,即对不同语域进行对比研究,包括语场(field)、语旨(tenor)和语式(mode)三个社会变量。语言变异主要分三类:一是语内变异,指由语言内部音系、形态、句法层面的因素引起的语言变异。例如从wes和west end的发音差异可知辅音会导致前面辅音簇中个别发音的省略,元音一般则不会。二是社会变异,指与社会特征相关的、说话人之间的语言变异。例如Labov发现,在发this等词的第一个音时,社会阶层高的纽约人总体上发标准音[ð]的频率更高[2]。三是语体变异,指同一个说话人自身的语言变异。例如随着场合渐趋正式,同一说话人的发音可能会渐趋标准[3]。
2001年前的语域对比研究多集中于分析语域在某一参数上的差异[4],其他方面的差异则被认为是派生的。对语篇语言特征的功能分类往往只依靠研究者的直觉,带有很大主观性。
但自从美国语料库语言学家Douglas Biber提出一种量化分析方法——多维度分析法(multidimensional analysis,简称MDA)以来,语域变异研究得到了补充和扩大。多维度分析法是研究学术语域语言变异的重要量化途径,其思路是:首先要在一种语言中选定一套语言学特征(即Biber所谓的词汇语法项目),然后利用因子分析的统计方法得到这些语言学特征在语料中的若干聚合模式。根据Biber的观点,因子分析时语言学特征之所以会呈现聚合模式,是因为所聚合的语言特征可实现某种相同/近似的语言交际功能,这些聚合常被称作维度。语域差异是多个维度同时作用的结果,任何一个维度都不足以解释语域间的差异。多维度变异研究可以同时观察数十、上百个语言特征,将其降到几个不同的维度,加以量化分析,从整体上把握语体差异,通过多特征微观对比实现多维度宏观考察。这种基于统计分析的研究方法,强调语言特征的共现以及多维度的概念(co-occurring),重视语言特征之间的联系,大大提高了分析的客观性和准确性。同时根据情境框架(参与者、渠道、生成环境等)提取的语体不存在重复现象,可以帮助研究者走出文体与语体的混淆状态,从而还原语体的真正特征。
文章选取了近几年国内两篇应用多维度分析法进行定量研究的汉语文本和一篇英语文本。其中朱宇、胡晓丹考察了汉语连词在6个学术语域的4个聚合维度和语言功能,发现人文和社科论文中的连词在“文/白风格”和“条理与层次”的表现上有明确区别[5]。刘艳春通过对72项语言特征的深度考察,识别了汉语语体变异的多维度特征,不仅证实了Biber提出的维度,也反映了汉语语体变异的独有特征[6]。而江进林、许家金通过比较商务英语与通用英语、新闻英语和学术英语的语体差异得到了区别性特征[7]。
多维度分析模式是一种基于大型语料库和计算机统计技术的语域分析方法,它的优点是毋庸置疑的。以下将从语料库的优点、数据获取、数据分析软件和统计方法阐述使用语料库进行多维度分析的优势,并结合所选的三篇文献加以验证。
首先,基于语料库的多维度分析法将研究方法由质向量转变。定量研究要求样本足够大,且有良好的代表性。Brown、LOB等标准化语料库规模大、语料全面、代表性好,能够进行大量快速的数据处理,为变异研究提供了理想的语料来源。多维度分析使用语料库从全新的视角对语言变异进行了宏观描写,提出了关于英语及其他语言的变异规律假设。相较而言,传统变异研究能够涉及的语料和语言特征都非常有限。尽管Ervin-Tripp等人早就认识到语言特征之间存在共现关系,即一些语言特征同时出现在某个语域中使得此语域区别于彼语域,但在拥有强大的计算机和语料库技术之前却没有方法证实这种关系[8]。
就第一篇文献来说,在此前连词的相关研究一直以质性为主,即使是周刚穷尽式列举的连词也仅有246个,其中还包含了一些现代汉语基本不使用的古语词[9]。而从第二篇文献中也可得知,国内外在2019年之前都没有出现基于大规模汉语语体语料库的语体变异多维度分析。至于第三篇文献中更是直言商务英语的相关研究多是基于个别语言特征(如用词、时态等)的描述性统计分析,缺少基于大规模商务英语语料,全面考察商务英语语言特色的推断性与探索性统计分析。
数据获取采用了现有数据法。三篇文献中的数据多来源于官方或权威文本;数据的取样模式或按比例随机取样,或使用Brown语料库的取样模式;所建语料库内容均很丰富。
在第一篇文献中,作者研究的语料是特定年份CSSCI收录的人文和社科领域的六个学科的所有学术论文(去除札记、书讯等),以25%的比例随机抽样得到六个学科各190篇语料。在第二篇文献中,作者自建了一个超过210万词含17个语体1112个文本的语体语料库。文本多取自“国家语委现代汉语通用平衡语料库”和“中国传媒大学有声媒体文本语料库”。而第三篇文献选取的商务英语文本均源自对外经济贸易大学建立的大型商务英语语料库,按照分层随机方法抽取2003~2010年中的200万词子库。用作对比的通用英语语料库则由英国英语BE06和美国英语AmE06两部分组成。语料库按布朗家族语料库的取样模式,具体包括15个子语域。
三篇文献均使用现存分词和标注系统。如需检索频数,则选择内部开发程序,机器结合人工进行识别。统计软件均为SPSS。
第一篇文献以中科院计算技术研究所发布的NLPIR汉语分词系统作为分词和标注词性的工具,利用自编计算程序TextAnalysis统计语料中每一个连词检索项的频数,并人工校对以免出现兼类现象。随后归一化处理数据,即将连词的原始频数换算成每千字的出现频率。第二篇文献采用史晓东分词系统进行标注,结合机器和人工识别方法提取特征,采用内部开发的Debug程序统计频率,最后将出现频率统一换算成语篇为1000词的标准频率。第三篇文献采用Nini开发的多维标注与分析工具MAT进行标注,并使用该软件内嵌的Stanford POSTagger进行词性赋码。
前两篇文献均先得出KMO值再进行分析,第三篇文献因目的不同,采用了独立样本t检验的方法。可以看出,SPSS在进行数据统计与分析时作用巨大。
在第一篇文献中,作者对归一化处理后的数据进行了因子分析,所得KMO值为0.894,Bartlett球形检验显著(p<0.001),说明数据适用因子分析。接着进行因子提取、因子旋转,根据因子的方差解释率最终确定研究语料所使用的连词形成了四个主要的因子/聚合维度(累计方差解释约为58.9%)。各维度的得分则是结合SPSS输出的荷载值得出。随后以学科分组,即可计算某组语料在各维度的平均得分。在第二篇文献中,作者采用探索性因子分析法,利用SPSS进行因子分析获取语言特征的共现模式。KMO取样适切性数量值为0.907,说明非常适合因子分析。然后作者抽取因子数量,先根据总方差解释和碎石图结果进行初步研判,随后综合考量各因子,确定7因子为最佳方案。随后采用Biber的最大载荷法计算出每个文本的维度分和语体的平均维度分,从而获取各维度的语体分布模式。在第三篇文献中,作者使用SPSS对两个语料库的维度分进行独立样本t检验,对比发现两个语料库的语言具有显著差异特征。
三篇文献均使用多维度分析方法这一涉及语料库与SPSS分析软件的分析方法,以验证为导向,证明维度分类和共性维度,均属于定量分析。
在定量分析中,信度指衡量的一致性。信度误差大部分是系统性的常数误差,此处不予考虑;而随机性误差可能来自回应者、情境因素、衡量者和衡量工具。在这三篇文献中,数据标注和分析使用的软件均是权威或官方软件,按照特定标准进行人工校对,极大地降低了误差。信度分为内部信度和外部信度。内部信度指数据收集、分析和解释的一致性,即别人分析这些数据得到同样结果。因为文献的创新性,基本没有人对已有实验做过重复分析,但是从使用的分析工具及分析过程可以看出其合理性。外部信度指独立研究人员能够重现一项研究并获得与原始研究相似结果的程度,这也可以从文章第二部分的实验选材、设计、分析中得来。
在定量分析中,效度指衡量的工具是否能真正衡量到研究者想要衡量的问题。前两篇文献中使用SPSS软件进行因子分析前所得的显著性小于0.05,KMO值高于0.8,适合因子分析,说明效度较高。此外,在第二篇文献中使用了碎石图并找出了图中的陡坡和缓坡的临界点,看出每个因子代表的特征值,避免提取多余的因子,效度较高。具体来讲,效度也分为内部效度和外部效度。内部效度指研究的可解释性,即结果源于实验。多维度分析的结果均由数据库和SPSS分析软件得出,因此内部效度高。外部效度指结果从样本推广到总体的程度,这在第一篇文献中明确提到:“差别均达到统计显著水平,表明这些论断的适用性不局限于本研究所抽样的语料,而是一个带有普遍性的规律。”
虽然国内多数相关文献仅止步于定量分析,但文章选取的第一篇文献除了定量考察了连词在学术汉语语料的聚合规律与语言功能表现,说明了学术语域的连词分布不均质[10],还通过定性分析丰富了该方向的实证研究案例;第三篇文献中虽无实证研究,但是其分析出来的商务英语的互动性、劝说性和专业性特色对商务英语课程设置、测试评估和教学实践建立相应的实证基础都有益处。
建立语料库的时采集语料、整理文本费时费力暂且不提,多维度分析方法仍存在一些问题。
首先,研究者在分析英文文本时多基于MAT分析结果对各维度包含的语言特征和语域风格进行语言学研究,但是MAT在很大程度上只是一个验证性工具,而非探索性工具。利用此工具不能提取根据需要设计的语言特征,更不可能得出与Biber不同的维度。在这一点上,学者分析汉语文本时使用的标注工具更多样。
但是,这也造成了第二个问题:国内目前对汉语文本的研究很少,对汉语语言特征的确定缺少扎实的本体研究。因为语言学特征不是一个封闭的类,在特征选取时各种主观因素的干扰在所难免,因此或多或少会影响研究结果的有效性和可靠性。第一篇文献在进行多维度分析的语言特征选取限于连词,也是因为连词相对封闭。可以说,Biber确定的语言特征是在分析英文文本的基础上确立,这也是汉语文本发展难的原因之一。但我相信,随着国内学者目前在这方面的研究逐渐增多,汉语文本不仅会解决这一问题,在第一个问题上也会有很大突破。
第三个问题是国内的研究领域相比国外要狭窄,局限于口笔语体、领域语体、学习者英语等研究[11]。
第四个问题是研究成果需要进一步定性研究,这在文章第三部分定量定性分析中有所提及。荣红提出可以与民族志等定性研究方法结合[12]。
总体而言,在多维度分析法的操作中研究者面临语言特征的选取、标注、统计技术运用问题,针对汉语文本的多维度实证研究更是有入门难、可用语料库小、维度的理论分析不足等问题,但是后续的研究值得期待。