刘 辉
(黑龙江大学俄罗斯语言文学与文化研究中心,哈尔滨 150080)
提 要:本文选取Coh-Metrix 3.0系统中指称性衔接Z值1个指标,从自建学术期刊方法部分语料库随机抽取600个语料样本进行分析。研究结果显示不同学科群与学科对衔接手段的使用具有明显的倾向性。其中,人文科学中较多采用指称性衔接,生命科学与应用科学各学科中指称性衔运用较少,纯科学与社会科学中指称性衔接运用较为均衡,没有明显的倾向性。这些发现表明不同学科期刊论文方法部分的衔接特征存在显著差异,而造成上述差异的主要原因在于学科性和学科间性的相互作用。
韩礼德曾经指出,“重要的是动态地看待语篇,将其视为意义生成的过程,并将语篇衔接视为这个过程的一个方面,通过这一过程意义流(the flow of meaning)被导向可追溯的话语流(a trackable current),而不是任其随意的流淌”(Halliday 2010:311)。衔接是文本建构的一种重要手段,是由句子向语篇过渡的重要环节,是语篇研究过程中不可缺少的环节(谢群 2017:28)。传统的衔接研究大多通过人工方式分析不同体裁衔接手段的分布特征。受到准确性与效率的制约,这些研究的样本较小,其结果的代表性不高。随着文本自动化分析技术的发展,计算机辅助的语篇分析逐渐成为学界研究的主流。
孟菲斯大学开发的Coh-Metrix软件以系统功能语言学的理论框架为基础,融合计算语言学、心理语言学、认知语言学和语料库语言学等相关学科的最新研究成果。该软件能够有效检测文本的词汇、句法和语篇特征,被广泛用于语篇分析的各个领域。2012年9月该软件推出3.0版本,可从11个维度分析语篇,总计观察变量106个。笔者选取文本易读性主成分指数(text easability principal component scores)中的指称性衔接Z值(text easability PC referential cohesion, Z score)1个变量进行统计与分析,旨在了解从句子到语篇的文本建构规律,从而进一步明确各学科群与学科之间的相互联系与区别。须要指出,Z值是在平均值被设定为0的情况下,用来表明被观察变量或数据距离平均值上下的标准偏差(McNamara et al. 2014:84)。
本文语料来自笔者自建的学术期刊方法部分语料库。该语料库选取2008-2014年间被SCI,SSCI和A&HCI学术文献检索系统收录的200种期刊发表的论文,样本总量为3,000个,总计2,728,583词次(token)。这些样本来自20个学科,涵盖纯科学、应用科学、生命科学、社会科学和人文科学5个学科群。
本研究中,笔者首先用随机化的方法取得30个随机序数,随后根据这些序数提取每个学科对应的语料样本,20个学科共收集样本600个。最后利用Coh-Metrix 3.0在线分析工具分析所有样本并回收分析结果。
根据本文的研究问题,笔者利用SPSS 22.0首先对变量进行描述性统计,并采用三线表呈现结果,随后检验各变量间的差异显著性。对于符合参数检验条件的变量将汇报正态性及方差齐性检验结果,不符合条件的变量将直接采用非参数检验。本研究中分组的最小样本为30,因此在参数检验时仅汇报Shapiro-Wilk检验结果。
文本中具有较多的指称性衔接成分时,表明句际之间或整个文本内部存在更多的词汇或语义重叠。这些指称性成分是读者理解语篇的显性线索。当文本中的指称性成分较少时,语义连接的线索也相应地减少,读者理解语篇的难度则会相应地增加(同上:85)。实际上,Coh-Metrix统计的指称性衔接变量包括名词重叠、论元重叠、词干重叠和实词重叠等多种类型。而指称性衔接Z值和百分比是在整体上对这些衔接手段的衡量,是区分文本难度及语篇建构方式的重要变量。因此,本文分别比较学科群和学科之间的指称性衔接变量旨在揭示其中的联系与区别。
描述结果显示,人文科学的指称性衔接Z值最高,为0.20,生命科学的指称性衔接Z值最低,为-0.65,具体结果见表1。
表1 学科群指称性衔接统计与检验
显示渐进显著性。 显著性水平为.05。
检验结果显示,指称性衔接Z值在各学科群中分布的P值为0.000,小于0.05(卡方值为60.729),表明它们在各个学科群中的分布具有显著差异。组间成对比较结果显示,在这个变量上,生命科学与纯科学、生命科学与社会科学、生命科学与人文科学、人文科学与应用科学以及人文科学与纯科学之间均存在显著差异,其它学科群相互之间则没有明显区别。统计结果表明,人文科学使用指称性衔接手段的频率最高,文本难度最低;社会科学、纯科学与应用科学的使用频率较低,文本难度居中;生命科学的使用频率最低,文本难度最高。笔者对学科群词汇密度的分析显示,生命科学的词汇密度最高,人文科学的词汇密度最低。而指称性衔接中的名词重叠和论元重叠等均同实词有关。因此,词汇密度同指称性衔接之间存在关联,词汇密度的检验结果在一定程度上验证此处的检验结果。
SPSS分析结果显示,指称性衔接Z值正态分布,Shapiro-Wilk检验的P值分别为0.958、0.218、0.667和0.454,均大于0.05,方差齐性检验P值为0.404,大于0.05,符合参数检验的要求,见表2。
表2 纯科学指称性衔接Z值单因素方差分析
方差同质性检验
ANOVA
表2显示,数学指称性衔接Z值最高,为0.31,化学最低,为-1.03;检验结果显示,该变量分布的P值为0.000,小于0.05(F值为28.929),表明该变量在4个学科间的分布具有统计学意义上的显著差异。组间多重比较结果显示,除统计学与数学外,其它学科相互之间均存在统计学意义的显著差异。
组间成对比较结果显示,除物理学与统计学、数学与统计学外,该变量在其它学科之间的分布均具有显著差异。本文的统计结果与笔者针对本学科群词汇密度的统计结果相一致,同学科群可读性分析的结果也基本一致。而针对纯科学句法相似度的分析表明,除主要动词前词汇数量外,4个学科在名词短语修饰语数量、相邻句句法相似度和全部句子句法相似度3个维度上均存在显著区别。综合这些检验结果,4个学科在建构文本的过程中绝大多数变量的分布均呈现较为稳定的变化,从而保证学科之间的相互联系与区别。
SPSS分析结果显示,指称性衔接Z值正态分布,Shapiro-Wilk检验的P值分别为0.376、0.065、0.848和0.610,均大于0.05,方差齐性检验的P值为0.204,大于0.05,符合进行参数检验的条件,详情见表3。
表3的统计结果显示,计算机指称性衔接Z值最高,为0.82,材料学最低,为0.50;分析结果显示,指称性衔接Z值分布的P值为0.000,小于0.05(F值为15.414),表明该变量在4个学科间的分布具有统计学意义上的显著差异。组间多重比较结果显示,除工程学与应用机械外,其它学科相互之间均存在统计学意义上的显著差异。
表3 应用科学指称性衔接Z值单因素方差分析
方差同质性检验
ANOVA
组间成对比较结果显示,材料学与工程学、材料学与计算机、应用机械与计算机之间存在显著差异,其它学科相互之间无明显差别。前文词汇密度与句法复杂度的分析表明,计算机科学的词汇密度最高,材料学的词汇难度最低,计算机科学的句法复杂度高于材料学。可读性与指称性衔接的分析结果显示,计算机科学的文本难度又低于材料学。由此可见,在词汇、句子和语篇3个层面上,两个学科的文本难度始终处于一种此消彼长的状态。
SPSS分析结果显示,指称性衔接Z值正态分布,Shapiro-Wilk检验P值分别为0.104、0.864、0.065和0.201,均大于0.05,方差齐性检验P值为0.253,大于0.05,符合参数检验的条件,见表4。
表4显示,农学指称性衔接Z值最高,为-0.40,医学最低,为-0.92;检验结果显示,该变量分布的P值为0.015,小于0.05(F值为3.613),表明该变量在各学科间的分布差异具有统计学意义的显著性;组间多重比较结果显示,除医学与农学外,其它学科相互之间均不存在显著差异。组间成对比较结果显示,除农学和医学外,其它学科相互之间不存在明显区别。作为接近学科连续统中央的成员,医学、公共健康、生物学和农学在已经分析过的变量中均表现出较高的一致性。该学科群的词汇密度最高,句子数量和段落最多,句法复杂度高于学科群平均水平,可读性低于学科群平均水平,指称性衔接指数最低,表明生命科学方法部分的文本难度在词汇、句子和语篇层面始终维持在较高难度。虽然学科群内部各成员之间在一些变量的分析中表现出明显差异,但是它们作为接近学科原型的成员,均表现出明显的集中倾向。
表4 生命科学指称性衔接Z值单因素方差分析
方差同质性检验
ANOVA
统计结果显示,商务与经济学的指称性衔接Z值最高,为0.23,法学最低,为-0.17,详情如表5所示。
表5 社会科学指称性衔接特征描述
显示渐进显著性。 显著性水平为.05。
检验结果显示,上述指称性衔接Z值分布的P值为0.018,小于0.05(卡方值分别为10.042),表明它在各个学科中的分布具有显著差异。组间成对比较结果显示,两个变量仅在心理学同商务与经济学之间存在显著差别,其它学科相互之间不存在明显区别。针对社会科学各个变量的分析结果显示,社会科学的词汇密度最高,各个学科之间的词汇密度十分接近,表明该学科群在词汇层面上的难度最高,而在句子和语篇层面该学科的文本难度却呈现明显的下降趋势。这种整体的变化规律表明,社会科学方法部分文本建构时,更倾向于在词汇层面上体现其学科复杂性,而在句际之间及语篇衔接上则倾向使用较为简单的建构策略。(严明 2017:77) 就学科群内部的成员而言,心理学始终在不同程度上保持着自身的边缘性学科的特征,在很多变量中均呈现出与其它学科之间的显著区别。而不同变量在社会学、商务与经济学和法学中的分布却始终保持着较高的一致性,说明它们的学科特征和语篇建构策略比较相似。
统计结果显示,文学指称性衔接Z值最高,为0.64,语言学最低,为-0.45,具体见表6。
表6 人文科学指称性衔接特征统计与检验
显示渐进显著性。 显著性水平为.05。
检验结果显示,指称性衔接Z值分布的P值为0.000,小于0.05(卡方值分别为19.417),表明它在各学科中的分布具有显著差异。组间成对比较结果显示,此变量在语言学同其它3个学科之间的分布均存在显著差异,而其它3个学科相互之间则没有明显差别。这一检验结果再次说明,语言学作为人文学科的非典型成员同哲学、历史和文学3个学科之间在语篇特征上存在明显不同。须要指出,本节的检验结果表明历史与哲学两个学科的文本难度存在一定的变化。笔者已经分析过的相关变量中,历史在词汇密度、句子数量、平均句长和平均段长等变量的统计结果均高于哲学,说明它在词汇和句子层面的文本难度高于哲学。但是,历史的指称性衔接Z值却低于哲学,表明在语篇层面上二者的文本难度发生转变,历史的文本难度低于哲学,体现出与此前不同的难度变化趋势。这种变化趋势表明,不同学科会根据交际目的的不同调整文本建构的策略运用及重心。综合本学科群的统计与分析结果,人文学科在建构方法部分的文本时倾向于使用更多的指称性衔接手段,从而提高文本的可读性,降低文本的整体难度。
衔接手段是文本建构的重要方式,灵活组合有效运用不同的衔接手段是建构方法部分的核心策略之一。本文研究表明,不同学科群与学科对衔接手段的使用具有明显的倾向性。这些倾向性既是学科特征的体现,也是衔接手段运用的基本规律。其中,人文科学较多采用指称性衔接,生命科学与应用科学各学科中指称性衔运用较少,纯科学与社会科学中指称性衔接运用较为均衡,没有明显的倾向性。因此,合理运用衔接手段既要符合学科群或学科的基本特点,又要体现主体对文本建构的有效掌控。毕竟期刊论文的规范性与规约性对研究者均具有较强的约束力,衔接手段的组合与运用也须要适当考虑这些因素。