宋婧婧
(厦门理工学院外语系,福建厦门361024)
近30年来基于汉语语料库的词汇研究日趋增多,但仍有可拓展之处:其一是汉语学界在将语料库、词汇与语体进行比较研究方面存在不足,而英语界这一研究却已成趋势;其二是对语体间的差异性、比较性研究不足,构成语体的变量较多,找到具有可比性的语料不易。此外基于汉语口语语料库的词汇研究相对较少。
国外相关研究中,Ure[1]、Poulisse 和 Bongaert[2]等的研究表明,书面语篇与口语语篇在词汇变化性与词汇密度上存在较大的差异。此外,Biber[3]、胡显耀[4]、桂诗春[5]也曾利用更多因子来进行语体研究。籍此建立语体区分指标,在封闭领域的不同语料中通过计量手段探讨指标与语体的关系,是一种较新的尝试。
本研究选取有声媒体电视访谈节目、平面媒体语料作为比照对象,并辅之以新闻播报语料作为参照系,其原因在于:(1)电视访谈节目代表着传媒语场中最为口语化的一极;(2)平面媒体中的报纸为传媒语料中书面语一极,尤其是以严谨正式著称的《人民日报》语料;(3)参照系为新闻播报语料,其与访谈节目同样以声音为传播媒介,但播报前的文字准备又赋予其严谨、正式的特征,正式程度甚至高于一般的书面表达,同时新闻联播没有交互性。此外,从产生途径看,平面媒体作为有声媒体的报道“母体”,是原型语用体式,这种关系使本研究更具有比照意义。
本研究选取了电视访谈节目语料(《鲁豫有约》、《实话实说》、《7日7频道》以及《面对面》四个栏目的转写语料)、平面媒体语料(选自《人民日报》等报纸)、新闻播报语料(选自中央电视台《新闻联播》节目)。三类语料均为200万字左右,总量约为615万字,平面媒体语料已是熟语料,电视访谈与新闻播报语料均经过机器分词。其中电视访谈语料来自于“国家语言资源监测与研究中心有声媒体语言分中心”。《人民日报》语料来自人民日报标注语料库。
图1 语料库形式图
人工干预重点排除机器分词与词性标注错误,主要具有但不限于如下四类:(1)音频转写文本产生的错误(如错别字);(2)语素组合多样性引发的机器分词错误;(3)自动分词未识别专名(人名为主);(4)不合本语料处理的规则:如“愿不愿意”的原形应是“愿意不愿意”,处理方法为在“愿”后补上语素“意”,计为“愿意”一词。人工干预可能无法排除所有的错误,但细微的差异不影响总体统计结果。
语料分析工具为access数据库软件,在其查询功能无法完成的复杂计算时,以ultra edit的正则表达式作为补充。除去标点后的语料库形式如图1所示。
本研究指标的拟定综合了词汇学、语体学以及语料库语言学的研究成果,以及我们的先期研究。有些指标主要立足于英语或翻译语料,未必适用于汉语原创语料;有些指标之间具有重复性,有些被证明与语体无显著联系,因此最终设计基本特征指标2个,语体区分指标5个,包括:
1.基本特征指标:即总词量(形符)与词种(类符),这是定量分析的基础。
2.语体区分指标:此类指标与语体之间具有可能联系。一般而言,口语使用词汇通俗、非正式、随意、变化少,书面语词汇使用典雅、正式、严谨、丰富(由于语义精确)。合偶双音词覆盖率指标为研究中的新尝试,如表1所示:
表1 语体区分指标对应的语体特征表
经统计各类语料的总词量均在110-130万之间,而词种(即语料中出现的不同词语)则差异较大,尤其是电视访谈与平面媒体的词种相差将近一倍。由表2可见,语料的类符数为平面媒体>新闻播报>电视访谈,而形符数则是电视访谈>平面媒体>新闻播报。类符数量并不随着形符增加而增加,两者并不呈现正相关关系。
表2 三类语料的基本指标分析表
1.词语变化性(type/token ration)
词汇变化性(TTR)指语料的类符形符比,其公式为:
词汇变化性(TTR)=类符(type)/形符(token ratio)×100%
在形符容量相当的情况下,使用越多的类符说明用词丰富度越高。但由于形符数总是随着语料总量的增加而扩大,而任何语言的词种数量却有限,语料达到一定容量时,类符的增长将逐渐减缓。由此STTR即标准TTR应运而生,它被用来先统计每千个词语的TTR再计算均值。此外,一些语言(如英语)具有屈折形式,如 talk,talks,talked,talking实为同一词位talk,还应进行削尾处理。但本研究所用语料中外语词数量极少,且多为缩略语(如PVC,SARS等),无须做此处理。经统计,语料TTR与STTR结果如表3所示:
表3 词汇变化性表
表3中TTR与STTR的趋势完全一致,均为平面媒体最高、电视访谈最低,新闻播报与平面媒体语料相当接近。换言之,偏口语的语料词语的重现率较高,用词丰富度较低,而偏书面语的语料则相反,新闻播报介于两者之间。总体看来,词汇变化性提示了用词的丰富度,可作为区分口语与书面语料的指标之一。
2.词汇密度(lexical density)
词汇密度指语篇中词项与篇章单词总数的比值。具体公式如下:
词汇密度=词项/篇章单词总数×100%
词项指实词项,词汇密度体现出篇章传递信息量的大小。Poulisse和Bongaert认为实义词比虚词传递的信息要多,因此篇章中的实词越多,词汇密度越大,传递的信息也越多。
对汉语实词项认定的焦点在于副词、代词与语汇成分。王力[6]认为,“词可分为两大类:凡本身能表示一种概念者,叫做实词;凡本身不能表示一种概念,但为语言结构的工具者,叫做虚词。”从语法功能上看,实词大多可单独成句,可担任主语、宾语或谓语,而虚词则不然。故而我们将副词列为虚词,代词和语汇列为实词项统计。最终实词包括名词、动词、形容词、数量词、区别词、代词以及语汇成分。各类语料中的词汇密度如表4所示:
表4 词汇密度表
词汇密度结果显示,在语料等量的情况下新闻播报传输的信息容量最大,平面媒体次之,电视访谈最少。本研究的结果显示:(1)口语语料(电视访谈节目)的词汇密度小于书面语料(平面媒体),这与Ure等人的研究结果基本相符。(2)新闻播报语料的词汇密度之高说明了口语传播渠道与口语体不能完全对等,真正的口语体还与准备性、交际场合的正式程度、交际目的有较大联系。
胡显耀[7]统计的汉语翻译语料词汇密度一般在50%-70%之间,低于本研究统计的结果。这可能与两个原因有关:(1)传媒语言讲究简明扼要,力求在限定的时间与空间(版面)中提供尽可能多的信息,可能使其具有相对较高的词汇密度。(2)胡显耀未将代词归入实词,对汉语实词判定标准的差异也在一定程度上影响了词汇密度的高低。
3.合偶双音词
音节分析是一种具有汉语特色的指标,类似于英语中的词长,却又不完全等同,因为双音化是汉语词汇发展的结果,音节发展又与语体的丰富存在着错综复杂的关系。如冯胜利[8]将合偶双音词看作现代汉语书面语的衍生物。合偶双音词即一般强制地与另一个双音词配对的双音词,例如“承认”可搭配双音词为“承认错误”,却不能与单音词“错”搭配为“承认错”,根据其建立的440个合偶双音词表可进行语篇正式度的分析。我们设计的合偶双音词覆盖率公式如下:
合偶双音词覆盖率=合偶双音词总频次/形符总数×100%
各类语料的统计结果具有较为显著的差异。如表5所示,平面媒体的合偶双音词数量最多,约为电视访谈语料的2倍,而新闻播报与之较为接近,可见合偶双音词是现代汉语书面语的特征之一,体现了语料的正式程度。
表5 合偶双音词覆盖率表
4.高频词与低频词覆盖率
各语料库的前10位高频词重复率高,且均为书口通用语词,如“的”、“了”、“是”、“一”4个单音词在各类语料中均为高频词。我们把覆盖率公式设计为:高频词覆盖率=Sum每个高频词频次/形符总数×100%。总体而言,高频词覆盖率越高说明语料更通俗易懂,而覆盖率低则可能相反,这一指标揭示了语料的通俗度。其中电视访谈语料该值最高,10个高频词在语料中就有20%以上的覆盖率。
低频词指的是在语料中仅出现一次的词语,一次性词的增加将促进类符的增加,并最终提升语料的复杂度,即理解语篇需要更多词汇量。其覆盖率计算公式为:Sum每个高频词频次/形符总数×100%。如表6所示,该指标同样为平面媒体最高,电视访谈语料最低。
表6 高低频词覆盖率表
5.综述
五类指标的排序如图2所示,除指标4高频词覆盖率之外,其余指标(1.词汇变化性;2.词汇密度;3.合偶双音词覆盖率;5.低频词覆盖率)均与书面语化程度正相关,与口语化程度负相关,均为平面媒体或新闻播报语料最高,电视访谈类语料最低。此外,除了词汇密度外,1、3、5指标均为平面媒体值最高,新闻播报次之,且两者的数值均较为接近,可见在同一语域中,书面语比口语具有较强的丰富度、正式度与复杂性。此外,新闻播报语料传递了更大的信息容量,因此词汇密度略高于平面媒体语料。
图2 语体指标综合排序图
通过对语体相关指标进行定量研究,我们可以减少研究者的感性偏误,利用特征的叠加效应获得由定量到定性的结论。主要结论可概括如下:
1.语体区分不仅可依据传统的主观语感,也反映在客观的定量统计上:词汇变化性、词汇密度、合偶双音词与低频词覆盖率均与语篇的书面语程度呈正相关关系,而高频词覆盖率则反之,可考虑将此类指标看作语体区分的部分特征。
2.所选语料同属传媒语场,使之具有可比性,但又因语旨、语式的差异存在着显著差异:总体而言,偏书面语的平面媒体比偏口语的电视访谈体现了更为显著的丰富度、信息量、正式度与复杂度,而电视访谈则更具通俗性。
3.作为参考的新闻播报语料虽为口头传播,却在各项指标上体现了与平面媒体类似的特征,这与其准备程度高、场合正式以及缺乏交互性等原因息息相关,符合我们的预设。这一结果也证实了书面语与口语的区分不应单纯依赖于传播媒介,而是与准备性、交际场合、交互性等具有较强的联系。
4.需要进一步关注具有汉语特色的指标。如音节在英语相关研究中主要体现为词长,然而,在汉语语料中这一指标更具价值。音节发展与语体的丰富存在着错综复杂的关系,例如本研究中合偶双音词的使用比例就提示了语料的正式度,与语料书面语程度关系密切。
本研究还有可拓展之处,如:第一,可进一步增加指标,例如词类中的叹词、语气词、话语标记与语体具有一定联系;第二,可借助统计学方法,利用SPSS因子分析判断指标与语体的相关性。总体而言,计量统计、多维度的语体分析方法应当更多地运用到研究中,结合语料中反复出现的现象来确定特征,并将特征与某一语体进行相关分析,以达到客观描述语言现象的目的。
[1]Ure,J.Lexical density and register differentiation[A].Applications of linguistics:Selected papers of the second international congress of applied linguistics[C].Cambridge:CUP,1971.
[2]Poulisse N,Bongaert T.First language use in second language production[J].Applied Linguistics,1994,(15).
[3]Biber D.Variation across speech and writing[M].Cambridge:CUP,1988.
[4][7]胡显耀.基于语料库的汉语翻译语体特征多维分析[J].外语教学与研究,2010,(6).
[5]桂诗春.基于语料库的英语语言学语体分析[M].北京:外语教学与研究出版社,2009.
[6]王力.王力文集(卷1)[M].济南:山东教育出版社,1984.
[8]冯胜利.汉语书面语初编[M].北京:北京语言大学出版社,2006.