○曹雅洁
日语语言文体研究中的计量方法
——以对宫泽贤治童话作品的实证性考察为例
○曹雅洁
摘 要:借助原文语料库和计算机技术可以定量地分析日语的词汇和句子,主要考察对象包括句子长度、名词比率、MVR和会话文比率等,通过对这些指标的大规模数据统计和对比分析可以探究日语语言的文体特征。以此为基础对宫泽贤治童话作品的各项指标进行了考察和对比分析,分别计算了其句子长度和描写性语言的分布情况,得出了其个人的文体特征,验证了用计量方法探究日语语言文体特征的可操作性。
关键词:日语语言 文体 计量方法 语料库
随着信息技术的发展和普及,进入20世纪80年代后,研究者开始借助语料库来研究文本,并通过定量分析来探究文本的特征。人们通常用语料库文体学、计量文体学等词语来描述这一新兴的研究方法。但无论哪种说法,其根本均为基于语料库对文本进行定量分析。
近年来,国内对文本进行定量分析的研究主要分为两大类。分别为汉语言文学作品分析和英美文学作品分析。前者研究内容主要集中在唐宋诗词等古代汉语言文学作品的词汇语义、诗词语言风格评价等方面。[1]其用途之一在于通过字、词、标点等出现的频度统计来分析文本的文体风格。在此基础上,还可用于通过字、词、句的出现频率来确定文学作品的创作者。如通过对《红楼梦》前80回和后40回的用词统计,确定后40回是否为曹雪芹所作。也就是说,通过文学作品的计量研究分析文本的语言风格,可以确认未知作者的文本或作者有疑义的文本的真实创作者。国内对文学文本进行定量分析研究的第二类为英美文学作品的量化研究。[2]
尽管人们认为量化研究文学文本始于20世纪80年代,但事实上,以日本为例,早在1950年,波多野完治即有所涉及。他随机抽取了500个小说片段进行字数统计,并与报纸、杂志中的文本进行了比较。尽管这只是一个雏形,但可以说开创了日本定量分析文学文本的先河,为后来者提供了一个全新的研究视角。
目前文本的量化分析方法主要运用于分析其文体特征。所谓文体即是文章“内容的展开方式”“作者的表现态度”和“所选取的表达方式”的结合(桦岛忠夫,1968:76)。文体考察实际上是对某一语言特征的考察,即运用语言学的方法将文本作为语言形式来进行文体分析。这种文体分析具体来说即分析、统计文章的音韵、文字和文的具体形态。例如,文章有无音韵规律,经常使用的词语类型,文的构造和功能,多运用短文还是长文,等等。
在计算机技术发展之前的定量分析文体方法只适合于“诗歌或语篇片段的分析。对篇幅较大的小说、剧本或一个作家的全部作品困难较大。”(刘世生、朱瑞清,2006:69)就目前的研究情况来看也确实如此。虽然现代文体研究通过抽取文章语言并进行统计,可以明晰某一类文学作品或是某一位作家的语言特征,但到目前为止,所研究的文学作品多为诗歌、短剧等篇幅短小、统计起来较为方便的文学类别,并且统计分析对象大多集中于英语圈作家的作品。国内这类对文体进行定量分析的研究也大多集中在唐宋诗词等古汉语作品这类篇幅相对短小的作品上。“对具体作家的文体风格的研究,以国外居多。”(刘世生、朱瑞清,2006:65)目前国内对日本文学作品和作家的文体研究现状也是如此。但是随着语料库的发展,通过语料库这一平台,分析长篇的日语文本或某一作者的文体成为可能。
但从具体的分析考察内容上来说,日语的语言特点决定了其文本与汉语及英语文本存在较大差异。在量化分析汉语及英语文本时,大多采用统计词频的方式,即统计某字或词语出现的频率,进而分析文体风格。但是在日语文本分析中,统计词频较为困难。首先,日语的表记方法多样,有汉字、平假名、片假名以及罗马字等多种方式,有的词语还有多种汉字写法,如「変える・替える・代える」,因此同一词语可能会出现多种书写方式;而同样的假名也可能有不同的含义,如「蟻(あり)・有り(あり)」,这无疑大大增加了词频统计的工作量。其次,日语词汇中活用变化较多,同一含义的单词根据上下文的不同可能会变化成五六种不同的活用形,这同样给词频统计带来不便。
因此,在试图运用语料库量化分析日语文本时,需要结合日语的表现特点重新确定考察对象。通过比较分析,可以从以下几个方面着手:
1.句子长度
这项指标考察每一句中字数或自立语数或文节的数量。由于日语中每一文节仅包含一个自立语,因此该项指标考察的自立语数量和文节数应为一致。一篇文章中,若每句句子越长(即包含的自立语数或文节数越多),则文章越难理解;相反则浅显易懂。波多野完治曾对日本的小说、报纸、杂志文章中的句子长度进行过统计,结果如下:[3]
表1:
也就是说在日语文章中,与报纸、杂志报道相比,小说的句子长度是最短的,平均每句句子只有34.5个字。但是与日常对话相比,其结果又将如何?桦岛忠夫曾对具体数值进行过统计,统计结果如下表所示:[4]
表2:
需要说明的是,此处对小说句子长度的统计中不包括会话文。在这项统计中可以看出小说的平均句子长度大约是日常对话的3倍。以上两组表格中,虽考察项目有所不同(前者统计的为句子字数,后者统计的是自立语数量),但所指向的内容均为句子长度。
2.名词比率
名词比率是指文本中名词的数量在所有独立词中所占比例。根据桦岛忠夫的统计,各类型文章中名词的平均使用率如下:
表3:
可以看出,在标题文本中名词的使用率最高,谈话语则最低。这表明了名词较多地使用于归纳性、说明性文本中,而在描写性文本中则使用较少。
3.MVR
MVR为Modifier and Verb Rate的缩写,即修饰词与动词的比率。Modifier包括形容词、形容动词、副词、连体词等起修饰作用的词语,V即动词。在计算时,通常会在M和V的比值下再乘以100以方便标记。文本中,MVR的值越高,说明该文本运用了较多的描写性的修饰词语,阅读起来容易理解,不晦涩。反之则表明文本的说明性倾向越大。
4.会话文的比率
会话文的比率是指一部文学作品中引用的对话在全文中所占的比例。我们已知日常对话的平均句子长度约为小说平均句子长度的三分之一。文学作品中,作者常常引用对话使读者身临其境地把握人物的心理、情绪和环境氛围等。因此,文本中如果较多地引用对话的话,不仅通俗易懂,且能够让读者直观地感受到人物性格特征及场景气氛等,因而更加引人入胜。
以上四项指标中,第一项直接关系到文本阅读时的难易度,即相对于长句来说,短句更容易理解;第二、三、四项指标直接关系到文本的描写性倾向。即名词比率越低、MVR和会话文比率越高,则文本越倾向于描写性。而相对于说明性文本,描写性倾向越高的文本阅读难度越低。因此,对该四项指标的考察除了能掌握文本(或作者)的文体特征之外,还均能从实证角度论证文本的阅读难易度。
宫泽贤治的作品在日本广受欢迎,并且其读者群并不限于儿童。为了解这位作家的语言风格,笔者将利用原文语料库和日语解析软件对其作品进行大规模的数据提取和对比分析。
(一)数据采集
为使结论尽量客观而全面,在数据采集上,笔者选取了宫泽贤治各个时期所创作的18篇童话作品。其中因为1921年为宫泽贤治创作的高峰期,本文选择的该时期作品也略多一些。具体作品情况如表4所示(其中*为其生前未发表作品)。
表4:
前文已述,由于日文表记方法的多样性,为避免在计算句子长度时使用字数统计造成不尽客观的结果,笔者还将在字数统计的基础上采用解析软件统计文节数量。由于每一个文节只包含一个自立语数量,因此句子的文节数也反映了自立语数,即句子长度。通过解析软件可得出上述18篇童话作品的字数、句子数以及文节数,将这些数据进行计算之后可以得出宫泽贤治该18篇童话作品的句子长度数据,结果如图1所示(横坐标的数字为表4中各童话作品的编号)。
图1:
从上图可以看出,在统计的宫泽贤治的18部童话作品中,除了第1、2、18号作品,其余15部作品每句平均文字数几乎都集中在25-35字之间。其中有一半的作品都是在30字左右。而每一句的平均文节数大体也呈现这一规律。总体来说,这18篇作品的平均文节数都在5-10之间。其中第1、2、18篇作品的数据更低一些。具体来说,每一文的平均文节数为9或10的只有三部作品,其余作品大多为7个或8个文节。经计算,所有18部童话作品的每句平均字数为27.5,平均文节数为7.7。
(二)对比分析
定量分析文学作品的目的在于总结作家或作品的文体特征。而特征是相对的,因此在该例中,要想总结宫泽贤治童话句子长度的特征,就必须有参照对象。桦岛忠夫通过统计得出的结论为“口语中,平均每文使用的文节数为3.2-3.6,大约为小说的三分之一。”由此,我们可知,小说中每文的平均文节数大约在9.6-10.8之间。但是,根据上文对宫泽贤治十八篇童话作品的统计,其每文的平均文节数只有7.7,仅为小说文节数的四分之三。在此基础上笔者又进行了对比研究。在比较对象的选择上,考虑到要兼顾时代特点和作品特点,因此选择了同时代的岛崎藤村的作品进行对比分析。岛崎藤村(1872-1943)和宫泽贤治的(1896-1933)生活年代大体相近,因此避免了因年代不同而造成的作品文体差异。表2为本文所要统计的岛崎藤村的五篇作品及各作品字数、句子数和文节数的相关数据。这五篇作品均为其代表作,创作时期也各有不同,时间跨度达二十余年。其中《ふるさと》为童话。
表5:
由表5数据经过计算可以得出岛崎藤村五部作品中每句平均字数和每句平均文节数。数值分布如图2所示。
图2:
从图2可以看出,岛崎藤村的五篇作品中,除了《破戒》以外,每句平均字数均在35-45之间。此外,五篇作品的每句平均文节数均为10-13左右。通过计算,这五篇作品的平均句长为每句38.8字和11.4文节。这一数据与宫泽贤治的有相当大的差距,图3可以直观反映出来(每组左边的柱状图为宫泽贤治作品的数据)。与岛崎藤村的作品相比,宫泽贤治作品的每句平均字数少十余字,每句平均文节少近4个。
图3:
通过以上对数据的统计和对比,我们可以看出宫泽贤治的童话作品句子长度特别短小,介于口语和小说的长度之间(口语为3-4文节,小说约为11文节,宫泽贤治童话约为7.7)。但这一特征究竟是其个人写作特征还是作为童话的普遍特征,我们可以通过与同时代其他作家的童话作品进行比较。以下将从杂志「赤い鳥」中选取四部童话作品作为参照进行对比。「赤い鳥」为铃木三重吉于1918年创办的童话杂志,于1935年停刊。表6为从上述刊物中选取的作品的相关数据。
表6:
由表6可以看出,用于对比分析的四部童话作品的创作年份与宫泽贤治童话作品的创作年代相符,因此可以排除由于年代差距而导致的文风差异。比较结果可以直观表现为图4所示。两道虚线分别为宫泽贤治童话作品每句话的平均字数和文节数。显然除了芥川龙之介的数据较大以外,其他三部作品表现相当,但均高于宫泽贤治的童话作品。事实上,芥川龙之介其他非童话的作品的句子长度均较同时期小说家的数据要高;此外,「赤い鳥」也曾经收到过宫泽贤治的投稿,但并未采用。因此宫泽个人的写作风格与杂志其他作品风格的差异由此可见一斑。
图4:
以上数据和分析都表明,无论是与一般小说相比,还是与其他作家的童话作品相比,宫泽贤治童话作品的句子长度均偏短,每句话的中心词数量偏少。这一发现从实证的角度说明宫泽贤治的作品浅显易懂。笔者认为,这也是其在日本广受欢迎的原因之一。
所谓描写性语言,即能让读者在阅读时产生种种关于样态、方式方法等的联想的语言表达。在一篇文章中,描写性语言成分越多,文章就越容易理解。通过上述关于句子长度的分析,我们获取相关数据并得出宫泽贤治童话作品浅显易懂的结论。在该部分,我们将提取宫泽贤治作品中描写性语言的数据,以对上述结论进行补充或驳斥。数据来源仍然与上文相同,抽取宫泽贤治于不同年代创作的18部作品,分析对象将包括以下几个方面:名词比率、MVR和会话文比率。
(一)名词比率
在说明性的文本中,由于作者需要论述或推测机制、理由,又或者要判断某事物的价值,因此我们可以认为在说明性的文章中名词的比率较高。宫泽贤治的18部作品和岛崎藤村的5部作品中的名词比率如图5所示。
图5:
图5中垂直虚线以左为宫泽贤治18部童话作品的相关数据。名词使用率最低的为18号作品(32.68%),最高的为15号作品(44.06%),平均数值为39%。右边岛崎藤村5部作品的数据,我们可以看出数值最低的20号作品(46.71%)都高于贤治的最高值,而最高值的23号作品更是高达54.49%,藤村作品的平均数值为50.2%。图5中水平虚线为日本小说中名词比率的平均数值,可以看出该数据远远高于贤治的童话作品,整体上与岛崎藤村的作品较为接近。通过图6也可以看出,宫泽贤治童话作品的名词比率也低于同时期其他童话作品。
图6:
(二)MVR
MVR(Modifier and Verb Rate)为修饰词与动词的比率,是判断文章描写性特征的又一指标。修饰词包括形容词、形容动词、副词和连体词。因此,动词较多的文本MVR值偏小,相反,修饰词较多的文本MVR就偏大。也就是,越是详细描述表现对象样态的文本,MVR也就越大,这样的文本自然属于描写性文本。在统计并计算宫泽贤治的18部作品和岛崎藤村的5部作品的MVR值之后,得出图7。
图7:
横轴为名词比率,纵轴为MVR值,虚线左右两边分别为贤治和藤村作品的数据。可以看出左边宫泽贤治作品中MVR值在100以上的有6部,占全部作品的1/3,MVR值在70以下的作品仅两部,其他作品大部分在80以上,所有18部作品的MVR平均值为89.32。而岛崎藤村的5部作品中,MVR值最高的也仅仅为82.84,低于贤治作品的平均值。图8为与「赤い鳥」中作品的对比图。直线连接的四点为「赤い鳥」中四部童话作品的数据分布,MVR值最高的为24号作品(77.56),与贤治作品的平均值还存在较大差距。可以看出这四部作品在图中位置都位于虚线以下,虚线以上均为贤治的作品。
图8:
(三)会话文比率
判断文章的描写性倾向还可以通过会话文比率这一指标。即文本中对话字数与文本总字数的比率。在文本中,通过引用对话,能够创造出身临其境的感受,直观地向读者传达人物的感情、身份、环境特征等。
图9:
图9为本文考察的27部作品的会话文比率。其中前18部宫泽贤治作品的数值明显高于其他9部,其平均数值为34.65%,几乎全文的三分之一以上均为直接引用的会话文。相比之下,岛崎藤村的作品数值最低,除22号童话作品以外,其他四部均低于4%。而有3部「赤い鳥」中童话以及藤村的童话(22号)的会话文比率几乎都在15%左右。此外,芥川龙之介的23号作品,虽然为童话,但数值却仅为4.19%,再比较此前对比句子长度时的数值,23号作品远高于其他「赤い鳥」中的童话,不得不说这是芥川龙之介的个人写作特点。
图10:
文本中的名词比率、MVR和会话文比率均表现了作者行文时的描写性倾向。如图10所示,通过这三项指标的对比,我们可以看出宫泽贤治的作品具有较强的描写性特征。其作品的MVR和会话文比率远高于同时代其他作品(包括同时代童话作品),而名词比率却最低。再结合前文关于句子长度的相关数据,每一项指标的数值均说明宫泽贤治童话作品的通俗易懂,也解释了其作为作家在日本人气居高不下、其作品在日本广为流传的原因。
随着现代计算机技术和语料库的不断完善,已有越来越多的研究者开始借助语料库,使用定量分析的方法分析文本,尤其是文学文本。但尽管如此,研究大多局限于汉语言文学和英美文学作品,鲜见对日语文本,尤其是长篇文本进行量化研究。究其原因,除了日语长篇文本语料库不够充分之外,主要是先前计算机技术的局限性和日语自身的语言特点制约了日语语言的量化分析,导致大规模的词频统计无法完成。但是,计算机技术发展日新月异,目前已有相关软件可以分析日语文本的文节特征,在此基础上,在对日语文本进行定量分析时,可以跳出词频统计的束缚,通过句子长度、名词比率、MVR和会话文比率,来探究日语(文学)文本的文体特征。本文利用语料库和日语解析软件,尝试分析并对比了宫泽贤治童话作品的句子长度特点和描写性倾向。笔者认为,结合语料库和日语解析软件,可以深入探究文本和作者的文体风格。
注释:
[1]如试论古代文学中计量方法的应用、仓央嘉措情歌的用词风格统计研究。
[2]如任艳,陈建生,丁峻:《英国哥特式小说中的词丛——基于语料库的文学文体学研究》,解放军外国语学院学报,2013年,第9期。
[3]数据来自波多野完治:《現代文章心理学》,新潮社,1950年版,第153页。
[4]数据来自樺島忠夫:《日本語のスタイルブック》,大修館書店,1979年版,第214页。
参考文献:
[1]樺島忠夫.表現の解剖——続文章工学[M].三省堂,昭和43年:27-94.
[2]波多野完治.現代文章心理学[M].新潮社,1950:153-164.
[3]樺島忠夫.日本語のスタイルブック [M].大修館書店,1979:211-216.
[4]橋本進吉.国文法研究第二冊(橋本進吉博士著作集)[M].岩波書店,1948:5-12.
[5]前川喜久雄.コーパスとは何か(国文学解釈と鑑賞 特集=日本語研究とコーパス)[J].至文堂,2009,(1).
[6]宮島達夫.図説日本語——グラフで見る言葉の姿[M].角川書店,1982:373-392.
[7]原子朗.真の文体論的批評への期待」[J].『日本語学』特集,1997,(9).
[8]刘世生,朱瑞青.文体学概论[M].北京:北京大学出版社,2006:61-69.
[9]李文中.语料库语言学的研究视野[J].解放军外国语学院学报,2010,(3):37-40.
[10]李晋,郎建国.语料库语言学视野中的外国文学研究[J].外国语,2010,(2):82-89.
[11]毛文伟.日语语料库建设的现状综述[J].日语语言研究,2009,(6):42-47.
[12]唐磊.试论古代文学中计量方法的应用[J].中国社会科学院研究生院学报,2006,(2):126-132.
[13]陈晨,陈小莹等.仓央嘉措情歌的用词风格统计研究[J].西北民族大学学报(自然科学版),2009,(3):46-50.
[14]任艳,陈建生,丁峻.英国哥特式小说中的词丛——基于语料库的文学文体学研究[J].解放军外国语学院学报,2013,(9):16-20.
(曹雅洁 江苏大学文学院 212013)
基金项目:(本文是2014年江苏省教育厅项目“小松左京作品的日本文化意义”[项目编号:2014SJB804]、2015年江苏省教育厅项目“中日传统‘家’文化与百姓幸福观问题研究”[项目批准号:2015SJB838]、江苏大学2015年高等教育教改研究课题“语料库技术辅助高校日语专业词汇搭配教学的研究与实践”[课题编号:2015JGYB024]的阶段性研究成果。)