基于语料库的《头发的故事》英译本翻译风格比较研究

2024-04-07 15:45雷英英罗德金

今古文创 2024年9期

雷英英罗德金

【摘要】鲁迅《头发的故事》收录于短篇小说集《呐喊》中，以“头发”为主题批判了旧民主主义革命的软弱性和不彻底性。本文基于语料库翻译学定量定性地分析其三个译本：蓝诗玲译本、威廉·莱尔译本和杨宪益、戴乃迭夫妇译本，从词汇、句子、语篇三个层面，利用AntConc、Wordsmith两个软件，分析了三个译本翻译风格上异同。

【关键词】语料库；《头发的故事》；译文比较

【中图分类号】H315 【文献标识码】A 【文章编号】2096-8264（2024）09-0114-03

【DOI】10.20024/j.cnki.CN42-1911/I.2024.09.035

一、引言

《头发的故事》是鲁迅短篇小说集《呐喊》中的一篇。《头发的故事》的写法在鲁迅的作品中显得尤为独特，不注重故事情节，以“双十节”为故事开头，N先生独白的方式，引起男人留辫子、剪辫子，女子剪发等问题所引起的风波，抨击了守旧派思想的落后，批判了旧民主主义革命的软弱性和不彻底性。

《呐喊》的译本影响力最大的就是蓝诗玲、威廉·莱尔和杨宪益、戴乃迭夫妇的译本了。现有国内鲜有分析其译本的翻译风格。基于此，本文愿为其后续相关翻译研究提供借鉴。

二、语料库翻译学

业界最早从事语料库翻译研究的是曼彻斯特大学翻译研究中心，于1995年创建了世界最早的翻译英语语料库TEC，并借助语料库进行了一系列与翻译相关的课题研究。国外学者Kenny、Stubbs和Baker，以及中国学者蒋继彪、王洪涛、田绪军、张旭冉等，也分别用语料库方法在翻译领域有所建设。21世纪，语料库翻译研究进入快速发展阶段。

语料库的翻译风格研究克服了研究者主观片面性，通过数据分析比较译文风格，其研究结论具有科学性、客观性。

三、语料库及相关参数建立

（一）语料库建立

本文借助蓝诗玲、威廉·莱尔、杨宪益夫妇的译本建立三个平行语料库：（1）Julia Lovell；（2）William A Lyell；（3）Yang&Dai。三个语料库均以译者姓名命名。除此之外，还建立了《头发的故事》原文的汉语语料库做参照，命名为Hair。蓝诗玲的译本从其鲁迅小说英译本The Real Story of Ah-Q and Other Tales of China选取Hair所得；威廉·莱尔的译文从其鲁迅小说英译本Diary of A Madman and Other Stories选取The Story of Hair所得；杨宪益、戴乃迭夫妇的译本从2009年南京译林出版社出版的《呐喊·英汉对照》中选取《头发的故事》英文所得。建立语料库后，通过语料库检索分析软件Wordsmith4.0和AntConc 8.0分别从词汇、句子、语篇三个层面对两个译本进行定量和定性分析。

（二）风格参数的确定

本研究的关键在于选择出能够体现翻译风格的特征指标，因此本文结合语料库翻译学和计量风格学的方法，参照吕鹏飞等（2021）所采用的研究框架，最终确定了以下参数指标：

（1）词汇层面：考察类符/形符比、词汇密度、平均词长、高频词表、主题词表。

（2）句子层面：考察句子数量、平均句长。

（3）语篇层面：考察两译本中连词使用情况。

四、结果分析

（一）词汇层面

1.类符、形符

形符（token）是指“一个语言单位”，一个单词代表一个形符；类符（type）指“不重复出现的形符数”。因此，类符/形符比（TTR）可以用来判断译文词汇的丰富程度。TTR越高，则译文词汇使用重复率越低，词汇越丰富。

结果显示，蓝诗玲译本（下面简称蓝译）的TTR为39.20，高于杨宪益夫妇（下面简称杨译）的37.7和莱尔译本（下面简称莱译）的32.49。即蓝译的词汇使用丰富的最高，杨译次之，莱译再次之。此外，莱译的形符数远高于杨译和蓝译，说明莱尔对源文本的解释更多，更能使外国读者理解文字背后的含义。

2.词汇密度

词汇密度也是评估译文风格的重要指标，由“实义词形符数比上总形符数”计算而来。形符数通常包括实词和功能词，为确保数据可信度，使用的停用词表应包括英文中所有功能词。本篇论文使用的是使用了20世纪90年代的英国国家语料库而构建的停用词表，滤掉任何开放类名词、动词、形容词。词汇密度的数值反映了整个文本中的信息量大小以及文本难易度。词汇密度数值越高，则实词比重大，信息量大。高词汇密度的译文意味着对原文达意准确完整，但同时也意味着译文有所繁冗。

数据显示，蓝译、莱译、杨译的词汇密度分别是0.315、0.269、0.301。莱译的词汇密度最低，说明莱尔在处理译文时更多地使用功能词，简化了阅读难度，但同时也降低了信息的传递，与TTR计算的结果一致。莱尔和蓝诗玲均是精通中国文化的外国人，但蓝诗玲对《头发的故事》的理解可能比莱尔更深。而杨译的词汇密度处于两人在中间，说明杨宪益夫妇不仅重视译文的可读性，还兼顾了信息的传递。但总的来说，三个译文的词汇密度虽有差别但并不显著，都较完整地传递了原文的信息.

3.平均词长

Wordsmith可得三個译本的平均词长。平均词长指译本中所有单词的平均长度，反映词汇复杂程度。一平均词长越长，译文用词更为复杂、高级，阅读难度也更大。

数据显示，三个译本的平均词长分别为4.399，4.177，4.384，差距较小，说明三个译本总体用词难度基本一致。三个译本中3个字母和4个字母的单词占比最大，大于8个字母的单词占比均在6%左右，说明从单词词长的角度来看，三个译本都选取了较为简单的词汇，通俗易懂，可读性差别不大。

4.高频词表

高频词表指译本中的单词按照出现频率进行排列的词表。通常，在没有使用停用词表的情况下，由于英语的语法规则，频率最高应是功能词。据20世纪90年代英语国家语料库，英语作为母语使用出现频率最高的五个依次是“the”“of”“to”“and”“a”。译本中功能词的频数也可反映译文是否符合英语语言习惯。

据数据，三个译本的功能词出现频率均排在前面，但只有莱译顺序是“the”“to”“and”“of”“a”，最贴近英语国家语料库，最符合英语的表达习惯，蓝译和杨译在这一方面稍有逊色。另外三个译本中“i”出现的频率也大相径庭，蓝译和杨译中“i”的数量较高，尤其是蓝译。单词“i”的出现多就说明译本中以人称作主语的句子句多但往往英文中以物称作主语的句子偏多，说明蓝译和莱译不能较好地脱离中文语境，翻译过程中受汉语影响较大。

5.使用停用词表和词元列表之后的高频词表

使用停用词表后的高频词表是最高频率的实词排列，反映译文的中心词和主题。此外，AntConc在统计时会还把名词和其复数形式算作两个单词来统计，不能更好地统计出实义词重复使用情况。故还需使用“词元列表”，列出同一词元的不同词型。笔者使用Wordsmith官网上提供的词元列表，包含20437个中心词，且都在整个英语国家语料库中出现至少5次。

据统计，三个译本中出现频率最高的单词均有“hair”和“queue”，而原文中“头发”“辫子”也同样高频出现，说明三个译本均凸显了“头发”这个主题词。此外，三个译本高频词差别最大的便是“curse”，萊译和杨译中分别出现8次和9次，而蓝译中的频数却为零。与“curse”对应的是“骂”，在原文中也出现了10次。蓝诗玲处理的时候将这十个“骂”处理成“persecute”“insult”“heckle”等词，可见蓝译词汇的丰富性，与上文分析词汇密度结果一致。

6．主题词表

主题词（keyword）就是某个词通过对数似然比和卡方检验来计算实际频率与在参照语料库中可能出现频率的相关性，简单来说就是指相较于某个参照语料库，其出现频率特别高的词。笔者在AntConc中设置的是“Log-Likelihood（4-term）”。主题性可反映主题词是否在两个库之间的频率差异有显著性，主题性越高，主题词焦点性越强。结合具体源文本，主题词表可反映出三个译本在具体的词汇翻译上有何不同。

数据显示，以杨译和莱译为参考时，蓝译中“tenth”

“revolution”“course”出现频率较大。结合译本可发现，蓝诗玲将“双十节”处理为“Revolution Day”“October tenth”“the Revolution”和“Double Tenth”，而杨译通篇都为“Double Tenth”，莱译也大部分为“Double Tenth”。另外蓝译中出现三处“of course”，莱译中只出现一处，杨译中一处也没有。在相对应的地方，杨译和莱译处理为更为正式的连词或实词。但需注意的是，这篇文章实则是N先生的独白，是“口语化的”。因此，不应处理得过于正式。

以杨译和蓝译做参考时，莱译中主题词有“wearing”

“people”。结合译本可知，莱译中把“穿西服”“托辫子”中的“穿”和“托”处理为“wear”，而杨译和蓝译中均未出现类似情况，可见莱译用词丰富度不高，这也与词汇密度分析结果一致。另外，杨译和莱译中均出现数次“people”，原文中也出现很多次“人”，故这种结果本属意料之中。可是，英文不喜重复，善用近义词或上下义词来表示同一物品。而蓝译这一点处理得不错，同一地方用“victims”“lives”等词代替，可见其用词丰富度。

以蓝译和莱译作参考时，杨译中主题词中同样有“people”“curse”“cursing”“tenth”等词。前文已经论述了相关差异，不再赘述。

（二）句子层面

平均句长。平均句长即译本中平均句子长度，可反映译本的复合句及长短句使用情况。

据研究表明，翻译实践中的译本句子数量一般都显著多余原文句子数量。蓝译、莱译、杨译的平均句长未分别为117、119、117，均远超于原文的73句，符合翻译趋势。蓝译和杨译的句子数量与平均句长相差无几，而莱译的句子数量和平均句长均高于其他两个译本，说明莱译中存在的长句偏多，阅读难度偏大。

（三）语篇层面

连词分析。连词不仅能反映出句子内部的逻辑关系，还能起到衔接与连贯的作用。中文不善用连词，而英文由于严格的语法，不得不使用连词，故在翻译过程中译者有时不得不“显化翻译”。而统计不同连词的数量能反映出译本翻译显化程度。一般来说，翻译显化与译者所采用的翻译策略有关。

据数据显示，莱译比蓝译和杨译运用了更多的并列连词“and”和“or”。并列连词的使用会使得译本句子变长，阅读难度增加，与平均句长的分析结果一致。莱译在其他连词使用方面比杨译和蓝译频率高，说明莱尔在处理译文时更多地运用显性翻译策略。

五、总结

本文基于语料库，运用AntConc和Wordsmith分别从词汇、句子、语篇层面分析了《头发的故事》的三个译本风格。在词汇层面，蓝译的TTR值最高，词汇密度最高，词汇使用重复率最低，用词也最丰富，具体表现在“双十节”“骂”“人”“穿”等的词汇翻译上。此外，据平均词长来看，三个译本的阅读难度基本一致，有较强的可读性，完整地传达出原文的意思，其中杨译更注重中英文差异，更关注词性转移。据高频词表来看，莱译在功能词的使用上更符合英语母语的语言习惯。在句子和语篇层面，莱译的平均句长更长，翻译过程中运用了很多连词，使用了复合句，显化程度最大。除此之外，三个译本的句子数量均大于原文句子数量，均符合翻译实践趋势。

参考文献：

[1]Baker，M.Corpora in translation studies：An overview and some suggestions for future research[J].Target，1995，7（2）：223-243.

[2]British National Corpus，http：//corpus.byu.edu/bnc/2022-12-24.

[3]Kenny，D.Lexis and Creativity in Translation： A Corpus-based Study[M].Manchester：St.Jerome， 2001.

[4]Stubbs，M.Text and Corpus Analysis[M]. Oxford：Blackwell Publishers Ltd.，1996.

[5]梁茂成.詞性赋码语料库的检索与正则表达式的编写[J].中国外语教育，2009，2（02）：65-73+81.

[6]吕鹏飞，陈道胜.基于语料库的《论语》英译本翻译风格比较研究——以辜鸿铭和亚瑟·威利两译本为例[J].上海翻译，2021，158（03）：61-65.

[7]蒋继彪.基于语料库的《伤寒论》英译本翻译风格比较研究[J].中国中医基础医学杂志，2023，29（09）.

[8]史志谨.鲁迅小说《头发的故事》解读[J].人文杂志，2004，（04）：124-127.

[9]田绪军.基于语料库的《政府工作报告》中情态动词英译操作规范研究[J].上海翻译，2022，166（05）：20-25.

[10]王洪涛，杨帆.基于类比语料库的《文心雕龙》三个英译本对比研究：兼以社会翻译学视角的解析[J].西安外国语大学学报，2022，30（04）：74-80.

[11]王建平.《呐喊》中不应被忽略的一声“呐喊”——《头发的故事》解读[J].鲁迅研究月刊，1997，（08）：41-47.

[12]王树槐.译者介入、译者调节与译者克制——鲁迅小说莱尔、蓝诗玲、杨宪益三个英译本的文体学比较[J].外语研究，2013，138（02）：64-71.

[13]鲁迅．呐喊[M].天津：中国对外翻译出版公司，

2010：53.

[14]张旭冉，杏永乐，张盼，戈玲玲.《道德经》四个英译本的翻译风格对比研究——基于语料库的统计与分析[J].上海翻译，2022，164（03）：33-38.