雷小玉,杨沙沙
广西大学外国语学院,南宁,530004
基于语料库的中国企业网站本地化翻译文本特征分析
雷小玉,杨沙沙
广西大学外国语学院,南宁,530004
从中国企业的本地化英文网站和英美企业英文原创网站中抽取关于企业简介的文本部分自建两个小型的英文可比语料库,采用Word Smith Tools 6、AntConc3.4.3、TreeTagger和Range32等工具,考察文本在词汇、句子、语篇等不同方面的统计特征。结果显示,中国企业的网站本地化翻译文本词汇丰富度较低,信息密度和词汇难度较高,单词、句子和语篇较长,且倾向于使用第三人称。同时,提出了企业和本地化译者应该充分了解本地化,具备跨文化意识的建议。
网站本地化翻译;企业简介;语料库
随着科学技术的进步与国际间交流的日益深入,本地化行业应运而生。本地化行业标准协会(LISA)将本地化定义为:对产品或服务进行修改,以适应不同市场中出现的差异的过程[1]5。本地化行业的目的是要让本地化的产品看起来或者用起来都像是目标地区原创产品一样。本地化包括声音、图像、文字编排等许多超文本因素,要关注语言、实物、商业和文化以及技术等方面的问题,其中语言问题即翻译。本地化按照其产品类型可分为网站本地化、软件本地化、多媒体本地化、手机APP本地化等[2]。网站本地化是指将互联网信息从一种初始形式转变成符合相关地区的语言文化需求的信息形式。网站本地化翻译是翻译模式的一种扩展,是企业全球化战略的重要组成部分。国外将网站本地化作为一项重要的翻译产业进行研究开始于20世纪80年代,可粗略地划分为三大类别:网站本地化的技术研究、网站本地化翻译人才的培养以及网站本地化翻译策略研究[3]。与西方学界相比,国内关于网站本地化的研究起步较晚,目前还处于初步阶段,主要集中在以下几个方面:(1)对网站本地化相关概念性的探讨,如马文丽等探讨翻译在网络本地化背景下的新语言支持形象[4];陈谊探讨了全球化背景下的本地化翻译,从全球化战略、国际化设计、本地化集成和语言翻译等四个方面对本地化进行了全面地梳理[5];(2)对网站本地化翻译中人才培养模式的相关讨论,大多数学者从培养目标、课程设置以及教学模式等方面进行了探讨。例如,苗菊等分析了本地化对译者的职业要求,在归纳总结国外本地化翻译教学的基础上,对我国本地化人才的培养目标与课程设置进行了探讨[6];崔启亮从分析翻译与本地化企业对专业人才的需求入手,探讨了在高校 MTI 教学中开设翻译与本地化教学的课程设计体系和教学方法[7]。目前,国内鲜有基于语料库的网站本地化研究,也鲜见对网站本地化翻译的文本特征的探讨。
用户在网页上停留浏览的时间即用户黏性是网站成功与否的关键[1]25。用户一旦发现网站上的内容晦涩难懂,便会离开去寻找其他网站上的关联信息。西班牙学者Jiménez-Crespo指出,由于网站文本交际目的的特殊性,加上本地化过程中社会文化因素的影响,本地化翻译文本和一般翻译文本存在区别,具有其独有的特点[8]6。
本文从2016年世界500强企业中选取10个英美国家企业原创官方网站以及10个中国企业为外国受众制作的英文本地化网站,抽取企业网站中“About Us”“About the Company”“Company Profile”或者“Company Overview”模块的文本信息,自建两个小型的英文可比语料库,分别为英美企业原创网站英文语料库Corpus EN以及中国企业为外国受众制作的本地化网站英文语料库Corpus CN。 同时获取中文源网站的企业简介文本作为平行参考库。所选取的企业属于10个不同的行业,每个英美企业都与中国企业相对应,这样能够避免语料不平衡的现象,使结果更具普遍性和可信度。表1为所收录的企业网站名单。
表1 语料库收录企业名单
选取网站上“About Us”等模块中的文本信息是出于如下考虑:这一模块介绍企业的基本情况,包括历史发展、所获荣誉、发展愿景等,是企业网站的必要组成部分。这些共性的存在使文本更具可比价值,而其他模块的内容由于企业行业的不同而具有较大差异,其所得结果的价值也相对较小。
本文主要研究以下两个问题:(1)中国企业的网站本地化翻译有什么样的文本特征?这些特征对网站本地化的质量有何影响?(2)基于对中国企业网站本地化翻译文本特征,如何提高中国企业网站本地化翻译的质量?
针对上述问题,首先用文本整理器对两个语料库进行了格式清理,然后使用Word Smith Tools 6、AntConc3.4.3、TreeTagger和Range32工具,从词汇丰富度、信息密度、主题词分布、词汇难度级别、平均词长和句长与平均篇长等角度进行统计和分析,探讨中国企业网站本地化翻译的文本特征。
3.1 词汇丰富度
词汇丰富度一般可通过类符/形符比(Type-token ratio,TTR)来体现。类符/形符比是指语料库中类符(文本中任何一个独特的词形个数)与形符(语料库总词数)所构成的比列,比值越低,表明语料库词汇越单调,变化性越小,词汇丰富度也越小。文本越长,功能词重复的词数也就越多,类符/形符比也就会低。因此,如果长度不等的文本的词汇密度采用类符/形符比来计算,就会显得很不合理。有效的补救办法是用标准化类符/形符比(Standardized type-token ratio,STTR)来计算词汇密度,即每千词的平均类符/形符比。表2是用Word Smith Tools 6计算的Corpus EN和Corpus CN的类符/形符比。
表2 词汇丰富度对比
虽然Corpus CN和Corpus EN在总字数上有一定的差距,但经过标准化处理之后,结果仍然可信。由表2可知,原创网站的标准类符/形符比高出本地化网站约8个百分点,表明本地化网站文本不及原创网站文本词汇度丰富。
3.2 信息密度
信息密度可通过语料库中实词所占比例来反映。实词即实意词,包括名词、实意动词、形容词和副词。实词所占比例即所有这些实词总数与总词数之比乘以100%,比例越大,说明文本信息含量较大,阅读理解难度也越大。为考察实词比例,首先用TreeTagger工具对Corpus CN和Corpus EN两个语料库中的纯文本进行词性赋码,再用AntConc3.4.3对赋码结果进行分词性逐一检索统计,例如名词个数可通过NN、NNS、NP和NPS检索得出,最终统计结果如表3。
表3显示,本地化网站的信息密度明显高于原创网站的信息密度,每100个单词中,Corpus CN比Corpus EN平均多出5个实词,说明中国企业本地化网站文本所包含的信息量更大,比英美企业原创网站理解难度更大。这可能与汉语的使用习惯有关。从中文源网站的企业简介文本发现中国企业的原创中文网站的简介多用四字短语、排比等来增强气势,这在英美企业的网站中是很少见的。很显然,在翻译时中国企业网站本地化翻译译员更多地保留了中文的用词与结构,故本地化网站文本信息密度更高。
表3 信息密度对比
3.3 主题词分布
表4 Corpus CN与Corpus EN排列前20位主题词
根据表4可知,Corpus CN中构成公司名称的词(表4中下划线词)的数量多于Corpus EN(6>4),而代词的数量(表4中加双下划线词)却明显少于后者(1<4)。追踪文本可知,Corpus CN和Corpus EN公专有名词和代词数量的差别是由人称使用的不同造成的。Corpus CN多用第三人称,而Corpus EN多用第一人称。
例1In the internet finance businesses,Ping An focuses on customer demand for health, food, housing, transportation, and entertainment, and constantly improves its online platforms and diversifies its offerings to weaves financial services into the very fabric of everyday life. (Corpus CN:中国平安保险(集团)股份有限公司)
例2Since the advent of the 21th century,CR has been striving to capture the historical opportunities arising from China's economic takeoff, and has maintained rapid growth for more than a decade, effectively achieving its grand strategy vision of“Recreating CR” for a second time.(Corpus CN:中国华润总公司)
例3Through our two main operating segments, Upstream and Downstream, we find,develop and produce essential sources of energy, turning them into products that people need. (Corpus EN:BP)
例4We help build strong communities by supporting programs that enable home ownership, create safe neighborhoods, and making our homes and highways safe through activities aimed at preventing and reducing injury and loss. (Corpus EN:STATE FARM INSURANCE COS.)
从以上例子可以看出,中国企业的本地化网站多使用第三人称,而英美国家企业原创网站多使用第一人称。这也可以部分解释3.2中发现的Corpus CN中实词较多,而Corpus EN中虚词较多的现象。Corpus CN中使用的公司名称(第三人称)均为实词,而Corpus EN中所使用的第一人称代词均为虚词。
3.4 词汇难度级别
分析词汇难度级别所常用的工具是Range32。表5是Range32对Corpus CN和Corpus EN的分析结果。
表5 Corpus CN与Corpus US的词汇难度级别
根据表5,Corpus CN使用的一级词汇比例明显低于Corpus EN,二级词汇比例略低于Corpus EN,而学术词汇出现的比例和词表外词汇比例明显高于Corpus EN。这说明与英美国家企业原创网站相比,中国企业的本地化网站更倾向于使用低频词汇,因此具有较高的词汇难度级别。
3.5 平均词长、句长与平均篇长
词的长度是以字母的个数来衡量的,句子和篇长都是以单词数衡量的。平均词长、句长与平均篇长可以在一定程度上反映文本的复杂度。表6是利用Word Smith Tools统计的Corpus CN和Corpus EN的平均词长、句长与篇长。
表6 平均词长、句长与篇长对比
由表6可知,Corpus CN和Corpus EN的平均词长相差不大,大约5个字母。但平均句长和平均篇长差别较明显。Corpus CN平均每句话比Corpus EN多出8个单词,平均每篇语料样本多出210个单词。这表明中国企业的本地化网站更倾向于使用较长的句子和语篇。为提高浏览速度,网页用户更倾向于阅读语法结构简单的短句和短小精悍的篇章,长篇大论会增加网页用户的阅读困难也会使他们失去阅读兴趣。根据Jiménez-Crespo的研究,人的眼睛浏览屏幕的速度低于浏览纸质媒介,英文网页的句长最好不超过25个单词,这样有利于保证用户体验[8]1。而中国企业的本地化网站文本的平均句长超过了25个单词,以下例子更清晰地展示了本地化网站的句长特征。
例5After 1949, drawing on its long history as the state-designated specialised foreign exchange and trade bank, the Bank became responsible for managing China's foreign exchange operations and provided vital support to the nation's foreign trade development and economic infrastructure by its offering of international trade settlement, overseas fund transfer and other non-trade foreign exchange services.(Corpus CN:中国银行)
例6Ping An strives to become a world-leading personal financial service provider under the philosophy of “technology-driven financial services for better life”,has adopted the models of “integrated finance + the internet” and “the internet+integrated finance”,focuses on “big financial assets”and“big health care”,pursues growth in insurance,banking,asset management,and internet finance,provides customers with excellent experience of “expertise makes life easier”,has achieved sustainable growth in profits, and provides long-term stable returns to shareholders.(Corpus CN: 中国石油化工集团公司)
可以看出,例句不仅长,而且结构复杂,包含的信息量大。通过对比中文的原文参考库发现,中国企业的中文简介多使用排比、并列的结构来增强气势,这些英文长句多受中文原句的影响,基本上保留了中文的排比和并列结构。
研究发现,与英美国家企业原创网站(Corpus EN)文本相比,中国企业本地化网站文本(Corpus CN)词汇的丰富度较低,信息密度和词汇难度均偏高,倾向于使用第三人称,单词、句子和语篇平均较长。中国企业本地化网站的这些文本特征反映出目前的网站本地化翻译存在一定的问题:词汇丰富度低会造成文本的单调乏味;词汇难度高,信息密度大,单词、句子、语篇较长,会使文本的可读性降低,导致阅读耗时长,效率低;第三人称的过多使用会使文本过于庄重,缺乏亲切感。这些因素综合起来会削弱受众的阅读兴趣,影响网站的浏览率。导致中国企业的网站本地化出现这些问题的深层原因主要是由于我国译者对网站本地化翻译这种新兴的翻译形态的了解还不够充分,跨文化交际意识还有欠缺,企业对本地化目标的认识还不够透彻。
企业要开拓国际市场,将产品和服务打入国际市场,重要途径就在于本地化。是否符合目标地区受众的浏览习惯和心理期待是网站本地化成功与否的关键,不能一味地对原网站的照搬死译,而要使本地化网站看起来就像是目标地区的原创网站一样。因此,网站本地化译者首先应该对本地化有一个全面的了解,了解本地化的目的、流程和受众。本地化翻译不同于传统的翻译,不能对原文本逐字逐句地死译。其次网站本地化译者还应该提高自己的跨文化交际意识。翻译是一种特殊的跨文化交际,翻译时要了解我国与目标地区存在的文化差异,比如英美国家的网站喜欢用简洁明了的文本,而我国通常将企业所取得的各项成就都投放于网站上,并且用复杂句式结构、四字短语来增强气势,如果不了解中西文化差异,一味地将这些成就都投放于本地化网站上,会给西方受众一种华而不实之感,不利于企业的宣传。最后积极与项目委托方、与本地化团队进行沟通,在工作中秉承认真负责的态度,这样才能最终实现国际交流的合作与目的。
本文通过选取2016年世界500强企业中10个中国企业为西方受众制作的官方英文本地化网站和10个与中国企业行业相对应的英美国家企业原创官方网站,抽取网站中关于企业简介部分自建两个小型的英文可比语料库。运用Word Smith Tools 6、AntConc3.4.3、TreeTagger以及Range32工具,从词汇丰富度、信息密度、词汇难度级别、主题词分布和平均句长、词长与篇长角度进行统计和分析,探讨中国企业网站本地化翻译的文本特征。结果表明:中国企业的本地化网站文本词汇丰富度低,信息密度大、词汇难度级别高,单词、句子和篇幅平均较长,且多使用第三人称,折射出中国企业的网站本地化翻译存在一些问题。本地化译者应该充分了解本地化,具备跨文化意识,企业自身也应该对本地化的目的有一个充分的了解,才能使本地化成功,最终实现开拓海外市场的目的。不过本文选取的语料比较少,只是对网站本地化翻译文本特征的初步探讨,未来将作更深一步的探讨。
[1]LISA.Localization Industry Primer:2nd ed[M].Geneva:Localization Industry Standards Association,2004
[2]Pym A.Exploring Translation Theories[M].London:Routledge,2010:29
[3]马文丽,王利明.网络本地化与新语言支持[J].中国科技翻译,2005(4):17-19
[4]丁立,王永亮.网站本地化中的简化现象及其影响:基于语料库的翻译共性研究[J].江苏外语教学研究,2016(1):84-88
[5]陈谊.全球化背景下的本地化翻译[J].东北师大学报:哲学社会科学版,2011(4):157-160
[6]苗菊,朱琳.本地化与本地化翻译人才的培养[J].中国翻译,2008(5):30-34;95-96
[7]崔启亮.高校MTI翻译与本地化课程教学实践[J].中国翻译,2012(1):29-34
[8]Jiménez-Crespo M A.Localization and writing for a new medium:a review of digital style guides[J].Tradumática,2011(6):1-9
(责任编辑:胡永近)
10.3969/j.issn.1673-2006.2017.05.023
2017-03-12
雷小玉(1992-),女,湖南永州人,硕士研究生,研究方向:翻译学。
H059
:A
:1673-2006(2017)05-0078-05
又称为关键词,是指被研究文本语料库与参照库相比,在被研究语料库中出现较高频率的词汇。主题词的分布可以反映语料库文本的词汇使用规律与倾向,进而透露文本的主题与意义。表4是用AntConc3.4.3工具统计的关于Corpus CN和Corpus EN排列前20位的主题词汇。