美剧字幕英汉平行语料库的建设

2018-02-07 08:58:05窦智

中小企业管理与科技 2018年21期

窦智

（北方民族大学，银川 750021）

1 引言

自20世纪80年代以来，美剧在中国大陆传播发展已有38年。美剧在我国从小众独享到网络热播，正迈向全民化。学生是美剧的受众群体之一，通过寻找美剧中的话题与外国人进行跨文化的交流；观看美剧不仅给人带来视听享受，而且相比教材文本，可以学到最新实用的词汇用法及口语表达；借助美剧可以了解美国的政治、历史、文化、社会和美国人的日常生活等知识。语言是不断更新发展的，综上，美剧是学习英语最鲜活生动的资料。然而由于网络传播中的美剧作品不带有中文字幕，这就催生了一批字幕翻译员，尽管翻译出了美剧台词的主要意思，但翻译质量难免良莠不齐。这就引出了对翻译规范、译者风格和翻译策略等翻译学的研究，美剧语料库的建设是千呼万唤始出来。因此，建设一个美剧字幕翻译英汉语料库可为后来的影视翻译研究提供平台基础[1]。

语料库是以计算机为载体承载语言知识的基础资源；存放的是实际使用中真实出现过的语言材料。这些真实语料要经过加工处理，才会成为有研究价值的资源。语料库凭借电子计算机操作系统和相关语料库软件，对所收集语料进行赋码和标注处理，实现语料的自动存储、检索和统计（胡开宝2011）。双语平行语料库可以使两种或两种以上的语言对比，具备微观研究和宏观研究结合的优势。语料库尤其是平行语料库作为一种研究工具，在语言学研究，尤其是翻译学、自然语言处理以及机器翻译等研究领域起着越来越不可替代的作用[2]。

2 美剧字幕平行语料库的整体设计思路

2.1 设计目的

近年来英语国家的影视作品对英语学习者产生了影响，尤其台词的模仿在语言交流中随处耳闻。迄今为止，国内尚无该领域建成可用的美剧字幕语料库。在选择语料库类型时，根据研究需要，选择能匹配美剧字幕翻译的双语平行语料库。王克非（2004a）指出平行语料是由源语文本及其平行对应的译语文本构成的双语语料库。与其他语料库相比，平行语料库的优势在于能自动呈现两种或两种以上的语句对应关系。建设美剧字幕库的目的是为了后续在此平台的基础上进行研究：①翻译语言特征和规范研究；②美剧的口语俚语研究；③美国社会文化的反映；④译者风格和翻译教学等研究。因此，本项目组自建一个小型的美剧字幕翻译英汉双语平行语料库，以填补该领域的空白[3]。

2.2 语料库规模

人们普遍认为语料库规模越大，就越有研究语言应用的价值，然而任何语料库只代表关于语言应用现状的小样本（胡开宝2011a）。所以应根据设计目的和语料库属性来确定语料库规模，不可盲目求大。由于处理难度高，平行语料库的发展一直滞后于其他类型语料库，而且平行语料库耗费大量时间和精力，故本项目建设一个容纳100万词的小型美剧字幕平行语料库,以共时性为主，即主要收集二十世纪后半叶和二十一世纪的有影响力的语料，保证语言文本的新鲜和经典。

2.3 语料库属性

语料库根据收录语料内容的不同分为四种：异质型（Heterogeneous corpus）广泛收录各种语料；同质型（Homogeneous）只收集同一类别的语料；系统型（Systematic）选用的语料有平衡性和系统性，反应语言的全貌；专用型（Specialized）是为特定用途而建立的语料。本语料库属于同质、专用型，主要抽样采集几部当代热播美剧和经典影片，对英语学习者有影响的和受同学们喜闻乐见的影视字幕，如《纸牌屋》、《权利的游戏》、《摩登家庭》、《乱世佳人》美剧。

3 美剧语料的采集和处理

采集语料在人人影视、字幕库等网站下载字幕文件包，解压文件包进行筛选，留下汉语和英语的简写文本。多数字幕文件的英汉双语在一个文件里，需要人工分开将英语和汉语另存一个文本，然后用计算机软件对语料进行去噪和加工。

3.1 语料初加工

选用的文本编辑软件是Emeditor，其操作便捷，支持多种配置。用此编辑器进行文本净化，清除时间轴和字体代码等嘈杂的信息，数字和不必要的空格以及符号也清除，之后务必在篇头处保留译者的名字。此操作的辅助功能为计算机的搜索和替换功能，使用正则表达式批量处理，目的是保证英语和汉语的句子匹配对齐。由于下载的字幕包里汉语部分没有标点，所以对着英语部分句对句的手动添加标点，这也是平行语料库耗时耗力的原因之一。处理完毕后进行语料的初步校对，清除杂质，将无法匹配的影视剧中出现的专有名词如场景、地名等删除，然后将英语和汉语分别存在一个文件夹里，存储格式为txt格式，文件名标写清晰的美剧名称。

3.2 标注和处理

所谓标注（也称附码）把各种表示语言特征的附码标注在相应的语言成分上，便于计算机识读。无论是计算机自动还是人工标注，都不能削除失误（余国良2009a）。标注分为词性标注、词义标注、句法标注和语篇标注，通过这些加工，语料才变成有利用价值的研究材料。本项目选用了词性标注，即用词性符号标记单词的词性，如动词，形容词。

针对汉语语料，用汉语词性标注工具软件，该应用程序操作便捷，可批量处理文件。打开软件加载汉语文件夹，选择要处理的文件，点击开始切分标注，瞬间得到标注成功的汉语语料。针对英语语料，使用的软件为TagAnt，每次只能处理一个保存为utf-8格式的文档。点击input files选择要处理的英语语料，按start瞬间得到标注成功的英语语料。然后打开标注后的语料，在英汉双语的句号、问号和叹号处加上＜/seg＞＜seg＞分句符号，可用计算机的查找替换功能操作，勾选正则表达式是批量处理。

4 语料库的平行匹配

4.1 语料对齐和校对

ParaConc是强大的语言分析软件，可以处理无限量的平行语料；可以保存或打印检索结果为纯文本文件；可以实现多语言文本的对齐，热词搜索，词频统计等功能。打开软件，首先在菜单里勾选Load Corpus Files,在Parallel Texts栏目里选择语言种类，点击Add添加文本。最后选择所需的对齐格式（Align Format）,点击Ok。其次在菜单里选择 View Corpus Alignment,选中文档点击Alignment,即可看到文本的平行状态。计算机对齐有很大误差，需要人工校对每个句子的匹配，当发现一对多或者多对一时，点击鼠标右键进行句子的合并或分开。当发现句子里有多余符号或误差很大时，返回原语料文本，净化噪点，即重新操作，直到完美对齐，以方便检索。

4.2 语料保存和检索

语料的保存有两种方法。一是点击file菜单里的save workspace as，生成两个分别以BIN和PWS为名字后缀的文件。Workspace的两个文件不能移动位置，会因为更改路径打开失败；二是点击file里的export corpus files，在文件名前加上A-，保存到文件夹中。导入语料后，进行语料库的搜索功能，打开Search菜单，选择语言类型和输入要找的字符。鼠标移到搜索的文档区域，点击右键勾选Hot Words,即显示热词。

5 结语

语料库翻译学方兴未艾，而平行语料库是适合翻译研究的最佳平台。建设平行语料库难度较大，步骤多且耗时耗力，且不能保证完全没有误差。本文将建库过程和方法全部展现出来，这个小型美剧字幕英汉平行语料库是抛砖引玉之作，期待业界研发出更完善的计算机软件，探索出建设平行语料库更便捷的方法。