【摘要】语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
【关键词】语料库建设;语料库应用;双语平行语料库
语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义
语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定领域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。教师也可以利用高质量的语料库面向学生开放,利用语料库学生进行日常的翻译学习和模拟训练,不断提升自身的语言能力和翻译水平。
二、语料库建设
语料对齐是语料库制作尤为关键的一环,目前市面上语料对齐软件工具层出不穷,各有千秋,每一款语料对齐软件工具都有自个的语料对齐算法、效率以及表现较为突出的一面,需要根据不同的语料素材来判断应使用何种语料对齐软件工具。
市面上目前语料对齐软件工具主要有TRANSMATE软件、TMXMALL对齐软件、雪人软件对齐工具以及各类CAT软件自带的对齐组件。独立的语料对齐软件工具在语料对齐方面表现会优于CAT软件中自带的对齐组件。本文将会以TRANSMATE语料对齐软件工具作为本次英语语料库建设的对齐工具,进行安装与使用详细说明。
安装:通过官网下载TRANSMATE软件最新版。下载完成之后,双击进行默认安装即可。
三、创建双语对齐项目
创建双语对齐项目是语料对齐的核心步骤,涉及语料的语言对、存储路径、对齐项目名称与对齐效率。打开TRANSMATE软件,点击界面左上角的“语料管理“选项卡按钮,进入语料管理操作界面,再点击“双语对齐”按钮,即可弹出语料对齐界面,在界面上选择需要的源语言和目标语言,跟需要对齐的语料相匹配。TRANSMATE语料对齐界面简洁直观,降低了使用门槛,非常符合广大用户的使用习惯。(见图1)
下一步是导入需要对齐语料的双语文件进行对齐操作,點击“导入文件”按钮,在“文件类型”处选择双语文件或单语双文件。双语文件:意思是单个文件中涵盖了源语言和目标语言;单语双文件:意思是源语言和目标语言以独立的文件形式分开存放。
导入双语文件之后,可以开始着手进行详细的语料对齐工作。这一步骤是整个环节中最为重要的,也将是直接决定最后语料库的成果关键。
我们将需要制作平行语料库的素材导入到双语对齐项目中。下图为导入单语双文件之后的示例图。(见图2)
导入需要对齐的语料后,需要优先对双语对齐项目进行保存操作,防止所做的导入、对齐、修改等操作因为电脑故障而没有及时存储下来。点击“保存”按钮,即可对当前双语对齐项目进行保存,在语料对齐过程中也要在一定的频率内点击“保存”按钮,确保工作内容能够被及时地存储下来。
在双语对齐工作界面中,有几个实用频率比较高的按钮,如果能够熟悉几个常用的操作按钮,将会对提升语料对齐的效率有极大的帮助,以下我们将介绍几个常用的功能按钮。
所有原/译文交换:直接将当前双语对齐项目的所有源语言和目标语言的内容进行交换,主要用于在导入双语对齐文件时,语言文件选择错误情况下使用。
拆分:直接将现有光标处的句对一拆为二,主要用于语料对齐时没有精确到句对,而是以段落对齐,这是需要将段落进行句对级别的拆分,以使语料达到较高的利用价值;拆分也是语料对齐中使用较为频繁的功能之一。
将制作好的平行语料库导出到记忆库文件TMX,TMX文件格式是通用的一种记忆库储存格式,其本质上是一种XML格式的文件,具有存储数据量大,可以注明多种属性,方便对不同句对的语料进行个性化的备注。
到这里,我们已经制作好了一个最终格式为TMX的双语平行语料库。
综上,在语料库技术特别是语料库对齐技术的迅速发展下,语料库的建设也得到蓬勃的发展,建设十万级甚至百万级的语料库,只要素材准备到位,都能够快速地建设好平行语料库。同时语料库的应用层出不穷,无论是教学应用、科研应用以及商业应用,高质量精准的语料库对于AI人工智能翻译有极大的促进作用,也对提高学生翻译水平以及课堂延伸学习都有极大的帮助。
参考文献
[1]Robins,R.H.1967.AshortHistoryofLinguistics[M]. London:longman.
[2]李文中.语料库索引工具[M].上海:上海外语教育出版社,2002.
作者简介:马崴(1973—),男,湖北武汉人,湖北工业大学外国语学院,讲师,研究方向:语用学。