尼加提·纳吉米,席小刚,马斌,买合木提·买买提
摘要:主要研究应用于多语种方式的辅助翻译系统的结构、功能和工作流程,通过阐述机器翻译技术在辅助翻译系统中的应用,重点研究了采用多种机器翻译手段实现汉语、哈萨克语、维吾尔语、柯尔克孜语的多语种辅助翻译系统的实现方式,提高了辅助翻译的精确性和系统的适用范围,最后给出了系统实例和未来扩展的展望。
关键词:辅助翻译;机器翻译;翻译策略;多语种;基于项目的翻译工程
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)02-0345-06
Study and Implementationof the Multilingual ComputerAided Translation System
NIJAT Najmidin1,2, XI Xiao-gang2,MA Bin3, MAHMUD Mamat3
(1.North China Electric Power University, Beijing 102206, China; 2. Xinjiang Xinneng Information Communications Co. LTD, Urumqi 830026, China; 3. Xinjiang Information industryCo. LTD, Urumqi 830022, China)
Abstract: Workflow, structure and functions of multilingual computer aided translation system are researched in the paper. Application of machine translation technology in the aided translation system is descripted, and multilingual translation technology about Chinese, Uy? ghur, Kazak, Kirgiz is emphasized to improve accuracy and applicability. At last, we give an instance of multilingual computer aided transla? tion system and expect development in the future.
Key word: computeraided translation; machine translation; policy of translation; multilingual; project based translation; CAT
信息技术的高速发展和信息网络的快速扩张,极大的促进了人类社会的进步和文化知识的交融,人们获取信息、学习知识的途径和手段已经扩展到跨地域、跨语种、网络化、多媒体等方式。面对海量增长、不同语言构成的各类信息,催生了机器翻译技术的快速发展,并被应用于构建以此为核心的辅助翻译系统中,有效应用在日常学习和工作中。
机器翻译技术则出现较早,但翻译的精确性不高,尤其是针对超长文本的精确翻译技术还需要深入研究;目前的辅助翻译系统主要借助机器翻译和人工干预两种手段,提高系统翻译的精确性。辅助翻译系统主要应用于各少数民族地方政府、翻译出版、广播媒体、研究、教育等行业和机构。
当前,辅助翻译系统的应用普及还不广泛,主要局限在如下原因:一、系统功能较弱、翻译准确率较低,不能很好满足用户需求;二、系统的机器翻译手段单一,不能很好利用用户已有的翻译资源;三、当前翻译工作往往涉及多语种,而辅助翻译系统只能提供针对某一种语言的机器翻译功能,应用范围有限。本文论述的多语种辅助翻译系统较好的解决了这些问题,能够提供面向新疆地区民族语言的汉语、维吾尔语、哈萨克语、柯尔克孜语等多语种、多方向、综合性的辅助翻译功能,系统实现了基于统计、实例以及记忆库的辅助翻译模式,属国际首次发布基于汉维哈柯文语言的辅助翻译软件,并易扩展到中亚地区民族语言。
1多语种辅助翻译系统特点
辅助翻译是一种借助计算机信息处理能力和人工干预方式实现源语言文本向目标语言翻译的方法,通过翻译引擎自动对源语言文本实现语法分析、词法分析,以及相关语料库、实例库等数据库检索查询,再经过统计分析和优化,最后对自动翻译输出的目标语言译文做人工排查、修正,最终获得符合用户意图的翻译文本。辅助翻译的基本流程如图1所示。
在上述流程中,人工干预主要发生在翻译过程的开始和结束阶段:一是提供语义清晰的文本,在选择机器翻译的文本时尽量提供完整语义和有规则的短语或句子,从而提高准确率;二是对于机器翻译结果做出人工校对和适当修改,以达到满意的程度。
多语种辅助翻译系统在满足基本需求之外,采用了多种策略和独有技术来提高翻译的准确率、易用性和可靠性。
1.1多种翻译策略
机器翻译是辅助翻译系统的核心组件,常见的策略包括基于统计、基于实例、基于规则的机器翻译等技术,目前商用的辅助翻译系统针对特定行业或领域开发,只提供一种机器翻译策略。多语种辅助翻译系统的翻译引擎使用了基于统计和实例的翻译方式,又特别提供了基于记忆库的翻译功能,面向多种行业应用,从而提高了翻译准确率和普及性。
同时系统提供双向翻译支持,在国内外首次实现了汉语到维吾尔语、哈萨克语、柯尔克孜语,维吾尔语、哈萨克语、柯尔克孜语到汉语的辅助翻译功能,其中平均机器翻译准确率在60%以上,基于记忆库的翻译准确率可达100%。
图1辅助翻译基本流程
1.2多语种支持
语言分析是辅助翻译系统和机器翻译不可或缺的组成部分,多语种辅助翻译系统集成了汉语、维吾尔语、哈萨克语和柯尔克孜语等四种语言的翻译功能,因此系统中必有分析这些的组件。系统的汉语分析采用了目前成熟的组件,针对维吾尔语、哈萨克语和柯尔克孜语同一语系的相似性特点,在借鉴已有维吾尔语言分析组件的基础上,分别开发了哈萨克语和柯尔克孜语的分析组件。
1)汉语分析组件:使用了中科院的ICTCLAS分词系统。ICTCLAS分词系统具有自动分词、词性标注和人名、机构名识别等功能。在此基础上实现句子相似度计算功能。
2)维吾尔语分析组件:该组件提供维吾尔语分词、词干提取、词性标注、人名、地名、机构名识别和句子相似度计算等功能。3)哈萨克语分析组件:该组件提供哈萨克语分词、词干提取、词性标注、人名、地名、机构名识别和句子相似度计算等功能。4)柯尔克孜语分析组件:该组件提供柯尔克孜语分词、词干提取、词性标注、人名、地名、机构名识别和句子相似度计算等功能。5)同时,系统还支持多语种(汉、维、哈、柯、英)用户界面,界面语言、界面习惯(从左向右、从右向左显示和排版)等方面全面提供了多语言支持,便于用户根据习惯进行操作。
1.3多种文本文档兼容
多语种辅助翻译系统实现了word2003、2007文档、txt文件、xml文档、RTF文档、Html等常见文本文档的兼容,系统可以很方便的导入、导出以上文档,译文文档不需要或少许排版后就可以直接使用。通过良好的人机交互界面,实现对项目文档的完美翻译,不损环原文格式,保持译前原排版格式,最大限度地降低排版工作量。
1.4强大的翻译编辑器
多语种辅助翻译系统提供自动翻译和交互式辅助翻译两种翻译模式。自动翻译模式利用实例库和机器翻译引擎直接翻译用户提交的文本,并根据用户要求把不同候选译文根据翻译评价分高低排序提交给用户来选择最合适的译文。
自动翻译过程中,首先把待翻译的内容按句子与实例库进行匹配,完全相似的句子匹配完后,对剩下的句子进行语言分析并使用基于实例的翻译方法和统计的翻译方法进行翻译。翻译完成后,把不完全相似句子的译文按照翻译评价分排序并提交给用户选择。该翻译过程不包含任何用户参与,用户只能对翻译完的译文进行选择或修改。
交互式辅助翻译模式使用询问方式,从源语言的分析开始每一步向用户提供分析结果并提供修改分析结果的机会,从而减少语言分析所产生翻译错误率,提高翻译的质量。该过程中与自动翻译模式不同之处是用户从对语言分析到翻译可以调整每一步的分析结果。交互式翻译的流程如图2所示。
1.5翻译项目管理功能
多语种辅助翻译系统的项目管理功能,主要是针对于翻译量比较大的文档,为此可建立一个项目实现超大文档的拆分和合并,项目有属于自己的项目名称、起止时间、项目人员、项目任务等。项目当中源语言和目标语言是一对多的关系,用户可以在一个项目里面将某种语言的一份文档翻译成多个目标语言的译文。
2多语种辅助翻译系统结构
多语种辅助翻译系统采用网络版和单机版两种架构模式。网络版系统包括:客户端在线功能模块、服务端接口模块、核心功能模块,服务端WCF服务接口模块、应用服务模块、数据库接口模块,以及后台数据库存储模块。单机版包括:系统核心功能模块、本地接口模块和本地文件存储模块。
多语种辅助翻译系统网络版中,客户端接口通过HTTP/HTTPS、XML等协议同服务器端通信,调用服务端提供的服务接口,实现Web Service方式的服务调用。服务端的Web Service采用.NET框架的WCF实现。
多语种辅助翻译系统单机版中,本地接口层实现了两类功能:一是机器翻译服务,其功能与网络版服务端提供的翻译服务功能一致;二是文件读写功能,通过本地数据文件实现数据访问,与网络版中数据库接口和后台数据库存储服务功能一致。
图2多语种交互式辅助翻译流程
网络版为团队协作的翻译工作提供项目级管理服务,而单机版为个人翻译工作提供服务。系统功能结构如图3所示。
图3多语种辅助翻译系统功能结构
具体功能服务描述如下。
2.1辅助翻译应用服务
多语种辅助翻译系统提供的应用服务包括:
1)机器翻译服务:包含机器学习组件、语言分析组件、翻译组件等,为网络版和单机版用户提供源语言文本的词法分析、语法分析、目标语言生成等服务功能,是系统关键模块。系统提供三种机器翻译服务,包括基于实例的翻译、基于统计的翻译、基于语料库的翻译方式,用户可以根据翻译文本的特点、工作性质选择对应的翻译方式,以此来提高翻译的准确性。例如,针对重复量较多、翻译文本前后衔接紧密的工作,可以选择基于实例的翻译方式;对于工作量较大,关键词较多的翻译工作,可以选择基于统计的翻译方式;对于共享翻译资源、协同工作的用户,可以选择基于语料库的翻译方式。
2)语料库管理服务:为系统语料库提供维护、查询、检索等服务,语料库是机器翻译的重要基础,完善的服务能够方便用户构建、管理和健全语料库。
3)词典查询服务:为翻译人员提供单词和短语查询服务,词典查询服务包含汉语、维吾尔语、哈萨克语、柯尔克孜语等地双向检索查询服务。
4)系统管理服务:网络版专用服务,为系统用户提供人员管理、项目管理等服务,用户可以通过客户端维护、检索、查询数据库中的应用数据。
5)文件传输服务:为用户提供项目管理中翻译文件的上传、下载、加密和解密功能。
2.2辅助翻译核心模块
多语种辅助翻译系统提供的核心模块,包含在线功能和核心服务,其中:
在线功能为团队用户服务,提供用户、角色、权限、日志和即时通讯服务,管理员可以通过系统管理维护系统用户和权限,团队翻译用户可以通过即时通讯工具实现实时通信。
核心服务包括:项目管理、词典查询、在线升级、辅助翻译和语料库管理等功能。项目管理为翻译团队提供基于项目的翻译工程管理活动,管理人员可以通过项目管理实现项目制定、任务分配、项目查询、人员分配等活动;翻译人员通过项目管理可以检索、查询分配的任务,上传和下载任务包含的翻译文档;审核人员通过项目管理对上传的任务文档进行审核和意见批注。辅助翻译功能则为翻译人员提供在线方式的机器翻译功能,系统提供了基于实例、统计和语料库的三种翻译方式供用户选择。
2.3辅助翻译接口模块
多语种辅助翻译系统提供的接口模块包括服务端接口和本地接口两部分,其中:服务端接口主要是系统网络版核心功能模块调用该接口,实现与后台服务的交互,通过参数传递,完成服务调用和获取数据结果。本地接口主要是系统单机版核心功能模块调用该接口,通过与本地数据层之间的交互实现数据获取和保存,以及与本地机器翻译组件之间的调用和交互,实现文本翻译服务等。
2.4辅助翻译数据层
多语种辅助翻译系统实现了网络版的后台数据库存储机制和单机版的本地文件存储机制,以及为访问数据库提供的数据接口和访问本地数据文件提供的接口。
1)数据访问接口:为后台数据库连接提供数据库连接池,并提供数据加密、解密服务;为本地文件和后台文件访问提供文件加密、解密、文件格式解析等服务。
2)后台数据库:为网络版提供实例库、双语语料库、词典库、项目文件等存储,通过数据访问接口提供的数据库连接池和数据加密、解密,以及文件访问接口实现数据交互。
3)本地文件存储:为单机版提供实例、双语语料、词典、项目等数据的文件存储方式,通过文件访问接口实现数据加密、解密和交互。
3多语种辅助翻译流程
多语种辅助翻译系统网络版为翻译团队协同工作提供服务,以实现汉语向维吾尔语、哈萨克语、柯尔克孜语的翻译提供一对多的辅助翻译功能。系统服务端提供了系统管理、词典查询、翻译服务、项目管理等服务,其中,系统管理、词典查询和项目管理流程主要在客户端完成,服务端提供数据更新和保存服务;翻译服务流程主要在服务端完成,客户端在辅助翻译操作发送请求,调用该服务启动流程。其流程如下所述。
3.1多语种辅助翻译服务流程
多语种辅助翻译的服务流程通过WCF服务接口,为系统客户端提供服务。服务端启动后,初始化各类服务,并创建服务监听线程;客户端向服务端发送服务请求,请求类型包括系统管理请求、词典查询请求、翻译服务请求、项目管理请求。服务端监听线程在接收到客户端请求后,判断请求类型,调用相应服务;当服务启动后,接收服务参数,按照参数类型完成后台数据库操作,并返回结果。
如图4所示,服务流程包含四个子流程,在服务调用完成后,服务端终止服务流程,继续监听客户端请求,等待下一次请求。客户端在接收到返回的数据后,继续完成后续操作。
由于网络版的数据和文件都存储在服务器端,所以涉及数据更新和保存的操作都要通过服务请求和调用来完成。此外,客户端每次启动都会自动发出一个服务请求,查询是否有新版本或功能更新的通知,一旦由更新信息则提示用户需要更新系统。
3.2基于项目的翻译流程
团队协作的翻译工程中涉及任务分配、人员分配、进度控制、工作审核等流程,针对超大型文档采用文档拆分、合并的方式完成任务分解,利用XML格式文件的标注特性,按照章节目录完成文档拆分和合并。具体流程如图5所示。
图4多语种辅助翻译系统服务流程
在项目管理流程中,XML格式的中间文档可以记录拆分点和结束点在源文档中的位置,通过标记记录源文档中的页数、段落、行号,并按照这些标记位置组合新的目标语言翻译文档。在任务审核点,可以在任何位置做审核标记和批注,翻译人员接收到审核后的任务文档时可以通过标记查询和浏览批注。当项目任务全部结束后,审核标记和批注将被过滤,并按照任务文档的起止位置合成为目标语言的源文档格式。
4总结与展望
本文首先简介了机器翻译的概念和辅助翻译系统的功能,提出了当前辅助翻译系统在应用中的不足之处,然后论述了多语种辅助翻译系统的功能特点、对不足之处的解决方案,最后讨论了系统的功能结构和翻译流程。
多语种辅助翻译系统采用.net框架实现,提供自动翻译模式和交互式辅助翻译模式等两种翻译模式。系统为维吾尔语、哈萨克语和柯尔克孜语用户提供了相应语种的操作界面,翻译编辑器能够完全支持维哈柯文的书写习惯和显示界面,使用简单、方便,并提供了多种翻译策略、一对多翻译、双向翻译等特点辅助翻译功能。系统操作界面如图6所示。
在完成上述功能的基础上,系统在未来的升级扩展中,将针对多语种扩展、语料库共享、记忆库扩充等方面做进一步的研究和开发,从而提供更高的翻译精确性、可靠性和易操作性。
图5基于项目的翻译工程管理流程
图6多语种辅助翻译系统
参考文献:
[1]黄金柱,李青.基于大规模语料库的多引擎语言翻译模型的构建[J].洛阳:洛阳师范学院学报2010(2).
[2]冯志伟.自然语言机器翻译新论[M].北京:语文出版社,1995.
[3]王海峰.机器翻译技术及应用[J].中国计算机学会通讯,2008(2).
[4]钱多秀.计算机辅助翻译[M].北京:外语教学与研究出版社,2011(3).
[5] Microsoft MSDN.Developing DPI-Aware Applications[EB/OL].http://msdn.microsoft.com.