人机耦合视域下的机器翻译质量评价方法

2023-03-23 12:18:05么娟邵辉

现代英语 2023年18期

么娟邵辉

(北京工业大学，北京 100124)

在过去的几十年中，技术进步在翻译研究领域占据越来越重要的地位。从计算机文档编排工具的应用，到20 世纪90 年代的计算机辅助翻译记忆，一直到最近的人工智能、机器学习以及智能语音识别系统，机器翻译在翻译研究和日常翻译实践中都发挥了越来越重要的作用。为了更好地评价机器翻译发展现状，必须首先回答如何定义机器翻译质量以及怎样测量机器翻译质量这两个重要问题。

一、翻译质量的定义

机器翻译质量并不是一个独立于传统“翻译质量”研究之外的概念。在传统翻译质量研究领域同样存在普适质量标准和功能质量标准之争。普适质量观认为，有些翻译准则(如符合目的语语法、真实准确反映源文意义)，是任何翻译情境和功能都要满足的翻译准则；而功能质量观则认为，翻译行为受翻译目的驱动，因此如果不知道译文的翻译目的，质量评价也就无从谈起。而且译文翻译目的也不一定受源文目的约束，译文可能面临与源文完全不同的文化社会环境、服务不同的翻译目的[1]。

不同质量观视角下对翻译质量的不同评价标准应运而生。 House 将翻译质量评价分为四类:①心理社会学方法；②基于反应的方法；③基于语篇和话语的方法；④功能—语用主义流派。 Chesterman 则认为翻译质量体现在多种互动关系当中，包括:译文与源文的互动(与源文相比译文是否适恰、对等或相似)；译文与目的语同类文本的互动(译文在目的语语境下是否流畅、可接受)；译文与翻译目的(skopos)的互动(译文是否达成翻译目的)；译文与行业标准的关系(翻译过程是否符合行业过程质量标准)；译文与译者的互动(译者在工作过程中的满意度以及是否获取合理酬劳)。

二、机器翻译质量评价方法及分类

机器翻译同样面对多样化的质量评价标准，同时技术进步还使得机器自动质量评价成为可能。面对多种多样的机器翻译质量评价方法，文章借鉴House 及Chesterman 等人的质量评价标准，将机器翻译质量的评价方法分为人工评价和机器自动评价两大类[2]。

(一)人工评价方法

即便机器翻译水平已经经历了重大进步，人类劳动在整个翻译产业当中仍然发挥着重要的作用。其中一大核心就是通过人工对机器翻译结果进行评价、审核以及译后编辑。根据评价过程文章将人工评价区分为心灵主义、错误类型标注和用户评价三大类。

1. 评价译文整体水平的心灵主义方法

与传统翻译评价类似，机器翻译领域的心灵主义方法关注译文的整体水平，未对具体语言细节进行过多分析。从具体操作化层面，评价人员可以采用排序法(ranking)比较机器翻译与人工翻译，或者比较不同类型的机器翻译结果，然后按照从高到低的方式进行质量排序。

(1)排序方法的使用评价

排序法的优点是简单易操作，能够以较低成本达到对机器翻译质量的大体测量。缺点是由于缺少具体的质量评价标准，这种评价方式易受到评价人主观因素及质量评价水平的影响，评价者自信度不足。而且由于缺乏对具体质量标准的描述，排序法无法深入分析翻译质量排名高低背后的原因，也难以为后续软件改进提供支持。

(2)对排序法的改进

为改进排序方法质量标准模糊的问题，部分研究将翻译质量定义为适当和流畅。适当也称准确或忠诚，指译文对传达源文意义的准确传达；流畅则是指译文是否符合译入语的语法词汇标准。通常对适当的评价以源文为核心，需要评价者具备双语能力；而对流畅的评价则以译文为核心，理论上评价者只需具备目的语能力即可。

2. 关注译文细节的错误类别评价方法

相较于心灵主义方法的整体评价视角，错误类别评价方法倾向于分析性评价视角。除了机器翻译质量整体水平，研究者还希望对现有机器翻译的具体问题进行评估，这就需要对翻译结果中的错误进行识别。

对翻译错误的识别基于传统翻译评价研究，Vilar et al.是该领域研究的先驱，通过对比中英、西英翻译，将翻译错误划分为不同类别。这些对错误类型的归纳研究同样可以使用在机器翻译质量评价当中，作为机器翻译错误的识别框架。

3. 关注机翻使用者体验的评价方法

机器翻译质量可以从利益相关者体验的角度进行评价和测量。在机器翻译领域，利益相关者主要分为两大群体:翻译作品用户和译者。

(1)翻译用户评价

相较于心灵主义和错误类型研究对翻译结果的关注，部分学者认为翻译质量的核心评价标准来自翻译用户。用户并不一定追求理想中的完美翻译，不同用户对翻译质量存在不同期待。因此，在用户反应方法论下，翻译质量好坏并不存在某种外在标准，而是最终由用户来认定:用户喜欢、满意的翻译就是好的翻译。

用户研究经常涉及的核心概念是译文的可接受性、可读性和可理解性。可接受性指译文是否符合读者的期待或需求。可读性主要关于文本是否易于阅读，主要测量指标包括译文高频词及恰当搭配的使用频率等。可理解性主要关注读者是否能够理解译文。两者的区别在于，可读性源于文本本身，可理解性则关注读者对文本的理解。因此，即便是可读性同样的文本，可理解性由于读者的教育背景、对文本的熟悉程度可能有所不同。在可理解性测量上，一些研究要求读者完成内容填空、回答阅读理解题目，或复述文本内容来检测其是否理解译文内容。

(2)翻译者体验方法

机器翻译技术发展的目的是辅助人类活动。与传统翻译研究相比，翻译结果使用者除了最终用户，还有从事翻译工作的译者，因此译者的使用体验也成为质量评价的重要指标。高质量的机器翻译应该使翻译者满意、为翻译者提供方便。

对可用性测量可以使用主客观两种方式。从主观方面来看，可以对翻译者软件使用的满意度进行测量，这类研究通常采用调查研究方法。从客观方面来看，有些研究从是否降低翻译者工作量的角度测量机器翻译质量，在实践中经常通过测量译者“译后编辑”工作量来对翻译质量进行定义。

译后编辑工作量可以分为三个维度:时间、技术和认知。时间维度指测量人工在译后编辑上所花费的时间，技术维度指人工在编辑中对机器翻译进行修正的次数，认知维度指译后编辑对人工造成的认知负荷。

译后编辑工作时间通常是容易测量的指标，但是编辑时间通常受译文长度影响，译文越长需要编辑的时间也就越长。同时不同编辑者的工作效率本身也存在差异，同一个编辑者在面对不同体裁、不同疲劳程度之下效率也有差异。因此，在以编辑时长作为测量指标的研究当中，需要通过对编辑者随机分组或打乱机器译文出现顺序等手段来控制编辑者效率和译文体裁差异对研究结果带来的影响。对编辑者认知负荷，现有研究常用眼动研究或Translog键盘记录来进行测量。随着现代技术发展，研究者开发出头戴式磁共振成像仪，更加精确地记录译后编辑过程中的人脑活动[3]。

目前译后编辑评价的局限在于人工编辑并不一定总能提升译文翻译质量。译后编辑人员可能会对译文进行非必要调整。相对真正需要改动的重大错误(语言错误或误译)，很多时候译后编辑是进行了一些非绝对必要的改动，如词汇选择、增加个别单词、调整语序或标点。不同人工评价者之间同样存在较大差异，事实上并不存在所谓理想中完美的人工评价者[4]。

(二)自动评价方法

心灵主义方法和利益相关者反应方法的共同特点是以人工方式进行质量评价。但人工评价在使用上经常存在耗时长、成本高、评价一致性欠缺的缺陷，因此很多研究者致力于创建机器自动评价模型。在这些模型中比较有代表性是错误类别评价模型和模拟人工评价模型。

1. 错误类型评价

在传统错误类型描述的基础上，研究者开发了机器自动错误识别模型。该类模型起源于阿姆斯特丹的本地化行业标准协会。其运行逻辑是将翻译错误划分为不同类型，以此来计算一篇译文中错误类型的分布。

目前，在机器自动错误识别领域代表性模型是多维度质量矩阵(MQM)和动态质量框架(DQF)。MQM 模型由欧盟资助，由德国研究中心开发。该系统将翻译错误划分为不同类别，不同类别之下最多包含四层逐渐细化的错误层级，总共设计了180 多种错误类型，并且根据错误严重程度将错误划分为无错、小错、大错、重大错误四种不同权重。

2. 错误类型评价方法的困难和挑战

对错误类别进行细致分类可以为机器质量评价提供更加精确的信息，并且保障研究的一致性和可比性，但分类过细也容易造成一些错误难以归类，会降低错误类别模型的普适性:一些在特定语言或文化情境运行良好的模型在不同语言或情境下精确度可能有所降低。但是无论如何，一套完整精细的错误类别架构都可以为后续研究提供参照。研究者可以在现有模型基础上进行改进或本土化调整。

从整体开发逻辑上，自动错误识别系统在方法论上倾向普适质量观，试图开发出一套评价系统来对所有译文进行评价。但是在翻译质量领域并不存在简单的普适评价标准，也很难使用同一套错误类别系统来评价不同目的或文体的翻译结果。因此，自动错误识别系统在升级改进过程中试图容纳翻译的复杂性、将文体、翻译目的等多样标准纳入评价系统中。

MQM 和DQF 都试图在原有基础上纳入功能主义评价标准。在形成本地评价系统之前，两类系统都需要用户首先回答一些核心问题:评价什么，谁来评价，在哪评价，何时评价，为何评价等。不同之处在于，MQM 在系统中内置大量翻译评价指标，用户可以根据不同的翻译情境和功能需求对翻译质量指标类别和权重自行定义；而DQR 则是根据用户需求，对评价机制进行定制。

3. 模拟人工评价方法

目前，另一种主流的机器自动评价方法是模拟人工评价方法，即将机器译文与前期筛选的代表性人工译文进行对比，然后根据机器翻译与人工译文是否相似来为机器翻译打分。 BLEU，TER 和METEOR 等模型都是基于这种评价思路搭建[5]。

这类统计评价模型的运行机制是，模型会对机器翻译文本与同类人工翻译文本进行对比，如翻译方式相近，则机器翻译文本质量较高。因此，为模型提供的人工优秀译文参照越多，模型对译文质量评价的有效性越高。但多数人的翻译方式在特定情境下不一定就是高质量的翻译。因此，该模型在原有统计评价基础上引入神经网络方法。将翻译发生的特定主题情境纳入评价机制，精准搜索并参照特定语境之下的特定翻译结果，提供最优翻译评价方案，以便将大众评价与具体情境结合起来。

模拟人工评价方法的评价效率高、成本低、结果可比性强，但其也具有一定局限性。首先，机器翻译质量标准是代表性人工翻译，这些代表性译本仍然需要人工进行筛选和设置，此过程具有较高主观性。其次，根据翻译实践经验，同一源文会产生不同译本，这些译本即便存在差异也都具有较高的翻译质量，因此笔者认为只有与代表性译本相似的翻译才是高质量翻译这种评价方式本身也具片面性。而且在这种评价方式之下，机器翻译也绝对不可能产生“创造性”，因为机器翻译质量的天花板就是进行对标的参考文本，与参考文本不同的译文都会被识别为不当翻译。

三、结论

虽然机器翻译以及自动评价模型的发展日新月异，人机耦合的工作模式仍然占据重要地位。人类智慧贯穿整个机器翻译质量评价的全过程，机器翻译质量评价最终反映的是人类的价值观、意识形态以及由此产生的对翻译本身和翻译质量的理解。关于追求普适还是功能的翻译观，不同的质量评价方式也有不同侧重。需要注意的是，翻译质量的定义和测评方法多种多样，不同研究之间可能由于对质量定义不同或操作方法多样而存在结果一致性不足的情况，对同样的译文，人类质量评价结果与机器自动评价结果可能也有所不同。所以翻译质量评价研究论文需要将本研究对“翻译质量”的概念化定义和具体操作化方式进行明示，以提高研究透明度及可复制性。

人机耦合视域下的机器翻译质量评价方法

一、 翻译质量的定义

二、 机器翻译质量评价方法及分类

(一)人工评价方法

(二)自动评价方法

三、 结论

一、翻译质量的定义

二、机器翻译质量评价方法及分类

三、结论