基于HNC理论和自动文摘的计算机辅助英汉科技翻译模式

2012-10-29 10:21:46杜玲莉纪再祥杨继唐

湖北工程学院学报 2012年6期

杜玲莉，纪再祥，周宏，杨继唐，王俐

（1.武汉理工大学外国语学院，湖北武汉430063；2.武汉航海职业技术学院，湖北武汉430062；3.武汉交通职业技术学院，湖北武汉430062）

一、研究背景

HNC即概念层次网络（Hierarchical Network of Concepts），它是黄曾阳创立的用于描述自然语言理解的理论框架。该框架以传统国学研究和现代语言学研究成果为基础，其核心目标是建立一种自然语言的计算机表述和处理模式，使机器能够真正实现模拟人脑的语言感知功能。［1］它以语义表达为方向，着眼于深层次的理解，冲破了以前相关理论基于文本语言形式的句法分析思路的局限性，表达呈现出概念化、层次化和网络化的特征。它面向整个自然语言理解，建立了强大而完善的语义描述体系。其内容涵盖了语句处理、句群处理、篇章处理、短时记忆向长时记忆扩展处理、文本自动学习处理等方面。“在科学上为认知科学、语言学与人工智能的研究提供了一个全新的理论框架”［2］。HNC理论模拟人脑的认知机制，特色鲜明，在自然语言理解领域独领风骚，因其在计算机理解人类自然语言方面开拓出的新路子而成为了国内目前自然语言理解和处理的三大流派之一。

该理论将人脑的认知结构划分为局部和全局两个联想脉络，而语言深层（即语言的语义层面）的根本问题正是对联想脉络的表达。根据HNC理论，全球6000多种人类的自然语言之所以能相互理解并翻译，是由于人类大脑中存在着一个概念空间，这正是人类赖以认识世界和进行思维活动的基础。而作为整个概念空间中的一个子空间，语言概念空间与自然语言的理解以及运用都息息相关。虽然自然语言空间呈现出多种多样的形态，但人类却有着共同的语言概念空间。两者相互对应，构成果与因、流与源的关系。前者是后者的外在表现形式，两个空间之间存在着多对一的映射关系。HNC理论认为人类语言之间的翻译可以解释为将一种自然语言空间映射到另一种自然语言空间的过程。该过程可分为两个阶段：第一阶段由源语言向HNC语言概念空间映射，源语言的语词和语句将分别映射为HNC概念以及句类表示符号；而在第二阶段中，语言概念空间将向目标语言进行反映射，即源语言中的HNC概念和句类表示符号反映射到目标语，成为目标语中的语词和语句（如图1所示）。［3］

图1 HNC语言空间映射模型

在这个模型中，第一部分即是源语分析过程或翻译理解过程，而第二部分则是目标语的生成过程或翻译的形成过程。两者的中间存在一个过渡处理过程，即运用HNC概念和符号表述的过程。它包含句类转换和语句格式转换，即从语义块感知来辨识句类，并对句类进行假设，然后依据句类先验知识对语义块的构成作进一步的分析，并据此来对语句中存在的发音模糊、音词转换模糊、词的多义模糊、语义块构成的切分模糊、指代冗缺模糊等进行消解，涉及语义块构成变换、语义块主辅变换以及辅块和小句的排序调整等。这一系列的过渡处理是生成高质量翻译的必要条件。

多年来，诸如中心动词的辨识、语序的确定、词义模糊、未登录词的识别等这些困扰汉语理解和人工语言处理的多个难题终于在HNC理论的句类分析方法中找到了解决方案。有了句类分析对源语正确理解为前提，如何进一步提高翻译的精度和质量则依赖于对反映射知识库的更广泛和深入的挖掘。

二、问题描述

科技文献因其强烈的专业性而对翻译的有效性提出了较高要求。科技翻译研究也走过了基于规则、基于实例、基于统计的不同阶段。关于文本理解的研究对象和表述，从语词、语句，再到语篇，语言学和人工智能学界多年来争论不休，语篇语义的理解和表达成为了相关研究的瓶颈。那么，如何从语篇角度更全面地理解文本，从而有效提高翻译时效和质量。

长期的语言智能和翻译实践表明语篇的理解不等同于语词或语句意义的简单相加。如果说HNC理论中语义块概念为此提供了理论支持，那么自动文摘技术则为这一问题的解决提供了现实有效的途径。自动文摘就是利用计算机从原始文献中自动地提取文本的主要内容。面对信息时代大量的科技文献，对其进行快速提炼和浓缩是提高信息资源获取效率的有效手段。这一技术实际上将文本语义的理解和表述推向了极致。笔者大胆设想，科技文本翻译可以从这里起步。这样做的好处在于：借助相关技术，不仅翻译工作者可以大大提高翻译理解阶段的准确度和效率，而且为机器翻译领域研究减少部分因复杂的语言深层结构分析所耗精力。

自动文摘研究在过去50多年发展历史中吸引了世界上许多国家的学者投入研究，其领域横跨了计算机科学、人工智能、情报科学和语言学等多个学科，并取得了很大的进步。目前这方面的研究已形成了一定的理论与方法，其中，基于句子概率统计、文本结构、领域理解、信息抽取和四种自动文摘技术成为了主流方法。它们共同的设计理念都离不开对自然语言的分析和技术处理两部分。这四种主流自动文摘技术应用中的技术难度、应用领域、生成的文摘质量方面各有优劣，因此不少学者提出建议——采用一种综合式的面向非受限领域的自动文摘方法，既要从微观上考虑文本的表面结构，又要从宏观上把握篇章结构特征。即文本形式特征将作为衡量文章中句子权值的基本方法，用篇章结构分析替代深层的语义分析，从而避免机械抽取文摘内容会遗漏的问题，最后引入句法和语义分析，对所抽取文摘句进行可读性的润色加工，解决文摘简洁性和连贯性不足的问题。目前，较新的研究成果就来自这种综合式的思路。

三、翻译模式设计

根据HNC理论和自动文摘技术，科技文献新的翻译模式设计如下（见图2）：

1.文献理解。首先，使用ParaConc对待译科技文献（Ts）进行预处理——分词处理，得到用于建立文摘的向量空间模型（VSM）的段落和词。［4］采用向量空间模型将文本的篇章结构进行自动分析，根据语义相似度建立段落间的关系图，该段落与主题的关系就是段落的重要度，提取各段落的重要度信息，使用标题或聚类的方法将意义相近的段落归纳为同一语义块；依据文本中词的频度、句子位置、提示语等形式特征计算语义块的权值，分别从各语义块中提取权值较高的句子作为文摘句；从句法和语义两方面对提取的文摘句进行分析，解决诸如指代词不明、表述冗余、词句不连贯等问题，最终的文摘将具备简洁、通顺、可性读强等特点。［5］

图2 科技文献翻译模式图

2.计算机辅助翻译（Computer Assisted Translation，CAT）。将文献理解阶段所获文摘进行中心句和关键词提取，使用Yaxin或Trados等机辅翻译软件进行翻译前预处理，检索并确定中心句和关键词的译法，利用语料对齐技术将确定后的双语对应翻译文本导入相应的双语数据库；使用翻译记忆库（Translation Memory，TM）进行机器预翻译（Machine Translation，MT），得到初步的由源文本（Ts）映射到目标语的翻译文本（Tt）；然后进行最后也是最关键的由翻译人员进行的细致的修正过程（Human Translation，HT），从而得到翻译初稿。修正涉及词语、句法、语篇等各个层次，特别是语际分词错误、歧义、固定习语等机器翻译的盲点。

3.评估修正（Evaluation ＆Correction，EC）。对翻译译文的评价，如果通过人工实现则人为因素影响很大，并且对评价人员的要求也很高，不仅实现起来困难，而且还导致了评价标准的不一致。于是设计自动化、规范化的评价方法便成为许多学者的研究目标。各种研究成果纷呈，基本设计方向是从TM语料库中获取翻译知识，建立n元语言模型，在此基础上为译文的任意句子评分。［6］

根据HNC理论，语际翻译实际上就是一个从源语言到目标语的概念映射过程，所以系统评估的标尺是语际映射的速度和准确程度。映射规则的复杂程度决定了映射的速度，而准确程度的评估参照物则是通过比对机辅翻译文本与专家翻译文本的相符度。两个文本越相近，翻译质量就越高。这里包含了评估系统的两个重要指标：准确率和召回率。

召回率是指所有机辅翻译Tt与所有待译的文本数的比率，其表达式如下：

召回率（Recall）＝机辅翻译Tt中正确翻译句子数／所有待译的句子数

准确率是指所有机辅翻译Tt中与专家翻译的文本相吻合的句子所占的比率，其表达式如下：

准确率（Precision）＝机辅翻译Tt中正确翻译句子数／专家翻译的句子数

召回率和准确率是评估翻译质量的两个重要方面，必须将两者进行综合考虑。

此外，Neubert等将语篇内部和外部属性具体概括为七个方面：意向性、可接受性、情景性、信息性、互文性、连贯性和衔接性。［7］建立评估模型时，文本语篇层面的这些重要特征可作为相应参数，并可根据不同类型的Ts调整各参数的权重。

四、试验验证

为检验该模型的可行性，笔者分别从PNAS（Proceedings the National Academy of Science of the USA）和中国知网上随机抽取了24篇专业期刊文章进行了对照实验。其中，自然科学类（涉及生物、化学等专业）和人文类（包括管理、教育等专业）各占50%，中英文各50%。对照组为掌握自动文摘（AA）生成和计算机辅助翻译软件的翻译者以及普通的翻译者。试验方式是将24篇文章给3组被试分别用传统方式（Tr）、计算机辅助翻译方式（CAT）、文摘自动提取加计算机辅助（AA＋CAT）模式各自进行翻译。并将所译文档建成小型数据库，分析结果如下（h／p：小时／篇）：

表1

表2

五、结论

通过比较，发现AA＋CAT模式在准确率和速度方面与其他模式相比有明显优势，召回率与CAT模式区别不大，但比Tr模式改善不少。说明从整体效率而言，计算机辅助翻译比传统翻译方式先进，而采用自动文摘技术对文本进行译前处理又比单纯使用计算机辅助翻译技术的效率有所提高。当然，这一结果也可能因被试的专业背景和掌握相关技术的熟练程度等因素而受影响。另外由于条件限制，试验样本范围有限，代表性有待进一步验证。

［1］黄曾阳.HNC理论与自然语言语句的理解［J］.中国基础科学，1999，1（2）：83－88.

［2］许嘉璐.现状和设想——试论中文信息处理与现代汉语研究［J］.中国语文，2000（6）：491.

［3］张克亮，基于HNC理论的汉英机器翻译策略研究［J］.解放军外国语学院学报，2003（5）：60－64.

［4］郭王箐，万敏.面向非受限领域的综合式自动中文文摘方法［J］.清华大学学报：自然科学版，2002，42（1）：7－9.

［5］钱多秀.计算机辅助翻译［M］.北京：外语教学与研究出版社，2011：139－142.

［6］张剑，吴际，周明.机器翻译评测的新进展［J］.中文信息学报，2003，17（6）：1－8.