英汉分词问题的混合翻译系统设计

2019-05-04 13:57仲佳琳杨宇李奕琛

都市生活 2019年1期

仲佳琳杨宇李奕琛

摘要：在解决处理中文文本的分词的问题中，分词是基础的一项。本文针对分词问题提出统计与规则混合运用的解决方法，先运用PMI，又用语言规则来弥补统计方面解决不了的问题，即混合翻译系统设计。

关键词：计算语言学机器翻译统计规则

词的分割是中英文差异中最基本的一项。英文的单词是天然分开的，词就是最小的能够独立运用的语言单位。但中文句子中没有直观的词的界限，词也不是最小的语言单位。因此分词在计算语言学中是最为基础的一项，与此同时会碰到歧义现象。比如：a. 她凭自己的才能得到了这份工作。b. 你这样的人才能够留下来，是我们的幸运。a句中的“才能”明显是一个词，而b句中的“人才”和“能够”却应该分开。在这个过程中，针对固定词表进行“一刀切”显然不可取。

由此本文提出了针对分词问题的混合机器翻译系统的设计：基于统计的机器翻译SBMT----- 基于规则的机器翻译系统 RBMT。

首先是统计方法中基于深度学习的点互信息PMI，即如何运用PMI进行中文分词。从点互信息的定义来看，它表示某两个字符（汉字）的组合出现在语料库中的概率，与各自出现概率乘积的比的对数。点互信息定义如下：

其主要基于语料库，并计算词语间的语义相似度。若概率越大，两字相关性就越紧密，关联度越高。所以直观上可以理解为两个字符在语料库中组成词语的可能性。若两个事件不相关也不互斥，那么同时发生的概率p（a，b）=p（a）*p（b），此时p（a，b）/p（a）*p（b）=1，PMI（a，b）=0;如果两个事件相关，那么同时发生的概率p（a，b）>p（a）*p（b），此时p（a，b）/p（a）*p（b）>1，PMI（a，b）>0;如果两个事件互斥，同理可得PMI（a，b）<0。比如通过计算，“中国”这个词的PMI值是1.8448，即可取;而“我病”的PMI值是-0.9099，即不成词。

因为汉语的特殊性，在分词的过程中也存在歧义，而不是简单词性有可能的不同而导致的歧义，这与英文不同。比如以下两个句子：

a. 她凭自己的才能得到了这份工作。

b. 你这样的人才能留下来，是我们的幸运。

通过计算，“才能”一词在两个句子中都有可能被标记出来，即在任何句子中都会被计算为同一个词。但正确的分词应是如下： b. 你/这样的/人才/能够/留下来，是/我们的/幸运。如果分词出现错误，整个句子的翻译会变得非常奇怪，如：*b. 你这样/的/人/才能/留下来，是/我们/的/幸运。

在自然语言处理的过程中，句法分析既可以弥补基于统计方法分词的漏洞问题，又可以解决分词后的词语歧义问题。从整个句子为单位的角度，基于语言规则，有效限制基于统计的分词任务。若是依靠统计方法，就会出现这种机械性的计算的句子：你这样/的/人/才能/留下来，是/我们/的/幸运。

通常来讲，句子是由一个名词词组加上一个动词词组构成的。那么这句话逗号前的半句话就会单独成句，整体被归为一个名词短语和动词短语齐全的简单从句，因为“你这样的人才能够留下来”的确能独立成句，但逗号后面的“是我们的幸运”无法与其衔接。虽然前半句可以独立成句，在语法上也没有问题，但它却不是整句话的含义。因此，没有了语言规则的界定，就无法把整个句子考虑其中。

在人机交互的过程中，计算机没有思维能力，而所有的指令只能是绝对精准的信息。只有通过形式语言的角度，才能把中英文文本处理的法则变成计算机能“理解”的信息。for循环结构的设计就是把两种不同的方法套用在形式语言for循环的思想里。在实际的机器翻译过程中，情况会更加复杂多变，但可以确定的是，自然语言中的一个句子不应存在歧义，一个句子只有一个理解。当混合两种解决方法设计时，就涉及到对整个系统的反复执行。

最后，虽然基于规则的机器翻译系统存在一定的缺陷，但要解决翻译方面的问题，最根本地还是要回归到语言层面，而不是完全寄托于高端技术或程序设计。要取得机器翻译的进步也不能单单依靠语言学理论，更要灵活运用统计模型和理论。

参考文献

[1] John Hale. Finding Syntax in Human Encephalography with Beam Search.arXiv：1806.04127v1 [cs.CL] 11 Jun 2018.

[2] 王金銓，王克非. 计算语言学视角下的翻译研究.外国语. 2008，（5）.

[3] 杨宪泽. 基于实例的机器翻译处理方法. 计算机工程. 2003，（12）.

[4] Roger T. Bell.Translation and Translating- Theory and Practice Raymond W. Yeung. Information Theory and Network Coding[M]. Springer; 2008.

[5] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal， 1948， 27（3）：379-423.

[6] Bo Zheng， Wanxiang Che， Jiang Guo， Ting Liu. Enhancing LSTM-based Word Segmentation Using Unlabeled Data.Research Center for Social Computing and Information Retrieval， Harbin Institute of Technology， 2017.

[7] Chomsky， Noam. Aspects of the theory of syntax. Cambridge， Massachusetts： MIT Press，1965.

作者简介：仲佳琳（1998-），女，籍贯：吉林省长春市，民族：汉职称（无）学历：在读本科生。研究方向（翻译，计算语言学）

第二作者姓名：杨宇单位（南开大学数学科学学院数学系）

第三作者姓名：李奕琛单位（南开大学计算机控制与工程学院计算机科学与技术系）