仲佳琳 杨宇 李奕琛
摘 要:在解决处理中文文本的分词的问题中,分词是基础的一项。本文针对分词问题提出统计与规则混合运用的解决方法,先运用PMI,又用语言规则来弥补统计方面解决不了的问题,即混合翻译系统设计。
关键词:计算语言学 机器翻译 统计 规则
词的分割是中英文差异中最基本的一项。英文的单词是天然分开的,词就是最小的能够独立运用的语言单位。但中文句子中没有直观的词的界限,词也不是最小的语言单位。因此分词在计算语言学中是最为基础的一项,与此同时会碰到歧义现象。比如:a. 她凭自己的才能得到了这份工作。b. 你这样的人才能够留下来,是我们的幸运。a句中的“才能”明显是一个词,而b句中的“人才”和“能够”却应该分开。在这个过程中,针对固定词表进行“一刀切”显然不可取。
由此本文提出了针对分词问题的混合机器翻译系统的设计:基于统计的机器翻译SBMT----- 基于规则的机器翻译系统 RBMT。
首先是统计方法中基于深度学习的点互信息PMI,即如何运用PMI进行中文分词。从点互信息的定义来看,它表示某两个字符(汉字)的组合出现在语料库中的概率,与各自出现概率乘积的比的对数。点互信息定义如下:
其主要基于语料库,并计算词语间的语义相似度。若概率越大,两字相关性就越紧密,关联度越高。所以直观上可以理解为两个字符在语料库中组成词语的可能性。若两个事件不相关也不互斥,那么同时发生的概率p(a,b)=p(a)*p(b),此时p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;如果两个事件相关,那么同时发生的概率p(a,b)>p(a)*p(b),此时p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;如果两个事件互斥,同理可得PMI(a,b)<0。比如通过计算,“中国”这个词的PMI值是1.8448,即可取;而“我病”的PMI值是-0.9099,即不成词。
因为汉语的特殊性,在分词的过程中也存在歧义,而不是简单词性有可能的不同而导致的歧义,这与英文不同。比如以下两个句子:
a. 她凭自己的才能得到了这份工作。
b. 你这样的人才能留下来,是我们的幸运。
通过计算,“才能”一词在两个句子中都有可能被标记出来,即在任何句子中都会被计算为同一个词。但正确的分词应是如下: b. 你/这样的/人才/能够/留下来,是/我们的/幸运。如果分词出现错误,整个句子的翻译会变得非常奇怪, 如:*b. 你这样/的/人/才能/留下来,是/我们/的/幸运。
在自然语言处理的过程中,句法分析既可以弥补基于统计方法分词的漏洞问题,又可以解决分词后的词语歧义问题。从整个句子为单位的角度,基于语言规则,有效限制基于统计的分词任务。若是依靠统计方法,就会出现这种机械性的计算的句子:你这样/的/人/才能/留下来,是/我们/的/幸运。
通常来讲,句子是由一个名词词组加上一个动词词组构成的。那么这句话逗号前的半句话就会单独成句,整体被归为一个名词短语和动词短语齐全的简单从句,因为“你这样的人才能够留下来”的确能独立成句,但逗号后面的“是我们的幸运”无法与其衔接。虽然前半句可以独立成句,在语法上也没有问题,但它却不是整句话的含义。因此,没有了语言规则的界定,就无法把整个句子考虑其中。
在人机交互的过程中,计算机没有思维能力,而所有的指令只能是绝对精准的信息 。只有通过形式语言的角度,才能把中英文文本处理的法则变成计算机能“理解”的信息。for循环结构的设计就是把两种不同的方法套用在形式语言for循环的思想里。在实际的机器翻译过程中,情况会更加复杂多变,但可以确定的是,自然语言中的一个句子不应存在歧义,一个句子只有一个理解。当混合两种解决方法设计时,就涉及到对整个系统的反复执行。
最后,虽然基于规则的机器翻译系统存在一定的缺陷,但要解决翻译方面的问题,最根本地还是要回归到语言层面,而不是完全寄托于高端技术或程序设计。要取得机器翻译的进步也不能单单依靠语言学理论,更要灵活运用统计模型和理论。
参考文献
[1] John Hale. Finding Syntax in Human Encephalography with Beam Search.arXiv:1806.04127v1 [cs.CL] 11 Jun 2018.
[2] 王金銓, 王克非. 计算语言学视角下的翻译研究.外国语. 2008, (5).
[3] 杨宪泽. 基于实例的机器翻译处理方法. 计算机工程. 2003, (12).
[4] Roger T. Bell.Translation and Translating- Theory and Practice Raymond W. Yeung. Information Theory and Network Coding[M]. Springer; 2008.
[5] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(3):379-423.
[6] Bo Zheng, Wanxiang Che, Jiang Guo, Ting Liu. Enhancing LSTM-based Word Segmentation Using Unlabeled Data.Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, 2017.
[7] Chomsky, Noam. Aspects of the theory of syntax. Cambridge, Massachusetts: MIT Press,1965.
作者简介:仲佳琳(1998-),女,籍贯:吉林省长春市,民族:汉 职称(无)学历:在读本科生。研究方向(翻译,计算语言学)
第二作者姓名:杨宇 单位(南开大学数学科学学院数学系)
第三作者姓名:李奕琛 单位(南开大学计算机控制与工程学院计算机科学与技术系)