汉藏机器翻译的特点与手写汉字切分分析研究*

2014-09-13 12:35杨宪泽陈毅红
计算机工程与科学 2014年8期
关键词:汉藏藏语手写

杨宪泽,陈毅红

(西南民族大学计算机科学与技术学院,四川 成都 610041)

汉藏机器翻译的特点与手写汉字切分分析研究*

杨宪泽,陈毅红

(西南民族大学计算机科学与技术学院,四川 成都 610041)

汉藏机器翻译的研究是一项有益而复杂的课题。本文的工作主要有两项, 一是分析了汉藏机器翻译中藏语句子特点,给出了一些汉藏翻译句型的举例;二是阐述了在汉藏机器翻译研究中一项前期的辅助工作,即设计了手写汉字切分方法和算法。

汉藏机器翻译;手写汉字切分;算法

1 引言

在研究汉藏英机器翻译的课题中, 除了以前探讨解决的问题外[1,2],在汉藏机器翻译中将面临两个新的问题:一是汉藏双语的词法、句法、语法和语义非常灵活[3],研究必须考虑、分析汉藏语言共有的特点;二是希望能自动处理大量汉字手写资料。因此,手写资料的字符切分是自动处理的前提,然后才可能组成单词,最后才可能进行词或句子的汉藏机器翻译。

本文第2节分析了汉藏机器翻译中藏语的句子特点、句法特点,给出了汉藏翻译句型对照举例;第3节探讨了汉字手写资料切分;第4节对本文的工作进行了小结。

2 汉藏翻译的特点分析和句型对照举例

2.1 藏语句子特点分析

(1)在人称名词后加专有助词,可以表示复数;但如果名词后带有数词或表示数量的形容词时,不再加专有数词。

(2)主语为自称时有专用词,为他称时又有专用词。

(3)在动词后面加上附加成分可以名词化。

(4)对于人和事物加以推断的说明,表达的方法是在动词后加附加成分。

(5)否定是专有的形式。

(6)动词有特陈、泛陈、判断、拟测、推断、命令、否定形式:特陈式陈述的情况容易被人们弄清楚,泛陈式只做泛泛的陈述。

(7)动词的时态,特陈式有现行时、将行时、即行时、未行将行时、已行时、方过时六种时间时态;泛陈式只有现行时和即行时两种。

(8)大部分形容词有普通、较高和最高三个级别:普通级用形容词原有的形式表示;较高级主要在形容词后加一特有的附加成分表示,形容词原带有的附加成分要去掉;最高级也是去掉形容词原有的附加成分,加另一特有的附加成分。

2.2 藏语句法特点分析

(1)藏语是主语在前,谓语在后,但宾语一般都在主语和谓语的中间。

(2)一个句子里可以同时有两个宾语——直接宾语和间接宾语,通常次序是间接宾语在前,直接宾语在后。

(3)有时为了强调宾语,可以把它提到主语的前面,不管是直接宾语还是间接宾语。

(4)直接宾语也可以提到间接宾语前面。

(5)形容词、数词等作定语,都在中心词后面。

(6)状语一般都在中心词的前面。

2.3 汉藏翻译句型对照举例

(1)(汉语)我们有五个人——(藏语)我们人五有;

(2)(汉语)工厂里有很多工人——(藏语)工厂工人多的有;

(3)(汉语)别的人们——(藏语)人们别的;

(4)(汉语)我是西藏人——(藏语)我西藏人是;

(5)(汉语)他的姐姐是我的姨母——(藏语)他的姐姐我的姨母是;

(6)(汉语)你不好——(藏语)你好不是;

(7)(汉语)那些工人有经验——(藏语)工人那些经验有;

(8)(汉语)我已洗完,可以走了——(藏语)我洗完去可以;

(9)(汉语)今晚可能演新电影——(藏语)今晚电影新的一演;

(10)(汉语)他不做工作——(藏语)他工作做 (否定);

(11)(汉语)昨天您叫我的时候,我就要来了——(藏语)昨天您我叫去时我来。

3 手写汉字文档切分研究

3.1 问题与解决思路

手写的汉字文档字符必须切分才能够自动处理,按有关规则进行单词组合,最后才可能进行词或句子的汉藏机器翻译。汉字手写的文档有非常大的随意性,不同的人有不同的手写习惯,这不可能象汉字印刷体那样有规律可循。手写汉字写大写小、字与字间的距离也有随意性,字与字间有时还会写得粘连。此外,如果与数字和英文字母相比,汉字显得太复杂,这使得汉字切分技术复杂。本文的工作对手写汉字文档的字符切分采用连通域方法[4,5]。

3.2 切分处理阐述

一篇手写的汉字文档字符的切分就是对每个汉字字符确定边界,下一步是识别单个汉字。不同的人手写的不同的汉字文档,经分析有以下主要特征出现:(1)比较规范:每一个汉字都是独立的;(2)有些汉字写得粘连;(3)有些汉字写得重叠:这是没有办法用垂直分割线的方法进行分割的一种情况;(4)有些汉字写得部分交叠在一起:实际上是两个汉字共享某一部分像素区域的情况。当然,还有一些其它特征,因为不常见,不再赘述。

本文论述的切分技术首先考虑一篇手写的汉字文档字符写得粘连和交叠的情况,因为这是造成汉字切分错误的主要部分,而后采用识别技术分析切分结果。主要技术内容包含有:

3.2.1 上下合并连通域

上下合并连通域考虑连通域的水平重叠率,每一个连通域为汉字字符的偏旁、字根、单字及粘连字符等组成,采用从左边到右边的方式寻找相邻的连通域,还要计算这两个连通域自身的宽度和它们的重叠区域。

水平重叠率Y表示如下:

其中,H1为第一个连通域的宽度,H2为第二个连通域的宽度,H12是两个连通域的重合区域的宽度。

合并算法:

步骤1计算水平重叠率Y;

步骤2若Y大于给定阈值,合并这两个连通域,重计合并后连通域矩形并置为第一个连通域,将紧接的连通域作为第二个连通域,重复步骤1,处理完转步骤4;

步骤3若Y小于给定阈值,处理紧接着的两个相邻的连通域,重复步骤1、步骤2;

步骤4所有连通域处理完,转主程序。

3.2.2 切分粘连字符

通过上述处理,连通域进行了上下合并,原来的汉字字符串现在成了一系列互不连通的分割块,称它们为连通部件。但是,在这些连通部件中,还是有少量的粘连汉字字符,而两个粘连汉字很可能就被当成一个汉字了。 因此,对少量的粘连汉字字符还要处理,方法是:汉字具有方块特征,字宽应该在规定的范围内,两个粘连汉字的字宽一般情况下要大一些,这就是找出所有粘连汉字的入手点。当然,由于不同人的手写习惯,写出来的汉字宽度是不同的,不可能设置出某个值作为恒定值,这就要对形成的一系列互不连通的分割块计算宽度,换算出单一汉字约束宽度Hc。例如,若某一连通部件的宽度大于Hc的2倍,就判别这一连通部件是粘连字符,作切分再处理。此外,必须考虑大小不断变化的分割块,要多次重新换算单一汉字的约束宽度,直到所有的粘连汉字字符被处理完。

上述技术中,上下合并的连通部件考虑了:偏旁、字根、单一汉字及粘连汉字字符。计算汉字字符的约束宽度方式是,先计算所有连通部件宽度,构成宽度集,最后进行升序排序得到集合H。

把H分成四个连续子集:

其中,1≤i

求其方差:

现在计算所有Us中的最小值Umin, 最后计算Umin对应下h3的平均值,就计算出了单一汉字的约束宽度Kd。

Kd=mn(h3)

作了这一系列的技术准备,切分粘连汉字就比较容易了:按照汉字约束宽度,可以确定哪些连通域部件是粘连汉字字符。当然,要注意宽度较大是多个粘连汉字字符的情况。

实施中,设判断值F, 既要考虑Kd≤F≤4/3Kd的连通部件,也要考虑F≤2/3Kd的情况,对每一个要切分的连通部件判断清楚是否存在切分路径。 如果存在粘连汉字的切分路径,则对该粘连汉字进行切分;如果没有粘连汉字的切分路径,应该是这一连通域为单一汉字、字根或者偏旁,不切分程序返回。

3.2.3 字符的左右合并字符

作上述技术处理后,粘连汉字字符已经切分完毕,下面将按照约束宽度Kd左右合并连通部件。若1/2Kd≤F≤3/2Kd, 对F≤1/2Kd的连通域必须合并;对3/2Kd≤F 的连通域直接作单一汉字,不合并;若为其它情况,还要再次分析处理。

这一步处理如下,读入全部连通部件,从左至右依次计算其宽度得到集合:

依据汉字字符宽度,设置阈值左右合并,这一算法描述如下:

步骤1取FKd=1/2Kd;EKd=3/2Kd。

步骤2计算汉字字符串的第一个连通部件宽度。

步骤3如果其宽度小于FKd,转步骤4;如果EKd≤ Kd≤ FKd,转步骤5;如果Kd ≥EKd,转步骤6。

步骤4该连通部件和下一个连通部件合并为一个新的连通部件,计算新的,如果所有连通部件搜索完毕,转步骤7;否则转步骤3。

步骤5记录这个连通部件,该连通部件和下一个连通部件合并为一个新的连通部件,计算新的Kd,如果所有连通部件搜索完毕,转步骤7;否则转步骤3。

步骤6记录这个连通部件,计算下一个Kd,如果所有连通部件搜索完毕,转步骤7;否则转步骤3。

步骤7结束返回主程序。

3.3 实验结果

本文的工作是方法的综合应用,当然也对我们设计的手写汉字切分方法和算法应用后的结果进行了分析(可以称为实验结果)。分析结果说明,根据对不同的多种手写的相对工整的文献图像进行处理,我们设计的切分算法能够基本满足手写汉字识别对切分的需求。算法的局限性表现在:虽然可以不受字体、字形等因素的影响, 但对粘连现象的出现比例感觉有些敏感,原因是切分过程中使用了平均字宽, 尽管我们在算法中已对此进行了一定的处理, 但当粘连汉字个数比例大于处理的汉字总数10%时, 算法的切分性能将明显下降,这也是我们正在努力解决的问题。

4 结束语

汉藏机器翻译的研究对于促进汉藏科技文化交流、提升教育文化事业发展有着深远的意义。同时,古老而优秀的藏语言文化应该跟随信息时代而发展,解决目前汉藏机器翻译资料非常匮乏的状况。因此,第2节汉藏翻译的特点分析和句型对照举例规范列举了汉藏机器翻译面临的基本问题,应该有一定的参考价值。

虽然本文第3节的工作是汉藏英机器翻译一项前期的辅助工作,即采用连通域方法对手写汉字进行切分,但它是有益的工作。因为对于多个手写汉字、数字和英文字母混合字符的切分,以及手写体字符与印刷体字符的混合情况切分,其成果对多种文本的分类、识别、翻译和理解至关重要,在银行、海关、税务及政务处理等方面有着广泛的应用前景。

[1]YangXian-ze,XiaoMing.Analysisandresearchofahybridmachinetranslationmethods[J].ComputerEngineering&Science, 2012,34(2):168-171.(inChinese)

[2]YangXian-ze.Researchonthemorphologytreatmentofmachinetranslation[J].ComputerEngineering&Science, 2009,31(5):156-158.(inChinese)

[3]HuShu-jin.Tibetangrammarinbrief[M].Kunming:YunanNationalPublishingHouse, 1994.(inChinese)

[4]SrihariSN,YangXuan-shen,GregoryRB.OflineChinesehandwritingrecognition:Anassessmentofcurrenttechnology[J].FrontiersofComputerScienceinChina,2007,1(2):

137-155.

[5]ZhaoSY,ChiZR,ShiPF,etal.Two-stagesegmentationofunconstrainedhandwrittenChinesecharacter[J].PatternRecognition,2003, 36(1):145-156.

附中文参考文献:

[1] 杨宪泽,肖明.一种混合式机器翻译方法的分析研究[J]. 计算机工程与科学,2012,34(2):168-171.

[2] 杨宪泽.机器翻译的词处理研究[J]. 计算机工程与科学,2009,31(5):156-158.

[3] 胡书津.简明藏文文法[M].昆明:云南民族出版社,1994.

YANGXian-ze,born in 1954,professor,his research interests include natural language processing, and machine translation.

陈毅红(1972-),男,四川成都人,博士生,研究方向为智能系统工程、RFID和物联网。E-mail:cyhswpi@126.com

CHENYi-hong,born in 1972,PhD candidate,his research interests include intelligent systems engineering, RFID, and IoT.

AnalysisandresearchofChinese-TibetanmachinetranslationfeaturesandhandwrittenChinesecharacterssegmentation

YANG Xian-ze,CHEN Yi-hong

(School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,China)

Studying the Chinese-Tibetan machine translation is a beneficial but complicated topic. The paper includes two main parts: 1) The features of the Tibetan sentences in the Chinese-Tibetan machine translation are analyzed, and some sentence pattern examples are given. 2) A previous assist work of the Chinese-Tibetan machine translation research is explained, i.e. a handwritten Chinese characters segmentation algorithm is designed.

Chinese-Tibetan machine translation;handwritten Chinese segmentation;algorithm

1007-130X(2014)08-1595-04

2012-08-24;

:2013-04-12

中央高校科研平台项目(11NPT02);四川国际旅行公司合作项目 (25724101)

TP391.2

:A

10.3969/j.issn.1007-130X.2014.08.030

杨宪泽(1954-),男,四川成都人,教授,研究方向为自然语言处理和机器翻译。E-mail:yangxianze@swun.cn

通信地址:610041 四川省成都市西南民族大学计算机科学与技术学院

Address:School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,Sichuan,P.R.China

猜你喜欢
汉藏藏语手写
浅谈藏语中的礼仪语
我手写我心
抓住身边事吾手写吾心
基于集成学习的MINIST手写数字识别
藏语拉达克话的几个语音特征
2《步辇图》:初唐汉藏关系图录
藏语地理分布格局的形成原因
深度学习在手写汉字识别中的应用综述
汉藏姐妹一家亲
古代汉藏文化交流研究成果(1979-2011)述评