汉藏句子自动对齐技术研究

2022-07-26 07:18:10才藏太赵海兴才让加

青海师范大学学报(自然科学版) 2022年1期

才藏太，赵海兴，才让加

(青海师范大学，省部共建藏语智能信息处理及应用国家重点实验室，青海西宁 810008)

我国现有近600万藏族人口，主要居住在西藏自治区和青海、四川、甘肃、云南等省[1].作为藏文化最主要和最基本的载体，藏文已有近1400年的历史，用藏文书写的经典文献、古籍著述和译作浩如烟海，所以大力发展以藏汉机器翻译为核心的藏文信息处理技术有利于促进涉藏地区政治、经济、科技、教育、文化的建设[2].

目前西藏大学、西北民族大学、中央民族大学、中央翻译局等单位从事藏文信息处理技术研究，但目前藏汉双语数据资源缺乏、与藏文信息处理相关的国家标准少、藏汉双语机器翻译质量较差、应用示范不明显、社会服务贡献不足等问题比较突出.针对以上存在的问题，青海师范大学藏文信息处理研究团队提出了面向汉藏机器翻译的数据资源构建相关技术，解决了藏文分词及标注、汉藏词语对齐、藏文句子边界识别、汉藏句子对齐等科学问题，为汉藏机器翻译系统的开发提供了技术保障.

句子级对齐的双语平行语料库是跨语言信息检索、翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源[3].但是，目前在句子级对齐的汉藏双语平行语料获取方面还存在着严重的不足，基本处于人工对齐状态.人工对齐的优点是对齐精确度高，其缺点是速度慢，对于有200万对句子的平行语料库，人工对齐一人需4000天才能完成，因此，研制出一种汉藏句子自动对齐方法极为重要.基于长度和词典的两种传统方法对于汉英句子对齐各有优点，同时也存在致命的缺点[4].在汉藏对齐的过程中不加区别的直接借鉴传统方法，效果不佳.鉴于此，本研究提出了一种利用句子长度和锚点信息相结合的汉藏双语句子对齐方法.锚点就是一段比较容易识别的文字，并且极有可能在双语中每种语言的同一位置上出现[5].该方法利用(1∶1)型的句珠作为候选锚点，用锚点将双语文本分割成几个块，在对应双语分块中用基于长度的对齐实现句子的对齐.

设计思想是：首先读入规范的汉藏双语文本；利用句子边界自动识别程序识别汉语和藏语句子边界，并进行分句，对每一个句子进行编号；利用双语文本图选择候选锚点句对(双语文本中各抽一个句子对应在一起，就形成一个句对)，再用汉藏句子的长度特性排除不需要计算对齐评价函数的句对.计算排除后剩下的句对对应的形式对齐评价函数值；找出对应最小形式对齐评价函数值的句对；如果最小对齐评价函数值小于对齐阈值，则计算其相似度阀值，如果最小对齐评价函数值不小于对齐阈值，则结束；如果句对的相似度大于相似度阈值，那么这个句对将成为对齐锚点，将双语文本分别分成两部分，然后依据锚点可能出现的范围限制下一个锚点的搜索区域，继续进行其他句对的比较；最后输出对齐后的文本.

首先引入了双语文本图的概念.双语文本图(Bitext Map)在双语文本研究中的应用十分广泛[6]，如图1所示.

图1 双语文本图

本研究对它做了适当改造，一般双语文本图中X,Y轴以字节数为单位，分别表示原译文的长度位置；而在本文中，X,Y轴则以句子为单位，它们分别表示汉文句子(c1,c2,…,cm)和藏文句子(t1,t2，…,tn).我们按照双语文本的句子编号作为坐标系的横坐标和纵坐标，双语文本图的原点表示原译文的共同起始点，而右上角顶点则表示原译文的共同结束点，起始点和结束点间的连线即为双语矩形图的对角线，其斜率称为双语图的斜率.双语图中的任意点P(i,j)表示汉语句子ci和藏语句子tj所构成的1∶1对齐模式的句对，本文中称为句对点.如果该句对点表示的句对为锚点句对，则称为锚点句对点.

首先，在双语文本图中选择一个很小的矩形区域，使得这个矩形区域的对角线与双语矩形图的对角线平行，从这个矩形区域开始搜索，系统将查找所有满足条件的候选句对点，如果没有找到任何合适的候选句对点，搜索矩形区域将适当地扩大，直到在这个搜索区域内找到一个以上的候选句对点.

其次利用句对的长度计算该句对成为对齐锚点的可能性.考虑互译文本C和T，为了计算任意一个句对{ci,tj}的对齐值，定义四个参数：

(1)对应文本长度之比P0=Lc/Lt;

(2)对应句子长度之比Pl[i,j]=Lci/Ltj；

(3)对应上文部分长度之比Pu[i,j]=Uci/Utj;

(4)对应下文部分长度之比Pd[i,j]=Dci/Dtj.

ci表示汉语文本中的第i句；tj表示藏语文本中的第j句；Lc表示汉语文本的总长度；Lt表示藏语文本的总长度；Lci表示汉语ci句子的长度；Ltj表示藏语tj句子的长度；Uci表示ci上半部分文本总长度；Utj表示tj上半部分文本总长度；Dci表示ci下半部分文本总长度；Dtj表示tj下半部分文本总长度[7].

若ci和tj确实可以构成(1：1)句珠时，则P[i,j]将小于一定对齐阈值，此处P[i,j]表示句{ci,tj}的整体对齐距离函数值，可构造一个形式对齐评价函数：

P[i,j]=(1/Sim)+a(Pu[i,j]-P0)×2+a(Pl[i,j]-P0)×2+a(Pd[i,j]-P0)×2.

其中:a是一个权重系数，其作用是利用上下文长度和本句的长度对P[i,j]进行调节，文本越长，上下文长度的影响效果就越不敏感.因此，a应该做相应的变化来均衡整个对齐函数的值，对于较短的文本亦如此.本文定义：

a=(Lc/Lci+Lt/Ltj)/2

句对中两个句子的相似度为：

Match(c)代表译文中出现在汉文句子中的藏语词，Match(t)代表译文中出现在藏文句子中的汉语词.对齐评价函数值P[i,j]表示的汉藏句子长度关系，其值越小，则ci和tj可以构成句珠的可能性越大.

最后采用贪心算法，选取P[i,j]值小于某一特定阈值的所有锚点，组成锚点集，所有的锚点集合将双语文本分割为句对齐的文本.为了获得更高的对齐准确率，再对抽取出的句对进行相似度过滤.

为验证上述方法的有效性，利用《毛泽东选集》(第二卷)和其相应的藏文翻译版的部分内容作为测试语料，其中汉文文本201.36KB，句子数为5321句，藏文文本大小630.43KB，句子数为4876句.通过基于长度和锚点信息相结合的算法使汉藏句子的对齐正确率和召回率分别达到90.87%和87.79%.实验结果中491个汉文句子和412个藏文句子对齐不正确.经分析，发生错误的大多数句子是(1∶多)或(多∶1)形式的句珠.发生错误的主要原因可能与汉藏句子的表达方式和语法结构的差异有关系.在今后的研究中将语序、形态变化、表达方式等典型语法规则与句子长度、锚点信息结合起来解决(1∶多)或(多∶1)句珠的对齐问题，进一步提高汉藏句子对齐的正确率.