达瓦伊德木草艾山吾买尔
(1.新疆大学 信息科学与工程学院;2.新疆大学 多语言技术重点实验室)
新疆有13个民族,70%以上的少数民族群众居住在远离大城市的边远地区.很多地方自然条件恶劣,生产力薄弱,经济建设缓慢,民众的患病率也比较高[1,2],医疗卫生服务条件有限.
目前,新疆大多数城市医院门诊基本用汉文处方、药物和医疗设备的说明书基本用汉字.这对少数民族群众看病求医,正确理解病名病情病状,安全用药,放心使用医疗器件等方面带来不少语言障碍甚至担忧.
另一方面,有不少的少数民族民众带着地方医院民文病历来到城市大医院求医,汉语医者难以参考患者病历信息,重复多次的门诊检查对医患者双方带来不同程度的压力和负担.为此,借助于现有先进技术,通过机器自动翻译和辅助翻译手段是解决这类问题的最有效而可行的途径.近年来机器翻译技术取得很大的突破,特别是统计翻译技术,使得借助于计算机的机器翻译质量有了很大的提高.相对于普通文本,医学用语具有以下特点:
(1)医疗卫生用语具有很强的领域特性,具有固定形式的医学,药物术语;
(2)医学术语格式比较固定,医文语法要求不是那么严格;
(3)人命关天,要求高精度保障医药用词术语的正确性及完整性;
(4)翻译的语言种类多,因此医疗卫生用文翻译需要实现不同语言之间的翻译.如果对于每种语言翻译方向都建立一个翻译系统则需要大量的开发成本.因此,使用与语言无关的翻译技术是比较合理的选择.
为此,为了帮助医患者准确传递看病治病信息,使少数民族患者便于阅读理解药品及医疗器件说明书,本研究提出研制医疗卫生专业术语多语种平行实例句对语料(实例库),合并与基于短语的统计机器翻译技术实现汉民医疗卫生用文翻译方案,研讨高精度多语种医疗卫生用文自动翻译系统.本系统的开发应用,对提升新疆公共卫生服务能力以及便民稳疆有着重大的实际意义.
目前,基于计算机的机器翻译技术分为基于规则的翻译方法RBMT(Rule-based Machine Translation),基于实例的翻译EBTM(Example-Based Machine Translation)以及基于大型语料库和统计技术的机器翻译方法SBMT(StatisticsBased Machine Translation)等三种方法[3,4,5].
RBMT方法只能按已知的语言学规则翻译有限的、语法规则较严密的文本,一般对于千变万化的自然语言一一描述其规则是较难的,所以采取混合策略的翻译方式较多见.EBMT翻译方法也是一种基于语料的方法.使用预处理过的双语例句集作为主要翻译资源,通过编辑与待翻译句子匹配的翻译实例来生成译文.在EBMT翻译系统中,翻译实例选择及译文选择对系统性能影响较大[6].SBMT翻译方法,尤其是现流行的基于Moses开源软件的短语统计翻译方法PBSMT(Phrase-based SMT),从双语平行语料中自动学习生成统计翻译模型库,不需要任何语言学知识,语法规则及实例模板,只要平行语料足够大对任何一个语言可以扩展引用[7].
但是,SBMT技术由于所包含的句语法成分较低,对于法语和英语那样句语法关系较相近的语言(比如英语句法主谓语结构为S+V+O)实施翻译其译文精度较高,而对于中文和民文那样句语法关系几乎相反的语言(比如中文S+V+O,而民文S+O+V),其译文精度低下[8,9].
医疗卫生用文关乎人命,对于系统译文质量要求极高,要保障医学用语、病情、病状及用药信息的绝对正确性.因此,对于不同句语法关系的汉-民语言医疗用文的机器翻译采取单一翻译方法难以保障较高的译文质量.为此本文提出,首先人工研制医疗卫生常用术语多语平行实例句对语料库,通过编辑与待翻译句子匹配的翻译实例来生成译文句子、再把该译文句子输入Moses软件实施同一个语种(如民对民)的PBSMT机器翻译,从而提高最终译文质量的翻译方案.
文献[3,4]报告了基于规则翻译和统计机器翻译组合的日英专利文献的翻译实验.这也是一种特定领域混合策略翻译方法.该方法先用SBMT翻译,然后对译文进行规则修整(后编辑方法),从而提高了译文BLEU得分值.文献[10]研讨了RBMT+SMT方法,仅对医院门诊药物处方日英表格词条进行翻译.很多研究结果都显示对于语法结构不同的语言,采取不同翻译技术的组合翻译有望提升译文质量[11,12].
在EBMT中,对齐的双语语料库是最重要的知识资源之一.本研究基于短语的统计翻译尽可能地吸收原语言和目标语言句语法的一致性,对专业用词互译的正确性及缓解统计翻译局部性语言模型问题,实施EBMT+SMT合并方式的两层翻译技术.EBMT很重要的一项工作就是构建知识库,其中,包括构建对齐的实例库、双语词典和语义词典.
与新疆医科大学医务工作者和学生协作收集整理多科患者一手病历及常用药物使用说明书汉语句子文献10万条,句子平均词长为16个字.其次,利用中科院计算所研发的ICTCLAS汉语分词系统对汉语句进行自动分词,人工检查,按词长排序生成以词为单位的汉语片段句子.再聘请维哈语言翻译专家对每条汉语片段句子经人工翻译添加民文,标注双语片段对应序号生成双语实例库.实例库中民文句子部分按空格区分用ASCII码拉丁文字形式存储.
在实例翻译中语义词典也是不可或缺的重要知识源.在这里引入实例翻译的创始人长尾真教授的例子:例如(a)He eats potatoes是待翻译的句子,同时,假定实例库中有如下的实例:(b)A man eats vegetables,(c)Acid eats Metal.实例(b)和(c)从形式上看都可以和(a)匹配,但是结果只能选择(b),而不是(c).这一选择有赖于语义词典.通过语义词典可以判断He能取代“A man”,不能取代“Acid”,同样,“potato”和“vegetables”间的语义比“potato”与“metal”间的语义更相似.
利用本研究研制双语实例库,参照汉民句子片段及对应序号切分生成语义词典.再借助于汉民语词性标注词典生成语义词典(包含65万条词汇).
本研究与新疆卫生厅卫生出版社协作研制了6万条词汇的面向医疗卫生用语并词性标注的汉民电子词典.用来生成上述语义词典之外,还可以对不能够在实例库中获得翻译的片段查找对应词条实施翻译.
本研究除了建设上述双语语料之外,与自治区多语言重点实验室协作建设了汉-民语言(维哈蒙)平行文本语料及单民文多领域文本语料[13],用来生成统计翻译模板和语言模型.
图1以一段汉语句子的翻译为例,给出系统的主要翻译流程.对于一段待翻译汉语句子,该系统翻译工作原理如下:
首先通过记忆库管理模块对待翻译句子查找翻译记忆库,如果(yes)已经存在翻译结果,
直接返回,并记录其结果:否则,系统调用切分工具做汉语分词,并对分词结果进行后处理.
实例检索:对于预处理后的待翻译句子,系统参照实例库,按句子片段顺序,采取基于向量空间模型的余玄相似算法进行匹配计算获取最相近的片段及对应的民语翻译片段,再借助于语义词典和双语词典按民语SOV规则组合调整片段顺序输出民语句子[14].本系统选择多个候选民语句子并按相似度从高到低排序输出.获得相似度sim的数理模型如下公式(1):
其中,w(pos(i)是相应词的词性,wL(i)为词长.而句子匹配值用公式(2)获龋 即
这里,w(i)和e(i)分别是待翻译片段和实例片段.
图1 系统逻辑流程图
PBSMT翻译:对于实例翻译输出的若干个候选民语句子,作为GIZA++训练工具training-phrase-model.perl的输入,训练短语对齐表(Phrase Table).同时,引用解码器Moses,协助于双语翻译模型和民语语言模型实施统计翻译,输出若干个(民语)译文句子.
对于PBSMT若干个输出译文,用户可以人工方式挑选最为合适的翻译句子结果.
本研究在国家自然科学基金(61163030)的资助下,配合医疗卫生工作者及翻译专家研制三套语料资源;一是收集整理医学用语汉语短句语料10万条,再进行人工翻译增加民语(维哈蒙)生成医学用语汉-民平行句对集(样本见表1);二是研制了7万个词汇的汉民医学词典(样本见表2);三是统计模板训练语料,见表3、4.
表1 本研究研发汉-民医学用语实例句子片段对齐标注
表2 多语言医学辞典
表3 本研究开发汉-民门诊用语会话平行语料
表4 本次实验使用语料规模
本次翻译实验解码器参数设定为如表5所示.在训练集上运行了GIZA++得到双向的单词对齐信息,并使用启发式的方法“grow-diag-final”改善单词对齐结果;利用单词对齐信息自动抽取短语表.用开源软件SRILM训练获取语言模型;通过开发集上使用最小错误率训练法得到特征的权重.由于该解码器部分实施对民-民的翻译,输入输出文语序一致,distortion-limit取值选取6,而实施基线测试(汉-民翻译)时设定为-1.
表5 Moses参数设定
5.3BLEU尺度:互译文常用自动评测工具为BLEU值.它据N-gram匹配率由式(3)表示,
其中,C为MT译句长度,r为参考译句中最近译句长度.
考虑到本次实验语料有限,另外,由于BLEU和NIST值评估:①BLEU值基本上不反应译文和参考文语序;②同义词的N-gram表现不同值;③民文词根连接功能词不能够反应到Ngram中;④参考译文越多,出现的Ngram个数越多,BLEU值越提高等缺陷.所以,在本次试验结果的评估中,我们除了BLEU和NIST尺度评估实验结果之外,还引用MT译文句与参考译文句的余弦相似度量sim值考察了实验结果.
设有两个n和m维向量A和B,如公式(4)所示,两个向量的相似性由公式(5)获取.当两个向量A和B相同,即A和B完全相似;当两个向量A和B完全不相同,即A和B无相关性;用在[0,1]之间的取值度量两个向量A和B的相关程度[10].
汉民文实验数据的预处理,首先对维哈蒙文句子进行拉丁文字转写及小写化处理.然后对中文语料进行词切分处理,其中出现的全角字符,比如“123ABC”,转换为对应的半角字符“123ABC”处理.
本次实验只尝试了汉-维和维-汉语言处方文本双向翻译实验.表6给出了汉-维文按句子翻译的结果.表6中基线(Moses)结果为单用Moses解码器实施常用短语统计翻译(SMT),EBMT为单用实例翻译,而EBMT+SMT为提案方法的翻译结果.sim值为每个测试句对应3个参考译文的平均相似度.sim的取值范围为(0-1).当译文句与参考句完全一致时,sim取值为1,完全不相关时取值为0.否则取0到1之间值.
从表6可以看到,在汉-维或维-汉双向翻译结果中,提案方法实验结果EBMT+SMT值明显高于其他方法取值.尤其是维-汉方向翻译结果明显好于汉-维翻译结果.
从表6可见,基于实例译句集混合统计翻译策略相比于单一用方法(维-汉方向基线值分别为0.2654,7.323,0.682)可以提升翻译质量(最好译值为0.3132,7.731,0.823).说明,在SMT前引入实例方法在一定程度上吸了原语言和目标语言的句语法关系,扩大了专用词汇选取范围,有助于提升统计翻译的译文质量.另外,从翻译实例值可以看到,提案方法实测结果均好于单一方法,而且句词数较短时,sim值更接近实际值.
表6 实验结果
医疗卫生用语数据,尤其是汉-民多语言医学用语数据资源的收集整理,人工翻译以及预处理等先行研究工作刚刚起步,估计一定程度上影响了本次实验结果.
由于实验数据准备有限,在本次试验中我们只给出了汉-维语双向翻译结果.医疗卫生用语多语言资源的完善,系统对多语言翻译的实测是今后工作的重点.