崔磊 周明
摘 要:统计机器翻译的准确性在很大程度上取决于翻译建模的质量,而翻译建模往往依赖于数据的分布。通常上,大多数机器学习任务会假设训练数据和测试数据是独立同分布的,然而在实际的系统中,这种假设未必成立。因此,为了达到性能的最优,需要根据数据分布的情况对模型进行适当的迁移。近年来,领域自适应技术成为统计机器翻译研究中的一个热点话题,目的在于解决训练数据和测试数据的领域分布不一致问题。本文介绍了几类流行的统计机器翻译领域自适应方法,并对未来的研究提出一些展望。
关键词:统计机器翻译;领域自适应
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2014)06-
Abstract: Statistical Machine Translation (SMT) depends largely on the performance of translation modeling, which further relies on data distribution. Usually, many machine learning tasks assume that the data distributions of training and testing domains are similar. However, this assumption does not hold for real world SMT systems. Therefore, we need to adapt the models according to the data distribution in order to optimize the performance. Recently, domain adaptation is an active topic in SMT and aims to alleviate the domain mismatch between training and testing data. In this paper, we introduce several popular methods in domain adaptation for statistical machine translation and discuss some future work in this area.
Keywords: Statistical Machine Translation; Domain Adaptation
0 引 言
机器翻译又称为自动翻译,是利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的处理过程。这是自然语言处理的一个分支,与计算语言学、自然语言理解之间存在着密不可分的关系。
机器翻译的方法主要可以分为基于规则的机器翻译方法、基于实例的机器翻译方法和基于统计的机器翻译方法。目前,统计机器翻译是非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的双语对照语料进行统计分析,构建统计翻译模型,进而使用此模型完成翻译。随着互联网技术的迅猛发展,人们获取信息的方式也发生了很大变化。互联网上有大量的信息以不同的语言为载体,这为统计机器翻译的研究提供了充足的数据支持。与此同时,随着统计机器翻译研究的深入,其性能及实用性也获得了较大提升,因而机器翻译技术的受众正日渐增多,其应用亦越来越广泛。通常来讲,一个成型的统计机器翻译系统使用了大规模的双语对照语料做训练,而且这些数据却常常来自于不同领域,具体则包括了政治、财经、军事、科技、体育、教育和娱乐等各大门类在内。除此之外,不同领域的语料涵盖了不同的文体,相应地包括着书面文体、口语文体和网络语言等。这种领域和文体的差异性给统计机器翻译的研究将会带来两个问题:其一,使用某一个领域或文体的双语语料训练得到的机器翻译系统在翻译同一领域的文本时效果最佳,而当翻译其他领域的文本时结果则常常不尽如人意,有时的翻译结果甚至不可接受,本文即将这种问题称为“领域间的自适应问题”。其二,使用多领域混合的双语语料训练得到的机器翻译系统的通用性虽然较好,但由于多个领域数据的相互影响以及相互制约,系统在某一特定领域往往无法达到最佳效果,在此则将这种问题称为“领域内的自适应问题”。在统计机器学习领域,已经研发了一些针对领域自适应问题的剞劂方法,但是其中的大部分仅能用于解决简单学习问题(如分类或回归)的计算实现,而对于统计机器翻译这种结构化学习问题,目前的尝试方法还较为有限,也随即成为亟待研究的热点问题之一。
1 统计机器翻译背景
2.1基于数据选择的方法
基于数据选择方法的根本思想在于,选择和目标领域文本“相似”的源领域数据进行模型的训练,但相似度函数需要自行定义,如此即可使训练得到的模型在目标领域的预测能力更好。
Eck等人于2004年提出了基于信息检索的语言模型自适应[3],并将这种方法用于统计机器翻译。实现过程是:通过简单TF-IDF方法,可以使用测试数据的翻译结果重新选择语言模型的训练数据,在此基础上,又通过训练新的语言模型第二次进行翻译解码。Zhao等人于2004相应地也提出了类似的方法[4],具体是将新训练的语言模型和旧的语言模型进行插值,并以其用于第二次翻译解码。
进一步地,Lü等人则于2007年介绍了离线和在线的方法进行数据选择[5],而且也用于统计机器翻译的模型训练。具体地,离线的方法是将训练数据中的每一个双语句对赋以权重,用其表示和测试数据的相似度,同时在训练翻译模型的时候还要考虑不同句对的权重信息。此外,在线的方法就是通过训练一系列提前已经定义的子模型,当对测试数据进行翻译时,即可通过信息检索的方法确定不同子模型的权重,就对不同的子模型进行对数线性插值。
其后,Matsoukas等人又于2009年提出了一种基于判别式模型对训练数据赋权重的方法[6]。这种方法利用一些领域相关的特征对训练数据进行判别式学习以及赋相应权重,并在训练翻译模型时,将利用每个双语句对的权重进行翻译概率的最大似然估计。
近年来较为典型的研究成果当首推Moore和Lewis于2010年的提出基于交叉熵的语言模型数据选择方法[7],该法能够使用更少的数据训练得到更好的语言模型。而基于Moore等人的方法,Axelrod等人更于2011年提出了基于交叉熵的双语数据选择方法[8],并利用选择出的数据训练所有的模型分量(包括语言模型、翻译模型、调序模型等),实验表明这种方法优于Moore等人的方法,而且更重要的是显著提高了口语机器翻译的性能。
2.2基于混合模型的方法
混合模型是统计机器学习理论中的传统实现技术之一[9],利用混合模型进行统计机器翻译的学习主要包括:(1)将训练数据分为几个不同的部分;(2)利于每一部分数据训练一个子模型;(3)根据测试数据的上下文信息适当地为每个子模型调整权重。
已有研究工作中,Foster和Kuhn于2007年提出了基于混合模型的统计机器翻译领域自适应的方法[10],通过对语言模型和翻译模型同时进行了自适应的研究,并相应给出了混合模型的线性插值以及对数线性插值的区别。之后,Foster等人又于2010年利用混合模型提出一种新的针对翻译模型的领域自适应方法[11],这种方法使用细粒度的特征判别式地学习短语表中的短语和目标领域文本的相似度,自适应模型的训练过程更为简单,翻译性能亦取得了重大提升。
在本质上来说,Lü等人于2007年介绍的在线数据选择方法也是一种混合模型,通过对不同短语表中的短语概率进行插值以选择最适合测试数据的具体模型。Banerjee等人则于2011年使用基于混合模型的自适应方法进行在线论坛内容的翻译[12],而且发现语言模型的自适应带来的性能提高将大于翻译模型的自适应,同时,线性插值的效果更是要优于对数线性插值的效果。继而,Koehn等人又分别将领域内和领域外的语言模型和翻译模型加入对数线性模型中[13],并利用最小错误率训练的方法进行参数调整,实验表明,这种方法在多种语言对的翻译中都实现了性能的高度提升。
其他的成果还有,Finch和Sumita于2008年将混合模型引入进基于类别解码的统计机器翻译系统[14]中,此时这种解码方法可针对不同类型的句子(如疑问句和陈述句)采取不同的解码方式,混合模型用于其中则可整合两种解码模型。实验结果表明在一些数据集中混合模型的运用赢得了显著的性能提升。
此外,Sennrich又于2012年提出一种使用最小化混乱度对混合模型进行参数调整的方法[15]。该方法通过构建训练数据(源领域)短语的经验联合分布与测试数据(目标领域)短语的条件分布交叉熵,进而利用最大熵原理(即最小化混乱度)对短语翻译的混合模型实现了参数训练。
除了对翻译模型和语言模型进行的自适应设计,混合模型也可用于词对齐模型的领域自适应研究。具体地,Civera和Juan即于2007年尝试了基于隐马尔科夫模型词对齐方法的混合模型扩展方法[16],该方法反映出某些情况下依据词对齐进行领域自适应的必要性。
2.3自学习为代表的半监督学习方法
近年来,半监督学习方法在统计机器学习领域受到了广泛关注,已有许多的经典算法在统计机器翻译问题中获得了普及应用,其中最为直观的研究思路就是自学习方法,也可称为自训练方法。其基本思想是,通过源领域的双语训练数据得到一个基准翻译系统,以此而对目标领域的单语数据进行翻译,再从翻译候选集合中选择高质量的译文并和源语言句子组合成为双语句对,而且将其加入到训练数据中重新训练翻译系统,该过程将一直迭代到翻译性能稳定为止。
Ueffing即于2006年首度将自训练的思想[17]引入统计机器翻译的研究。接下来,Ueffing等人又利用直推式半监督学习的思想对统计机器翻译问题进行了深入的研究[18,19],并对比了不同的实现细节对于半监督学习在统计机器翻译问题中的具体影响。实验表明,基于半监督学习的统计机器翻译能够很好地实现领域自适应,而且显著地提高目标领域翻译的准确性。在Ueffing等人引入统计机器翻译的自训练方法之后,与其类似的很多想法也逐渐由研究人员接受并采纳。Wu等人于2008年使用目标领域的单语数据和领域词典进行统计机器翻译的半监督学习[20],其中领域词典的作用则可由文献[21]进一步印证。近年来,还有很多工作[22-24]是基于自训练的半监督学习方法,只是由于篇幅原因,此处将不一一赘述。
2.4基于话题模型的方法
在机器学习和自然语言处理问题中,话题模型是指能够在文档集合中发现抽象话题的一种统计模型。目前较为常用的话题模型方法主要有概率隐含语义分析[25]和隐含狄利克雷分配[26]两种,其他的话题模型方法均大都从以上两种方法发展演化而来,而且隐含狄利克雷分配也是概率隐含语义分析的进化方法,并且方法中允许文档可成为多个话题的混合。
Zhao和Xing于2006年第一次将话题模型引入统计机器翻译的研究[27],通过使用双语话题混合模型对词汇翻译概率进行估计,这样就提高了词对齐的准确性,而且也提升了机器翻译的性能。接下来,这一研究二人组又于2007年结合了隐马尔可夫模型和双语话题混合模型的优点,再次提出了隐马尔可夫双语话题混合模型[28],由此而进一步提高了词对齐和翻译的性能。
本质上,Zhao和Xing的研究就是估计基于话题的词汇翻译模型,即 ,其中表示话题,和表示源语言和目标语言的词汇。而与Zhao和Xing有所不同的是,Tam等人于2007年提出一种基于双语隐含语义分析的自适应方法[29],这种方法对于双语数据分别建模,即和,并将双语的话题进行逐一对应,而通过该种方法对语言模型和翻译模型进行的领域自适应实现,也已取得了良好的验证效果。
在以上研究成果问世后,Su等人更于2012年利用目标领域单语文本的话题信息对翻译模型进行了领域自适应研究[30],Xiao等人则通过构建层次短语翻译规则的话题信息模型[31],并在解码过程中创建话题相似度而进行了层次短语规则的选取,这两种方案均将话题信息融合在翻译解码的过程中,而且也都取得了对于统计机器翻译的性能提高具有明确助益的出众效果。
3 结束语
目前统计机器翻译的领域自适应研究方法多种多样,但每一种方法均有各自的特点与侧重,现在可通过三个视角对其进行技术分类,具体描述如下:
(1)系统模块:包括语言模型的自适应、翻译模型的自适应、调序模型的自适应等;
(2)可利用的资源:利用目标领域的单语数据(源语言或目标语言)、双语数据、领域词典等;
(3)领域自适应的方法:使用数据选择的方法、混合模型的方法、自训练的方法、话题模型等。
迄今为止,针对统计机器翻译的双语数据挖掘工作基本上是面向通用领域的,即不对领域进行细分。日后随着行业数据的细分,将能够针对不同领域进行更具目的性的数据挖掘工作。并且,有鉴于目前数据选择针对领域类型的粒度较大,未来则期待能够设计出细粒度的数据选择方法以对领域自适应的研究提供进一步帮助。除此之外,深度学习已经成为近年来机器学习领域发展最为迅速的实用技术之一,在很多自然语言处理应用上取得了突破性的进展,只是利用深度学习进行统计机器翻译领域自适应的工作依然较少,因而也仍是一个值得尝试与努力的研究方向。
参考文献:
[1] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 22(1): 39–71.
[2] OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, 2002: 295–302.
[3] ECK M, VOGEL S, WAIBEL A. Language model adaptation for statistical machine translation based on information retrieval[C]//Proceedings of the International Conference on Language Resources and Evaluation (LREC). Lisbon, Portugal: ELRA, 2004: 327–330.
[4] ZHAO B, ECK M, VOGEL S. Language model adaptation for statistical machine translation via structured query models[C]//Proceedings of Coling 2004. Geneva, Switzerland: COLING, 2004: 411–417.
[5] Lü Y, HUANG J, LIU Q. Improving statistical machine translation performance by training data selection and optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). Prague, Czech Republic: Association for Computational Linguistics, 2007: 343–350.
[6] MATSOUKAS S, ROSTI A V I, ZHANG B. Discriminative corpus weight estimation for machine translation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 708–717.
[7] MOORE R C, LEWIS W. Intelligent selection of language model training data[C]// Proceedings of the ACL 2010 Conference Short Papers. Uppsala, Sweden: Association for Computational Linguistics, 2010: 220–224.
[8] AXELROD A, HE X, GAO J. Domain adaptation via pseudo in-domain data selection[C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK.: Association for Computational Linguistics, 2011: 355–362.
[9] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction[M]. Springer Series in Statistics. New York, USA: Springer, 2009.
[10] FOSTER G, KUHN R. Mixture-model adaptation for SMT[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 128–135.
[11] FOSTER G, GOUTTE C, KUHN R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Cambridge, MA: Association for Computational Linguistics, 2010: 451–459.
[12] BANERJEE P, NASKAR S, ROTURIER J, et al. Domain adaptation in statistical machine translation of user-forum data using component-level mixture modelling[J]. Proceedings of the 13th Machine Translation Summit, 2011: 285–292.
[13] KOEHN P, SCHROEDER J. Experiments in domain adaptation for statistical machine translation[C]// Proceedings of the SecondWorkshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 224–227.
[14] FINCH A, SUMITA E. Dynamic model interpolation for statistical machine translation[C]// Proceedings of the Third Workshop on Statistical Machine Translation. Columbus, Ohio: Association for Computational Linguistics, 2008: 208–215.
[15] SENNRICH R. Perplexity minimization for translation model domain adaptation in statistical machine translation[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France: Association for Computational Linguistics, 2012: 539–549.
[16] CIVERA J, JUAN A. Domain adaptation in statistical machine translation with mixture modelling[C]// Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 177–180.
[17] UEFFING N. Using monolingual source-language data to improve MT performance[C]//Proceedings of the InternationalWorkshop on Spoken Language Translation. Kyoto, Japan: IWSLT, 2006: 174–181.
[18] UEFFING N, HAFFARI G, SARKAR A. Transductive learning for statistical machine translation[C]// Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic: Association for Computational Linguistics, 2007: 25–32.
[19] UEFFING N, HAFFARI G, SARKAR A. Semi-supervised model adaptation for statistical machine translation[J]. Machine Translation, 2007, 21: 77-94.
[20] WU H, WANG H, ZONG C. Domain adaptation for statistical machine translation with domain dictionary and monolingual corpora[C]. Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, 2008: 993–1000.
[21] DAUMé III H, JAGARLAMUDI J. Domain adaptation for machine translation by mining unseen words[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics, 2011: 407–412.
[22] SCHWENK H. Investigations on large-scale lightly-supervised training for statistical machine translation[C]// Proceedings of the International Workshop on Spoken Language Translation. Hawaii, USA: IWSLT, 2008: 182–189.
[23] BERTOLDI N, FEDERICO M. Domain adaptation for statistical machine translation with monolingual resources[C]//Proceedings of the Fourth Workshop on Statistical Machine Translation. Athens, Greece: Association for Computational Linguistics, 2009: 182–189.
[24] LAMBERT P, SCHWENK H, SERVAN C, et al. Investigations on translation model adaptation using Monolingual data[C]// Proceedings of the Sixth Workshop on Statistical Machine Translation. Edinburgh, Scotland: Association for Computational Linguistics, 2011: 284–293.
[25] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. 1999. New York, NY, USA: ACM, SIGIR 99.
[26] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal Machine Learning Research, 2003, 3: 993–1022.
[27] ZHAO B, XING E P. BiTAM: Bilingual topic admixture models for word alignment[C]// Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia: Association for Computational Linguistics, 2006: 969–976.
[28] Zhao B, Xing E P. HM-BiTAM: Bilingual Topic Exploration, Word Alignment, and Translation[M]. . Platt J, Koller D, Singer Y, et al. Advances in Neural Information Processing Systems 20. Cambridge, MA: MIT Press, 2008: 1689–1696.
[29] TAM YC, LANE I, SCHULTZ T. Bilingual LSA-based adaptation for statistical machine translation[J]. Machine Translation, 2007, 21(4): 187–207.
[30] SU J, WU H, WANG H, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Jeju, Korea: Association for Computational Linguistics, 2012: 459–468.
[31] XIAO X, XIONG D, ZHANG M, et al. A topic similarity model for hierarchical phrase-based translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Jeju, Korea: Association for Computational Linguistics, 2012: 750–758.