才让加
(青海师范大学 计算机学院 青海师范大学 藏文信息处理省部共建教育部重点实验室 青海省藏文信息研究中心,青海 西宁 810008)
近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多学者的认可。特别是双语语料库(Bilingual Corpus,即包含两种语言互译文本的语料库),已经成为机器翻译、翻译知识获取、数据挖掘以及双语词典编纂研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,基于统计(Statistic-Based)和基于实例(Txample-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路和方法,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索,翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。
由于诸多因素的制约,我国藏区经济发展缓慢,教育相对滞后,现代科技教育尤为薄弱。因此,通过对藏文信息处理理论和技术的研究,建设大规模的藏文分词标注语料库和藏汉句子对齐语料库,为基于语料库的汉藏机器翻译研究提供重要的语言数据资源。此外,通过这些资源建设和研究成果为藏文化的传承与发扬提供现代信息技术的强大支持,促进藏区科学技术进步,对藏区社会经济发展有着十分重要的现实意义和深远的历史意义。
语言信息处理技术作为新一代知识工程处理的核心支撑技术,引起了各国政府的高度重视。因此,通过对藏文自动分析和汉藏语言对比分析的研究,为进一步研究藏文信息处理技术奠定坚实的基础,对带动藏文信息处理的发展和拓展新领域具有重要的意义,而且对国内其他少数民族开展相关研究具有重要的参考价值。然而,大规模双语语料库的获取并不容易,虽然近年来各国政府和研究机构都投入了大量的人力和财力来加强双语语料库的建设,但是目前国内外还没有建立一个直接可以应用的汉藏双语语料库,也没有相关的处理技术方面的研究,远远不能满足处理真实文本的实际需要。因此,研究有效的大规模汉藏双语资源库构建及翻译知识自动获取技术对于推进机器翻译、跨语言信息检索等研究的实用化具有重要的意义。
双语语料库的建设和应用研究得到了国内外研究者的广泛重视。美国著名的语言资源联盟(Linguistic Data Consortium,LDC)已经收集了为数不少的大规模双语语料库。如加拿大的议会会议录(Canadian Hansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的。在汉外双语语料库方面,香港立法委员会的会议录(HongKong Hansards),香港法律(HongKong Laws),香港新闻(HongKong News),新华社新闻(Xinhua News)等是国际上广为应用的汉英双语语料库。可以看到,这些语料库主要集中在政府文件和新闻法律等特殊领域。双语语料库的这种领域不平衡性在一定程度上限制了相关研究在面向真实文本时的实际应用水平[1-5]。
虽然国内在双语语料库建设方面起步较晚,但是近年来相关研究得到了国家和许多研究机构的重视,取得了比较可观的进展。如北京大学计算语言学研究所在国家863课题的支持下开发了服务于新闻领域机器翻译的Babel汉英双语语料库。Babel语料库历时约两年时间实现了20万句子对齐(Sentence Alignment)的汉英双语语料库的采集和标注[6]。中国科学院计算技术研究所和中国科学院自动化研究所也在国家973课题的支持下联合开发了20万句子对齐的汉英双语语料库[7-8]。这是目前报道的具有详细标注规范、规模最大的两个双语语料库。其他规模较大的双语语料库包括中国科学院自动化研究所开发的14万句对齐的汉英双语语料库;哈尔滨工业大学的10万句对齐的汉英双语语料库,哈工大—微软机器翻译联合实验室开发的6万句对的词汇对齐(Word Alignment)的汉英双语语料库等[9-10]。此外,中国科学院软件研究所、清华大学、东北大学、南京师范大学、国家语委等单位也相继建设了一定规模的汉英双语语料库[11-13]。北京大学还建立了两万句对的汉日双语句对齐语料库,哈尔滨工业大学建立了5万句对面向奥运的中日英三语语料库。对于少数民族语言与汉语双语语料库的报道还不多见,新疆大学建立了20万句对汉维双语语料库和20万条汉维双语短语库,内蒙古大学也在汉蒙双语语料库研究方面进行了非常有效的研究[13-15]。2004年,在中国中文信息学会发起下成立了中文语言资源联盟(ChineseLDC),目前Chinese-LDC已经收集了上述部分双语语料库为国内外研究者所共享,为推进中文语言资源的建设和应用提供了有效的模式和途径。
目前关于国内双语语料库的建设和研究主要侧重汉外双语语料库的建设以及对齐加工和标注,多级自动对齐技术以及双语平行语料库在机器翻译和翻译知识获取等方面的应用技术,而对大规模少数民族语言和汉语双语语料库的建设和处理技术的研究工作却关注较少。目前汉藏双语语料库的来源主要是政府文件、电子版书籍、报刊、中小学教材和来源于互联网上的双语文本,而在汉藏语料库的建设和处理上大多依赖于人工方式[16]。这种原始语料库的获取方式大大限制了汉藏双语语料库的建设效率,不但制约了汉藏双语语料库的规模,而且处理方法和技术落后,更是难以达到时效性的要求。各研究单位的中小规模重复建设也消耗了大量的人力、物力和财力。因此,研究高效的、支持大规模、多领域、可持续发展的汉藏双语资源库建设方法和技术对于减轻人工搜集双语语料库的困难,推动相关研究发展具有重要的实际意义。
近几年来,面向机器翻译的少数民族语言知识资源获取的研究开始引起研究者的关注。目前面向汉—民(少数民族)机器翻译方面,新疆大学进行了面向汉维机器翻译的双语对齐语料库构建技术和汉维机器翻译的双语对齐短语库构建技术的研究,在研究制定汉维双语语料文本收集整理与加工规范的基础上;从各种渠道(主要是: 政府报告、白皮书、科技文献、学术论文、政治专著、法律文献等)收集整理汉维双语语料,对收集到的原始语料进行系统的整理(文件层次、格式层次、标记层次、);并对限定领域汉维双语篇章级、段落级、句子级、短语级等多级自动对齐技术进行研究,以及对整理后的语料进行加工,调查语料的构成,统计语料规模,双语语料库的相关集列和呈现平台的技术以及汉维双语短语库中的汉语短语描述方法进行了研究,构建了具有统一标准和规范的大规模、多体裁、篇章级、段落级、句子级等多级对齐的面向汉维机器翻译的汉维双语对齐语料库以及面向汉维机器翻译的汉维双语对齐短语库,开发完成了基于词典的汉语与维吾尔语词对齐技术以及汉语与维吾尔语句对齐技术[17-19]。目前还没有见到有关系统的、经过深度加工的、以汉语或少数民族语言为源语言的汉—民(少数民族语言)或民—汉双语语料库的报道。
目前已有的藏语语料库五花八门,其主要原因是几十年来藏文计算机编码的不统一,要解决这个问题就需要对已有的藏语原始语料库进行整理,这与汉文语料库的加工相比较就多了一个环节。目前已有的藏语原始语料库按编码的不同可划分为: 方正语料库、华光语料库、班智达语料库、同元语料库、桑布札1.0语料库、桑布札2.0语料库、藏文编码字符集扩充集语料库、ACIP拉丁转写语料库、ALA-LC拉丁转写语料库、LTibetan语料库、TCRC Bod-Yig语料库、THDL拉丁转写语料库、Tibetan Machine语料库、 Tibetan Machine Wed语料库、Unicode语料库、Wylie拉丁转写语料库等[20],将以上编码的藏语语料库统一到同一编码下就是一个很大的工程,通过藏文编码自动识别与转换技术,可以对以上的各类语料库之间的编码进行相互转换和自动识别。具体研究12种主要藏文编码的识别和转换技术,实现12种编码自动转换为统一的编码(即《ISO10646 信息交换用藏字编码字符集(基本集)》、GB16959—1997《信息技术 信息交换用藏文编码字符集 基本集》)。
构建汉—藏(藏—汉)双语对齐语料库的主要目标是为汉藏机器翻译系统提供可用的资源和服务。在研究和制定汉藏双语语料文本收集整理与加工规范的基础上,首先把各种渠道(主要是: 政府报告、白皮书、科技文献、学术论文、政治专著、法律文献等)收集的汉藏双语语料转换为统一的编码格式;其次对机器自动加工高质量的生语料库技术进行研究,也就是对已完成编码转换的语料进行机器自动过滤(即过滤各种排版符号、藏文语料库不需要的符号和一些乱码等)技术的研究;然后对整理完成后的汉藏语料进行进行文件层次、格式层次、标记层次等方面的研究[21];最后对整理后的语料进行加工,调查语料的构成,统计语料规模以及双语语料库的相关集列和呈现平台的技术进行研究。
句子对齐,即找出源文句子在译文中的对应翻译句子。由于句子的粒度小于段落的粒度,因此对齐的句子能够比对齐的段落提供更细微的对译信息,它可以用于双语词典编纂、机器翻译系统验证、翻译信息自动获取等多种自然语言处理领域。同时,句子对齐也常常是进行下一步细粒度对齐的必要前提,具有十分重要的使用价值,进行句子对齐是使双语库走向实用化的必要和重要步骤。具体对整理完成的汉藏双语语料库进行篇章级、段落级和句子级多级自动对齐技术的研究。
对于许多基于双语语料库的应用(如机器翻译、词典编纂、词义排歧等)来说,双语语料库仅有句子级别的对齐是不够的,必须进一步做到词汇级别的对齐,即找出源文和译文间词汇级的对应翻译关系。然而,由于种种原因,相对于段落对齐和句子对齐等大粒度的对齐而言,词汇对齐更复杂、难度更大。利用现有的汉文分词技术和藏文分词技术,研究汉藏互译片断中词语的对应关系和从汉藏双语语料库中自动抽取一部汉藏双语词典的方法和技术。根据从语料库中抽出的双语词典进行互译文本词语对齐技术研究。
根据以上技术建立一个面向汉藏(藏汉)机器翻译的句子对齐的大规模双语语料库。
希望通过研究汉藏平行语料库句子对齐和词语对齐关键技术的研究,建立一个面向汉藏机器翻译的双语语料库和翻译知识获取平台,该平台能够实现:
• 多粒度汉藏双语语料库及翻译知识的自动获取;
• 大规模汉藏双语语料库及翻译知识的自动获取;
在该平台的支持下,构建具有统一标准和规范的大规模、多体裁、篇章级、段落级、句子级和词语级等多级对齐的面向汉藏机器翻译的汉藏双语对齐语料库,在此基础上继续对汉藏双语原始语料进行收集、整理和加工,为机器翻译及多语言处理研究提供有效的技术和资源支持。
以上研究为汉藏双语语料库的构建提出了新的思路,对汉藏双语资源和翻译知识的获取具有可行性和重要价值。但是,目前在汉藏双语语料库获取方面还存在着严重不足,需要进一步的研究和探索。一是从知识挖掘的深度和广度上,现有研究不能满足藏区社会发展的需要。二是所获取的汉藏双语文本零乱,不能直接应用于机器翻译和翻译知识获取。三是在汉藏双语资源的处理和构建上,目前还没有一个实验性系统。通过对这些方面的深入研究无疑对面向汉藏机器翻译、知识获取、跨语言研究、词典编纂等方面具有重要价值。
[1] Fei Huang, Ying Zhang, Stephan Vogel. Mining Key Phrase Translations from Web Corpora[C]//The Proceedings of the HLT-TMNLP-2005: 483-490.
[2] Dekai WU, Pascale FUNG. Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora[C]//Second International Joint Conference on Natural Language Processing (IJCNLP-2005): 257-268.
[3] Gaolin Fang, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining[C]//Second International Joint Conference on Natural Language Processing (IJCNLP-2005): 1004-1016.
[4] 揭春雨,刘晓月,冼景炬,等. 从网络获取香港法律双语语料库[C]//全国第八届计算语言学联合学术会议(JSCL-2005): 193-199.
[5] Zhang, Y., Vines. Using the Web for Automated Translation Txtraction in Cross-Language Information Retrieval[C]//Proceedings of SIGIR-2004: 162-169.
[6] 常宝宝,詹卫东,张化瑞. 面向汉英机器翻译的双语语料库的建设及其管理[J].术语标准化与信息技术,2003,(1): 28-31.
[7] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, et al. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora[C]//Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[8] Pu-Jen Cheng, Jei-Wen Teng, Ruei-Cheng Chen, et al. Translating Unknown Queries with Web Corpora for Cross-Language Information Retrieval[C]//The Proceedings of the SIGIR-2004.
[9] 原双庆,李芳,盛焕烨. 多语种翻译词汇的在线自动抽取[J]. 计算机研究与发展, 2004,(5): 843-847.
[10] Philip Resnik, Noah A. Smith. The Web as a Parallel Corpus[J]. Computational Linguistics, 2003, 29(3): 349-380.
[11] W. Kraaij, J.-Y. Nie, M. Simard. Tmbedding Web-based Statistical Translation Models in Cross-Language Information Retrieval[J]. Computational Linguistics, 2003, 29(3): 381-419.
[12] 刘非凡,赵军,徐波. 大规模非限定领域汉英双语语料库建设及句子对齐研究[C]//全国第7届计算语言学联合学术会议, 2003: 339-345.
[13] 孙茂松,陈群秀.语言计算与基于内容的文本处理[M],清华大学出版社,2003,7,97-102.
[14] 淑琴,那顺乌日图. 面向TBMT系统的汉蒙双语语料库的构建[C]//少数民族语言信息技术研究进展-中国少数民族语言信息技术与语言资源库建设学术研讨会论文集,北京,2004,4,156-163.
[15] 那顺乌日图,淑琴. 面向信息处理的蒙古语规范化研究[J].中央民族大学学报,2007,34(6): 115-122.
[16] 才让加. 藏语语料库词类描述方法研究[J]. 计算机工程与应用,2011,47(4): 146-148.
[17] 阿比达·吾买尔,吐尔根·依布拉音.维吾尔语句子边界识别算法的设计与实现[J].新疆大学学报,2008,(3): 360-363.
[18] 田生伟,吐尔根·依布拉音. TBMT中加权的维吾尔语单词哈希表构造算法的研究[J]. 中文信息学报,2009,23(4):121-128.
[19] 田生伟,吐尔根·依布拉音,禹龙,等. 一种维吾尔语句子相似度算法的研究[J]. 计算机工程与应用, 2009,45(26):144-146.
[20] 才让加. 藏语语料库加工方法研究[J]. 计算机工程与应用,2011,47(6): 142-143,150.
[21] 才让加. 藏语语料库词语分类体系及标记集研究[J],中文信息学报,2009,23(4): 107-112.
[22] Jisong Chen, Rowena Chau. Chung-Hsing Yeh: Discovering Parallel Text from the World Wide Web[C]//ACSW Frontiers 2004: 157-161.
[23] Yajuan L, Ming Zhou. Collocation Translation Acquisition Using Monolingual Corpora[C]//42nd Annual Meeting of the Association for Computational Linguistics (ACL), Barcelona, Spain, 2004: 167-174.
[24] Donghui Feng, Yajuan L, Ming Zhou. A New Approach for Tnglish-Chinese Named Tntity Alignment[C]//International Conference on Tmpirical Methods in Natural Language Processing (TMNLP), 2004: 372-379.
[25] 薛松. 汉英平行语料库中名词短语对齐算法的研究[D]. 中国科学院软件研究所硕士论文,2003,6: 17-32.
[26] 常宝宝,柏晓静. 北京大学汉英双语平行语料库标记规范[J].汉语语言与计算学报,2003, 13(2): 195-214.
[27] 艾山,吐尔根·依布拉音.英文维文人名机器翻译算法的研究和实现[J].新疆大学学报(自然科学版),2007,24(1):97-101.