浅谈新疆多语种智能化研究现状

2014-02-25 10:52张亚军吴晓林贺琛琛
电脑知识与技术 2014年1期
关键词:多语种语料库

张亚军 吴晓林 贺琛琛

摘要:针对新疆地区的多语种发展现状做出介绍,涉及到维哈柯语料库、机器翻译、维吾尔语语音识别等领域,重点介绍新疆多语种智能化研究机构以及各机构的主要研究方向和内容。

关键词:汉维机器翻译;语料库;维吾尔语语音识别;多语种

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)01-0138-03

随着计算机技术的快速发展,不同语言之间翻译不仅仅局限于传统的人工翻译,机器翻译成为研究的重点。机器翻译(machine translation)利用计算机把源语言转变为目标语言的过程,通常指自然语言之间句子和全文的翻译。的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。

我国的机器翻譯研究起步于1957年,是世界上较早开始研究机器翻译的国家之一。目前翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。在新疆地区,官方文件有汉语和维语版,世居民族有13个,日常交流使用的语言最多有汉语、维吾尔语(以下简称维语)、哈萨克语、柯尔克孜语等,占到总人口的90%以上。目前虽然国内对于新疆少数民族语言的机器翻译研究工作起步较晚,但是在吾守尔院士、吐尔根教授等人的带领和指导下,已经取得巨大的进步和丰硕成果。

1 新疆多语种机器翻译发展历程

在20世纪80年代出期,新疆的计算机数量很少,计算机相关操作基本都是使用英语或者少量的汉语,新疆的少数民族对计算机知识的了解和使用几乎是空白。这个阶段,没有维语输入法,甚至维语的32个字母在键盘上的布局也没有成型的标准。这一时期的主要研究人员有新疆大学的吾守尔等人,对维语字母在计算机键盘上的布局等工作进行研究,基本解决了维语字母的布局问题。

进入20世纪90年代之后,随着计算机的普及,研究计算机本地化的人员越来越多,研究主要集中在研究维语字符集编码、字符点阵、如何使计算机DOS系统维语化等问题。该阶段主要以吾守尔和吐尔根为代表,解决维语字符集编码和DOS系统的维语化。

进入21世纪至今,由于世界各国经济交流频繁且计算机开始大量使用,遇到的问题之一就是如何在不同语言之间进行翻译,提高工作效率。由此引发了针对维语-汉语之间人工智能的研究热潮,主要有文字识别、维汉语料库建设、维汉机器翻译、语音识别、语音合成等领域。吾守尔等人研究重点是语音识别、语音合成、嵌入式开发,吐尔根和李晓等人集中研究维汉语料库、数据挖掘和维汉机器翻译等相关问题,田生伟等人研究维语词汇的情感分类问题。

2 主要研究机构和研究内容

目前研究维语-汉语人工智能方面研究机构比较多,主要集中在新疆地区,如新疆大学、新疆理化技术研究所、新疆师范大学等机构开展该领域的研究工作。下面将介绍主要研究机构和该机构的主要研究内容。

2.1新疆大学

新疆大学研究多语种信息处理的学术及学科带头人主要有吾守尔院士和吐尔根教授等人,主要依托新疆多语种信息技术实验室,该实验室汇聚新疆大学计算机科学技术、电子信息、少数民族语言学等相关师资力量,研究的主要内容如下:

2.1.1 多语种信息处理及自动化

在吾守尔院士的带领下,承担国家863计划一项,国家自然科学基金项目7项,针对不同的操作系统平台,结合新疆地区情况,实现新疆本地化多语种处理,早期的研究成果主要有:文献[1]中提出56个标准字符的问题和解决方案,制定维文字字符键位基本一致的通用键盘,且设计出适应于维语的七位编码,讨论计算机处理新疆多语种信息的标准化;新疆少数民族语言的编码制定标准大部分采用了吾守尔院士的研究成果。文献[2]重点介绍在IBM PC/XT计算机上根据维、哈、柯文字书写事关开发出的多语种文字信息处理系统。近期主要研究成果有:基于Linux的维哈柯文操作系统、外挂式维哈柯文Windows操作系统、维哈柯语跨平台输入系统(键盘、手写、印刷体文字扫描识别)、维哈柯文软件标准体系研究及标准制定等。部分科技成果经过转化,形成软件出口至中亚国家,已经产生了社会和经济效益。

除此之外,哈力木拉提教授针对新疆维、哈、柯印刷文档技术进行研究,文献[3]中利用投影技术分离出维语连体段中的字母,通过一系列的切分、分类、提取特征、训练等过程,取得较高的识别率,解决了新疆多语种文字在印刷过程中产生的问题。

2.1.2 自然语言理解(多语种)

该领域由吐尔根教授领军,主要研究人员有地力木拉提、阿里甫、田生伟、艾山·吾买尔 等人,承担国家自然科学基金8项。在20世纪初,开始研究构建维吾尔语-汉语平行语料库,经过不断的收集双语资料、去噪处理,目前该语料库已有数十万规模。文献[4]在直接正字匹配(DOM)的框架下,将统计的思想引入到维汉人名的音译中,采用信源信道模型,将人名看成是特殊的句子,从而提高了音译的准确率。在维语名词词干提取研究中[5]使用基于有限状态自动机和词典查询相结合的维吾尔语名词词干提取算法,继而实现对未登录词的处理获得较高的准确率。在维语文本分类问题上【6】【7】,主要提出基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法和采用词干提取和χ2统计量相结合的方法对表示空间进行降维,并采用SVM算法构造了维吾尔文文本分类器,基本解决维语的文本分类问题。

针对维哈柯语料库方面【8】,重点设计了高效实用的汉维哈柯双语语料库加工系统以及词对齐,该系统具有文档自动对齐、句子对齐以及词语对齐的功能,具有高效、方便、快捷和可扩充等特点。在汉维句子对齐级对齐问题上提出结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算,测试验证效果显著。在此研究基础上,设计开发了汉维双向翻译系统,实现翻译记忆子系统模型,且在记忆库设计中采用维吾尔文和汉文句子以句子精确对齐的方式存储,具有对记忆库进行查找、删除等功能。

2.1.3多语种语音识别

多语种语音识别研究方向主要是由艾斯卡尔·艾木都拉教授负责。依据维吾尔语的特点,对Fujisaki量化模型进行了调整,使其便于分析维语语调, 以及它在通过规则合成F0曲线方面的应用【9】。且对现有的维吾尔语微型语音库的语音数据进行手工切分、标注得出手工词性标注提供的词类信息,然后分析数据库中的维语语句,分析其参数变化的原因。同时构造规则,捕捉语言和说话者相关的特征,实现目标语句生成人工语调曲线,具有较好的实用价值。

音节是维吾尔语的最小发音单元,因此大部分维吾尔语语音合成系统以音节作为基本的合成单元。但维吾尔语中音节数量很大,语料库很难保证覆盖所有的音节样本[10],这会导致合成语音不稳定和不连续。为解决合成语音不稳定的情况,提出了结合单音素和三音素两个不同基元的单元挑选算法。通过在单元挑选模块中加入韵律参数相匹配的方法选出最佳韵律匹配的单元并解决了合成语音不连续的情况。实验结果证实,提出的方法有效地解决了合成语音不稳定和不连续的现象,从而提高了合成语音的自然度。维吾尔语中存在的形同音不同单词(多音词)的正确发音是影响合成系统可懂读的重要原因之一。为解决此类问题,将维吾尔语中经常用错的16个多音词词根作为研究对象,以多音词的不同特点为出发点,采取不同的规则,结合最大熵模型方法来处理不符规则的多音词,同时用似然比方法选取关键词,并用贪婪算法选择最佳特征模板,设计出以音节和音素为最小合成单元的波形拼接式维吾尔语语音合成系统。

在维语语音合成方面重点研究了以32个单音素和以384个双音素作为拼接单元的维吾尔语音合成技术, 建立了由维吾尔语中的单音素、双音素所构成的小规模语音语料库,利用拼接单元挑选算法参数调整算法对拼接单元语音信号的时长、基频和短时能量等特征参数进行调整,用编程语言实现了全过程,验证该技术在小规模语音语料库的维吾尔语音合成技术方案的可行性。在研究过程中遇到维吾尔语中弱化现象及处理问题,重点分析维吾尔语词法结构、音节结构、词干-词缀连接形式等技术。处理弱化问题时,可依据词干库检查弱化属性、语音和谐规律分析是否正确连接。该技术在维语文本检索、词频统计、文本校对等研究领域得到很好的应用。

在维语韵律特征声学问题上,从文本分析模块入手,利用"维吾尔语语音声学参数库",选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语三音节词的韵律节奏模式与三音节词重音之间的关系问题,分别研究了边音在单音节及多音节词中时的以及边音出现在词中位置(词首、词中、词末)时的共振峰、音强和时长分布模式,得出了一系列结论,研究结果在维吾尔语乃至整个阿尔泰语系的韵律研究具有较高的参考价值。

结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,通过HTK工具实现了音素的自动切分算法【11】:首先做文本设计、录音和手动标注等准备工作,设计出上下文属性集,通过训练获得了音素的HMM模型,随后对任意输入的语音句子进行其音素构成部分的自动切分,分析其切分准确度、存在的问题及对策等。经过验证利用此种算法确实提高了维语语音语料库标注信息的一致性和准确性。

2.2新疆科学院理化技术研究所

主要在李晓研究员等人的带领下研究维汉机器翻译领域,主要成果针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验【12】。

在维语词语切分方面提出一种改进的非监督维吾尔语词切分方法。该方法采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,证实该方法在维语切分方面的实用性。

该机构还深入探讨了对汉维/维汉翻译有影响的各种因素,包括词对齐问题,汉维翻译中主语、谓语中心词、时态等的一致性问题,维汉翻译中OOV的问题,汉维句法结构差异问题。同时利用多线程、任务分发的技术开发了一个在线的、高性能的民语言翻译引擎,初步实现了维汉、哈汉、柯汉三种语言间的翻译。翻译引擎具有很好的扩展性,具有翻译词、短语、句子、文件和网页的功能。

2.3新疆师范大学

该机构民文研究工作主要由计算机学院的玉素甫·艾白都拉教授主持,研究成果主要是维语语料库中文件格式转换技术和维语文字校对技术。

玉素甫·艾白都拉教授早期主要研究从MS-DOS系统上排版的书刊、杂志中获得维吾尔语单词,并转换到Windows环境上RTF格式的一种快速解决方法,然后提出维吾尔文字Unicode代码对应的RTF代码表和动态生成维吾尔文RTF文件的简单方法。

近期根據文字校对的现状,提出了维吾尔文文字校对系统的设计思路、设计词库类型和系统功能【13】。根据维吾尔语的自身特征和构词规律设计和实现维吾尔语文本校对系统,具有维语分析、查错、纠正拼写错误等功能。该系统在维语的出版校对系统具有很好实际意义。

3 总结与展望

随着新疆地区对外交流的扩大和经济的快速发展,新疆的汉维机器翻译得到巨大的发展和进步,目前主要研究新疆民文的机构有新疆大学、新疆师范大学和新疆科学院理化技术研究所,汉维(维哈柯)机器翻译、维语语音识别、维语校对系统等已经取得部分研究成果和实用价值。随着社会各界对新疆民语言研究领域的关注和支持,维语的机器翻译、语音识别将对新疆地区的舆情分析和监督带来极大的便利性,同时更加利于新疆各民族之间社会交流,为新疆地区的稳定发展做出一定贡献。

参考文献:

[1] 吾守尔,吾宗尧,苏丹. 计算机维、哈、柯文字信息处理标准化方案[J]. 计算机研究与发展,1986(12):33-38.

[2] 吴宗尧,吾守尔,苏丹. 维、哈、柯、汉、英多种文字信息处理系统[J]. 计算机学报,1987(3):155-165.

[3] 哈力木拉提,阿孜古丽. 多字体印刷维吾尔文字符识别系统的研究与开发[J]. 计算机学报,2004(11):1480-1484.

[4] 谭煜辉,吐尔根·依布拉音,艾山·吾买尔,买合木提·买买提. 基于统计的维文汉文人名音译研究[J]. 新疆大学学报:自然科学版,2012(01):108-111.

[5] 早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,等. 基于混合策略的维吾尔语名词词干提取系统[A]. 中国中文信息学会、新疆大学、内蒙古大学.少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C].中国中文信息学会、新疆大学、内蒙古大学,2010.

[6] 阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,等. 基于SVM的维吾尔文文本分类研究[J]. 计算机工程与科学,2012(12):150-154.

[7] 刘源,吐尔根·依布拉音,阿力木江·艾沙,等. 基于词干的混合策略維吾尔语文本聚类特征选择方法研究[J]. 计算机应用与软件,2012(12):30-32+50.

[8] 艾山·毛力尼亚孜,谭勋,吐尔根·依布拉音,等. 汉维哈柯双语语料库加工系统词对齐技术的研究[J]. 电脑知识与技术,2011(28):6895-6896+6925.

[9] 库尔班·吾布力,艾斯卡尔·艾木都拉. 基于量化模型的维吾尔语调曲线F_0的合成技术研究[A]. 中国中文信息学会民族语言文字信息专委会.民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C].中国中文信息学会民族语言文字信息专委会,2007.

[10] 姑丽加玛丽·麦麦提艾力,艾斯卡尔·肉孜,艾斯卡尔·艾木都拉. 多基元及韵律参数匹配的维吾尔语语音合成方法[J]. 计算机工程与应用,2012(02):116-118.

[11] 阿依木尼萨·胡甫尔,艾斯卡尔·艾木都拉. 面向语音合成的维吾尔语音素自动切分算法研究[J]. 计算机应用与软件,2011(9):18-21.

[12] 董兴华,周俊林,郭树盛,等. 基于短语的汉维/维汉统计机器翻译[J]. 计算机工程,2011(9):16-18+21.

[13] 约尔尼萨·吾不力卡司木,玉素甫·艾白都拉. 基于最小编辑距离和词汇库的维吾尔语文本校对系统的设计与算法实现[J]. 信息与电脑:理论版,2013(6):43-44.

猜你喜欢
多语种语料库
Haun Saussy, The Making of Barbarians: Chinese Literature and Multilingual Asia
青岛市多语种应急语言服务现状与需求调查研究
语联世界,言通天下
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
多语种《中级军事汉语》教材的编写思路与指导思想
基于JAVAEE的维吾尔中介语语料库开发与实现
北美“新清史”研究的基石何在——是多语种史料考辨互证的实证学术还是意识形态化的应时之学?(上)
从英语硕士到法国博士——我的留学规划和多语种学习之路
基于网络语料库的“给力”研究