阿布都哈力力·阿布都热依木+卿松+张建业+张超+塔拉甫·加盘
摘要:为了提高汉-维电费自助缴费终端准确率,给出了基于Moses算法的汉-维翻译方法,并在此提出上设计了电费自助缴费终端。该终端系统对给予的维吾尔文字资料进行词法分析,根据预料的知识进行翻译,并输出结果。由于新疆维吾尔自治区电力行业中还没有汉语-维吾尔语自助缴费终端,具有广泛的应用前景。
关键词:moses;自助缴费缴费终端汉-维统计翻译电力行业
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)34-8188-03
随着社会向信息化社会发展,在西部大开发的推进下,基于少数民族文的IT行业进入快速发展的时期。在新疆维吾尔自治区电力系统中用电用户的分布比较广,13个地州公司,89个县公司、营业区,业务覆盖用户数约378万户,电力自助缴费终端的应用很大程度上减少了电力公司收电费成本。但是由于新疆是中国多民族多语言的省区,汉族与维吾尔族各占40%,剩下20%是其他民族,使用语言有汉语、维吾尔语、哈萨克语等,其中吐鲁番、哈密、阿克苏、巴州、疆南、和田六地州是居住少数民族同志较多的地区,大部分的维吾尔民族同志不会汉语,使电力自助缴费终端的推广受到阻碍。汉-维自助缴费终端来说,疆内有建设银行等银行业有了初步的推广应用,但目前的电力行业还是以汉语版本为主,并且显示的内容是动态信息,没有提供具有本地化支持的自助缴费终端。
1 Moses介绍
机器翻译研究历史可以追溯到上世纪三四十年代,当时法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。从提出机器翻译到现在已过80年的历程,其中提出了许多基于数学与计算机方法的翻译算法。这些算法大致分两类一类是基于规则的方法,另一个是基于统计的方法。
基于规则的方法是把各种语法规则和双语词典告诉计算机,让计算机通过这些规则完成翻译。该方法优点是直观,能够直接表达翻译知识,具有较强的概括能力,擅长处理复杂的结构和进行深层次的理解。缺点是规则提炼时间长、需要大量的调试,规则之间容易发生冲突。
统计机器翻译是将翻译看作搜索问题,而非匹配问题,从所有可能的译文中选择概率最大的译文,目前机器翻译所用的主流算法。公式1中h为源语句即汉语,u为对应h的维吾尔语序列,要找出最大评分参量?。
Moses是统计机器翻译中最有效的统计翻译系统。对任何语言可自动进行翻译模型训练 ,把所有你所需要的翻译文本放到平行语料库中。在翻译过程中你所训练的翻译模型对平行语料库进行搜索,并且按照选择指数把概率最高选为翻译结果。
现在随着电子和计算机网路技术的发展,使基于复杂算法的翻译技术成为可能与此同时少数民族语言文字已进入信息化时代,大量的少数民族词库可以通过互联网找到并进行翻译。通过互联网很容易对汉语和维吾尔语平行语料库进行改善和扩充。
2 终端系统总体设计
系统设计上采用松散架构,内部耦合的方式进行组织,要层次分明、模块清晰易用,系统界面友好,技术上既要保证先进可靠性,又要考虑扩展性,以应对未来变化,保证系统今后的扩展顺利完成。同时,系统保证要有很强的容错能力,进行各种系统异常捕捉,保证系统的运行稳定。
汉-维电费自助缴费终端系统通过服务的方式,为电费自助缴费终端及其它电力业务系统提供机器翻译服务,系统主要由数据库、数据库接口、应用服务、Web service服务、电力业务系统、语料库管理客户端、汉-维电费自助缴费终端构成。图1中语料库管理客户端具有系统管理、语料库维护以及对信息进行编辑和审核的功能,信息通过语料库管理客户端发送到Web service服务层,通过Web service服务层到应用服务层,应用服务层对接收的信息进行分析,并与双语实例语料库进行对比,如果双语实例库维语库中存在该信息,则直接发送到Web service服务层。反之通过机器翻译对该信息进行翻译,机器翻译采用Moses翻译模型和SIRLM语言模型,翻译结果发送到Web service服务层和维语库。翻译结果通过Web service服务层到电力业务系统,最后在自助缴费终端中显示。数据库主要分双语语料库、汉语库和维语库,其中双语语料库中存储静态的汉语信息以及与其一一对应的维语信息,它们主要用于终端页面和一些固定信息的翻译。汉语库维动态信息库,用于存放一些及时更新的信息。数据接口主要用于数据库和应用服务连接,同时为语料库的管理和维护提供语料库管理服务。
汉-维翻译服务采用Web Service技术部署实现,语料库管理采用 C / S 架构,项目整体采用 java 平台开发,运行环境基于JDK1.6,应用服务中间件采用Tomcat 6.0版本。
系统总体技术架构设计,如下图:
终端主控制器采用32位ARM11嵌入式工控板作为主控单元,功耗低、处理能力强,高达2G Byte 的NAND Flash,特别采用4位纠错技术,确保信息存储安全可靠;高速、安全的TCP/IP通讯方式,可轻松接入局域网内工作。其中ARM11系列微处理器是ARM公司近年推出的新一代RISC处理器,它是ARM新指令架构——ARMv6的第一代设计实现。该系列主要有ARM1136J,ARM1156T2和ARM1176JZ三个内核型号,分别针对不同应用领域。用户通过触摸屏和键盘对缴费终端进行操作,触摸屏是15—17寸防爆、TFT32真彩色触摸屏,操作指令通过主控制器进行分类并按照指令要求进行数据处理。在这过程中维吾尔族用电用户可以在触摸屏上对人机交互界面进行切换,切换成维吾尔族文字的界面。Flash 存储系统启动所需程序如Bootloadert等,SDRAM用存储临时数据这两个存储器通过总线与控制器连接。货币识别器可靠性高,可以识别目前流通的所有人民币。读卡器可支持银联卡的操作。终端使用嵌入式热敏打印机,无需油墨,打印质量高达200DPI(8dots/mm),凭条打印机可以检测黑标、自动切纸,通过RS232与主控制器通信。供电模块控制着开关电源和UPS电源,当停电时自动启用UPS电源并对数据进行备份和保存处理。主控制器通过TCP/IP方式与电力服务系统连接。endprint
3 汉-维翻译引擎流程
机器翻译服务是该系统的核心部分,其主要分为训练模型和基于统计的翻译模型两部分。在训练模型时首先建立大量的维吾尔文语料库,其次对已建立的维吾尔文语料库,在SRILM算法的基础上建立维吾尔语的语言模型。对平行语料库进行基于Mkcls算法的单词分类。用GIZA++实现了IBM模型1~5的所有代码,在生成源语言语目标语言之间翻译概率的同时,产生了翻译模型。
翻译模型时从汉文数据库提取相应的汉文信息。对汉文进行词法分析。通过Moses译码机实现汉-维翻译,并显示维吾尔文的翻译结果。
4 汉-维翻译引擎实验
4.1 实验材料
本文用的语料库是针对国网新疆电力公司专用的科学用电常识、安全用电常识、节约用电常识、电力设施保护条例、中华人民共和国电力法、电力供应与使用条例,电力设施保护条例,国家电网公司供电服务“十项承诺”,国家电网公司供电服务“十项承诺”。
实验所用训练模型需要的汉-维平行语料库是对上述材料进行训练得到的句子,共3万个,实现语言模型的维文句子6万个,实验测试汉文句子500个。
4.2 实验结果
本实验用的译码机是Moses系统,一般Moses系统结果评价分人工评价和自动评价两种,该文中我们采用国际评价标准BLEU(Bilingual Evaluation Understudy)和NIST(The National Institute of Standards and Technology)来评价翻译结果。
5 结束语
通过对汉-维机器翻译方法的研究和分析,该文提出了基于Moses的翻译方法,并开发了相应的自助缴费终系统和终端硬件设计。硬件采用32位ARM11嵌入式工控板,充分考虑了终端的各功能和相应的软件措施。Moses方法的应用提高了系统的翻译准确度和翻译速度,已经完全能胜任电力营销业务和其他信息的翻译,由于汉-维语料库的量在不断地扩充中,会进一步提高翻译准确率执行速率。
参考文献:
[1] Hsin-Hsi Chen,Yung-Wei Ding,Shih-Chung Tsai.Named Entity Extraction for Information Retrieval[J].Computer Processing of Oriental Languages, Special Issue on Information Retrieval on Oriental Languages , 1998,12(1):75-85.
[2] Keller F, Lapata M.Using the Web to Obtain Frequencies for Unseen Bigrams[J].Computational Linguistics, 2003,29(3):59-484.
[3] Resnik P, Smith N A. The Web as a Parallel Corpus[J].Computational Linguistics,2003,29(3):349-380.endprint
3 汉-维翻译引擎流程
机器翻译服务是该系统的核心部分,其主要分为训练模型和基于统计的翻译模型两部分。在训练模型时首先建立大量的维吾尔文语料库,其次对已建立的维吾尔文语料库,在SRILM算法的基础上建立维吾尔语的语言模型。对平行语料库进行基于Mkcls算法的单词分类。用GIZA++实现了IBM模型1~5的所有代码,在生成源语言语目标语言之间翻译概率的同时,产生了翻译模型。
翻译模型时从汉文数据库提取相应的汉文信息。对汉文进行词法分析。通过Moses译码机实现汉-维翻译,并显示维吾尔文的翻译结果。
4 汉-维翻译引擎实验
4.1 实验材料
本文用的语料库是针对国网新疆电力公司专用的科学用电常识、安全用电常识、节约用电常识、电力设施保护条例、中华人民共和国电力法、电力供应与使用条例,电力设施保护条例,国家电网公司供电服务“十项承诺”,国家电网公司供电服务“十项承诺”。
实验所用训练模型需要的汉-维平行语料库是对上述材料进行训练得到的句子,共3万个,实现语言模型的维文句子6万个,实验测试汉文句子500个。
4.2 实验结果
本实验用的译码机是Moses系统,一般Moses系统结果评价分人工评价和自动评价两种,该文中我们采用国际评价标准BLEU(Bilingual Evaluation Understudy)和NIST(The National Institute of Standards and Technology)来评价翻译结果。
5 结束语
通过对汉-维机器翻译方法的研究和分析,该文提出了基于Moses的翻译方法,并开发了相应的自助缴费终系统和终端硬件设计。硬件采用32位ARM11嵌入式工控板,充分考虑了终端的各功能和相应的软件措施。Moses方法的应用提高了系统的翻译准确度和翻译速度,已经完全能胜任电力营销业务和其他信息的翻译,由于汉-维语料库的量在不断地扩充中,会进一步提高翻译准确率执行速率。
参考文献:
[1] Hsin-Hsi Chen,Yung-Wei Ding,Shih-Chung Tsai.Named Entity Extraction for Information Retrieval[J].Computer Processing of Oriental Languages, Special Issue on Information Retrieval on Oriental Languages , 1998,12(1):75-85.
[2] Keller F, Lapata M.Using the Web to Obtain Frequencies for Unseen Bigrams[J].Computational Linguistics, 2003,29(3):59-484.
[3] Resnik P, Smith N A. The Web as a Parallel Corpus[J].Computational Linguistics,2003,29(3):349-380.endprint
3 汉-维翻译引擎流程
机器翻译服务是该系统的核心部分,其主要分为训练模型和基于统计的翻译模型两部分。在训练模型时首先建立大量的维吾尔文语料库,其次对已建立的维吾尔文语料库,在SRILM算法的基础上建立维吾尔语的语言模型。对平行语料库进行基于Mkcls算法的单词分类。用GIZA++实现了IBM模型1~5的所有代码,在生成源语言语目标语言之间翻译概率的同时,产生了翻译模型。
翻译模型时从汉文数据库提取相应的汉文信息。对汉文进行词法分析。通过Moses译码机实现汉-维翻译,并显示维吾尔文的翻译结果。
4 汉-维翻译引擎实验
4.1 实验材料
本文用的语料库是针对国网新疆电力公司专用的科学用电常识、安全用电常识、节约用电常识、电力设施保护条例、中华人民共和国电力法、电力供应与使用条例,电力设施保护条例,国家电网公司供电服务“十项承诺”,国家电网公司供电服务“十项承诺”。
实验所用训练模型需要的汉-维平行语料库是对上述材料进行训练得到的句子,共3万个,实现语言模型的维文句子6万个,实验测试汉文句子500个。
4.2 实验结果
本实验用的译码机是Moses系统,一般Moses系统结果评价分人工评价和自动评价两种,该文中我们采用国际评价标准BLEU(Bilingual Evaluation Understudy)和NIST(The National Institute of Standards and Technology)来评价翻译结果。
5 结束语
通过对汉-维机器翻译方法的研究和分析,该文提出了基于Moses的翻译方法,并开发了相应的自助缴费终系统和终端硬件设计。硬件采用32位ARM11嵌入式工控板,充分考虑了终端的各功能和相应的软件措施。Moses方法的应用提高了系统的翻译准确度和翻译速度,已经完全能胜任电力营销业务和其他信息的翻译,由于汉-维语料库的量在不断地扩充中,会进一步提高翻译准确率执行速率。
参考文献:
[1] Hsin-Hsi Chen,Yung-Wei Ding,Shih-Chung Tsai.Named Entity Extraction for Information Retrieval[J].Computer Processing of Oriental Languages, Special Issue on Information Retrieval on Oriental Languages , 1998,12(1):75-85.
[2] Keller F, Lapata M.Using the Web to Obtain Frequencies for Unseen Bigrams[J].Computational Linguistics, 2003,29(3):59-484.
[3] Resnik P, Smith N A. The Web as a Parallel Corpus[J].Computational Linguistics,2003,29(3):349-380.endprint