摘要:为了构建面向电力行业信息系统的汉维哈自动翻译引擎,需要构建大量的汉维哈语种的平行语料库。该文中,设计与实现了汉维哈平行语料库构建系统的文档导入及对齐功能。文档导入登记文档的属性,并对文档进行拼写检查等编辑操作,文档对齐对汉语文档与维吾尔语或哈萨克语文档建立对齐关系。
关键词: 电力; 汉语; 维吾尔语;哈萨克语;文档对齐
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)36-8657-02
新疆维吾尔自治区的电力系统员工及用电群众中都有汉语水平较差的少数民族群众,为了给各族员工和群众提供多语种的信息系统服务,新疆电力公司要求面向用户的信息产品必须提供汉、维、哈语种的操作界面。为了提高系统开发速度、充分利用已翻译的资源和统一电力术语的译文,设计与开发了面向电力系统的信息系统汉语菜单、提示自动翻译引擎。
1 汉维哈文档对齐工具的设计与实现
文档是所有语料库建设工作的基础,也是目前自然语言处理能够考虑的最大的单元。为了构建机器翻译系统需要构建大量的平行语料库。因为维吾尔文在线平行语料库不多,所以需要从出版社、日报社、有关行业单位收集图书、杂志或文件等,对其进行文档、句子级别的对齐处理,所以本文中设计与实现了整理文档、编辑文档及对齐文档的工具软件。
1.1 文档导入
文档导入模块主要功能是完成各种文件的导入。文件成功导入到数据库之后,等待文件编辑员检查是否合理,若合理就提交给文件审核员,否则就修改并保存然后提交给审核员。如果需要导入新文档,单击“浏览”按钮选择你要导入的文档。选择文档后你所选择的文档的部分信息将会显示在下面的文本框中,如图1所示。再选择你所导入文档的语种、领域和作者信息。然后单击“提交文档”按钮,会弹出一个消息框,提示是否确认提交。单击“确定”按钮则完成该次文档导入;如果需要重新写入文档信息,则可单击“重写信息”按钮,重新选择要导入的文档;如果不需要导入文档,则点击“退出程序”按钮,退出该模块。单击“已经导入的文档”按钮,即可进入查看已经导入的文档界面。用户可以根据导入时间和审核状态来查询,也可以选择“显示全部”按钮来查询所有已审核或未审核的文档。
1.2文档编辑模块
该模块的主要功能是对成功导入的文档进行编辑。该模块默认的功能界面是“查看新导入文档”。单击“查看新导入文档”按钮,可以选择两个对应的双语文档右键单击弹出快捷菜单,如图3所示。
选择“文档编辑”即可对所选择的文档进行编辑,如图4所示。在编辑状态可以加载原始文档、进行字体设置、维文校对、提交文档、保存并更新等操作,还可以对已编辑的文本内容进行替换和查找操作。
1.3 文档对齐文档
该模块的主要功能是找出所选择文档对应的另一种语言的文档,必须是审核成功的文档才能分配给用户进行文档对齐。文档对齐是对两种不同语种的文档进行对齐,建立它们的对照关系。界面左边是“维语文档”,右边是“汉文文档”。如果用户被系统管理员分配文档对齐任务,则文档对齐界面显示给用户所安排文档的第一个文档。如图5所示。
对齐:首先要选择对应的两个文档(维语文档一个或多个,汉语文档一个或多个),然后右键单击弹出快捷菜单选择“对齐”子菜单,或者单击界面下面的“对齐”按钮,都可以建立所选择的两个文档的对齐关系。
取消对齐:取消对齐只能在已建立对齐的两个文档之间进行操作,取消对齐前确定所取消的文档,选择一个文档系统会自动选择给另一个语种对应的文档。
2 结论
本文中对文档导入、编辑及对齐进行了介绍,并实现了该工具软件。该软件提高了文献整理工作的效率,质量,避免了以前的语料库存储松散及重复工作的问题。今后,继续研究自动对齐汉维哈文档算法,进一步提高语料库的建设速度。
参考文献:
[1] 武毅.基于 Lucene.Net 的全文检索研究与应用[D].长沙:国防科学技术大学,2011.
[2] 李颖,李志蜀,邓欢.基于 Lucene 的中文分词方法设计与实现[J].四川大学学报,2008,45(5):1095-1098.
[3] 陈震明.智能机器翻译前后端处理系统的设计和实现[D].北京:中国科学院计算技术研究所,1998.
[4] 尼加提·纳吉米,席小刚,马斌,买合木提·买买提.多语种辅助翻译系统研究与实现[J]. 电脑知识与技术,2012,8(2):345-350.
[5] 黄河燕,陈肇雄.一种智能译后编辑器的设计及其实现算法[J].软件学报,1995,6(3):129-135
[6] 王克非.双语对应语料库研制与应用[J].外语教学与研究,2004(4).endprint
摘要:为了构建面向电力行业信息系统的汉维哈自动翻译引擎,需要构建大量的汉维哈语种的平行语料库。该文中,设计与实现了汉维哈平行语料库构建系统的文档导入及对齐功能。文档导入登记文档的属性,并对文档进行拼写检查等编辑操作,文档对齐对汉语文档与维吾尔语或哈萨克语文档建立对齐关系。
关键词: 电力; 汉语; 维吾尔语;哈萨克语;文档对齐
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)36-8657-02
新疆维吾尔自治区的电力系统员工及用电群众中都有汉语水平较差的少数民族群众,为了给各族员工和群众提供多语种的信息系统服务,新疆电力公司要求面向用户的信息产品必须提供汉、维、哈语种的操作界面。为了提高系统开发速度、充分利用已翻译的资源和统一电力术语的译文,设计与开发了面向电力系统的信息系统汉语菜单、提示自动翻译引擎。
1 汉维哈文档对齐工具的设计与实现
文档是所有语料库建设工作的基础,也是目前自然语言处理能够考虑的最大的单元。为了构建机器翻译系统需要构建大量的平行语料库。因为维吾尔文在线平行语料库不多,所以需要从出版社、日报社、有关行业单位收集图书、杂志或文件等,对其进行文档、句子级别的对齐处理,所以本文中设计与实现了整理文档、编辑文档及对齐文档的工具软件。
1.1 文档导入
文档导入模块主要功能是完成各种文件的导入。文件成功导入到数据库之后,等待文件编辑员检查是否合理,若合理就提交给文件审核员,否则就修改并保存然后提交给审核员。如果需要导入新文档,单击“浏览”按钮选择你要导入的文档。选择文档后你所选择的文档的部分信息将会显示在下面的文本框中,如图1所示。再选择你所导入文档的语种、领域和作者信息。然后单击“提交文档”按钮,会弹出一个消息框,提示是否确认提交。单击“确定”按钮则完成该次文档导入;如果需要重新写入文档信息,则可单击“重写信息”按钮,重新选择要导入的文档;如果不需要导入文档,则点击“退出程序”按钮,退出该模块。单击“已经导入的文档”按钮,即可进入查看已经导入的文档界面。用户可以根据导入时间和审核状态来查询,也可以选择“显示全部”按钮来查询所有已审核或未审核的文档。
1.2文档编辑模块
该模块的主要功能是对成功导入的文档进行编辑。该模块默认的功能界面是“查看新导入文档”。单击“查看新导入文档”按钮,可以选择两个对应的双语文档右键单击弹出快捷菜单,如图3所示。
选择“文档编辑”即可对所选择的文档进行编辑,如图4所示。在编辑状态可以加载原始文档、进行字体设置、维文校对、提交文档、保存并更新等操作,还可以对已编辑的文本内容进行替换和查找操作。
1.3 文档对齐文档
该模块的主要功能是找出所选择文档对应的另一种语言的文档,必须是审核成功的文档才能分配给用户进行文档对齐。文档对齐是对两种不同语种的文档进行对齐,建立它们的对照关系。界面左边是“维语文档”,右边是“汉文文档”。如果用户被系统管理员分配文档对齐任务,则文档对齐界面显示给用户所安排文档的第一个文档。如图5所示。
对齐:首先要选择对应的两个文档(维语文档一个或多个,汉语文档一个或多个),然后右键单击弹出快捷菜单选择“对齐”子菜单,或者单击界面下面的“对齐”按钮,都可以建立所选择的两个文档的对齐关系。
取消对齐:取消对齐只能在已建立对齐的两个文档之间进行操作,取消对齐前确定所取消的文档,选择一个文档系统会自动选择给另一个语种对应的文档。
2 结论
本文中对文档导入、编辑及对齐进行了介绍,并实现了该工具软件。该软件提高了文献整理工作的效率,质量,避免了以前的语料库存储松散及重复工作的问题。今后,继续研究自动对齐汉维哈文档算法,进一步提高语料库的建设速度。
参考文献:
[1] 武毅.基于 Lucene.Net 的全文检索研究与应用[D].长沙:国防科学技术大学,2011.
[2] 李颖,李志蜀,邓欢.基于 Lucene 的中文分词方法设计与实现[J].四川大学学报,2008,45(5):1095-1098.
[3] 陈震明.智能机器翻译前后端处理系统的设计和实现[D].北京:中国科学院计算技术研究所,1998.
[4] 尼加提·纳吉米,席小刚,马斌,买合木提·买买提.多语种辅助翻译系统研究与实现[J]. 电脑知识与技术,2012,8(2):345-350.
[5] 黄河燕,陈肇雄.一种智能译后编辑器的设计及其实现算法[J].软件学报,1995,6(3):129-135
[6] 王克非.双语对应语料库研制与应用[J].外语教学与研究,2004(4).endprint
摘要:为了构建面向电力行业信息系统的汉维哈自动翻译引擎,需要构建大量的汉维哈语种的平行语料库。该文中,设计与实现了汉维哈平行语料库构建系统的文档导入及对齐功能。文档导入登记文档的属性,并对文档进行拼写检查等编辑操作,文档对齐对汉语文档与维吾尔语或哈萨克语文档建立对齐关系。
关键词: 电力; 汉语; 维吾尔语;哈萨克语;文档对齐
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)36-8657-02
新疆维吾尔自治区的电力系统员工及用电群众中都有汉语水平较差的少数民族群众,为了给各族员工和群众提供多语种的信息系统服务,新疆电力公司要求面向用户的信息产品必须提供汉、维、哈语种的操作界面。为了提高系统开发速度、充分利用已翻译的资源和统一电力术语的译文,设计与开发了面向电力系统的信息系统汉语菜单、提示自动翻译引擎。
1 汉维哈文档对齐工具的设计与实现
文档是所有语料库建设工作的基础,也是目前自然语言处理能够考虑的最大的单元。为了构建机器翻译系统需要构建大量的平行语料库。因为维吾尔文在线平行语料库不多,所以需要从出版社、日报社、有关行业单位收集图书、杂志或文件等,对其进行文档、句子级别的对齐处理,所以本文中设计与实现了整理文档、编辑文档及对齐文档的工具软件。
1.1 文档导入
文档导入模块主要功能是完成各种文件的导入。文件成功导入到数据库之后,等待文件编辑员检查是否合理,若合理就提交给文件审核员,否则就修改并保存然后提交给审核员。如果需要导入新文档,单击“浏览”按钮选择你要导入的文档。选择文档后你所选择的文档的部分信息将会显示在下面的文本框中,如图1所示。再选择你所导入文档的语种、领域和作者信息。然后单击“提交文档”按钮,会弹出一个消息框,提示是否确认提交。单击“确定”按钮则完成该次文档导入;如果需要重新写入文档信息,则可单击“重写信息”按钮,重新选择要导入的文档;如果不需要导入文档,则点击“退出程序”按钮,退出该模块。单击“已经导入的文档”按钮,即可进入查看已经导入的文档界面。用户可以根据导入时间和审核状态来查询,也可以选择“显示全部”按钮来查询所有已审核或未审核的文档。
1.2文档编辑模块
该模块的主要功能是对成功导入的文档进行编辑。该模块默认的功能界面是“查看新导入文档”。单击“查看新导入文档”按钮,可以选择两个对应的双语文档右键单击弹出快捷菜单,如图3所示。
选择“文档编辑”即可对所选择的文档进行编辑,如图4所示。在编辑状态可以加载原始文档、进行字体设置、维文校对、提交文档、保存并更新等操作,还可以对已编辑的文本内容进行替换和查找操作。
1.3 文档对齐文档
该模块的主要功能是找出所选择文档对应的另一种语言的文档,必须是审核成功的文档才能分配给用户进行文档对齐。文档对齐是对两种不同语种的文档进行对齐,建立它们的对照关系。界面左边是“维语文档”,右边是“汉文文档”。如果用户被系统管理员分配文档对齐任务,则文档对齐界面显示给用户所安排文档的第一个文档。如图5所示。
对齐:首先要选择对应的两个文档(维语文档一个或多个,汉语文档一个或多个),然后右键单击弹出快捷菜单选择“对齐”子菜单,或者单击界面下面的“对齐”按钮,都可以建立所选择的两个文档的对齐关系。
取消对齐:取消对齐只能在已建立对齐的两个文档之间进行操作,取消对齐前确定所取消的文档,选择一个文档系统会自动选择给另一个语种对应的文档。
2 结论
本文中对文档导入、编辑及对齐进行了介绍,并实现了该工具软件。该软件提高了文献整理工作的效率,质量,避免了以前的语料库存储松散及重复工作的问题。今后,继续研究自动对齐汉维哈文档算法,进一步提高语料库的建设速度。
参考文献:
[1] 武毅.基于 Lucene.Net 的全文检索研究与应用[D].长沙:国防科学技术大学,2011.
[2] 李颖,李志蜀,邓欢.基于 Lucene 的中文分词方法设计与实现[J].四川大学学报,2008,45(5):1095-1098.
[3] 陈震明.智能机器翻译前后端处理系统的设计和实现[D].北京:中国科学院计算技术研究所,1998.
[4] 尼加提·纳吉米,席小刚,马斌,买合木提·买买提.多语种辅助翻译系统研究与实现[J]. 电脑知识与技术,2012,8(2):345-350.
[5] 黄河燕,陈肇雄.一种智能译后编辑器的设计及其实现算法[J].软件学报,1995,6(3):129-135
[6] 王克非.双语对应语料库研制与应用[J].外语教学与研究,2004(4).endprint