基于医学领域的汉英子句对齐语料库检索系统的设计与实现

2016-04-11 08:20王全蕊李艳翠
关键词:子句检索系统汉英

王全蕊,李艳翠

(河南科技学院,河南新乡453003)

基于医学领域的汉英子句对齐语料库检索系统的设计与实现

王全蕊,李艳翠

(河南科技学院,河南新乡453003)

汉英平行语料库检索系统在自动文摘、问答系统、机器翻译等领域的重要性越来越突出.为了提高汉英互译的精确性,系统采用JSP技术作为后台开发语言,以MySQL为后台数据库,设计并开发了基于医学领域的汉英子句对齐语料库检索系统.语料库检索平台具有良好的用户界面,充分利用已有标注结果,满足用户在子句层面上的对齐查询、统计分析等功能.系统既可用于汉英子句的对比、翻译、教学等研究,为融合子句信息的机器翻译研究奠定基础,又可有效的辅助医学专业学生的翻译教学.

医学语料库;对齐技术;JSP;数据库;检索系统

近年来,人们在汉英平行语料库理论研究的基础上开发了相应的语料检索系统,不仅可以用于提高机器自动翻译的性能,而且能加强机器翻译中的人机交互.哈工大信息检索研究机构构建的具有50万对齐句对的汉英双语语料库检索系统,能够实现句子、短语、词汇3种粒度上的对齐.中科院计算机技术研究所构建了跨语言语料库检索系统,数据库中含有18万汉英句对,支持汉英句子、句子来源等查询.当然国内还有很多大规模的汉英双语语料库检索系统,但这些语料库主要是在篇章、句子或词汇层面上对齐检索,而很少有子句的层面上进行对齐检索和分析的,这就直接影响力汉英互译的精确性,甚至会出现“断章取义”的现象.

本文根据医学领域的篇章分析任务和语料库建设实践,采用JSP技术作为后台开发语言,以MySQL为后台数据库,设计开发一个能在子句层面上实现对齐的汉英平行语料库检索系统,为融合子句信息的机器翻译研究奠定基础,又可有效的辅助医学专业英语学生的翻译教学.

1 相关技术

1.1 语料库构建技术

在自然语言处理领域中,构建汉英平行语料库在推动机器翻译的发展中发挥了巨大的作用.文献[1]通过自动抽取、自动映射加人工标注相结合的方法,构建了可以实现中英文在实体和关系级别上的对齐中英文平行语料库;文献[2]提出的基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,可以提高句子对齐的准确率;当然还有其他的一些理论研究成果[3-7],也都是在句子或词汇层面上对对齐技术进行分析和研究的.

本文采用文献[8]中的子句定义,先对汉语医学篇章按照“源语优先”的对齐策略,进行手工切分.在获得的413篇医学领域的实际语料中,把与典型子句在结构、功能、形式上类似的特殊短语在特定的语境下也作为子句处理.接着对切分后的结果利用对齐标注工具实现篇章子句标注,标注结果保存到数据库中作为语料库内容.标注内容包括文献[9]中给出的子句、连接词、中心、篇章结构层次等信息.然后通过段落号和段内关系号体现出医学语料在子句层面上的对齐关系.

1.2 JSP技术

JSP,全称为Java Server Pages,中文名叫java服务器页面,是由SUN公司和其他公司创建的一种网站开发语言,可以动态生成HTML、XML或其他各格式文档的Web网页,可以将其简单的理解为是Servlet的另一种表现形式.使用JSP技术开发检索平台具有独特的优势,能够保持内容生成和页面显示的分离性,使得基于Web的应用程序的开发变的快速和简单.通过获取网页前端用户的请求,以特定的Java Beans组件对数据库进行访问,并以HTML页面的形式显示结果,不仅具备了Java的简单易用、功能强大、面向对象的优点,而且具有平台无关性与安全可靠性.

1.3 多库检索技术

由于医学是一个庞大的学科,其中的多个分支还与其他学科有交叉,使得该领域的知识体系较为繁杂,当然所要构建的语料库也将会非常大.为了使构建的医学语料库具有可扩展性,本检索系统将数据库按医学的不同学科划分为多个子数据库.多个子数据库可能会存在一定的交叉性,为了确保检索的一致性和不重复性,采用多库检索技术以提高医学子句检索系统的精准率.

利用Web浏览器的访问请求接口,根据每个数据库的检索格式将用户的查询请求自动生成多个对应的查询请求,再将查询请求传送到对应的数据库中等待检索结果的返回,最后当数据库返回查询结果时,由系统对结果进行分析综合并排序,以统一的格式呈现给用户.

2 系统设计与实现

2.1 系统总体结构设计

在设计的医学领域汉英子句对齐语料库检索系统中,用户提交检索请求,系统会将其请求根据相应的查询格式进行转换,并到语料库中进行全医学学科查询或是分科查询.当查询结果返回时,再利用自动对齐功能将所查询的汉英子句以固定对齐格式显示在系统页面上.通过页面对齐结果,用户可以对比分析前期所做的手工标注是否规范、切分规则是否完善等问题,根据可能存在的问题,用户可以再次修改手工标注文档并上传,更新语料库.

子句对齐语料库检索系统的总体设计图如图1所示.

图1 在线医学汉英平行语料检索系统的总体设计Fig.1 Conceptual diagrams of Chinese-English parallel corpus retrieval system

2.2 系统开发环境

在线医学汉英平行语料检索系统采用B/S架构,使用Java语言进行编程,以MyEclipse工具和JSP技术开发,使用MySQL作为系统的后台数据库,在Windows平台上进行系统设计.

2.3 数据库设计

按照医学学科分类,将系统的语料组成12个子数据库.分别为其建立对应的数据库物理文件,并将急诊科文件作为主数据库文件,扩展名为MDF,其他为次数据库文件,扩展名为NDF,然后将这个多个子数据库文件放在磁盘不同的逻辑盘中,由此可以极大地提高语料库的检索速度,并且使得在后期不断增加医学语料时,依然能够保持高效的检索效率.

每个医学分学科的子数据对应两个表单,一个是以对应学科名命名的汉语XML文档,另一个是以对应学科名命名的汉语XML文档.在进行汉英子句对齐时我们根据前期所做的层次结构标注(StructureType字段)、连接词标注(ConnectiveType字段)、关系标注(RelationType字段)、角色分布标注(RoleLocation字段)、中心标注(Center字段)等工作建立数据库表单,见表1.

表1 语料数据库的表单Tab.1 Form of corpus database

2.4 系统功能描述

检索系统主要由语料库、手工切分模块、自动标注模块、自动对齐模块、跨库检索模块和统计分析模块6大模块组成.

语料库主要用于存储医学领域包括内科、外科、神经科、儿科、急诊科、家庭医学、影像医学等12个医学学科的英汉子句语料.

手工切分模块主要是对前期收集到的医学12个学科的413篇源语料进行预处理,将其中的一些噪声去除;然后根据文献[7]给出的基本篇章单位(子句)的定义对源预料进行切分和手工标注.

自动标注模块可以实现对手工切分后的12个学科的汉英篇章在子句、连接词、中心、篇章结构侧层次等篇章结构信息进行标注,汉英双语的对齐关系可通过段落号和段内关系号体现.标注结果被保存为XML格式的文件,且汉英双语标注和切分后的结果各自独立保存在不同的本地磁盘中,以便后期在扩展数据库时提高数据库的查询速度.

多库检索模块根据用户提出的请求对各个子数据库进行检索并将检索结果提交给自动对齐模块,由自动对齐模块对将根据对齐原则检索结果对齐后显示在前端页面上.

统计分析模块可以通过图和表两种不同的形式显示英语小句的汉语对齐分析中最小对齐单位出现的频率和所占百分比.

2.5 汉英子句对齐检索系统的实现

为了能够实现医学领域篇章汉英子句的全面检索和有针对性的检索,该汉英子句对齐语料库检索系统可以实现子语料库检索,即分学科进行子句对齐查询.同时各个学科之间会有一定的交叉性,因此为了提高该系统的查全率,还设置了全语料库检索,可以在系统中对所有学科进行检索,如图2所示.

图2 系统总语料库检索界面Fig.2 Retrieval interface of total system corpus

在检索页面用户既可以提交中文查询关键词,也可以提交英文查询关键词.系统通过相应正则表达式匹配对应的汉英查询条件,然后将查询条件拼接到SQL语句中进行模糊查询,其关键代码如下:

该系统具有文件上传的功能,可以将已标注好的汉英XML语料文档同时上传至系统,以扩充语料库内容,帮助用户获取更多的信息,对应图3中的直接上传模块;同时还可以将手工切分好的DOC源语料文档上传至系统,再由系统的自动标注模块将其转换为XML文档保存至语料库中,对应图3的间接上传模块.

图3 DOC源语料库文档上传界面Fig.3 Upload interface of DOC source corpus files

上传DOC源语料文档之前,用户需对源语料进行一些预处理,然后再按照切分规则对篇章进行手工标注,并保存为DOC文档.通过间接上传的功能可以利用标注工具将源语料标注为带有特定格式的XML文档,并将该文档保存至指定的目录下.用户可以查看该文档自动标注的结果,如果存在问题,可人工进行适当修改,再保存为XML文档,并通过直接上传功能上传至语料数据库中.

3 系统测试

3.1 检索模块测试

以分科检索功能为例,在儿科学信息检索页面中,设置查询条件为“患儿”,可将查询结果快速地返回在页面的下方,以汉英对照的方式同时显示,并且能够显示汉英子句的切分位置,且以汉语优先的规则对齐英文子句,检索界面结果如图4所示.

图4 儿科子语料库检索结果Fig.4 Retrieval results of pediatrics corpus

由图4可以看出,以“患儿”为关键字进行检索时,系统会将语料库中包含该关键字的所有段落或句子以切分和对齐的形式显示出来,在此基础上,可以通过人工排查和统计工具对其中少数切分不合理以及汉英没有对齐的情况进行进一步的分析和研究.

3.2 统计分析测试

系统可以通过图和表两种不同的形式显示英语小句的汉语对齐分析中最小对齐单位出现的频率和所占百分比,我们选取儿科的两篇文档进行统计分析后的结果如图5所示.

图5 英语小句的汉语对齐分析中最小对齐单位出现的频率和所占百分比Fig.5 Frequency and percentage of atomic alignment unit in the Chinese alignment analysis of English

4 小结

医学领域汉英子句对齐语料库检索系统能实现在子句层面上进行汉英双语自动标注和对齐,同时还可以根据提供的关键词检索相关汉英子句对齐情况,并能根据特定条件进行统计分析.该汉英子句语料库以及检索系统既可用于汉英子句的对比、翻译、教学等研究,为融合子句信息的机器翻译研究奠定基础,又可有效的辅助医学专业学生的翻译教学.

[1]惠浩添,李云建,钱龙华,等.一个面向信息抽取的中英文平行语料库[J].计算机工程与科学,2015,37(12):2331-2338.

[2]俞敬松,王惠临,吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015,29(1):67-74.

[3]宋柔,葛诗利.面向篇章机器翻译的英汉翻译单位和翻译模型研究[J].中文信息学报,2015,29(5):125-135.

[4]王岚,严灿勋.军事英汉汉英平行语料库建设存在的问题及对策[J].解放军外国语学院学报,2015,38(5):33-39.

[5]倪传斌,魏俊彦,徐晓东,等.基于句子层面的双语词汇转换研究:来自眼动的证据[J].解放军外国语学院学报,2015,38(1):19-28.

[6]陈松菁.语料库在大学英语写作教学中的应用初探[J].长春大学学报(自然科学版),2011,21(8):107-111.

[7]XUE N W,YANG Y Q.Chinese sentence segmentation as comma classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland,2011:631 635.

[8]李艳翠,冯文贺,周国栋,等.基于逗号的汉语子句识别研究[J].北京大学学报(自然科学版),2013,49(1):7-14.

[9]LI Y C,FENG W H,SUN J,et al.Building Chinese discourse corpus with connective-driven dependency tree structure[C] //Association for Computational Linguistics(ACL).2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014,Doha,Qatar:2105 2114.

(责任编辑:卢奇)

Design and realization of the Chinese-English clause alignment corpus retrieval system

WANG Quanrui,LI Yancui
(Henan Institute of Science and Technology,Xinxiang 453003,China)

Over recent years,Chinese-English clause alignment corpus retrieval system is more and more important in the field of automatic summarization,question answering system,machine translation and so on.In order to improve the accuracy of the Chinese and English translation,exploiting a small online Chinese-English clause alignment corpus retrieval system in the medical field,using JSP as the foreground and background of the development of language,MySQL database as a background.The corpus retrieval platform has good user interface that can meet the user's query,statistical analysis at the clause level.By building the Chinese-English clause corpus and the retrieval systems that can not only be used for comparison clauses,translation,teaching and research both Chinese and English clause comparison,translation,teaching and research,but also effectively assists medical students in English translation and teaching.

medical corpus;clause alignment;JSP;database;the retrieval system

TP391

A

1008-7516(2016)06-0057-06

10.3969/j.issn.1008-7516.2016.06.014

2016-10-12

国家自然科学基金(61502149)

王全蕊(1981―),女,河南新乡人,硕士,讲师.主要从事数据挖掘与信息处理研究.

猜你喜欢
子句检索系统汉英
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
命题逻辑可满足性问题求解器的新型预处理子句消去方法
汉语和泰语关系子句的对比研究
收录《信号处理》的检索系统及数据库
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
西夏语的副词子句
郑州市公共场所公示语汉英翻译调查
命题逻辑的子句集中文字的分类