面向中亚地区的多语种专业领域术语库及本体知识库构建

2019-01-30 02:22原伟
中国科技术语 2019年6期
关键词:哈萨克语中亚俄语

摘 要:针对目前乌兹别克语、哈萨克语等中亚语种急缺专业领域词典、术语库及知识本体库的问题,文章以安全领域为例,利用现有术语作为种子词,自动采集维基百科及双语专业词典中的术语对,人工校对后构建了中型中、俄、乌、哈多语种专业领域术语库。以此术语库为基础,搭建了包含人员、组织、地域、技术、设备、活动、文件7大类及35个子类的领域本体,最后讨论了该专业术语库及领域本体库的扩展潜力和应用前景。本成果是一项重要的基础性工作,对中亚语种的术语词典编撰、术语学、自然语言处理和语言教学研究均有较大现实意义。

关键词:中亚;术语;本体;俄语;乌兹别克语;哈萨克语

中图分类号:H059; H083文献标识码:ADOI:10.3969/j.issn.1673-8578.2019.06.002

Abstract: Studies on languages of Uzbek, Kazakh and other Central Asian are facing a problem of lack of professional domain dictionaries, terminology and knowledge ontology. For solving this problem, we take the military field as an example, and use the existing terms as the seed word to automatically collect bilingual terminology pairs from Wikipedia and professional dictionaries. Based on manual proofreading, we built a medium-sized Chinese, Russian, Uzbek, and Kazakh term base. Based on this term base, the military domain ontology has built, which includes 7 categories (person, organization, region, technology, equipment, activity and document) and 35 sub-categories. We also discussed the potential and application prospects of the term base and ontology library. This achievement is an important basic work, and it has great practical significance for the compilation of terminology dictionary, terminology, natural language processing and language teaching in Central Asian languages.

Keywords: Central Asia; terminology; ontology; Russian; Uzbek; Kazakh

收稿日期:2018-01-01修回日期:2019-11-01

基金項目:国家社会科学基金项目“基于本体的俄汉可比语料库构建与评估”(14CYY051);国家社会科学基金项目“基于可比语料库和本体的俄汉网络新闻话题监测与情感识别研究”(18BYY235)

作者简介:原伟(1981—),男,博士,副教授,主要研究方向为计算语言学和语料库语言学。通信方式:yw5811827@126.com。

引 言

建立多语种术语库是基于系统论整合语言数据资源的一种思维方式和实践手段,其根本目的是收集并高效利用多语言数据,以实现语言资源的优化配置。在“一带一路”倡议深入推进的大背景下,构建以汉语为中心的多语言互动术语资源库,可以提供更好的术语检索、分析、利用及共享平台,使其服务于社会科学和自然科学研究,契合了国家的宏观发展战略。中亚五国(乌兹别克斯坦、哈萨克斯坦、吉尔吉斯斯坦、塔吉克斯坦和土库曼斯坦)是“一带一路”建设的重要支点,而对象国语言的教学、研究与资源建设工作以前在国内长期未予以足够重视,语言教学和人才培养刚刚在国内拓宽展开,语种教材编写、辞书编撰、资源建设等各方面工作都存在较大缺失与不足。针对上述问题,本研究尝试开展一些基础性工作,构建以中文为核心、涵盖中亚通用语种(俄语、乌兹别克语和哈萨克语)的多语种领域术语库,并以此为基础构建领域本体用于术语调用与知识共享,以期为后续研究工作抛砖引玉。

一 研究现状

通常来说,术语数据库是“存储在电子计算机中启示概念和术语的自动化词典”[1]。术语数据库的研究与开发,是术语学与术语标准化工作的重要内容之一,也是术语信息管理与使用的重要手段[2]。多语种术语库,即包含多种语言并相互关联的术语数据库。在国外,多语种术语库的建设已有悠久历史,如1959年德国国防部投入开发的LEXIS术语库(LEXIS terminological databank)包含德语、英语、法语、俄语、波兰语、荷兰语和意大利语7种语言,年均收录术语3.5万条;1963年建立的欧洲共同体委员会术语库(Eurodicautom)至1976年收录40万条术语,从法、德、意、英、荷、丹麦等6种语言逐步扩展到11种语言;1967年由西门子公司投入建设的多语种术语库TEAM有英、法、西、俄、意、葡、荷、德等语种,目前术语规模达到200余万条;20世纪80年代建立的联合国术语库UNTERM(The United Nations Terminology Database)包含英语、阿拉伯语、汉语、法语、俄语和西班牙语,外加德语和葡萄牙语,目前收录有29万条名词词目;2004年投入使用的欧盟IATE互动型术语库(Inter Active Terminology for Europe)涵盖欧盟24种语言、870万条术语。1989年以来,国内多个机构陆续建立不同类型的专业术语库。经过多年的发展,除全国科学技术名词审定委员会建立的术语库外,国内其他的重要术语库有:机械工程术语库,于1988 年建立,隶属于机电部科技司科技情报所的机电术语信息中心;中国百科术语数据库,以《中国大百科全书》为基础,建立于1993年,隶属于中国大百科全书出版社;中国汉英英汉科技术语库,于1995年建成,隶属于中国科学技术信息所,主要用于科技翻译工作[3]。相比而言,国内术语库建设无论从语种还是规模上来看都存在较大缺失:仅机械工程术语库有英、俄、德、日、法5种语言,其他大多仅包括汉英两种语言,而针对非通用语种以及中亚语种的术语词典以及术语库建设研究,目前鲜有学者涉及。

本体是概念模型的明确的规范说明[4],是一种系统性表示某一领域知识框架的手段,通过对概念、术语及其相互关系的规范化描述,可以勾画出特定领域的知识体系,为领域知识提供形式化依据[5]。根据本体中使用语种的多少,可以将本体分为单个语言和多语言两类本体。多语种本体是指本体中存在不同语种中的表示形式,相当于使用不同语言建立的语义框架,可以作为跨语言信息检索的重要工具。多语种本体中不同语种的实例可以通过共同的概念类相互联系,相当于跨语言同义词规范,不同语种的本体框架对应的概念内涵是统一的。在使用多语言本体进行跨语言信息检索时,由于跨语言同义词规范的存在,不同语种的概念及概念实例能够相互映射。在多语言本体中,拥有相同概念内涵的类可以不用任何一个语言的词汇来体现,只要明确其定义与所指,用编码、符号或者数字也能够标示。当前世界上诸多跨语言本体均是以WordNet为基础或采用与其相同的框架系统搭建的,例如欧语词网(Euro WordNet)、英俄双语本体(Russian WordNet),还有中国的CCD、HowNet和中国台湾中英双语知识本体词网(The Academia Sinica Bilingual Ontological WordNet)等。建立这些多语言本体其主要目的就是为跨语言信息处理奠定基础,使这些本体能够应用于信息检索、信息抽取、机器翻译、知识检索等工作中。

二 术语库构建

1. 总体设计

本研究多语种术语库构建的基本思路是:首先,选定特定专业领域开展实验研究,通过使用现有的术语资源构建以中文为核心的领域词表;其次,使用该领域词表依据维基百科网页命名规则、借助多语言链接获取对应的多语种词条网页;最后,使用网页分析技术抽取网页条目名称,依据维基百科词条的已有对应建立多语种术语对齐。

2. 初始领域词表建立

本文初始领域词表参考了乌兹别克语汉语专业领域词典[6],结合收集补充的术语资源处理加工后,最终领域词表包含汉乌对应术语对共1.71万对,作为下一阶段获取维基百科俄语、哈萨克语的基础资源。维基百科作为多语种术语来源具有诸多优势,如词目主题性强、规模较大、格式规范、信息完整、免费公开、下载便捷等,提供的多语言链接确保可通过技术手段自动获取天然对齐的术语对。然而,维基百科多语种网页资源存在不对称性,即条目没有做到完全对应,存在对应缺失,中、俄、乌、哈网页的数量比例约为1∶1.5∶0.2∶0.1(2019年4月16日统计),这就要求需要使用汉语、俄语、乌兹别克语和哈萨克语术语获取的链接相互补充,尽可能完善术语的多语言对齐关系。

3.基于维基百科多语言术语获取

从维基百科中获取多语种术语的网页,可以利用网址命名规则来实现。维基词条的网址命名中通常会使用与语种及词条相关的字符串,例如中文术语“火箭”的网址为“http://zh.wikipedia.org/zh-cn/火箭”,其中“http://zh.wikipedia.org/zh-cn/”部分一般称为网址的“pathname”,而字符串“火箭”为网址的“basename”,相应的俄文网页网址“http://ru.wikipedia.org/wiki/ракета”。可以看出维基百科网站词条的命名规则较为简易规范,如果将领域词作为“basename”依次添加至相应语种的“pathname”之后,就会得到相应词条的维基百科网址。通过对多语言链接的源码的分析可以发现,所需要的多语言超链接可从网页源文件中得到。获取网页中超链接的技术方法有很多,在这里将介绍本文使用的正则表达式的方法。从形式上来说,正则表达式就是用来刻画符号串集合的代数表达式。对于维基百科多语言链接的获取任务来说,可以将其当作一个从众多字符串中筛选匹配字符串的任务。在此,本文为获取维基词条网页对应的中文、俄文、乌兹别克文、哈萨克文链接所设计的正则表达式如下:

中文网页链接获取的正则表达式:

·(?is)]* ?href=([""]?)(?[^""\\s>]+)\\1[^>]* >中文

俄文网页链接获取的正则表达式:

·(?is)]* ?href=([""]?)(?[^""\\s>]+)\\1[^>]* >русский

乌兹别克文网页链接获取的正则表达式:

·(?is)]* ?href=([""]?)(?[^""\\s>]+)\\1[^>]* >O‘zbek

哈萨克文网页链接获取的正则表达式:

·(?is)]* ?href=([""]?)(?[^""\\s>]+)\\1[^>]* > аза ша

這样一来,通过分析维基网址的命名规则使用领域词表获得了对应的词条网址,之后使用一种语言的词条网址得到其网页源码,通过对网页源码使用正则表达式搜索匹配到了另一种语言对应词条的网址链接。随后,我们研制开发了俄汉维基百科语料获取应用程序,包括单词目和多词目术语获取模块,初步实现了通过领域词表获取俄汉维基百科语料的自动化。该系统不仅能获取网页的术语词目,还可获取术语解释的正文内容。图1是中、俄文程序界面。

最终,针对自动采集的术语,进行了人工校对与加工,以保证其准确性。在术语条目存储格式方面,在录入建库之后,为了保证后期能够将多语种词目及对应关系顺利导入本体知识库,所有词目均以XML格式表示,并存储入MySQL数据库,方便使用Java的OWL(本体表述语言)应用接口Jena进行调用。最终构建的术语库包含术语总计7.2万余条(中文2.1万余条、乌兹别克文1.9万余条、俄文2万余条、哈萨克文1.2万余条)。

三 本体构建

本体在系统开发中较多应用于构建领域知识模型,它提供了领域建模所需的基本概念并明确了概念间的关系。一般来说,领域知识包括领域概念、概念的性质、概念之间的关系、概念之间的一般规律等。领域本体在构建时根据概念之间的隶属关系显式地建立联系,清晰定义每个概念的具体属性,属性的取值范围、约束关系、相互关系等,使概念及概念实例之间的通用规律、核心联系和基本假设等都能被显式地描述出来。由于本体通常面向特定领域,是描述领域知识的概念模型,所以本体模型中的类或概念至少在该特定领域或者某个范围内是有共识或公认的。正因如此,领域本体在一定范围内可以共享复用,能够提供特定领域的概念定义和概念关系,提供该领域中主要公理和基本规律等。本文使用的本体构建工具是美国斯坦福大学医学院信息中心(Stanford Medical Informatics, SMI)开发研制的Protégé 4.3,是可扩展的、跨平台的、开放源代码的开发环境,数据库支持完善,支持将本体导入并输出为所需的文件格式(TXT、XML、RDFS、OWL等)。由于Protégé对英文编码支持较为完善,在构建本体时类和关系的命名采用英文,而实例保留中、俄、乌、哈4种语言。

首先,建立本体类。领域内的概念在本体中以类的形式展现,类及类的层级体系是本体知识库的核心框架,定义类和层次时需要注意的是要确保类层次的正确性,分清类的相互关系。现有三种开发方法可以选择:由下而上的方案,即先定义领域中代表性子类,之后把这些概念归类为概况性父类;由上而下的方案,即首先定义领域中概括性父类,随后细化定义下分的子类;由内向外的方法,即最初定义最明显的种类,接着对这些类进行泛化和特殊化。基于所构建的中、俄、乌、哈多语种术语库,本文按照自上而下的方案,将本体知识库设计为包含人员、组织、地域、技术、设备、活动、文件7大类及35个子类的领域本体。领域本体结构见图2。

其次,添加本体实例。添加实例的过程是为本体中的概念类加入现实世界中的具体对象物,即领域中的具体对象。对于本文来说,添加实例的过程就是将多语种术语归类录入本体知识库的过程。按照上述本体知识的分类规则,我们对术语表中每一个术语进行了分类标注,并体现在对术语描述XML文件中,以便于后期术语作为本体中的实例顺利导入本体库中。中、俄、乌、哈多语种术语导入的XML文件示例如下:

equipment //术语所属的大类及子类

防护服//中文术语

защитная одежда//中文术语

himoya kiyimi//乌兹别克语术语

ор аныш ки м//哈萨克语术语

最后,建立实例关系。属性一般包括数据属性和对象属性。通常来说,数据属性是类和实例的固有属性、外在属性和局部属性,而对象属性体现了类和实例之间的关系。根据本体中使用语种的多少,可以将本体分为单语言和多语言两类本体,由于本文构建的本体为多语种本体,那么通过对象属性建立类、实例间的多语种关联映射尤其关键。多语言本体中不同语种的实例可以通过共同的概念类相互联系,相当于跨语言同义词规范,不同语种的本体框架对应的概念内涵是统一的。在使用多语言本体进行跨语言信息检索时,由于跨语言同义词规范的存在,不同语种的概念及概念实例能够相互映射。在多语言本体中,拥有相同概念内涵的类甚至可以不用任何一个语言的词汇来体现,只要明确其定义与所指,用编码、符号或者数字也能够标示。根据当前学界的研究成果,本文将多语言本体的构建方法分为衍生拓展法、中介语映射法和关系注释法三种:(1)使用衍生拓展的方法构建多语言本体,就是在原有单语言本体的基础上,进行多语言拓展;(2)使用中介映射的方法构建多语言本体是指使用中间语言、编程语言,甚至数字编码的方式,为多个语种建立统一的映射链接,以达到跨语言信息处理的目的;(3)使用关系注释的方法构建多语言本体主要采用添加多语言注释、构建等价类或对象属性的方法建立语言间的链接与映射,这种方法一般针对特定领域和信息处理任务。本文采用的方式即为关系注释法,具体来说就是通过对7大类的35个子类设置对象属性“Term_Zh”(中文术语)、“Term_Ru”(俄文术语)、“Term_Uz”(乌兹别克文术语)和“Term_Kaz”(哈萨克文术语)四个属性来建立子类多语种实例间的映射关联,而该关系的建立可以在术语的XML文件映射到本体库时自动添加。具体术语示例见图3。

四 讨 论

第一,中亚语种的专业领域术语特点考察。通过构建多语种术语库和本体知识库,我们发现:在词汇层面,中亚语种专业领域术语体系中普遍存在大量俄语借词、部分英语借词以及突厥语体系中的共有词,这些借词有益于中亚语种术语汉译的规范化和统一化,但翻译标准的制定目前仍旧缺失;在语法层面,中亚语种语法体系的典型共性特征包括词类体系、黏着词尾、动词体态式范畴等,同时在术语的句法关系和语义表述上也存在诸多共性,这就为找寻规则自动抽取和处理多语种术语提供了积极线索;在语音层面,虽然乌兹别克语同哈萨克语的显著不同在于不存在元音和谐现象,但不可否认其相互之间在音韵、语调、音节类型等方面均存在较大相似性,也存在大量音节转换规律,为中亚语种术语在语音层面的自动处理提供了契机。

第二,拓展潜力与应用前景。首先,在该术语库和本体的拓展潜力方面,可在语种上增加吉尔吉斯语、土库曼语、塔吉克语以及英语,以便更好地考察中亚语种的专业领域术语特点,并建立宝贵的语言数据资源;在数量和规模上进一步扩大术语库的收词范围和涉及领域,如政治、外交、经济、法律、医学等,以适用于更多场景和应用需求;在知识体系上,进一步关系细化本体的概念类划分,增加属性关系,丰富术语实例,使其能真正体现领域特征并代表领域知识,为语义检索和智能应用奠定基础。其次,在该术语库和本体的应用前景方面,可为语言教学和辞典编撰工作提供积极帮助,为自然语言处理研究提供实验样本、初始数据和参照规则,为语言学、术语学和翻译学研究提供鲜活语料和丰富案例。

第三,本研究存在的不足和亟待解决的问题。首先,所构建术语库规模还比较小,本体知识库的概念分类体系还需优化,实例数量还需增加,属性关系还需优化。其次,在术语采集、加工处理和校对审定方面,还需制定更加严格的标准和规范,以保证术语的准确性、可靠性和权威性。最后,后续研究还应积极探索新技术和新手段,将智能化和自动化的自然语言处理方法有效地融入术语的加工生产整个过程中,做到扩大规模、提高效率并兼顾准确。

五 結 语

总之,本研究是中亚多语种领域术语库和本体知识库构建的基础性工作,在研究内容上尝试了新的研究方向以期为中亚语种的领域术语研究抛砖引玉,在研究方法上尝试将传统研究方法同自动化方法相结合,在研究结果上发现了中亚语种术语的一些共性特征并指出后续研究的方向,可以说本成果对中亚语种的术语词典编撰、术语学、自然语言处理和语言教学研究具有一定的价值和现实意义。希望本成果能吸引更多的研究同人加入这一研究方向,在后续的工作中将相关工作推向新的台阶。

参考文献

[1] 冯志伟.现代术语学引论[M].增订本.北京:商务印书馆,2011:244.

[2] 刘青.中国术语学研究与探索[M].北京:商务印书馆,2010:538.

[3] 顾春辉,温昌斌.联合国术语库建设及其对中国术语库建设的启示[J].中国科技术语,2017(3):5-9,34.

[4] Gruber T R.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.

[5] 原伟,易绵竹.俄语计算语言学领域本体知识库的构建[J].解放军外国语学院学报,2012,35(1):41-47,125.

[6] 原伟.乌兹别克语-汉语·汉语-乌兹别克语军事术语词典[M].北京:军事谊文出版社,2013.

猜你喜欢
哈萨克语中亚俄语
习近平主席在中亚
俄语歌曲在俄语教学中的应用策略探究
中亚速览
基于3D虚拟情境的俄语视听说教学
哈萨克语附加成分-A
民营油企的中亚并购潮
哈萨克语比喻及其文化特征
“v+n+n”结构的哈萨克语短语歧义分析与消解
哈萨克语植物词汇的文化象征意义
2011年中亚形势回顾与展望