多语言领域术语系统构建工具TBench的设计与实现

2018-03-22 01:15,,,
中华医学图书情报杂志 2018年9期
关键词:词表数据模型术语

, ,,, ,

术语系统在国家信息化建设中的基础性支撑作用以及在自然语言处理、知识图谱、人工智能等前沿领域的广泛应用,受到了广泛关注。国内外非常重视领域术语系统的建设,但由于版权、语种、语言习惯、编制目的的单一性和应用领域的局限性等问题,单部标准无法满足多类型用户的多样化应用需求。目前在领域术语系统的构建中,面向具体应用、现有成果的复用和集成、共建共享等方面的发展趋势日益明显。

然而,目前常用的词表和本体构建工具,如Protégé、OntoEdit、VocBench3、Term Tree2000、汉语主题词表网络编制平台、军用主题词表应用管理系统[1-6]等,多基于某种特定描述语言或面向特定词表,虽然都实现了单一词表或本体构建的基础功能,但词表与本体间的快速转换与复用、多表异构集成、数据模型可扩展的难度依旧很大,对不同用户类型的工作流也缺乏灵活的控制。因此,本文在国内外现有术语构建工具建设经验的基础上,开展了多语言领域术语系统构建工具(Multilingual Domain Terminology System Workbench,TBench)的需求分析、功能设计和实现,用以支持对多来源、多类型术语系统的管理与快速复用,利用集成词表和本体的构建模式,建立一个能够快速融合、灵活复用与重构的领域术语构建工具,为团体和个体用户提供分布式的协同工作工具。

1 关键问题

1.1 面向应用的多类型用户构建需求

目前面向具体领域和应用场景的术语系统日益增多,真正应用到实际需求的术语系统更需持续更新与发展。由于用户类型、构建目的、学科领域的不同,用户构建的方式、描述框架、数据要求都不尽相同。因此如何满足多类型的用户构建需求,实现术语系统建设中数据模型、工作流、窗口组件等的个性化定义与可扩展,是TBench要解决的关键问题。

1.2 多来源异构术语系统复用

词表作为传统的术语系统模式,语言规范、结构严谨单一、颗粒度细、规模通常较大,已有一些成熟的成果可以复用。本体作为新型的知识组织系统,可定义丰富的数据属性和注释属性,支持智能推理,多为面向应用的小型领域本体,易复用。另外,国家发布的方针政策、技术标准、行业规范等成果,也是可甄选、提取和再利用的成果之一。由于“零基础”的人工构建模式工程巨大、费时费力,因此为避免重复工作,如何实现这些多来源多格式的数据模型、概念、术语、语义关系成果在同一工具中的语义映射、灵活复用和重构,是TBench要解决的关键问题。

1.3 多语种的术语平等地位

传统术语系统中多个语种并存时,将其中一种语言作为源语言,使用源语言中的术语表达概念,其他语种的术语只能作为入口词或属性值展示,这不利于多文化环境中的概念表达和利用。在多语种叙词表中,所有语种地位是平等的。一般来讲,特定科学领域的概念具有一定的稳定性、是不分国界的,所以词表中每个概念在每种语言中都应有对应的术语表达形式,这样才能在使用任何一种语言表达该概念时都能够达到相同的应用效果。因此,如何制定多语言环境下的概念、术语、关系创建机制也是TBench要解决的关键问题。

1.4 权限控制与协同管理的平衡

TBench整合了多来源、多类型的大规模资源,在新术语系统构建的过程中,可能涉及多领域、多机构、多类型的人员。因此如何针对不同类型的用户,既要从功能、资源上进行合理的权限控制,又要避免控制过于严格造成协同管理过于复杂、用户体验差等问题,是TBench要解决的关键问题。

2 工具架构

2.1 工具整体架构

为了解决上述关键问题,TBench主要借鉴“ISO 25964”构建兼容SKOS、OWL、RDF等的数据模型,开发支持数据模型自定义扩展,进行多语言的概念、术语、关系灵活构建和复用的辅助建设工具,为主题词表、应用本体等领域术语系统的内容建设提供分布式协同加工工具,提高效率。

TBench的整体架构如图1所示。其核心业务功能模块包括术语、概念、关系的数据模型定义与内容加工,以及数据转化、批量创建与复用、多语言机制等关键技术,辅助工作流、用户权限、访问冲突方面的协同管理与控制。

2.2 核心功能

2.2.1 数据模型自定义扩展

数据模型指术语系统内容相关的描述与编码数据,用于词表、术语、概念、关系等的定义、存储与跟踪,是支持整个术语系统应用的基础。根据国际叙词表标准,数据模型经历了“ISO 2788:1986”基于术语的数据模型、“BS8723-2:2005”基于概念的数据模型,“ISO 25964”进一步扩展成叙词表、叙词表列、概念组、概念、术语、注释六大数据对象,完善了各对象的属性特征及对象间关系,更加完备[7-8]。为满足多类型用户的个性化构建需求,在借鉴“ISO 25964”数据模型的基础上,TBench为所有数据对象设计了一套基础的数据模型,支持按顶层概念、术语类型、语义类型分别进行个性化定义,包括概念属性、术语属性、属性描述、等级关系类型、语义关系描述与细化等方面。

如药物类概念,术语类型可扩展成商品名、通用名、化学名等,等级关系可扩展成父子(is-a)、整部(part-of)、实例(instance-of)等,可根据概念子树设置等级关系的类型,如“解剖学”概念树多是part-of关系,“地理位置”多是instance-of关系。各类数据属性可进行自定义扩展,如概念注释可扩展为范围注释、历史注释、定义等。为了改进protégé数据属性多个定义域和多个值域不能一对一的情况,采用术语系统的前几级框架支持一对一、一对多或多对一定义语义关系的值域和定义域,以控制某类概念特有的语义关系类型。针对新建的术语系统,可以直接采纳已有的基础数据模型,也可在此基础上自主创建、配置与扩展。针对已有的术语系统已存在较为完备的结构,可通过导入表结构描述或术语数据的规范文件自动解析生成数据模型,也可进一步扩展与优化。

图1 多语言领域术语系统构建工具架构

2.2.2 概念灵活复用与批量构建

2.2.2.1 规范文本批量创建

概念是思想的单元,是构成领域术语系统的核心要素。概念内容加工是领域术语系统建设的核心过程,是建立科学、全面的术语系统的关键步骤。为避免大规模术语系统零基础、人工构建的弊端,TBench除支持零基础新建概念外,在工作流中集中融入了概念灵活复用的思想,建立了由规范文本转换为概念等级结构、子概念、非优选词、语义关系的批量创建机制(图2)。如图2所示,规范文本中,换行表示多条记录,通过TAB键控制概念间的等级关系;同一行中以竖线“|”分开的多个术语表示一个概念,首个术语作为优选词,其他术语作为非优选词。转换后自动生成概念等级关系,如概念“丙戊酸镁”含有一个非优选术语“癫心宁”。

图2 规范文本批量创建示例

2.2.2.2 表内概念树复制或位置调整

概念树结构主要指概念间等级关系与同位关系呈现的树结构位置信息。为提高内容建设效率,TBench提供多种方式实现了概念树复制与位置调整,进行计算机的辅助构建。一是子树复制与删除。术语系统面向计算机使用,为从多个维度充分揭示概念内涵的不同方面,需与多个上位概念建立多重属分关系(Polyhierarchical relationships)。为了降低重复构建概念或子树的难度,工具提供某一类概念或概念子树的复制与粘贴的快捷操作,在概念属性窗口定义多个上位概念等多种方式,实现多个位置下子树的批量创建。如“病毒性疾病”的子概念“病毒性肝炎”,从其发病部位角度又可归至“肝疾病”,即可通过复制概念“病毒性肝炎”子树至“肝疾病”下,也可在“病毒性肝炎”属性窗口新增“肝疾病”上位概念,实现“肝疾病”下“病毒性肝炎”子树的创建。二是位置调整。在术语系统建设中,等级树结构中的位置调整是较常用的一个核心操作。为增加工具操作的灵活性、简化复杂的调整操作,TBench支持概念相对位置信息的自由拖动。与子树复制不同的是,位置调整涉及到is-a关系、树结构号的删除与重建。

2.2.2.3 异构成果表间复用构建

零基础构建一部大规模的术语系统,工程巨大、耗时耗力,复用国内外已有的丰富术语成果,是共建共享的发展要求。TBench遵循在建术语系统的规范,可灵活复用异构成果快速构建,即在创建概念或等级树结构时,将已有成果的单个概念、多个概念或其子树,通过数据复用、表间子树复制等方式融合到正在构建的术语系统中(图3)。但这些已有的权威标准、科学名词、行业规范,分别有word、pdf、txt、xml、owl等多种格式,结构上也和常规的术语系统不同。TBench可经过外部数据导入、结构自动解析、数据模型映射、质量逻辑校验等重构操作后,实现异构数据的规范化,即可在工具中实现表间内容的复用。通过表间复用批量创建概念时,将继承来源表的非优选词、定义、注释及关系等信息,并自动生成在建词表与已有词表概念间的等同映射关系。

图3 异构成果结构映射与复用示例

2.2.3 关系批量创建与融合

关系实例建立在概念与概念间的语义关系对上,包括等级及其他语义关系类型,是描述现实世界的计算机表示方式,关系实例的规模是对语义关系丰富程度的具体体现。逐个创建关系实例较为繁琐,TBench建立了批量创建与融合的工作机制,降低了操作难度。一是批量创建具有共同特征的语义关系。其中同一个概念可能与多个其他概念存在相同的语义关系,选择多个概念作为值域批量可以创建同一类关系的实例。如药物“氯沙坦钾”可能治疗多种疾病,所以“氯沙坦钾”存在多条值域不同的“治疗”关系,可为其“治疗”关系选择“2型糖尿病”“高血压”“肾病”“卒中”4个值域,一次性创建“氯沙坦钾 治疗 2型糖尿病”“氯沙坦钾 治疗 高血压”“氯沙坦钾 治疗 肾病”“氯沙坦钾 治疗 卒中”4条关系记录。二是融合已有成果的关系实例。基于表间复用创建概念时,可通过数据模型的映射结果继承与融合已有成果的关系实例,辅助进行等级关系链、关系值域与定义域是否完整等逻辑性检测。如由于关系的定义域和值域均在树结构中严格控制了概念范围,所以在定义了“药物 <治疗> 疾病”后,只有药物及其下位概念可以定义“治疗”关系,其他如检查类概念就不能创建该关系。

2.2.4 多语言机制

为解决多语种并存的问题,TBench不像传统构建工具对概念的优选词或非优选词进行一对一的翻译,而是按语种创建概念、关系及其属性,基础数据模型对概念、术语、关系及其他属性均赋予了“语种”特征,以此声明其合理存在的语言范围。不同语种里都可设置一个优选词,通过建立多个优选词间的映射关系,揭示不同语言内的概念内涵差异。同一概念不同语种的优选词,在语义和文化方面具有完全相同的内涵,能够建立跨语言的精确等同映射关系。

多数情况下,由于文化、内涵或价值的差异,不同语种间的术语表达的内涵都会存在细微的差异,可能存在“近义等同”“部分等同”“包含”等情况。如“aircraft ”在不同语境中有“飞机”“航空器”之义,涵盖了直升飞机、飞艇、滑翔机等,不能简单地与中文术语“飞机”直接对应。因此,多语言环境下以概念为中心的属性设置、优选词并存与关系处理,都有助于揭示多语言环境下的文化内涵及差异。

2.2.5 协同控制

为了实现多用户的分布式加工,打造极简、随需应变的业务工作流,TBench从访问冲突、逻辑性、质量等方面进行了实时监测与控制,也从用户、角色和权限等角度实现了协同管理。工具整合了多来源多类型的大规模资源,在新术语系统构建的过程中可能涉及多种工作流需求的人员。

为实现不同类型人员的灵活管理,工具赋予用户角色,从可访问的功能模块、功能点、标签文字及可利用的术语系统资源(如某部词表、某个子树或范畴)等方面进行权限的控制与管理,如用户可以使用自然语言重新定义界面呈现的标签。通过多方面的灵活配置与分类控制,便于各层次用户的术语系统共享、协同构建与管理。

3 工具实现

3.1 开发环境及技术

TBench的开发平台为Eclipse neon,JDK版本为1.8.0,应用服务器为Tomcat 8.5。TBench自下向上分为数据层、功能层、界面层。在数据层,使用关系数据库Oracle保存临床医学术语数据以及系统数据,使用全文数据库Elasticsearch保存临床医学术语的索引数据,然后通过JDBC、Mybatis以及Elasticsearch提供的应用程序接口与功能层进行数据交互;在功能层,采用Spring MVC作为框架,运用Java编程语言实现各个业务模块,与用户层通过Restful风格的应用程序接口进行数据交换;在用户层,采用HTML5、CSS、ReactJS、Ant Design等前端技术构建与用户交互的Web用户界面,并通过AJAX技术调用功能层的Restful应用程序接口,完成各种工作流。

3.2 工具应用与评价

目前TBench已基本完成了核心功能的开发,实现了已有术语系统的信息注册、数据入库、格式转换、结构解析与映射,新术语系统的创建、数据模型自定义、内容的批量创建与表间复用、多种格式存储等。主要功能及界面如图4所示。TBench借鉴“ISO 25964数据模型”进行自定义扩展,与SKOS、RDF、OWL等语义描述模型能很好地兼容[9-10]。支持语义描述模型间、不同格式间(如TXT,JSON,XML,RDB)的数据转换工具正在开发中。

目前TBench已用于中文临床医学术语系统(Chinese Clinical Terminology System,CSCT)的构建。CSCT基于TBench 完成了数据模型定义,自定义扩展语义关系65个,在14个顶层维度下初步组织了约75 300个概念、15万余条医学术语。TBench根据不同用户类型制定了清晰的工作流,整个构建过程中贯穿复用和整合的理念,解决了多用户个性化需求、异构术语复用、多语言环境、协同管理等问题,提高了术语系统建设的灵活性和效率。

图4 多语言领域术语系统构建工具核心界面

4 结语

在智能技术和资源趋向共建共享的快速发展趋势下,多语言领域术语系统构建工具TBench是新技术环境下对领域术语系统灵活、快速构建的一种新探索。TBench基于“ISO 25964”的数据模型自定义扩展解决了多用户的个性化构建需求,通过概念与关系的复用、继承与批量创建等方法提高了工作流的灵活性和效率,并支持建立以概念为中心的多语种术语系统。但TBench仍存在改进空间,如复用多部成果时的语义关系融合与冲突控制、面向电子病历等的新词发现与补充。下一步我们将继续探索与优化,使工具更加高效和人性化。

猜你喜欢
词表数据模型术语
基于VOLT的藏汉双向机器翻译
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
近十年国内外专业学术词表建立文献综述*
面板数据模型截面相关检验方法综述
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
基于数据模型的编程应用
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
常用联绵词表