张广庆,郑 金,苏 涛
(1.青岛市标准化研究院,青岛 266071;2.同方威视技术股份有限公司,北京 100084)
浅谈术语数据库建设的若干问题
张广庆1,郑 金2,苏 涛1
(1.青岛市标准化研究院,青岛 266071;2.同方威视技术股份有限公司,北京 100084)
本文简要探讨术语数据的来源、术语数据库设计和术语软件检索方式等问题,并结合实际的术语数据给出了一种术语数据库设计方案,可以满足常规的术语检索要求。
术语;术语数据库;数据来源;检索
术语,是在特定专业领域中一般概念的词语指称,在我国常称为名词或科技名词。人们通常使用术语出版物获知各行业术语知识,词典、辞书、术语标准是目前国内最常见的出版物。从发达国家术语的发展现状来看,绝大部分术语已经是以数字化的形式来展现。通过数字化编辑、在线打印、全文检索、专业数据库等计算机技术的融合使用,国外科技工作者可以更加便利地查阅和使用术语。
术语数据库也称术语库,是指专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的一种源数据库,属于计算语言学领域,是现代语言学、现代术语学、现代计算机技术相结合的产物。术语的关系模型满足二维表格属性,适合使用关系型数据库进行数字化管理。本文以常见的Microsoft Access单机版关系型数据库为例,简要探讨术语数据库建设中的若干问题。
全国科学技术名词审定委员会(以下简称“全国科技名词委”)代表国家进行术语审定工作[1],其预计2018年底编纂出版的《中华科学技术大词典》,计划收录两岸100个学科、约60万组术语,实现大陆名与台湾名、中文名和英文名的对照。在其官网(http://www.cnctst.cn)上,可以免费查询到80多个学科、30余万条规范术语。官网上显示的术语信息参见图1。
图1 全国科技名词委官网中的术语信息
中国国家标准化管理委员会(以下简称“国标委”)统一管理全国标准化工作,并代表国家参加国际标准化组织(ISO)等国际组织的技术活动,其负责制修订了国家标准7万多项、行业标准15万多项。国标委管理的“国家标准全文公开系统”(http://www.gb688.cn/bzgk/gb/index),可以免费查阅5千多项国家标准全文内容。术语标准作为标准的一个重要分支,约有国家标准1590项、行业标准890项。术语标准中显示的术语信息参见图2。
图2 GB/T 33528-2017标准中的术语信息
按照国家标准GB 1.1-2009规定,“术语和定义”部分是一份标准的可选要素,它仅给出为理解标准中某些术语所必需的定义,大多数国家标准和行业标准都编制有该内容。按照7万项国家标准和15万项行业标准预计,非术语标准编制的术语总量有几十万到几百万组。“术语和定义”部分显示的术语信息参见图3。
图3 GB/T 1.1-2009标准中的术语信息
数据库设计是指根据用户的需求,在某一具体的数据库管理系统上,设计数据库的结构和建立数据库的过程,一般分为系统需求分析、概念结构设计、逻辑结构设计、物理结构设计、数据库实施、数据库运行与维护等阶段。
通过分析、对比术语数据的三种来源,可以看出,其信息组成满足简单的二元关系(即二维表格形式),应当使用关系型数据库进行管理。术语数据包含的基本信息应有:术语中文名称、英文名称、相关名称、定义、学科、数据种类(出版物、术语标准或标准定义)、出版物或标准名称、标准号、标准术语分类、出版物版本、发布日期(出版年代或标准实施日期)、注释等。这些术语信息主要应用于翻译辅助、辞书编纂、信息检索、术语标准化等领域。
E-R图也称实体-联系图,是描述现实世界概念结构模型的有效方法。实体用矩形表示,实体名在框内标注;实体的属性用椭圆表示,与对应的实体用直线连接;实体间的联系用菱形表示,联系名在菱形框内标注,与对应的实体用直线连接,在直线上标注联系的类型(一对一、一对多或多对多,通常用1:1、1:n或m:n表示)。术语信息的E-R图参见图4。
图4 术语信息的E-R图
本文采用Microsoft Access数据库,将概念结构设计中的术语信息的E-R图转换成Access支持的关系数据模型。实际设计中,常常增加1个有意义的编号字段,作为一条记录的唯一号或者主键。参见表1。
表1 术语信息数据模型
数据库的物理结构是指数据库在物理设备上的存储结构与存取方法,不同的数据库管理系统有不同的物理结构。数据库的物理设计就是给一个逻辑数据模型选取一个适合应用要求的物理结构的过程。通常有以下内容:
(1)确定数据库文件的存放位置和空间要求:
术语表的逻辑结构较单一,可选择生成一个access数据库文件。在术语的数据类型中,将日期按照文本(10)、备注按照文本(200)估算,1条术语信息约占用1130字节,100万条术语信息约需空间1G字节(1024×1024×1130),因此,数据库文件所在的逻辑盘不应低于1G字节的空间。
(2)确定索引存取方法:
按照“是否经常作为查询条件使用” 的情况分析,应在术语中文名、英文名、相关名称、定义等四项信息上建立索引,索引类型是有重复的索引。
根据逻辑结构设计和物理结构设计两个阶段的结果,在计算机上建立实际的数据库结构、装入术语数据、编制应用程序并测试、试运行、编制实施文档的过程。
(1)建立实际的数据库结构:
利用Microsoft Access数据库创建一个新的术语数据库文件termdb.mdb,并建立新表myterm,按照表1术语信息数据模型填写并完善各字段内容,各字段内容见图5和图6。
图5 表myterm各字段主要内容
图6 表myterm中term_id字段常规内容
(2)装入术语数据:
笔者收集整理了7个术语标准中的1818条术语,并加以完善各字段内容,以这些术语为例,装入表myterm中。术语标准见表2。
表2 术语标准样本
(3)编制应用程序并测试:
常用的关系型数据库开发工具有Visio Foxpro、Delphi、Oracle SQL Developer、PowerBuilder等,使用这些图形软件开发工具,可以非常方便地开发出术语数据库的查询应用程序。应用程序编制好后,需要经过多次调试来满足不同的查询要求。
(4)术语数据库及应用程序打包试运行:
以Powerbuilder9.0开发工具为例,为使术语数据库和应用程序能安装到其它计算机上使用,应至少将termdb.mdb、libjcc.dll、libjsybheap.dll、pbdwe90.dll、pbodb90.dll、pbvm90.dll和开发的查询软件一起安装。查询软件使用ODBC方式连接术语数据库时,也要使用以下参数连接:"ConnectStr ing='driver=Microsoft Access Driver (*.mdb);DBQ=c:myterm ermdb.mdb;UID=sa;PWD=",斜体部分应使用实际的文件夹。
(5)编制实施文档:
实施文档一般包括硬件环境、操作系统、支持软件、空间要求、安装说明、备份等内容。
该阶段主要包括:维护数据库的安全性与完整性,检测并改善数据库性能,重新组织和构造数据库。
可以使用单字段法(也称独立字段)、全字段法、分类浏览法、组合字段法、记忆法等检索方式,参见笔者所著《常用标准题录信息查询方法介绍》[2]一文,本文不再详述。
[1] 郭剑.术语数据库建设之我见[J].中国科技术语,2015,17(5):57-60.
[2] 张广庆,刘晓宁.常用标准题录信息查询方法介绍[J].质量探索,2016,(8):80-85.
Discussion on the Construction and Application of Terminological Database
ZHANG Guang-qing1, ZHENG Jin2, SU Tao1
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Nuctech Company Limited, Beijing 100084, China)
This paper briefly discusses the origin of terminological data, terminological database design, terminological software retrieval methods, etc. Then the author provides a terminological database design scheme in combination with practical data, which can meet the general requirements of search terms.
term; terminological database; data sources; retrieval
H083
A
1672-6286(2017)03-0077-06
张广庆(1971-),男,山东巨野人。质量高级工程师,主要从事组织机构代码、软件、信息化、标准等领域研究。