随着网络技术发展的日新月异,网络信息资源呈几何级数增长,但在提供丰富知识资源的同时,也增加了查找的困难。如何有效组织、整合并高效检索这些信息资源,是一个亟待解决的问题。元数据(Metadata)是“关于数据的数据”,是一种数据组织和处理的基本工具[1]。它可以用来描述数字化信息资源的基本特征和相互关系,从而使这些信息能够被计算机系统识别、分解、提取和分析归纳为一套可编码体系[2]。
随着中医药领域电子资源的发展,越来越多的数据库出现,如何在众多的数据库中方便准确地获得用户所需的信息是目前需要解决的问题之一。笔者在参与“多元异构中医药科学数据汇交系统研发”课题时发现,首先需要研制一套适用于中医药科学数据的元数据规范。科学数据与科学文献不同,对科学数据的有效管理成为促进和保障科学研究和交流活动的重要内容,故而在中医药文献元数据标准之后,还需研究专门的中医药科学数据的元数据规范[3]。笔者对相关的元数据标准进行了调研,希望能找到建立中医药科学数据元数据规范的标准或方法。
目前,在国际上应用范围最广、影响最大的元数据标准是都柏林核心元数据元素集(Dublin Core Metadata Element Set,DC)。它定义了一组最为核心的元素,用来描述各种资源,通用性很强,是各领域元数据标准的基础。国际标准化组织(ISO)最新发布了ISO 15836-1:2017 Information and documentation-The Dublin Core metadata element set-Part 1:Core elements(信息和文献—都柏林核心元数据元素集—第一部分:核心元素)。元数据标准在医学领域的应用也很广泛,它可以更深入地描述和组织医学信息资源,有助于实现医学信息资源的互通和共享,协助用户发现所需的知识资源。在国际标准化组织(ISO)中,有专门针对医学知识资源的一项标准:ISO 13119:2012 Health informatics-Clinical knowledge resources-Metadata(健康信息学—临床知识资源—元数据,以下简称CKRM),它能对医学知识资源的重要特征进行准确、规范的描述,适用于各类数字化的文档,支持医学文献和自动推理[4]。中医药文献知识资源具有独特的特点,中国中医科学院中医药信息研究所针对中医药领域文献的特点研制了“中医文献元数据标准”,并于2014年在ISO发布了ISO TS 17938:2014 Health informatics-Traditional Chinese medicine literature metadata(健康信息学—中医文献元数据,以下简称TCMLM)[5]。
本文从DC、CKRM、TCMLM发展历史、元素集比较等方面对这三个ISO发布的医学相关元数据标准进行比较,以期对中医药学领域元数据标准研究起到促进作用。
1995年3月,由美国OCLC公司与国家超级计算应用中心(NCSA)联合发起,国际性合作项目Dublin Core Metadata Initiative设计,52位来自全球图书馆界、计算机界专家共同研究,在都柏林召开的第一届元数据研讨会上确定了一种用于标识数字资源的简要目录模式——都柏林核心元数据集(Dublin Core,DC),它包含题名(Title)、作者(Author)、主题(Subject)、出版者(Publisher)、其他代理者(Other Agent)、日期(Date)、主题类型(Object Type)、格式(Form)、标识符(Identifier)、关系(Relation)、来源(Source)、语种(Language)、覆盖范围(Coverage)13个核心元素,它一出现就被北美洲、欧洲、亚洲和澳洲等洲的20多个国家认同。经过发展与完善,DC 核心元素的数量、名称、定义、使用最终被确定下来,形成如今基于Web 资源的15 个核心元素: 题名(Title)、创建者(Creator)、主题(Subject)、描述(Description)、出版者(Publisher)、贡献者(Contributor)、日期(Date)、类型(Type)、格式(Format)、标识符(Identifier)、语种(Language)、来源(Source)、关系(Relation)、覆盖范围(Coverage)、权限(Rights)。DC 属于一种通用描述性元数据,简练、易于理解、可扩展,适合揭示各类型电子文献的内容和其他特征,能有效地对网络资源进行组织、分类、索引[6]。
美国于2001年7月把该元数据集确定为国家标准(Z39.85)。国际标准组织(ISO)于2009年发布了ISO 15836:2009 Information and documentation-The Dublin Core metadata element set(健康信息学-都柏林核心元数据元素集),2017年ISO发布了新版本ISO 15836-1:2017 Information and documentation-The Dublin Core metadata element set-Part 1: Core elements(信息和文献—都柏林核心元数据元素集—第一部分:核心元素)代替了 ISO 15836:2009,并即将发布ISO/DTS 15836-2 Information and documentation-The Dublin Core metadata element set-Part2:DCMI Properties and classes(健康信息学—都柏林核心元数据元素集—第二部分:DCMI属性和分类),用于更加详细阐述属性和分类的问题。我国于2010年发布了国家标准GB/T25100-2010信息与文献都柏林核心元数据元素集,该标准采用了ISO 15836:2009内容。
互联网正在迅速改变我们获取医学知识的方式,越来越多的医疗专业人员通过基于Web的数据库和其他电子文档获取知识,越来越多的病人和公众也逐渐开始使用互联网。因此,欧洲标准化委员会(CEN)在2002年的欧洲行动计划中描述了挑战:“与健康相关的信息是互联网上最常用的信息之一,但目前欧洲公民几乎没有资源来评估这些重要信息的质量和真实性。”在这种背景下,欧洲标准化委员会于2009年公布了一项标准CEN/TS 15699:2009 Health informatics-Clinical knowledge resources-Metadata(健康信息学-临床知识资源-元数据)。按照ISO和CEN技术合作协定(维也纳协定),CEN/TC 251(健康信息学) 与ISO/TC 215健康信息学技术委员会合作,于2012年发布了ISO 13119:2012 Health informatics-Clinical knowledge resources-Metadata(健康信息学—临床知识资源—元数据)。该标准是对CEN/TS 15699:2009的修订,并代替CEN/TS 15699:2009,同时CEN/TS 15699:2009被废止[7]。
中医药历经数千年的发展产生了浩如烟海的文献。如何有效地整理、保存和利用庞大、复杂的中医药文献资源,是中医药传承和发展的重点和难点问题。
随着信息技术的发展,中医药文献信息化也在飞速发展,并产生了许多中医药数据集。中国中医科学院中医药信息研究所研究员崔蒙等于2008年在国家科技支撑计划项目“中医疾病分类代码等基础标准示范研究”课题的支持下开始研制中医药文献元数据规范,2011年完成“中医药数据集元数据规范”草案。该标准是基于DC,并参考CKRM和其他相关元数据规范,结合中医药数据集特性而编写的,适用于中医药数据集的元数据标准,但它的使用对象仅限于中医药数据集,针对广泛的中医药文献,还没有一部国际通用的中医药文献元数据标准。在此背景下,中国中医科学院中医药信息研究所于2008年向国际标准化组织(ISO)提出了“中医学信息元数据标准”提案,后经过会议讨论,修改为“中医药文献元数据”,2014年ISO正式发布的ISO TS 17938:2014 Health informatics-Traditional Chinese medicine literature metadata(健康信息学—中医文献元数据)能够规范、科学、合理地描述中医药学文献,为中医药文献资源提供了一套通用的描述元素。它从标识、内容、分发、质量、限制和维护等方面进行标识和规范,从而促进了中医药文献资源的共享和利用[8]。
DC包括题名(Title)、创建者(Creator)、主题(Subject)、描述(Description)、出版者(Publisher)、贡献者(Contributor)、日期(Date)、类型(Type)、格式(Format)、标识符(Identifier)、语种(Language)、来源(Source)、关联(Relation)、覆盖范围(Coverage)、权限(Rights)15个元素(表1)。
表1 DC元素集
这15个元素按照内容可以分为资源内容描述项、知识产权描述项、外部属性描述项,比较全面地概括了电子资源的主要特征。它们不仅可以用于电子文档,也适用于各类电子化的公务文档以及产品、商品、藏品目录等,具有很高的实用性。
CKRM定义了一组用于描述医学知识资源的元数据元素,具体包括27个元素(表2)。CKRM元素 集主要适用于Web资源的医学电子文档,包括数据库或通过文件传输访问获得的医学知识资源,也适用于纸质文档,如医学文献中的文章。这些元素的适用类型包括医学共识、政府部门监管政策文件、制药公司的临床试验方案、科研方案、综述等,主要用于支持医学电子资源的自动处理,如支持搜索引擎对某类文档的分类等[8]。
表2 CKRM元素集
TCMLM定义了中医文献元数据的核心集合,包含24个元数据元素(表3)。
TCMLM元素集描述了中医元数据的原理和方法,并对中医元数据进行了形式化描述,适用于中药文献的储存、加工、记录、维护和交流。它涵盖了中医文献的识别、内容、分布、制约、质量、维护和关系等领域[9]。
表3 TCMLM元素集
DC具有通用性和建议性的特点。它结构简单,仅含15个元素,但是这些元素都能够被普遍理解,没有经过专门培训的人员也能轻松使用。另外,DC支持对任何内容的资源进行描述,不仅仅针对某一学科或领域。它只选取最重要的几个基本著录项目,在不同学科的资源之间具备语义上的互操作性,有利于实现跨学科、跨领域的检索。DC还具有灵活的扩展性,它允许用户根据需要增删元素和其他附加的结构。
CKRM与TCMLM是ISO发布的中西医领域的两套元数据标准,二者存在一定的联系,又有着本质的区别(表4)。它们都是在绝大部分重用DC的基础上,细化了部分DC元素,然后又根据各自的原则与特点,重点增加了各自业务领域所需要的元素。重用DC的部分各自对其元素进行了细化和在各自领域的解释。比如它们都重用了Type(类型),CKRM对其的细化元素名称里就包括Clinical guideline(临床指南)、Case report(病历报告)等具有临床特征类型的名称;TCMLM则对Title(题名)进行了特色领域的细化,包括Title on the First Page of Text(卷端名称)、Title on the Book Cover(书衣名称)、Title on the inside covers(内封名称)、Title on Fore-edge(版心名称)等。
表4 DC、CKRM、TCMLM元素集比较
CKRM包括27个元素,其中采用DC的有14个,唯一没有采用DC的是coverage(覆盖范围)。进一步将date分为3个,即date created(创建日期)、date available(有效日期)、date issued(发布日期),并细化了Creator(创建者)和Publisher(出版者)的具体信息,即增加了Creator Contact(创建者联系方式)、Publisher Type(出版者类型)和Publisher Contact(出版者联系方式)。新增的元素为7个:Audience(受众)、Situation(情况)、Clinical process stage(临床过程状态)、Evidence Grading(证据等级)、Recommendation Strength(推荐强度)、Risk(风险)、Citation(引用),它们主要关注的是临床过程中涉及的重点问题,能更好地表达临床知识的特征。
TCMLM复用了DC的15个元素,只是将source(来源)改为data from(数据来源),其含义基本一致,并细化了Publisher(出版者)的信息,即增加了Palace of Publication(出版地)、Palace of Printing(印刷地)。另外新增了Ancient physicians(古代医家)、TCM School of Thought(中医流派)、Storage Location(存储地点)、Collection History(收集史)、Physical Degradation(物理降解)、Rare Degree(珍稀程度)、Preserve Method(保存方法)7个中医药文献领域的特征元素,因而可更多地表达中医古籍的一些必要特征。
DC、CRKM和TCMLM是ISO发布的3项元数据标准。DC是元数据标准的鼻祖,具有结构简单、易于理解与扩展和更适用于网络环境等特点。为了加强各领域元数据标准沟通和兼容,实现跨领域检索,许多领域元数据标准的制定都以DC为基础,在DC的基础上根据领域特征,通过丰富元数据元素或者增加元素取值范围等形式进行扩展,从而形成领域元数据标准。
CRKM和TCMLM是DC在西医学和中医学领域资源中不同内容、不同角度的扩展和应用,其目的是表达中西医学各自领域内的不同资源,以提供在各种医学信息系统中的互操作性,因此是医学和中医药学领域元数据规范制定的参考基础。
元数据规范的制定要根据特定领域的具体需求进行研究。制定的方法应以DC为基础,参考和借鉴行业内较成熟的元数据规范,增加具体所需的元素,或者给予自己特定的元素修饰词和值域,以增强元数据规范的适用性和可操作性。比如在中医药科学数据元数据规范的制定研究中,采用以DC为基础,增加更能表达科学数据特征的元素,如在线地址、更新维护频率等。同时也细化了元素修饰词,并取值于中医药相关规范内容,如在“创建者”元素下增加“创建者类型”元素修饰词,并用“中医药数据集分类与代码”中的“数据集创建机构和代码”来标识该元素修饰词。
综上所述,随着中医药信息化的不断发展,组织、检索和利用中医药知识资源的研究工作会越来越多。元数据作为描述数据的数据,其规范研究将是提高中医药行业知识利用质量的重要基础之一。