中医古籍数字资源动态管理经验谈

2018-12-22 07:12丁侃张丽君
中国医药导报 2018年33期
关键词:动态数字化资源

丁侃 张丽君

[摘要] 本文提出了基于数字化建设流程,对中医古籍数字资源实现动态管理的方案。从资源管理的单位、资源命名、元数据三个方面,介绍了相关管理工作的经验,重点介绍了中医古籍资源元数据的著录细则,并从多个管理视角、动态管理的经典用例对管理效力进行了推演。

[关键词] 中医古籍;数字化;资源;管理;动态

[中图分类号] G258 [文献标识码] A [文章编号] 1673-7210(2018)11(c)-0110-04

[Abstract] This paper proposes a dynamic management plan for digital resources of ancient books of traditional Chinese medicine based on the digital construction process. From three aspects of the unit of resource management, the naming of resources and the metadata of traditional Chinese medicine resources, this paper introduces the experience of relevant management work, especially about the detailed description of the metadata of ancient Chinese medicine resources, and deduces the management efficacy from several management perspectives and the dynamic management classic scenes.

[Key words] Ancient books of traditional Chinese medicine; Digitization; Resources; Management; Trend

中醫古籍是祖国医学传承的最重要的知识载体,也是中医药继承发展创新的源头。根据《中国中医古籍总目》(以下简称《总目》)[1]著录,现存的中医古籍有1万余种,数量之巨常以“汗牛充栋”来形容,由此衍生出的中医古籍数字资源则被形容为“海量”[2]。

存储技术的发展解决了资源“放在哪”的问题,但若仅是将资源杂乱无序的堆砌在一处,那么依然难以被有效利用。科学的管理是资源高效传播与有效利用的前提,尤其是对于仍处于建设流程中的“动态”数字资源,如何对其进行有效管理,以保障工作推进和工程质量,这是一个值得思考的问题。

笔者在十余年从事中医古籍整理与数字化工作的实践中,特别是在科技部出台《科技基础性工作项目数据汇交标准规范》[3]等指导性文件后,逐渐形成并完善了关于中医古籍数字资源动态管理的一些方法。本文将所积累的一些经验介绍如下,供大家讨论商榷。

1 资源管理的基本单位

资源管理的基本单位,即我们所要管理的对象。古籍数字资源大致分为古籍原物数字资源、点校本原物数字资源、古籍文本数字资源、古籍中抽取出的碎片化资源4种类型,无论哪种类型均以一部文献作为管理的基本单位。

1.1 完整古籍的数字资源

古籍原物数字资源、点校本原物数字资源、古籍文本数字资源,一般是根据古籍(或现代出版物)原物,通过扫描、拍照、识别、点校等工序,形成的数字文件,其反映的是整部古籍的完整内容。一部古籍形成的数字文件可以是1个,如一部书的图像、文本,被加工合成为1个文件;也可以是若干个,如一部书被按册分别加工为单个文件;也可以是多个,如一部书被按页分别加工为单个文件。无论一部完整的书中,包含多少个文件,我们均将其打包成一个整体,作为资源管理的基本单位。

1.2 碎片化的古籍数字资源

从一部完整古籍中抽取出的部分数据,称之为碎片化的数字资源。如在《二十六史医学史料汇编》编撰过程中,其从26部史书中搜集的资料,分别按照26个单独资源进行管理;如在中医古籍图像(插图)研究中[4-5],将从三千多种古籍中收集到的插图,分作三千多个资源进行单独管理,每个基本单位中,包括数量不等的出自此部古籍的插图。

2 数字资源的命名

文件是资源管理的直接对象,规范文件命名,是希望在无需打开文件的情况下,仅从名称便可直观快速了解资源的大致情况,并可通过文件名称,对资源进行简单地分类、筛选、排序操作。根据我们的经验,并参考了《信息与文献参考文献著录规则》[6],命名应当包括如下元素:编码、书名、主要责任者、版本(出版社、出版时间、版次)、丛书、修改日期等。

其中,编码可任选《总目》序号或《中国医籍大辞典》[7](以下简称《辞典》)序号之一;书名中应当包含合刊、附录等信息;主要责任者,应当包含原作者及当前资源点校者各一位;修改日期一般系统会自动记录,无需人工添加。

命名范例①:07765卫生家宝产科备要(朱端章)(宋淳熙11年甲辰(1184)南康郡斋刻本)。此资源:卫生家宝产科备要,编者为朱端章,版本为宋淳熙11年甲辰(1184)南康郡斋刻本。

命名范例②:07765卫生家宝产科备要(朱端章)(十万卷楼丛书)(清光绪2年丙子(1876)至13年丁亥(1887)归安陆氏刻本)。此资源:卫生家宝产科备要,为“十万卷楼丛书”中的一种。

命名范例③:01638诊家枢要(滑寿)(贾君)——诊+濒湖脉学(临床必读)(人卫2007第2版)。此资源:诊家枢要,著者为滑寿,点校者为贾君,为诊家枢要与濒湖脉学的合刊本,版本为人民卫生出版社2007年出版的第2版。

命名范例④:03307孙真人千金方_附:真本千金方(孙思邈)(李景荣)(整理丛书)(人卫1996)。此资源:孙真人千金方,后附有:真本千金方。

需要指出的是,资源的命名力求简洁,出版社、出版时间、版次等信息,可以简写,并经备案统一。命名不求反映资源的全部信息,未尽信息,在资源元数据中详细著录。

3 中医古籍资源元数据

在参照中文文献通用元数据的基础上,结合资源所体现的中医、古籍、动态三大特征,制订了如下元数据标准。

3.1 资源标识符

定义:古籍数字资源在一定体系下的唯一标识。注释:此项著录在我们资源体系下根据规则生成的唯一标识。编码规则:《总目》序号+《辞典》序号+流水号(3位)+保存时间。

著录范例:《诸病源候论》的资源标识符——00522B0005001201802011818。其中“00522”为《总目》序号;“B0005”为《辞典》序号;“001”为按照上传先后生成的顺序号;“201802011818”代表该资源在2018年2月1日18:18保存生成。

3.2 题名

定义:古籍资源的名称。注释:此项著录古籍的正题名,在古籍原书各个部位的其他题名,在其他目录学著作中的别称,在一般类文献中的别称、简称,以及说明文字,如卷数、附录等。

著录范例:《本草三家合注》的题名——本草三家合注:六卷,附:神農本草经百种录,又名:神农本草经合注。

3.3 主要责任者

定义:对创建古籍负主要责任的实体。注释:此项著录主要责任者名称、别称、国别、所处时代以及责任方式。

著录范例:《注解伤寒论》的主要责任者——(汉)张机(仲景)撰,(晋)王熙(叔和)编,(金)成无己注。

3.4 其他责任者

定义:对古籍资源的创建有贡献的实体。注释:此项著录其他责任者名称、别称、国别、所处时代以及责任方式。包括资源建设流程中,涉及到的加工人员。根据流程,专门扩展如下责任方式:资源核查、资源管理、书目著录、资源点校、资源标引等。

著录范例:《注解伤寒论》数字资源的其他责任者——张某某 资源核查,宋某某 书目著录。

3.5 成书时间

定义:古籍结集成书的时间。注释:此项著录古籍成书的朝代、年号纪年、公元纪年。

著录范例:《温病条辨》的成书时间——清嘉庆3年戊午(1798)。

3.6 出版者

定义:对创制或复制古籍资源负责任的实体。注释:此项著录古籍资源抄写、刻印、印刷、点校及制作的责任者、出版时间及其地点。不仅古籍原物、点校本原物有明确的出版者、版本信息,对于古籍文本数字资源、碎片化资源,亦需通过此项,著录点校所依据的底本、校本等版本信息。

著录范例:《温病条辨》的出版者——清嘉庆18年癸酉(1813)问心堂刻本。北京:人民卫生出版社 1996年。

著录范例:《注解伤寒论》文本数字资源的版本信息——底本:元至正25年乙巳(1365)西园余氏刻本。主校本:明嘉靖24年乙巳(1545)汪济川生一斋刻本。参校本:清道光3年癸未(1823)贵文堂刻本。

3.7 主题

定义:使用特定词汇对古籍资源内容及所属课题、专题、任务安排的归纳描述。注释:此项著录古籍资源的内容分类,参照《总目》12类的分类方法;根据不同课题、专题、任务等属性对资源进行的划分。

3.8 类型

定义:根据资源内容形式特征进行的种类划分。注释:古籍原物数字资源、点校本原物数字资源、古籍文本数字资源、古籍中抽取出的碎片化资源4种类型。

3.9 级别

定义:资源根据质量、加工难易程度进行的级别划分。注释:资源质量分为:高、中、低3个级别;加工难易分为:难、中、易3个级别。

3.10 状态

定义:资源在数字化流程中所处的环节及当前完成状态。注释:根据中医古籍数字化流程,划分为:资源核查、资源管理、书目著录、资源点校、资源标引5个环节;每个环节分为:待开始、加工中、完成3种状态。

3.11 数量

定义:资源内容的量化指标。注释:此项著录资源的页数、卷数、篇数、字数、碎片数等量化指标。

3.12 位置

定义:碎片化资源在原古籍中的位置信息。注释:此项著录的位置信息可以笼统为所在的卷篇;亦可以精确地定位到图片中的坐标、文本中的起止字符。

4 资源管理的视角及动态管理

根据上面介绍的中医古籍资源元数据标准,对资源进行著录,我们便能够从多个视角,实现对资源的动态管理。

4.1 管理视角

文献视角:对某一古籍所衍生出的所有类型的数字资源进行管理;分类视角:按照古籍的内容分类,对资源进行管理;责任人视角:根据古籍的作者、点校者、加工人员,对资源进行管理;出版者视角:对某一底本衍生出的资源进行管理,对某一出版社出版的古籍进行管理;时间视角:对某一时期成书的古籍进行管理;主题视角:对某一专题所涉及的资源进行管理;级别视角:根据质量、加工难易程度对资源进行管理。通过以上视角,可以对资源进行各维度的筛选,以便合理安排人员、规划进度。

4.2 流程管理

整体了解资源所处的加工环节及状态,根据工程计划,合理调配任务与人员;针对某一资源,了解当前所处的加工环节、状态、加工人员、完成情况,便于评估工作量合理安排工作任务,以及测算工作完成进度;根据资源所处的当前状态,筛选已经完成加工环节的资源,并推送到下一个加工环节;查看某一加工人员所负责的相关资源,及时了解其承担任务的完成情况。

5 讨论

5.1 基于流程的动态管理

古籍数字化不仅是结果,更是一个渐进的过程,即为古籍数字资源的创建过程,是利用计算机信息技术对古籍及其内容进行整理和加工,是古籍整理的一部分[8]。本文介绍了对尚处于修图、编目、文本识别、校勘、资料收集、标引等建设流程中的数字资源进行动态管理的一些经验。

与此对应的是,近年来国内外多位学者提出了“数字资源管护”(digital curation)[9]的概念,泛指对科学数据的管理和维护。后逐渐扩展到对数字资源的全生命周期管理。英国数字管护中心将数据管护生命周期划分为创造或接收、评估与选择、吸收、保存、存储、访问、使用与重用、转换8个阶段[10];澳大利亚国家数据服务项目将数据管护分成了创造、存储、描述、标识、登记、获取、检索、开发8个阶段[11];丁宁等[12]提出了高校科学数据生命周期,管理核心是数据存储、组织、发布、检索和获取。

相较于“全生命周期管理”的理念,本文分享的是生命周期前段,即大致相当于创造、存储、描述、标识、登记等阶段的管理经验;而生命周期的后段,即获取、检索、开发等阶段的管理尚未涉及。主要原因可能是中医古籍数字化建设所处的阶段所决定的,当前的资源整合、获取、检索、开发等,尚处于起步阶段,相关管理工作尚未引起重视。但这必然是今后要面临的问题,董晓莉等[13]提出了古籍数字资源管护生命周期模型,从技术角度出发,对古籍数字资源的管护流程进行了详细的分析和设计,其相关研究成果可为我们所借鉴。

5.2 中医古籍资源元数据

元数据(Metadata)是描述其他数据的数据,或者说是用于提供某种资源的有关信息的结构数据[14]。元数据的本质是标准,借用通用的元数据,可以最大程度地保证数据的共享和交换。然而不同领域的数据,又有其自身的特性,需要进行元素的扩展,将著录细化到领域内独有的特点。

通用元数据我们参考了《国家图书馆古籍元数据规范与著录规则》[15]、《中医文献元数据标准》[16-18],同时结合了科技部《科技基础性工作项目数据汇交标准规范》中“专项项目数据汇交元数据标准”,以及各类“资源描述规范”的要求,其中资源标识符、题名、主要责任者、其他责任者、出版者、主题、类型等元素,与通用元数据保持一致;针对领域特征以及动态管理之需,扩展了级别、状态、数量、位置等元素。

同时,在资源标识符、分类等著录时,参照了《总目》、《辞典》的编码体系及分类标准;在主要责任者著录时,参照了《中医人物词典》[19]中的标准人名,以方便领域内的资源整合和流通。

5.3 资源管理的难点

数字资源可以在有限的时间段内产生,也可以动态或连续地产生。动态化是流程中古籍数字资源的基本特征,这就涉及到资源收发、过程版本的备份;基于任务的管理是另一特征,这就涉及工作计划、人员配备、资源收发、工作计量等多个问题。

碎片化抽取是未来中医古籍数字化深入发展的必然趋势,即将整部的古籍,碎片化(解构)为更小粒度的资源,从而提高知识管理的水平[20]。未来碎片化资源的管理、重组、流通将给资源管理工作(精细化,更小粒度)带来更大的挑战。

本文介绍了建设流程中中医古籍数字资源动态管理的经验,从元数据著录细则,推演了资源管理的典型用例,表现了其良好的管理效度。然而我们在工作中也逐渐认识到,资源层面的管理,难免于分散,随着资源的逐步增加,同一种文献有多个版本,每一版本的原书(古籍及点校本)衍生出若干不同资源,尤其是当对外部资源进行整合时,这一问题会变得更为突出。因此在资源之上的文献层面进行元数据体系构建及信息著录,将是今后资源管理研究的趋势。

[参考文献]

[1] 薛清录.中国中医古籍总目[M].上海:上海辞书出版社,2007:1.

[2] 诸云强,孙凯,杨雅萍,等.科技基础性工作数据资料的汇交与整编[J].中国科技资源导刊,2017,49(5):12-20.

[3] 漆胜兰.2004-2014年中医古籍数据库建设研究进展[J].中国中医药图书情报杂志,2015,39(1):60-62.

[4] 丁侃,张丽君,胡晓峰.中医古籍图像标引方案设计[J].中医文献杂志,2015,33(144):26-28.

[5] 丁侃,胡晓峰,张丽君.解析“中医古籍图像数据库”的图像标引[J].西部中医药,2016,29(5):48-51.

[6] 曹敏.GB/T 7714-2015《信息与文献参考文献著录规则》标准解析[J].科技与出版,2015(9):41-44.

[7] 《中国医籍大辞典》编纂委员会.中国医籍大辞典[M].上海:上海科学技术出版社,2002:1-5.

[8] 张轴材.典籍数字化与搜索:源与流,深与浅[EB/OL][2018-5-18].http://www.guoxue.com/zt/gjszh/yjwz_027.htm.

[9] What is Digital Curation?[EB/OL][2018-5-18].http://www.dcc.ac.uk/digital-curation/what-digital-curation.

[10] Beagrie N. Digital curation for science,digital libraries,and individuals [J]. Int J Digit Cur,2006,1(1):3-16.

[11] Australian Bureau of Statistics [EB/OL][2018-5-18]. http://www.abs.gov.au.

[12] 丁宁,马浩琴.国外高校科學数据生命周期管理模型比较研究及借鉴[J].图书情报工作,2013,57(6):18-22.

[13] 董晓莉,李春明.以数字资源管护为手段促进古籍的再生性保护[J].图书馆理论与实践,2017(12):55-60.

[14] 肖珑,赵亮.中文元数据概论与实例[M].北京:北京图书馆出版社,2007:35.

[15] 肖珑,苏品红,刘大军.国家图书馆古籍元数据规范与著录规则[M].北京:国家图书馆出版社,2014:39-79.

[16] 赵阳.基于都柏林核心(DC)的中医文献元数据标准研究[D].北京:中国中医科学院,2013:40-61.

[17] 朱玲,于彤,张竹绿,等.中医文献元数据标准的应用评价研究[J].世界科学技术-中医药现代化,2015,17(4):763-767.

[18] 赵阳,崔蒙.中医文献元数据设计原则和实用性思考[J].世界科学技术-中医药现代化,2015(10):1978-1981.

[19] 李经纬.中医人物词典[M].上海:上海辞书出版社,1988:1-61.

[20] 丁侃.基于知识元信息技术的中医古籍元数据研究[D].北京:中国中医科学院,2009:14-22.

(收稿日期:2018-06-21 本文编辑:金 虹)

猜你喜欢
动态数字化资源
国内动态
国内动态
国内动态
基础教育资源展示
家纺业亟待数字化赋能
一样的资源,不一样的收获
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
资源回收
资源再生 欢迎订阅