古籍数据库化工作浅谈

2012-04-18 02:11孙显斌

图书馆理论与实践 2012年8期

●孙显斌，李伟

（1．中国科学院自然科学史研究所图书馆，北京 100190；2．国家图书馆外文采编部，北京 100081）

古籍数字化是近年来的学术热点之一，同时它逐渐发展成为古典研究的重要新方法之一。近代学者陈寅恪、傅斯年等早已指出学术研究的创新和进步不外乎新材料、新问题和新方法三个方面，因此古籍数字化作为新方法将为古典研究的发展开辟广阔的空间。

1 古籍数字化的层次及“本体化”的必要性

古籍数字化可分为三个层次，即古籍图像化、古籍全文化和古籍数据库化。古籍图像化是比较简单的数字化手段，它的优缺点都很明显，优点是使古籍材料能够更方便的共享，并且在共享中能够最大程度的保持文献的原貌及非文字符号信息，但缺点是它和传统纸质文献相比，在研究手段上并没有任何新意。古籍全文化则将研究手段向前推进了一步，它的优越之处在于可以进行全文检索，这极大地方便了古典研究者。可以想象在庞大的古籍全文库中进行检索，得到的结果是多么令人兴奋：在没有全文数据库的情况下，这些工作往往需要成年累月的不断查找、记录和整理，费时费力，且还可能遗漏。绝大多数研究者对此已经心满意足了，或者认为到此为止电脑已经完成了它的任务，所以大家的目标全都锁定在得到新的古籍文本这种“新材料”上面。现阶段随着汉字识别和纵向校对技术的成熟，［1］全文化的电子古籍已经可以像流水线一样的生产了，差别只是数量、速度和质量的区别而已。全文化的古籍与图像化的古籍相比也有它的缺点，就是不能保证古籍文本的绝对准确，但是其质量可以在使用中不断的提高并趋于完善。

全文检索虽然有其优势，但缺点也很明显，即检索失误是不可避免的，这是因为造成检索失误的原因是多方面的，其中文本质量只是一部份原因，还存在汉字的别体、语义的切分及别称等问题，这些都会导致漏检或多检。［2］所谓的全文检索，实际上只是在全文中对于某些目标文本进行检索，检索结果中的文本是否都指向同一个语义，亦或指向同一语义的文本是否都包含在检索结果中，这两个方面都得不到保证。举一例，比如我们想从文本中检索“李白”这个人物，古人一般称他为“李太白”“太白”“青莲居士”“诗仙”等等，我们当然不能保证仅用一个目标文本如“太白”进行检索，其结果可以完全囊括文本中出现“李白”这个人物的地方。这其中一个重要的原因就是同语义的别称问题，实际上我们也很难枚举出可能表示人物“李白”的所有目标文本。另一方面，还有不同语义的同称问题，比如“太白”，不只可以表示人物“李白”，常用的语义就还有太白金星和太白山。另外，还会有其他同名的人物，比如《资治通鉴》第一百零五卷就记载南北朝时期一个将军名为“李白”。再者，古书上常有“桃红李白”之语，这里“李白”是一个主谓短语，表示“李树花白”的语义，以上这些情况都会对人物“李白”的检索造成干扰。还有语义切分的问题，比如杜甫字“子美”，但在“此天子美诸侯之辞”的句子里，“子美”并不是一个词。除此之外，导致多检和漏检的重要原因是汉字的别体，也就是古今字、通假字、异体字以及新旧字形等问题，这里只说一下并没有引起足够重视的新旧字形问题，比如“户”在电脑中就有三个字形“户戸戶”，电脑把它们当作三个不同的字，所以说全文检索漏检和多检在所难免。

要解决以上问题最重要的方法是实现文本语义的“本体化”，通俗的说，“本体”就是一个语义所指，［3］在上面的例子中，诗人“李白”就是一个人物本体，“李太白”“青莲居士”等等都是“李白”这个人物本体的别称而已。中华书局有一套分史的《二十四史人名索引》，它把二十四史中出现人物的地方都做了标引，在常用名后面还附注了别名、字、号、谥号等，使所有人物出现的文本位置都列在该人物主条目下，这实际上就是简单的人物“本体化”，对于查找某个人物在二十四史里的相关记载，其索引结果详尽实用。而“本体化”要求我们推进古籍数据库化。近年来古籍数字化的实践主要集中在前两个层次内，这实际上只是方便古籍材料的获得和检索而已，并没有在古典研究的方法上有所突破。我们认为要加强古典研究，就必须将古籍数字化向古籍数据库化的层次推进。

2 古籍数据库化是实现“本体化”的现实技术方式

笔者有幸参加了北京大学数据分析研究中心的两个古籍数据库化的项目，分别是与国家图书馆合作的“中国历代典籍总目系统”以及同中华书局合作的“《资治通鉴》分析系统”，在具体的工程实践中积聚了一点粗浅的想法，在这里简单的谈一下，还请各界专家不吝赐教。上面提到的两个系统正好分别代表了古籍数据库化的两大类型，其中“《资治通鉴》分析系统”属于古籍文本型数据库，它的基本数据为古籍文本内容，而“历代典籍总目系统”则是古籍信息型数据库，它的基本数据为描述古籍的信息。

首先继续上面的话题具体谈一下什么是“本体”，上文已经指出其实“本体”就是同一语义所指，实际上它是一种关系结构，在工程实践中可以用数据库的记录结构来表示。为了说明方便，我们以《资治通鉴》为例，在对这一典籍的分析中，专名术语是我们关注的重点，因为它们构成了《资治通鉴》知识系统的主干。这些专名术语其实就是各种类型的本体，如人物、地理、时间、机构、民族、职官、名物等等，我们之所以这么划分，是因为同一类型本体的属性和关系结构是基本相同的。拿人物本体来说，它包括人名（姓名以及字号等别名）、籍贯、生卒年、职官履历、社会关系等信息，这些都是一个人物本体的属性，并且通过这些属性它又同地理本体、时间本体、职官本体以及其他人物本体建立起关系，这就是我们所说的“本体”的属性和关系结构。当然普通词语也是一种词语本体。

在数据库系统中，本体可以用记录表示，记录与文本的不同在于它是一条结构化的数据，这一结构由若干属性构成，并共同组成记录的内容。比如对于古籍书目数据来说，它就可以有以下这样一个记录结构：

书名规范名称版本类型古籍分类责任行为1 责任行为2 ……

为了说明问题，这里只是简单列举了部份属性，可以看出这样的结构是按照书目数据的特点制定的，这些属性共同描述一条书目信息。但实际上这种记录结构可能更复杂，比如这里的版本类型就还包括很多属性，如版本时代、写印类型、装帧形式、行款等等，关于书目的责任行为也同样复杂，包括责任者、责任行为，责任时间，责任地点等等，这里的责任行为可以是编撰、校注、刊印、题跋等等。

古籍数据库化的前提是古籍文本化，在此基础上才能建立起古籍数据库。实际上，古籍数据库化的过程就是将古籍文本信息语义结构化的过程，即古籍文本信息的“本体化”过程，这是古籍数据库化的本质特征。从工程上讲，古籍数据库化的工作流程大致可分为三个阶段，即文本的语义切分、文本的结构化以及文本的本体化。首先，我们要根据文本的特征通过具体的算法初步完成文本的语义切分，提取结构化的信息记录，第二步通过纵向校对技术校正这些记录，第三步完成具有相同语义的信息记录及其属性的认同，同时建立起它们的相互关系，也就完成了本体系统，最后还需要为各种本体编制知识辞典。

我们拿书目系统做例子，第一步就是将文本格式了的书目数据用电脑自动完成书目信息的语义切分，也就是把书目信息自动填到类似上文举例的书目记录的表格中，初步形成一条条结构化的书目记录。接下来，通过纵向校对技术校正先前初步结构化的书目记录。如何纵向校对，简单的说就是将相同的属性进行排列、规范，自然就可以发现其中的不规范和错误，适时的校正。比如把版本类型的数据提取出来排列，就会发现有“铅印本”或“铅字本”的著录，如果我们确定用“铅印本”为规范，并将其类型置于“印本”的类型下面，那么“铅字本”可以统一规范为“铅印本”。最后，还要将表示相同语义的书目记录和属性进行认同，比如人物认同，将“陶渊明”“陶潜”和“五柳居士”等都合并为同一个人物本体“陶渊明”，这样我们进行检索和分析涉及“陶渊明”时就可以得到全面的结果。书目记录的认同也一样，如刘熙《释名》又称《逸雅》，这样就需要将实际上著录同一种书的书目记录关联在一起，形成一个古籍品种本体，同样古籍的版本、印次、复本都需要类似的认同合并，最终达到本体化的目标。

3 “本体化”古籍数据库的优势

一个完成“本体化”的古籍数据库，我们就可以利用它进行准确的检索和统计，并且还可以在此基础上分析和揭示其内含的学术意义。对于一个书目系统来说，它可以为学者提供时空背景下的著作、出版情况，提供一种典籍的流传线索等等。当然，对数据库化的古籍如何进行深层次的分析和揭示还属于理论上需要加强的领域。数据库化的古籍除了检索和统计准确方便以外，其自身结构方面也具有优势，因为这时古籍不再只是一个平面的文本，而是一个立体的语义网络，它把文本数据通过语义联系组合成纵横交错的多维结构，我们可以从任何一个维度去观察浏览。比如我们把《资治通鉴》数据库化以后，我们不仅可以从时间的维度去看这段历史，还可以从人物、地理、职官等维度去看这段历史。对于书目系统来说，可以从书目、时间、地理、人物、版本类型、责任行为等多维度浏览，数据库化的古籍就像一个万花筒，为我们提供变换的角度和视野。实际上，每一种浏览维度都相当于纸质文献的一种索引。另外，从古籍数据库化的工程经验上来看，通过电脑，我们可以达到人力无法企及的效率，这正是由于在工程中充分发挥了电脑的优势。

古籍数据库化是一项复杂的学术工作，需要人脑去参与，比如在语义切分阶段，有些工作并不像看起来那么容易，例如《贩书偶记》集部楚辞类有这样一个条目“《屈子贯》五卷，嘉定张诗撰，受业杨梦熊、男吉同编，嘉庆戊午疁城万春堂重刊。”这里的“男张吉同编”就有很多歧义，既可能是张诗之“男”，也可能是杨梦熊之“男”；名字既可能是“吉同”，又可能是男吉与杨梦熊“同”编，而《中国古籍善本书目》此书没有著录编者，查对原书确认是张诗之子张吉与杨梦熊同编。另外，在古籍本体化的过程中，由于类似数据聚集在一起，就会比较容易发现各种著录的不一致和错误。例如《丛书综录》中有两部丛书都包含了《平安馆藏器目》《灵鹣阁丛书》，著录为“叶志诜”撰，而《丛书集成初编》则著录为“叶志铣”撰。《中国古籍善本书目》著录有“叶志诜”编《平安馆金石文字》，并有大量典籍著录“叶志诜”题跋，通过查询其他资料可以确定“铣”是“诜”的形近误字，但是《中国古籍善本书目》本身也有著录不一致的地方，史部金石类（14655）《积古齐钟鼎彝器款识十卷》著录有“叶志铣”校，集部曲类（22304）《小忽雷传奇二卷》也著录有“叶志铣”跋，这两处著录就都应该是“叶志诜”。再如在对刚出版的《中国古籍总目·丛书部》进行数据库化的过程中，我们发现有些丛书下面的藏地单位与书后所附《藏地单位简称表》不一致，如“丛10100217钦定古香斋袖珍”下列有藏地“甘大”，可以推知应为“甘肃大学图书馆”的简称，但查简称表应简称为“甘肃大学”。又“丛20300857翠微山房丛书”下列有藏地“金华”，查简称表只有“金华市太平天国侍王府纪念馆”，其简称应为“金华侍王府”。又“丛10100176枕中秘”下列有藏地“白求恩医大”，查简称表没有，由于原白求恩医科大学已经并入吉林大学，所以此处应为“吉林大学医学部图书馆”，简称“吉大医学部”。又“丛20100617古今說部丛书”下列有藏地“香港新亚”，简称表没有，这里应该是“香港中文大学新亚书院钱穆图书馆”，简称表中有“香港中文大学图书馆”简称“香港中大”。这里举例只想说明古籍数据库化工作是有学术含量的，古籍数据库在古籍文本信息的基础上提供了更准确优质的数据信息。

当然，古籍数据库化绝非完美，也难称完善，何况其理论和实践还都刚刚起步，需要探究的问题很多。从长远来看，信息技术领域提出的语义网（Semantic Web）应该是古籍数字化的愿景，但要最终实现语义网的设想，还有很长的路要走。

［1］李云城，等．基于OCR的纵向文字校对的研究与实现［J］．计算机应用研究，2006（4）：234－236.

［2］李铎．从检索到分析［J］．文学遗产，2009（1）：135－137.

［3］仲茜，等．语义Web中的本体建立技术［N］．计算机世界，2007－11－26（B10）.