论古籍数字化的检索问题

2011-03-19 12:17:55郭伟玲戴艳清武汉大学信息管理学院武汉430072

图书馆理论与实践 2011年10期

●郭伟玲，戴艳清（武汉大学信息管理学院，武汉 430072）

进入21世纪以来，我国古籍数字资源的建设呈现出一种新的气象，古籍数字化工作中的基础工作建设也得到了空前的重视。从宏观层面建立具有中国文化特色的文献资料类型（如古籍、拓片、舆图等）的元数据格式及其扩展和互操作规则；古籍数字化的理论表述逐步成型，古籍数字化的学科体系初步完善；在数据库建设方面成绩亦是斐然。尽管中国古籍数字化建设斩获颇丰，但目前中国古籍数字化资源的使用状况堪忧，一方面原因在于文史工作者对于古籍数字资源的态度亟待转换，另外一个方面则是因为目前古籍数字化的利用过程中出现了一些障碍，主要表现在最基础的检索问题上，这些困难导致目前古籍数字资源的使用情况不容乐观。

1 古籍数字资源建设过程中容易出现的问题

1.1 古籍数字资源建设中的字体问题

一般来说，古籍数字化处理中的字体问题包含两个方面：一是字体的个数，尤其值得指出的是古籍中包含了形态各异的避讳字、异型字、通假字等非常规用字，导致了古籍内所包含的字数异常庞大。目前在古籍文献数字化处理的过程中，通用于业界的Unicode字符集具有近7万字的容量，但以《中华字海》为例，收录有85568个汉字，远远超过了字符集所涵盖的最大限量，也不能满足古籍庞大的字数要求。二是字形问题。汉字的形态从甲骨文的形式创造伊始，经历了数千年的形态的变化，包含了各种字体形态，对于当前基于标准字体处理产生的计算机文字处理技术提出了更高的挑战。目前业界在处理多种字体的问题上，涉及到了资源处理方式的选择，如果采用文献研究人员比较看好的扫描方式，各种不同的字体就会形成不同的图形格式，那么数据库的检索就会在图形检索方面提出更高的要求。而现实状况是，目前的图形检索技术并不发达，在这样的技术背景下，字形显然是古籍数字化建设中不能规避的难题。这两个方面的因素成为当前古籍数字化工程中突出的障碍。

1.2 古籍数字化处理技术的选择

目前古籍的加工技术分为键盘录入、OCR识别录入和扫描3种，这3种方法各有利弊。人工录入可以更好地发展古籍数字化产品的拓展功能，但是错误率比较高，费工费时，且容易受到字符集的限制；OCR识别录入可以加快速度，提高工作效率，但是对于古籍中的复杂字体和字符的识别率不能使人满意，尤其是对于一些受到污损的古籍页面处理差强人意；图像扫描可以解决文字问题，对于扫描文献的要求较高，对于要数字化的文献，需要提前进行修补和完善处理。从普及度来讲，目前多数机构和公司采用OCR识别录入方法。从学术研究者利用的角度来看，学者们更容易接受扫描方法录入，其原因在于：“合乎学术用途，适合学界需要”。[1]扫描图书不仅数字化了文献的文字内容，还利用图像保留了文献的形式内容，满足了文献研究者的专业需要。

数字化的存储技术主要集中在存储介质和存储格式的选择。目前古籍数字化产品的存储格式主要有文本文件格式、数据库格式、电子书格式、超文本格式、图片格式、多媒体格式，数字化古籍格式之繁多可见一斑。[2]同时各个古籍数字化产品由于竞争和知识产权等原因，采用不同的阅读器，并且各自不兼容，导致用户利用的人为障碍。不仅如此，由于许多电子图书采用了图片格式，也给用户提取资料带来了许多困难。

1.3 古籍数字化标准规范

现今古籍数字化基本是独立开展的，不管是从选题、投资、建设、运作等各个方面，古籍数字化都处于一种各自为政的局面。从技术上讲，古籍数字化的一些技术问题尚未标准和规范化，总体缺乏协调，这一问题得不到有效解决，将制约古籍数字化的进一步发展。

2 古籍数字化中的检索问题

2.1 古籍数字化工程中检索技术的发展与成就

21世纪以来，古籍数字化发展迅猛，构成了一个庞大精深的中华文化立体知识体系。在此基础上建设的数据库，不仅可以实现海量信息查询、字词频分析、用字量统计等古人难以实现的功能，在检索技术上的进步也非常显著。众多古籍数据库不仅仅具有普通数据库常见的检索功能，如全文检索、关键词检索、布尔逻辑检索、截词检索等，个别数据库还开发出了古籍领域所要求的特色检索功能和特定的辅助用法，这些特殊的检索方式使得数据库的利用价值有了较大提高。

① 朝代检索。目前国内的中国基本古籍库和《国学宝典》的检索程序提供朝代检索，中国基本古籍库最近的全功能试用版加入了按年代检索的功能。② 四部检索。如《国学宝典》按范围检索分为经、史、子、集、其他5个部分，而中国基本古籍库则是以四部的二级类目为参考类目。③ 古籍源检索。中国社科院的《全唐诗》数据库检索系统，不仅可供快速查检《全唐诗》中任何作品的字、句、标题、注解，还可以查找该作品在《全唐诗》中的册、页、行数；而中国基本古籍库则提供版本检索内容，可以按照文献学界的普遍说法，输入宋刻本、明刻本等条目进行检索。④ 书法检索。按照文字的字形和书法家进行检索。目前提供书法检索的数据库主要是CADAL中的古籍数据库，其处理方法为：先根据特征从大量数据量中抽取可能相似的少量书法字，而后把用户提交的样本字与这些少量书法字进行不精确匹配，提高了检索速度和检准率。⑤ 内容扩展检索。此类系统在检索性能上有了很大改进，检索的范围不再局限于书目和文本，而是对古籍的标题、词句、注解等实际内容进行全面检索。

2.2 古籍数据库检索的局限性

虽然古籍数据库在检索技术方面取得了巨大进步，但是较学者对数据库的期望还存在很大的差距，主要表现在以下方面：

（1）已有的检索技术功能单一。目前已经问世的大型数字化古籍，基本上都有全文检索功能，但全文检索的功能相对单一，还不能满足专业研究者的多元需求。这些数据库中所提供的全文检索，只能是关键词的检索，不论是单词检索还是组合检索，检索一次，都只能检索到与输入的词语严格匹配的资料，而不能检索到不含输入的词汇而实际相关的资料。从检索技术上来讲，基于关键字的文本处理方法，主要依据的是词频信息，两个文本的相似度取决于它们拥有的共同词汇的数量，因而无法分辨自然语言的语义模糊性。[3]也就是说，与当代资源数据库相比较，数字化古籍目前只能固定检索海量数据，而不能智能化地检索和生成新的数据。因此，在数字化古籍检索中，我们无法采用词语相近性与相关性的特点进行智能扩展检索，在普通数据库中出现的标签云等提示性的扩展检索，由于古籍文献的特殊化，并不能实现检索词的智能限定和扩展，进一步提高检全率。

在古籍检索的案例中，采用常规的检索方法，比如用关键词检索人物资料，通过组合检索或多次检索的方式还能比较全面地查到所需资料的话，那么，查找相关主题的资料，就比较困难了。比如说，想查《四库全书》中有关文学传播的资料，但是古人并不常用“传播”这个概念，如果用“传播”作为关键词，就无法查到《四库全书》中蕴藏的大量的传播资料。这种情况的出现，其原因在于古籍文献中的行文方式、句词的涵义与现代汉语存在许多根本的差别，其语意可以根据上下文甚至语境产生截然不同的设定和匹配，这就导致了在古籍数字检索中存在独有的语义联系问题。针对古籍的自身特点，我们需要着重加强对汉字间关联的查找。古人在写文章时是不使用标点符号的，因此古人在读书时要自己断句，只有理解了词与词之间的联系，才能真正理解古文的意思。在古文中有时一个字代表一个词，而词的一个特点就是每个词都具有一定的含义，对某个词的词义判断错误，往往会导致标点失误，从而无法通古意。这是在古籍数字化中需要特别注意的。[4]虽然部分古籍数字产品推出词典功能，但并不能满足文献研究者需求。

（2）古文献的检准率不尽如人意。检索的准确性也是衡量检索程序的一个重要标准，但大多数的检索程序的准确性难以令人满意。在检索式中，一个词语的权重不仅仅取决于文本中出现的词频，还会受到其在文中出现的位置的影响。古典文献著述类型多样，页面版式复杂，同一页面会出现不同颜色、字形、大小的字体，不同的文献性质，如正文、注、疏、解等各种字体字形，使得目前古籍检索中检索词权重计算混乱，在非正文中出现的关键词在检索计算中容易被忽略，直接导致了检准率的下降。同时还需要注意的是检索词的本身。古籍中字的通假、异型、繁简等情况的出现，给古籍数字检索也带来了很大的困难。比如在《四库全书》中检索含有“籑”字的资料时，大量含有“撰”“馔”“纂”的资料也一并检索出来，而且这些无关的条目还无法排除。[5]另一方面，一些应该同时检出的异体字，程序却视为不同的字而不能检出。有些关键词明明在所收文献中存在，通过数据库所提供的浏览功能也可以看到，可是通过检索程序进行搜索就是检不出来。

（3）检索结果的处理存在缺陷。古籍数据库的检索结果与常用字处理软件的兼容性不尽如人意。检索出来的资料人们一般是要复制到Word等字处理软件中使用的，然而有些数据库的资料复制粘贴后会发生错误，尤其是扫描录入的图像格式。古籍文献版式复杂，不少古籍带有注文，注文一般是随文用小字表示，甚至有疏有注有引，各个字体字形不一，在对检索结果进行文字处理时，正文与注疏相混。如何精准地识别检索结果，也是目前数据库检索所面对的难题之一。

3 问题分析

基于上节内容介绍，我国的古籍数字化在检索方面的技术处理同用户的使用需求之间仍然存在很大距离，古籍数字化产品的检索技术存在种种瓶颈，其原因有以下几点：

（1）古籍数字化未能解决古籍检索中的关键问题。当前数字化古籍检索的核心技术仍然是传统的全文检索方法。全文数据库检索系统主要是采用逐字标引形式，基于读者输入的检索字或词，在数据库中查找完全匹配的结果以返回给用户。[3]这种检索模型首先假定一个关键词唯一地代表一个概念或语义单元，然而古籍文献的实际的情况是：一词多义和多词同义现象在文本里是非常普遍，而解决一词多义和多词一义问题是所有古籍全文检索必须面对的两个主要任务。古籍文本中出现的词往往存在一定的相关性，古籍中个别字词语义的准确表达不仅取决于词汇本身，也取决于上下文对词义的界定，如果忽视古籍文本上下文语境的限制，仅以孤立的关键字来检索文本的内容，势必影响信息检索结果的查准率与查全率。古籍的文字经历了朝代变迁历史更替，其意义多发生了巨大变化，何况还有古籍中多种古汉语的特殊用法，依托于当代汉语语义形成的检索技术对于古籍中的字义检索力不从心。这种状况出现的根本原因是未解决古籍检索技术中的关键性技术——古汉语词典切分技术，它掩盖了概念主题和词汇间的关系，检索时容易出现误检和漏检；其次，由于单汉字索引系统不能指定不同词间的相互参照关系，很难实现检索结果的扩检和缩检；再次，单汉字索引为原文中每个汉字建立倒排文件索引，需要耗费大量的存储空间，并且对于每个检索提问需要多次交运算，耗时较多，检索效率低，影响了古籍自动标引、名称主题检索及专有名词检索等的实现。[6]

（2）对古籍的数字化处理不尽完善。从文献的内容处理来讲，当今古籍数字产品未充分考虑古籍数字化领域的特点，尤其是古籍字形和字义的特点。在文字的形态方面，古籍文献中异体、避讳、通假、俗字等情况多有出现，而且还有在流传过程出现的讹误，造成很多非标准字体；[7]在字形方面，各个朝代的图书刊刻对字体有不同的偏好，各个字体之间又有些许的差别，在进行数字化处理以后，尤其是采用扫描处理方式，数据库中的图像不能直接被检索，导致检索结果不符合用户初衷。从文献的形式处理来说，目前古籍数字化的工作仍局限将古典文献扫描形成电子出版物，并非建立在正确理解原文基础上的文字转化，这样的数字化方式只适用于保存，既不利于学者检索，也不利于传统文化的传播。

（3）古籍数字化标准不一。虽然我国具有数字图书馆标准规范中专门规范古籍著录的规则——《我国数字图书馆标准与规范建设》，但是由于数字化的主体、性质、目的不同，在进行数字化的过程中，制作时使用不同的格式和分辨率等，获得的古籍数字化文件格式多样，阅读器不同且不兼容，造成多数据来源下数字化古籍信息集成、数据交换困难，使得检索技术功能不能完美体现。

4 关于解决古籍数字化检索问题的几点建议

对于古籍数字化产品，文献学者有着自己的检索要求，从大体上来讲，由单一检索变为多元检索、由定向检索变为关联检索、由静态检索变为动态检索，简单地说，就是实现检索的智能化。[8]

（1）从古籍文献整理方面规范古籍来源。从古籍检索的本质来说，技术只是形式，内容才是核心，因此，“只有熟悉对象（古籍）内涵的主体，即内容专家，才有能力决定实现古籍数字化的基本路向和基本框架，技术专家的作用就是在既定的框架内如何最便捷、最优化地实现目标。”[9]在数字化进行之前，保证技术专家和文献专家的合作，利用双方的专业知识推进古籍数字化检索技能的提高。

（2）从古籍数字化建设角度来提升检索能力。从宏观角度来看，古籍数字化是一项庞大的文化建设工程，需要相应的基础理论的支持。比如，从信息管理、计算机、哲学、通信技术、文化、历史等方面进行多方位的深入的研究；在书目库、版本库、全文库、知识库的整合和衔接上进行整体、统一、有序的设计和开发，为古籍资源的开放利用找到一条行之有效的道路。[10]在此基础上，进一步研究如何利用现代计算机技术，从可视化检索、语义检索、语义网发布等方面开展突破。

从具体行动上来讲，要从古籍数字化建设阶段的工作入手，规范古籍加工整理的电子数据格式及浏览手段。要保证古籍检索的性能，追本溯源应着重研究古籍资料的全息无损清晰扫描，实现零边距扫描，力图表现古籍的完善面貌。之后，还需进行扫描成果去噪，因为扫描的图片歪斜、不清晰以及污点、折痕、噪点等，对以后文字和图像的影响都会很大。所以在扫描识别后要使用专业的图象处理软件对图片进行纠偏和清晰度调整，以确保较高的识别率。

（3）从组织管理角度考虑数据库检索。当下古籍数字化建设中会有很多问题和冲突，国家站在宏观的高度应该有一个整体控制，使基础性和支持性的研发和具体的古籍善本数字化开发互相促进，使古籍数字化要分阶段、有步骤地逐步实现高效快速的发展。单从技术层面上来讲，开发古籍资源数字化要依托于一系列开放、兼容、通用的计算机处理软件，因为这样将会大大加快古籍资源数字化的进程，形成统一的数据库框架和技术协议，从宏观角度推进解决古籍数字化产品的检索问题。

（4）从检索技术层次来考虑数据库检索。随着当前古籍数字化建设和基础研究的逐步深入，一些基于知识发现的技术应用到古籍全文库构建之中，利用本体论的思想来建构知识库、进行语义识别和检索成为当前古籍数字化研究热点。许多研究者在尝试分析某一专题古籍文献的基础上，系统地解析该领域中古籍文献资源的组织方法、体系以及标示方法，结合主题词、分类法的相关系统知识，移植计算机信息科学中“知识元”的概念，借鉴本体论的思想，采用自上而下的方法尝试编制某一领域的适合知识库建设的古籍分类表和古籍概念关系体系，作为分类主题一体化古籍叙词表的基础，以更好地推进数字化古籍资源的标引和检索。这种在以某个专题为研究突破口的理论尝试，以本体的建设为机制来探索语义检索，对于寻找新的技术手段实现古籍的知识发掘，具有很强开启思维的作用，值得相关学者作进一步深入研究。

[1] 薛天纬.数字化古籍由录入改扫描势在必行[EB/OL].[2010互12互25].http://www.guoxue.com/wk/00 0646.htm.

[2] 陈阳.中文古籍数字化的成果与存在问题[J].出版科学，2003（4）：46互48.

[3] 刘海峰，等.基于潜在语义空间的文本检索问题研究 [J].情报科学，2007（5）：748互753.

[4] 林钦.Unicode在中文古籍数字化中的应用[J].福建图书馆理论与实践，2010（3）：61互62.

[5] 杨琳.大陆古籍数字化的现状及存在的问题[EB/OL].[2009互12互25].http://www.guoxue.com/gjszh/yjwz_011.htm.

[6] Xia-FenZhang，etal.Hierarchicalap proximate matching for retrieval of Chinese historical calligraphy character[J].Journals of Computer Science&Technology，2007，122（4）：633互640.

[7] 丁侃.古籍数字化的保真问题[J].中医文献杂志，2009（2）：31互33.

[8] 常娥.古籍智能处理技术研究[D].南京：南京农业大学，2007.

[9] 付艳.基于内容的古籍检索技术研究[EB/OL].

[2010互12互25].http://www.guoxue.com/wk/000655.htm.

[10] 周迪，宋登汉.中文古籍数字化开发研究综述[J].图书情报知识，2010（6）：40互49.