书目数据库中的数据冗余及检测算法的设计

2018-12-24 09:40:01赵嘉凌

现代计算机 2018年15期

赵嘉凌

（肇庆学院信息中心，肇庆 526021）

0 引言

众所周知，对于书目数据库而言，其最理想的设置状态是，每个书目实体都对应着唯一的书目记录。然而，因为种种原因，书目数据库存在记录冗余的问题，具体表现在，即使在数据库的检索提示已经很明确清晰的情况下，目前绝大多数的书目数据库还未做到，精确定位到某一项用户真正需要的书目实体上来。

冗余数据降低了书目数据库的索引进度，增加了数据存储和管理成本，更别提用户的检索时间被延迟了。最终导致了整个书目数据库的效能被拉低，数据库涉及的各方人员（包括数据库使用者、编目人员、技术支持机构等）的用户体验度受到影响。

因此，如何改善书目数据库的用户体验度，最大程度减轻冗余数据的问题，成为每个书目数据库管理者需要深入研究的方向[1]。

1 关于冗余数据

1.1 冗余情况介绍

冗余数据其中一个典型代表就是WorldCat.org数据库（世界图书馆目录检索平台数据库）。该数据库是通过成千上万的OCLC、图书馆员工和合作伙伴组织的编目人员45年来，对其输入各种著录信息，并从WorldCat平台读取大量的数据并进行合并，而形成的数据库。该库其主要通过整合来自WorldCat平台和其他渠道的海量书目记录而闻名，其收录的数据涵盖了世界各地图书馆的电子、印刷和数字化信息资源。

但在这个漫长的历史过程中，由于数据输入规则曾经含糊不清，编目人员忽视或误读了编目规则，导致了书目记录出现了冗余的情况。

根据OCLC关于Worldcat的质量报告显示：“对于WorldCat数据满意度的统计，在人们反映的问题中，重复数据和最少内容的记录（minimal record）是普遍存在的问题。

WorldCat数据库的快速增长加剧了数据质量的问题。问题首先是各国国家图书馆的导入数据，新的书目数据超过了之前自动处理重复数据的工具的能力。但是这也让OCLC通过新进入数据库的多语种的数据，获得了进行多语种服务的机会（1998年，WorldCat数据库里的英文内容占64%；2010年，这个数字变成了43%）。其次是OCLC自2008年以来大量导入厂商数据（目前占书目数据库的1.59%），这一部分的数据内容比较少，而且会造成匹配、合并的问题。

OCLC从1991年就开始使用重复检测和分解（Du⁃plicate Detection and Resolution,DDR）软件来处理重复记录。2010年9月，DDR对WorldCat数据库完成了一次完整的检测，删除了510万条重复记录。（从我个人的感觉来说，现在WorldCat的冗余数据确实比大概一年前要少了。）

2003年开始，OCLC开始允许“并列记录”（parallel records，即相同资源使用不同编目语种进行编目的记录。之前作为重复记录处理）。而重印的资源的记录，根据AACR2，要作为单独的记录来处理。但是对于终端用户来说，这种单独的展示是让人困惑的甚至于是失败的。

继而OCLC提出了一种新的通用标识符的概念：“全球图书馆载体表现标识符”（Global Library Manifes⁃tation Identifier,GLIMIR），这是OCLC自2009年开始的项目，用以解决上述问题。新的标识符希望能够克服编目语种、资源格式或者其他方面的问题，实现记录更好的聚合。”

1.2 冗余数据的不良影响

（1）从数据库角度看

①信息超载

冗余数据势必导致用户每次检索系统都要查询海量的文件，而检索结果反馈的记录项，也势必超过了用户实际需要的数量。

②系统性能被降低

冗余导致数据库记录的增加，因而加大了数据库有效索引的复杂度。

③增加了数据库维护成本

表现在维护数据库需花费更多的时间。

（2）从用户角度看

①普通用户

对于使用书目数据库进行搜索的用户，冗余记录对搜索结果产生不必要的干扰，例如用户查阅搜索结果列表的过程中，将不得不对表示为不同形式的同一个文献实体，进行多次查阅比较，以确定其实际指向同一个文献实体。

②编目人员

对冗余记录进行识别并对书目数据库进行过滤清洗，势必占用了编目人员大量宝贵的时间。

③研究人员

对于学术水平需要被评估的人员而言，评估者在对其进行学术评估，使用书目数据库进行查找，由于冗余数据的出现，使得评估者对于被评估人员的学术成果，其中有效成分的比例会产生一定的怀疑。

1.3 冗余产生的原因

冗余产生的原因之一是数据库开发商从不同渠道获取大规模数据，并进行数据聚合所造成的。具体因素包括了：①编目规则不一致；②书目记录的录入工作过于草率；③使用MARC作为书目记录格式，各种语法错误的记录[2]。

2 书目数据库中冗余记录的检测算法的设计思路

为了最大程度减轻记录的冗余程度，业界不断开发出新的冗余检测算法。本文提出的匹配算法就是其中一个范例，该算法主要针对的是，两个书目描述上一模一样的记录的识别，而对于两个相似的记录，其识别具有一定的难度。该算法聚焦于冗余数据的检测以及重复记录的删除。在设计该算法的时候，主要从以下三大方面展开思考。

（1）设计目标

对该算法处理的记录所代表的对象文件，作出清晰的分类，例如报刊文件还是馆藏图书等。

（2）对冗余记录的界定

根据具体的数据库的特定情况，在此基础上对何为“冗余记录”做出细节化的定义。

（3）该算法的应用

对于该算法在书目数据库中的执行流程，是全自动的、半自动的还是人工操作的，需要作出详尽的分类说明。

2.1 定义算法应用的步骤

该算法在实现上分为单步应用和双步应用。

该算法的单步应用，在大多数情况下，目标是在重复删除操作的快捷性与低成本之间，找到平衡点。通常，由于该类算法对一致数据的标准定义较宽松，因此更具有通用性，但是结果会导致大量冗余数据的出现，然后留待后期来控制。

该算法的双步应用中的第一步，是通过比较有限数位的字段，从而检测到冗余的记录。而第二步，目标是还是将用于比较的字段的位数尽可能的最少化，以避免由于检测结果显示“不匹配”所导致记录被删除，而这些记录具有不可复制性。第二步在第一步的基础上再次检测，将注重细节性和精确度，从而保证冗余记录的真实性。

2.2 作为匹配关键的MARC字段

（1）字段的选择

为了顺利生成该算法，其中的关键在于用于匹配的字段的选择，该字段必须具有固定不变性，即无论哪方（编目人员或者书目编写机构）进行编目，其都能保持固定不变性，须知字段的变动性越大，越不利于记录匹配。因此，可见基于书目控制号（例如ISBN号）是理想的选择对象。尽管基于ISBN的重复删除，是目前检测冗余的最好办法，但还是不能保证完全百分百的检测到所有冗余记录。于是也需要其他数据库存储的数据，作为检测源，例如，著者、出版发行方、页数、出版地址和年份。

（2）匹配键

该算法使用匹配“键”来检测冗余记录，所谓的匹配键是指由预先选取的字段或者字段的组合来构成的字符串。用作“键”的往往是一个字段的部分（例如ISBN号），或全部（比如书名），当然，也包括了组合字段以及字段部分的组合。在这些键创建之前，系统会进行数据的标注化处理，处理对象包括了空格符，标点符，特殊的字体或者字符，还有大写符等。此外，对于字段上的内容差异，包括拼写错误，丢失数据以及字词的微小变动等，还有许多技术，对其进行调整，这些技术包括了截词法、关键词法、“海明距离”法、文件名法等[3]。

2.3 识别书目记录的相似度

（1）匹配度的鉴定

有两种方法来鉴定冗余记录的匹配度：

1）字段比较

该方法是在对选取字段进行二进制数位比较的基础上，鉴定其是否具有一致性。相关的检测软件，使用“Y”或者“N”来提示鉴定结果。因为该方法是把记录的整个字段完整的进行检测，保证了匹配结果的准确度，但过程耗时。虽然该方法具有一定的严格度，但是实践起来具有相当的复杂性，因为检测的内容还包括了，在编目和数据输入过程中产生的拼写错误的记录。该方法提示了各种字段内容差异的可能性，包括了拼写错误，数据完整性的缺失，部分数据的丢失，以及编目操作的各种不确定因素。

2）指定权值

该方法，聚焦于正进行匹配的字符串，估计其相似度而给定的权值，该权值，反映的不是数据文献学上的意义，其用途，只是作为对相似记录的识别。只要加权值达到了预先设定的值，也就是所谓的“阈值”，算法会对某个记录实体，进行合并或者删除操作。

（2）处理冗余记录

冗余检测算法的设计还包括了另一个主要内容，即，一旦检测到冗余记录，如何对其进行处理。目前业界任何的主流做法主要有以下三类：

1）选取其中一条记录为“母”记录，以它为参照，其他字段不匹配的记录都进行删除；

2）选取其中一条记录为“母”记录，以它为参照，其他记录的不匹配字段，添加进该“母”记录，然后合并成为新的“母”记录；

3）以“母”记录为参照中心，所有只要有字段与之匹配的记录都保存下来。

在具体实践中，以上操作为有一些变动，这些变动包括了：①对最先输入数据库的记录进行保留和维护以及删除最后输入的记录；②对最后输入数据库的记录进行保留和维护以及删除最先输入的记录；③同时保留最先输入和最后输入的记录，并将它们彼此间进行合并，而形成一个唯一的信息。

最后，对于终端用户，只有当他们在检索进程中，系统默认其选择合并冗余记录，于是，系统将立即虚拟化地执行冗余记录的合并操作，反馈给用户接收到的将是单独的一条记录。

（3）冗余检测算法的结果

所有致力于冗余检测的算法，其匹配度识别后都会产生以下结果：

①完全吻合

检测到的记录都完全重合。

②部分吻合

只有记录的部分存在冗余。

③不匹配或者说匹配错误

尽管算法检测结果指示两个记录是吻合的，但是它们并不指向同一个文档实体。

④漏掉/未经检测的匹配情况

算法没法把数据库现存的冗余记录检测出来。

比较④的匹配疏漏，③的匹配错误将导致更严重的结果，因为，匹配错误而导致误删的记录会使得数据库面临信息永久丢失的问题。为了避免这些问题，我们可以考虑让算法采取更灵活宽松的方式，就会让它对数据变化存在一定的容忍度的范围，只要不超过这个范围，尽可能避免书目信息的删除操作。另外，算法应该采取更严格的方式，限制可能是冗余的数据大量累积，与此同时，确保任何真实的冗余记录不被丢失[4]。

3 结语

随着书目数据库体系架构的不断演变，催生出书目数据的冗余问题。其实冗余是一直困扰图书编目的最大问题，因此作为图书馆编目人员，我们需要不断的修正对冗余的定义，以及不断更新冗余的检测方法[5]。

在接下来的时间里，笔者将聚焦于网络空间的实时海量冗余数据的处理。虚拟书目以及Z39.50端口将是研究的重点。书目数据库的用户期待的是覆盖全面的能快速检索的书目，满足在异构网络中分布式书目数据库间联合检索的数据一致性需求的，全新的书目数据库。该库同时具备检索速度快，结果精确度高的特点。接下来将展开对目前通用的书目数据库冗余记录的管理方法，例如，虚拟化数据合并等。

[1]谢东.书目数据库中冗余数据的影响及解决方案[J].情报资料工作，45-46+47.

[2]王淑梅.数字图书馆建设中冗余数据的产生于处理[J].图书馆学研究，48-50.

[3]Campbell,C.(2006),Melvyl Project Coordinator,Information Given by E-mail,(Accessed 31 January 2006).

[4]Cousins,S.(2006),COPAC Service,Manchester Computing,University of Manchester,Available at:copac@mcc.ac.uk(Accessed 11 January 2006).

[5]Vougiouklis,G.(2007),ELiDOC,Available at:gvoug@elidoc.gr(Accessed 2 February 2006).