回 玲
(新疆农业大学 科学技术学院,乌鲁木齐830052)
随着信息技术发展,数据分析已成为信息资源的重要部分,大数据的时代,繁冗的数据处理不再适合手工比对。对于图书馆而言,在书目采访、验收和编目等工作流程之后,数据比对是必不可少的一个重要环节,尤其是在结算图书费用、减少图书错误著录方面,占据着重要地位。在很大程度上,图书数据比对更能解决馆藏数据的完整与正确问题。因此,图书数据比对是否简洁、方便,效果是否明显,对节约资源购买经费以及资源的质量十分重要。
在信息资源的管理和组织中,数据比对技术一直占据着相当重要的地位,尤其是在大数据环境下,比对技术与查重技术结合成为现代数据校验技术发展的主流。现今比对的函数主要包括IF、VLOOKUP、COMPARE等,其中COMPARE技术的比对的数据误差最小,速度最快,比对完全是表与表之间的数据交互,界面简单,操作便捷,减少图书工作人员用眼的工作强度,效率相对EXCEL中其他函数有所提高。本文利用开发工具——EXCEL COMPARE基于数据比对技术环境运行简单,可用在图书馆数据比对或其他资源比对环境中。
书目的不统一与不标准是比对部分的难点部分,过程描述如下。
由于不同的图书供应商在著录书目数据时有不同的著录方式,著录数据时也会有误差发生,所以在比对之前,标准化书目字段是十分有必要的。
标准化字段时需要着重考虑书名、ISBN、价格、册数这4个字段。为了书目数据规范化字段,根据书目中常见的几种问题提供了解方案。根据实际情况考证,方案是行之有效的。
1.书名繁体字化为简体字
早期出版的书目中,题名有一些是采用繁体字的,有些图书供应商著录时按照原题名仍然著录繁体字,而有些图书供应商著录时改为简体字,方便读者。如果题目不统一在数据比对图书数据时造成比对结果不精确。如《国学》一书的书名包含有繁体和简体字两种。因此,在比对之前因将繁体字都化为简体字,可以有效查出因著录繁简字而被电脑判定为不重复的书。
2.数字的不统一
将书目以阿拉伯数字统一为汉字数字是标准化数据,方便数据的比对。对于包含多册的书目而言,有些图书供应商著录数据时用汉字表示,有些则采用阿拉伯数字。如《明朝那些事》有多部,图书供应商在著录时分别按照“第一部”和“第1部”重复著录了两次。如果根据题名字段比对,比对程序将判断为两本不同的书,导致重复购买。因此,在比对之前,需要将数字标准化。将图书数据数字统一为汉字形式。
3.丛书类重复书籍
有一些书目ISBN号位相同但题名不同,有些则是ISBN号位不同但题名相同,对于这样的丛书要进行筛选和甄别是否是同一本书,是否供应商著录错误,确定丛书的数量,减少馆藏不必要书目重复率,保证读者的阅读质量。
图书供应商要确保购书清单的准确性,如购书清单提供的ISBN号位与图书本身不相同,购书清单是9位数字而图书本身标注是13位数字,将ISBN号位统一有利于数据比对,著录人员著入数据时应准确、细心,保证数据的完整性。有些著入信息不是副本没有注明,就是单册没有录入,这样导出的数据就存在不完整。
加快推进全市基础行业和优势行业的转型升级和提质增效。发挥百色铝产业优势,合理开发利用铝土矿资源,着力构建铝产业链和配套产业链。加快淘汰冶炼行业落后产能、改造提升技术装备水平;整合全市矿产资源,发展铝铜深加工行业。全面提升铝加工行业的整体竞争力,加快发展高性能、绿色环保的精细化工产品和高端化工新材料产品。加强与贵州、云南区域间的电力合作,实现优势互补,降低工业用电成本。提升改造传统建材行业,突破发展新兴建材行业。
所以,标准化和数据准确性是书目的必然保证,按照这样原则进行比对,可以节约购书经费,保证图书资源的合理性。
图书比对可以分为四个板块:数据关键字段-建立表-比对-显示结果集。
首先,要确定书目的ISBN号位、题名、单价、册数以及索书号作为比对数据的标准。从理论而言,ISBN作为国际标准书号,能使不同出版者的每一种图书在世界范围内具有唯一性,因此,在图书馆的数据比对中被作为重要的比对标准而被广泛采用。但是在实际采访中,ISBN仍然存在一些问题,如丛书系列公用一个ISBN号;20世纪80年代以前出版的图书没有ISBN号;或者提供信息有著录错误。因此,在对数据资源进行比对时需要对多字段进行校验。
1.建立要比对的表
COMPARE组件是微软公司所开发的组件,它运行的首要条件就是确定比对的表,将已编目完成图书数据表与书商提供的书目清单比对,保证两张表都含有ISBN、书目题名及价格与册数,这样可以多方面的查找错误数据,保证馆藏数量的可靠性。
2.连接比对工具
启动EXCEL COMPARE(见图1)。
图1 数据比对分析启动界面
3.添加数据库结果集
如图1所示将比对的表输入比对工具中进行比对。
图2 数据比对分析使用效果
4.显示结果集
比对结果将以报告的形式出现,比对数据的工作人员可以将报告储存为自己想要的格式,还可以根据自己对数据精确度进行排序或筛选,得到满意的结果,达到比对的效果。
5.兼容、保存页面
为了兼容,可对页面进行兼容处理,最后将页面存为*.docx,在Microsoft word中运行可以编辑和使用。
按照本文所述的数据比对策略,进行了书目编目后的数据比对工作,取得了一定的成效。笔者从比对书目中随机抽取了5个批次书目(来自不同供应商不同时间段的数据),如图2所示,分析机器比对后所用时间效率的结果,可以看出该套数据比对可以减少图书馆工作人员的工作时间和用眼工作强度的可行性。
本文针对目前数据比对中手工比对繁冗的现象提出一种新的比对策略,通过EXCEL COMPARE工具对书目字段进行比对,筛选出可以购买的图书资源。为方便不熟悉EXCEL COMPARE工具的图书馆数据人员,只需要建立要比对的数据表就能得到结果。本文提出的比对可能存在一些纰漏,需要不断完善和丰富,但在一定程度上减轻了数据人员的比对工作,实现智能比对,减少了重复购买的情况,保障图书馆馆藏数据的准确性,在图书馆采购资金有限的情况下,该数据提高了资源购买的质量。
[1]张丽萍.利用ISBN号进行编目查重时存在的问题及对策[J].科技文献信息管理,2008,(1).
[2]王文刚,吕俊平,黄晓峰.利用宏处理ISBN号实现图书数据批查重[J].山东图书馆学刊,2010,(6).
[3]郭彩峰.基于Excel的采访数据处理[J].内蒙古科技与经济,2010,(7).
[4]张静.浅谈图书数据查重工作的开展[J].科技情报开发与经济,2011,(2).