图书采集查重系统的个性化设想与实现

2014-02-28 06:26宗燕燕张秉军
天津职业技术师范大学学报 2014年3期
关键词:查重采集器丛书

宗燕燕,张秉军

(天津职业技术师范大学图书馆,天津 300222)

图书采集查重系统的个性化设想与实现

宗燕燕,张秉军

(天津职业技术师范大学图书馆,天津 300222)

根据高校图书馆采书、查重的业务流程,借助电子信息技术提出更具个性化的图书采访查重系统。该系统集硬件采集和软件处理于一体,从图书馆采访业务的流程以及电子信息化技术的交叉层面出发,解决目前市场上主流的图书采集器无法满足采访流程的一些环节,并针对馆藏数据和采购数据进行了更具专业化的设计和开发。

图书采集系统;查重系统;个性化

随着高校对图书馆建设的重视以及投入的增多,图书馆的图书采购数量也在不断增加。为了提高采购的质量和效率,很多高校图书馆采访业务,都由传统的书目订单征订转变为现场采购。对采购人员来说,现场采购很直接,但是最需要解决的是查重问题,图书的采集和查重,是图书馆采访业务最核心的工作,如何更好地将新技术融合到图书馆传统工作中来,如何借助电子信息技术提高工作效率,是信息时代图书馆采访工作建设的必然趋势[1]。

1 相关文献综述

通过收集、统计该领域的相关研究,关于图书采集查重方面的研究思路主要从两个方向展开:一类是专业的电子信息技术人员,他们注重新技术的引进和新功能的实现,从研发的角度,针对图书馆采访人员使用的图书采集器、图书查重软件进行改进。市面上出售的图书采集器按照硬件来分,可以分为红光扫描图书采集器和激光扫描图书采集器;按照性能可以分为联网式和非联网式;按照连接方式又可以分为串口连接和USB连接[2]。各图书馆根据自己的需求购买适合自己的采集器,我馆使用的是一款红光、非联网式、USB口连接的采集器,这一类型的采集器,每次外出采集新书之前,要把馆藏的图书信息放在图书采集器里,用于对比查重。出去采购的时候,采集器就会根据储存的馆藏信息进行对比,所扫的ISBN号,如果馆藏有则有提示;如果没有,就将扫描到的ISBN号存进采集器自带的一个数据库里。等采书回来后再将扫描到的、馆藏没有的图书数据信息导出来,导出的数据类型是TXT文档,再借助其他软件或者手动方式处理成EXCEL文档,再借助EXCEL做一些后期处理。此类采集器的优点是:基本满足采购需求,操作简单。缺点是:①输入界面只能靠扫描,不支持手动输入,有时候扫描口出问题,则无法扫描,也无法判断是否应该购买;②查看扫描到的数据汇总时,只能看到ISBN号和总册数;③导出的数据是TXT文本格式,没有配套的处理系统,只能自己处理成EXCEL再做处理,费时费力;④每个扫描枪都是独立的,采集到的数据没有互相查重的功能,只能通过后期导出数据,借助第三方软件实现数据之间的查重。因为查重的流程基本差不多,所以其他类型的图书查重器在基本功能上都大同小异,有所区别的地方表现在:屏幕(尺寸大小,是否可触摸等),是否支持手动更改扫描数据,是否提示重复以及重复后的处理方式(直接忽略继续扫描,提示用户是否追加等)等。目前市场主打品牌有卡西欧、讯宝、卫天人等,主流的图书采集器的功能是支持手动更改数据的非联网的采集器[3]。

另一类是图书馆专业人员,他们更注重基于某一款产品而进行更深层次的应用和扩展研究,如图书采集前后数据的处理和整理,使用图书采集器的过程遇到的各种问题及解决方案等。很少有人结合采访业务的流程自行制定一款便捷化、个性化的图书采集系统。

本文就从这个交叉层面出发,在熟知高校图书馆采访工作业务的前提下,借助电子信息技术提出更具个性化的图书采访查重系统。该系统集硬件采集和软件处理于一体,既解决了采集过程中经常遇到的各种问题,也从其他角度提出了不同的可行性改进方案。

2 图书采集查重系统的改进设计方案与实现

针对目前市场上主流的图书采集器所存在的问题,提出硬件和软件两个部分值得改进的地方以及改进方案。

2.1 硬件部分

目前市场上支持联网的图书采集器,基本是通过无线网络与在采购区域内搭建的服务器进行数据交换,图书采集器扫描到的条码号传输到服务器的数据库,跟数据库中的馆藏数据进行比对,如果数据不重复,则保存此次数据记录,并反馈无重复的信息给采集器;如果重复,则只反馈信息给采集器即可。通过这样的数据交换方式,实现联网工作。但是这种方式受到图书采购现场大小的限制,如果场地太大,有可能信号会无法覆盖;再者,需要采购者提前在采购现场搭建服务器。此方法适合特定的图书商家在固定的展示场所使用。对于临时搭建的采购场所,则不太适用;而对于异地采购的人员,外出采购,如果还需要携带诸如服务器这样的设备,是很不方便的。采购者宁可采购回来查重去掉重复的数据,也不愿意增设设备来实现实时的查重。但事实上,这种实时的查重,可以不通过服务器来实现。只需要解决联网和实时数据交换两个问题即可实现。

方案一:借助手机实现。手机本身就可以通过wifi、蓝牙以及运营商提供的网络服务进行网络数据交换。图书采集器也可以借助这种技术,将采集系统跟手机结合在一起,实现采集器间的数据通信。就目前各馆外出现采的情况来说,一种是采购新书,一种是有针对性的补购某些方面的书。不论是哪种情况,所携带的馆藏数据都不会太大。所以完全可以将馆藏数据存放在手机里或者外置的存储卡里。这就完全可以将采购程序编制成手机APP软件,安装到手机里,采访人员只需携带手机以及一个可以连接到手机的扫描装置即可实现图书采集功能。对于少量的图书采购,甚至可以舍去外置的图书扫描装置,直接通过手机按键实现条码录入进行采购。这种情形的改进,只需要一个APP程序,程序流程如下:

扫描图书的ISBN号后比对馆藏数据和订购数据(采购到的馆藏中没有的图书信息),如果两个数据都没有查到,则表示该书不重复,可以购买;如果其中任何一个数据库里有重复则不予购买。

方案二:如果多个采集器一起工作,实现互通查重,则可以在原有图书采集器的基础上,加设通讯装置,主要是以无线传输(距离远)或蓝牙传输(距离近)为主[4]。这两种传输成本低,传输速率基本满足图书采集需求。我馆目前就采用此方案,改进了购买的图书采集器无法多台一起工作的缺陷。改进思路如下:对于多线图书采购,即多个采集器一起工作的情况,通过设置主从采集器来实现相互的查重。如有3把图书采集器外出采购,可以设置1号采集器为主采集器,其他2个为辅采集器。辅采集器采集到的数据都需要跟主采集器交换数据,从而得知是否重复;而对于主采集器来说,它只需要跟自己存储的数据进行查重即可。这种主从的关系,本质上是主采集器履行了服务器的职责,但却没有增加额外的设备负担。具体的实现方法是将废弃的扫描枪的红外扫描器件拆卸下来,外加单片机做主控器件,增设存储来实现。具体的电路改进图如图1所示。

该方案已经在本馆测试成功,并投入使用。

在硬件方面,还有一个常见的问题,就是采集到的图书信息与电脑通讯的问题。大部分的图书采集器都需要专用的软件和设备,实现与电脑的通讯,还可以通过存储卡的形式,将数据保存在普通的TF、SD卡上,然后通过普通的读卡器,经由USB接口就能直接获取数据,省去了很多中间环节。

图1 主电路图

2.2 软件部分

软件部分主要是解决图书采集过程中馆藏数据和订单数据的完整与准确。

2.2.1 馆藏数据

馆藏数据的提取,最容易出现问题的是一号多书,以及一书多号的情况。一号多书的情况主要出现在丛书及书号未变的新版次书;而一书多号的情况主要出现在原版书。为了提高馆藏数据的质量,数据库的字段应包括ISBN号、题名、作者、版本、出版发行项、索书号、价格、文献类别、建立时间、索书号、年代,除此之外,为了解决一些特殊的图书信息,需要增设如下字段:丛书号。

ISBN号是关键字,但并不唯一,因为现在图书业也有很多同一个ISBN号,但却不是一种书的情况丛书号的数据,提取自索书号字段,但是只是索书号里的一部分,如索书号是O136/154:2,那丛书号就提取2。丛书号字段的设置是为了避免一号多书漏采图书的情况。由于这类情况多是因为丛书和新版次的书。以丛书为例。假设采访者在书市看到一套丛书:《中国古典文艺学丛编》,该书有3册,分别是(一)创造,(二)作品,(三)接受,3种书都用同一个ISBN号:7-301-05079-8。假设现在馆藏数据只有(一)和(三),没有(二)。采访者在使用采集器的扫描前,开启丛书检测功能,扫描其中一种图书的ISBN号时,图书采集器屏幕会显示2条记录,分别是:

①丛书号:1,辅助题名:创造;

②丛书号:3,辅助题名:接受。

这个时候,采访者需要订购该丛书的(二)作品,则点击采购按钮,采集器就会显示采购数据,采购者只需在丛书号一栏填写2,在辅助题名中填写作品,确定后即可保存采购数据。这样的处理方法,避免了一号多书的情况,使得外出采购工作更精准。对于书号未变的新版次书,也是同样的处理方法,如索书号为TS153/6=2,则会在丛书号项中保留2。对于普通采书,不需要开启丛书检测功能,主要是为了提高采集数据比对后的显示速度。

对于一书多号的情况,主要是英文原版书[5]。这种情况,不单独增设字段,有几个ISBN号就将该书的信息做成几条记录进行数据处理,如有一本原版书,题名是:Balancing change and tradition in global education reform,该书有3个ISBN号,那么就将这条由SIRSI系统所出的报表数据拆分成3条数据。报表数据如下:

ISBN:9781607095002(cloth:alk.paper)

ISBN:9781607095019(pbk.:alk.paper)

题名:Balancing change and tradition in global education reform/edited by Iris C.Rotberg.

版本:2nd ed.

出版信息:Lanham,Md.:Rowman&Littlefield Publishers,c2010.

物理描述:xv,439 p.:24 cm.LCCN:2009047773 G40-059.3/B171=2

索书号:G40-059.3/B171=2

价格:Y343.00

文献类别1:G

已建立:2013/1/8

当前馆址:外文阅览室

拆分后的2条数据为:

ISBN:9781607095002(cloth:alk.paper)

题名:Balancing change and tradition in global education reform/edited by Iris C.Rotberg.

版本:2nd ed.

出版信息:Lanham,Md.:Rowman&Littlefield Publishers,c2010.

物理描述:xv,439 p.:24 cm.

索书号:G40-059.3/B171=2

复本:1

标识:P100E000019070

图书馆:技术师院馆

价格:Y343.00

文献类别1:G

已建立:2013/1/8

当前馆址:外文阅览室

ISBN:9781607095019(pbk.:alk.paper)

题名:Balancing change and tradition in global education reform/edited by Iris C.Rotberg.

版本:2nd ed.

出版信息:Lanham,Md.:Rowman&Littlefield Publishers,c2010.

物理描述:xv,439 p.:24 cm.

索书号:G40-059.3/B171=2

复本:1

标识:P100E000019070

图书馆:技术师院馆

价格:Y343.00

文献类别1:G

已建立:2013/1/8

当前馆址:外文阅览室

将上述数据按照各个字段进行提取即可保证多个ISBN号对应一本图书,避免了查重中出现的问题。

2.2.2 订单数据

馆藏数据的字段设定后,订单数据的字段格式,只需要跟馆藏数据的字段完全一致,就可以一方面保证了查重,另一方面也保证了软件处理的有效性。

3 结束语

根据图书馆采访业务流程改进的图书采集查重系统,在很多地方弥补了目前市场上主流产品的不足,对于外出采购数据的精准率以及订单处理的人性化、高效化有了提高。但是,采访工作并不能完全自动化,还有很多地方需要采访人员凭借经验来采购。如目前的查重只是基于ISBN号的重复与否进行检查,但是图书采购的前提是根据借阅状况,使得采购到的书有更多的读者阅读,发挥更大的价值。所以流通量是考核书籍购买的一个重要指标[6]。借阅高的某类图书,可以考虑提供采购量,加大复本量;而对无人借阅的图书,可以考虑减少购买,这样才能让资金的花费更合理、更有价值。而这些,是无法通过单纯的图书采集器完成,还需要采访人员根据经验和馆藏分析统计后作出定论。不过,随着科技的进步发展、软件的升级开发,图书采集器在图书现采中的应用将会更加个性化、人性化和智能化。

[1] 蔡毅.一种图书外采查重系统的设计与实现[J].现代情报,2005(9):160-161.

[2] 童旭.使用数据采集器进行图书查重常遇问题探讨[J].图书馆建设,2007(3):62-63.

[3] 徐淑琴.数据采集器在图书现采中的应用与探析[J].黑河学刊,2013(5):157-158.

[4] 方旭明,何蓉.短距离无线与移动通信网络[M].北京:人民邮电出版社,2004:65-70.

[5] 李梅.授权影印西文图书著录的规范问题探究[J].兰台世界,2013(3):49-50.

[6] 冯泽泗.图书流通量的理论计算与实际确定[J].四川图书馆学报,1981(3):32-35.

Design and implementation of the acquisitioning and duplicate checking system

ZONG Yan-yan,ZHANG Bing-jun
(Library,Tianjin University of Technology and Education,Tianjin 300222,China)

According to the working process of the library in university,I came up with a personal solution to the acquisition and duplicate-checking for the acquisition and cataloging department by using electronic and informational technology.This system includes both hardware collecting and software handling at the same time.My plan is based on the ground of the using of electronic and informational technology in the library acquisition process.My target is to give a solution to the problem which the mainstream cannot solve and to design more professional data for what the library has already owned and ongoing acquisition.

book acquisition system;duplicate checking system;personal

G253

A

2095-0926(2014)03-0071-04

2014-05-12

天津职业技术师范大学科研发展基金项目(KJ0825).

宗燕燕(1981—),女,馆员,研究方向为数字图书馆建设.

猜你喜欢
查重采集器丛书
学位论文查重乱象引关注
COVID-19大便标本采集器的设计及应用
“人梯书库”丛书
艺术创想丛书
艺术创想丛书
学术论文该“查”什么?
论文查重别大意
学术论文该“查”什么?
基于Cortex-M4的油气管道微功耗数据采集器软件设计应用
基于ZigBee的大型公共建筑能耗采集器设计