王宇一
(江苏信息职业技术学院,江苏无锡 214153)
RFID技术在图书领域的扩展应用与研究
王宇一
(江苏信息职业技术学院,江苏无锡 214153)
随着RFID技术在图书馆中的普遍应用,目前很多物联网图书馆已经建成,它将图书馆工作人员从繁重的图书盘点等日常工作中解放出来,加快了图书馆的工作效率,同时还实现了对读者的自助式服务,大大提高了读者对图书馆的满意度.文章在RFID被图书馆普遍应用的基础上,提出了其还能在图书馆中的扩展应用,RFID技术的扩展能为图书馆在图书采编,馆藏安排等方面提供决策性依据.
RFID;频繁路径;图书馆
目前大部分图书馆应用RFID(Radio Frequency Identification)技术仍只是为了实现图书的自助借还和高速盘点,并以此提高图书馆的工作效率.但作为一个现代化图书馆除了拥有较高的工作效率之外,还应及时了解读者的需求,合理配置图书馆的文献资源,提高资源的利用率,促进图书馆的现代化管理,真正满足广大读者.
在RFID系统的应用中,部署多个阅读器和多个电子标签的情形是不可避免的,而且每个RFID阅读器都对应一个RFID数据流[1].RFID数据流是物品在移动过程中所形成的路径数据的集合,这些路径数据代表了物品到过的地点,在这些地点所停留的时间,物品的一些特征、属性值、变化趋势等.
RFID路径数据的发现给RFID技术的应用开辟了新的领域.沃顿商学院的学者就已经通过在超市中部署RFID阅读器,同时在购物车上安装RFID标签,获取了顾客在购物时行走的路径数据,以此得到了许多有用的信息[2],作为调整超市物品摆放和刺激顾客消费欲的有力依据.
本文利用RFID路径数据的特点,帮助图书馆了解读者对不同图书所偏爱的不同阅读方式,并精确统计出馆藏文献的利用率(如读者实际利用图书的图书借阅次数,因无法统计图书在馆阅读的次数而变得并不完整),从而作为满足读者需求、配置馆藏资源的重要依据.另外,针对RFID路径数据量大的特点[3],采用数据挖掘技术对海量路径数据进行管理,从而缩短访问查询数据库的时间,并从中获取读者真正想要的信息.文中主要完成对图书频繁路径(如书架→阅览室→书架)的挖掘工作,通过产生的关联规则来得到图书在馆的借阅次数(阅览室内都部署有RFID阅读器),并分析出哪一类图书让读者更喜欢在馆内阅读.这样有助于图书管理员对读者进行个性化服务,进一步提高图书的借阅率和读者的满意度.
1.1 RFID数据特点
RFID数据库是由形如<EPC,(a1,….an),(m1….mk),path>的RFID数据元组组成的集合[4].其中,EPC表示电子产品的编码(Electronic Product Code,EPC),具有全球的唯一性;(a1,…. an),(m1….mk)的含义与传统数据库相同,名称分别为非路径维属性值和非路径度量值;path表示路径信息.RFID数据库与传统多维数据库相比,多出了路径数据,并具有全球唯一的标识符EPC[4].
RFID系统中的阅读器会定期扫描可识别范围内所有物品的标签信息.标签中的EPC能及时回应阅读器的探测,并在被扫描时形成如EPC,lo-cation,time的多条记录,其中,location表示物品所在的地点,time表示扫描发生的时间[2].当物品离开时,系统会把这些记录重新压缩成如(EPC,location,times)的记录,其中,times表示物品停留的时间.将EPC相同的这些(EPC,location,times)记录按照产生的先后顺序组合起来,就是该物品的移动路径(path),路径的形式为(l1,t1)(l2,t2)…(ln,tn),其中(li,ti),i=1,2,…n表示路径段,l表示物品停留的地点,必须为具体值,t则表示物品停留的时间,可以是具体值也可用“*”来表示任意值[4].
表1是一个RFID数据库的示例.移动路径中各地点的含义:c,仓库;z,整架车;j,书架;r,阅览室.停留时间以“h”为单位.另外它还包括2个非路径属性值:图书分类,出版社;一个非路径度量值:图书价格.
表1 RFID示例数据库Table 1 RFID sample database
1.2 RFID数据与传统数据的比较
1.2.1 具有运动性
在对RFID数据动态采集的过程中,笔者发现因受物品停留时间、停留地点不断变化的因素影响,RFID数据时刻处于运动中.另外工作人员在进行数据采集时,为了工作方便会选用移动式阅读器,因此,采集数据的阅读器也处于运动状态中.
1.2.2 数据量巨大
当贴有RFID标签的物品在某一地点停留时,该地点中的阅读器便会每隔一段时间自动记录一次该物品的状态信息[5],同时录入RFID数据库.因此,RFID数据每天会产生上亿的数据量并不断增长[6].
1.2.3 非路径属性值
RFID数据集里除了包含物品的移动路径值,还包含对该物品描述的非路径属性值,但其内容需要使用RFID技术的具体业务来定[2].例如,本文做的是RFID图书管理系统,那么在图书馆业务中物品指的就是图书,其具体描述就是图书的种类、出版社等信息.
由上可知,RFID数据与传统数据的最大区别在于RFID数据有数据量大、分布范围广等特点[7],因此,如果用传统数据库的方法来解决它不仅耗时耗力,还得不到有效的数据.这就要求人们建立专门的方法,对RFID数据进行处理,在海量数据中挖掘有用的知识,充分发挥RFID技术在图书馆中的优势.
2.1 路径数据问题
图书馆想通过文献流通的趋势来获得准确的图书借阅次数,以此提高馆藏文献的利用率.虽然传统数据库里也记录了每本图书的状态(在馆、借出),但这样的记录并不包括图书在馆阅读的情况,因此并不准确.不过RFID的路径数据提供了丰富的信息资源,让人们可以轻松解决上述问题.通过路径数据可以清楚知道图书在书架和阅览室之间的移动情况,由此就可准确得到图书在馆的借阅次数,从而合理配置馆藏资源,并作为图书采购的决策性依据.但是,RFID数据量非常之大,在查询数据库的过程中常常既耗费时间又耗费资源,因此,为了提高查询效率,还需采用数据挖掘技术对其海量路径数据进行管理,以此获取人们真正想要的信息.
2.2 数据分布式问题
RFID系统的结构具有天然的分布性[8],其阅读器也是分布的.阅读器会将采集到的数据传送到临近的服务器上,以此减轻网络传输的压力.因此,只有采用数据挖掘才能让这些分布的数据得到及时而有效的处理.
2.3 数据量大的问题
在实际应用中,随着物品状态的不断变化,系统中每天都会有大量的路径数据产生[9],这些数据所需的存储空间也很大,因此,要想从中得到有用的信息就必须进行数据挖掘.
2.4 数据的不准确性
RFID阅读器在读取物品标签时常发生错读或者漏读的现象[10],因此,只有利用数据挖掘对错误数据进行清理后才能把所有的数据传递给下一个业务流程.
3.1 路径数据的关联模型
建立该模型的目的是通过挖掘图书的频繁路径来产生[图书(类别)—图书(路径)]的关联规则,以此统计图书在馆的借阅次数和了解读者对不同类型图书所偏爱的阅读模式,这为图书馆在配置馆藏资源和提高馆藏利用率方面都提供了决策性依据.
3.1.1 数据源
在RFID数据库中抽取图书的路径数据和非路径属性值(包括图书大类、图书分类、图书名称等),建立RFID事务数据库.事务数据库中的每一条事务为图书的一条路径记录.因为实际情况中每本图书在馆内的路径都是不断循环往复的,所以为了提高挖掘的效率并得到笔者真正想要的信息,本文把图书在馆的循环路径经分析后,分成4段路径记录,第1段是架上的图书被拿至阅览室阅读;第2段是放回架上的图书(阅览室阅读完后)被拿至借阅处借出,或者再次被拿至阅览室阅读(这与第一段路径相同);第3段是借出归还的图书经过上架后再次被借出;第4段是借出归还的图书经过上架后被借至阅览室阅读.基于Apriori改进算法的路径挖掘系统模型,见图1.
图1 基于Apriori改进算法的路径挖掘系统模型Fig.1 Mining system model based on the improved algorithm of Apriori path
3.1.2 路径挖掘的方法设计
因为RFID路径数据量很大,所以频繁路径会有很多.但本文只对有过借阅记录的图书路径做挖掘,那些路径值一直在书架上从未被借阅过的图书,暂不对其进行挖掘分析.另外,本文主要针对路径数据中的地点值进行分析,因此,在路径(l1,t1)(l2,t2)…(ln,tn)中,t的数值笔者用“*”来表示,为任意时间值都可比对.文中频繁路径挖掘的基本数据单位为单个路径段和图书的属性值,具体挖掘步骤如下.
(1)先将图书的属性值(图书大类、分类、名称等)嵌入图书路径数据中,形如(文学)(小说)(飘)(j,*)(r,*)(j,*)的路径数据,然后组成如表1所示的事务数据库.其中,z,整架车;j,书架;r,阅览室;b,借阅处.
(2)利用第二章设计的Apriori改进算法,挖掘频繁路径.
(3)输出挖掘结果,产生关联规则.
表2 RFID事务数据库Table 2 RFID transaction database
3.2 挖掘结果展示
在设置信任度为6%,置信度为10%的挖掘条件下,对文学类图书在馆内的移动路径进行数据挖掘,其结果展示见图2.
在设置地点为“阅览室”,置信度为30%的挖掘条件下,对小说在阅览室的移动路径进行数据挖掘,其结果展示见图3.
图2 文学类图书读者偏爱阅读方式关联规则挖掘Fig.2 Mining association rules in reading literature books that readers prefer
图3 图书在阅览室的借阅次数Fig.3 Frequency of borrowing books in the reading room
通过对挖掘结果的展示,可以分析出在文学类图书中读者较为喜欢在阅览室内阅读,特别是英国文学,由此可以知道文学类的图书在需求上并不低,只是读者偏爱的阅读模式是在馆内.在第二张挖掘展示图中可以很简单的计算出小说这类图书在阅览室的借阅次数,1年中有2 816次,由此让笔者可以调整下小说的布局,合理配置馆藏资源,把小说放在阅览室中,既增加其阅读率,又方便读者阅读.
3.3 分析挖掘结果的建议
3.3.1 了解读者群体特点
在对图书路径数据进行挖掘后,可以发现文学类的图书,读者整体倾向于在阅览室内阅读,特别是英国文学,在阅览室内阅读的比例大大高于图书借出馆外阅读的比例.如果没有对路径数据的挖掘,可能认为英国文学的需求性很低,其实不然,只是读者对这类图书更喜欢在阅览室内阅读而已.这样使得图书管理员明确了解了不同读者的阅读兴趣、阅读习惯和倾向性的不同.通过挖掘结果的分析,管理员可以考虑进行有针对性的推荐活动,使得文学类图书在馆内阅读与馆外阅读的比例达到一个较为合理的平衡点,这就能在提高馆藏利用率的同时又增加了读者的满意度.
3.3.2 合理配置馆藏资源
如何配置好馆藏资源的问题已经困扰图书馆很久,一直未能得到有效的解决,其中关键性一点就是因为无法准确统计出图书借阅的次数.通过对RFID系统中路径数据的挖掘,可以轻松得到图书在馆的借阅次数,从而为合理配置馆藏资源提供了关键性的数据依据.
3.3.3 改善馆藏的布局
关于改善馆藏布局的问题,在文中并未能做出实现,但只要在做RFID事务数据库时选取读者的信息为非路径属性值,就可通过扫描借书证的标签来获取读者在图书馆内的行走路线.如发现大部分读者在浏览过文学类图书后会走到法律类图书前继续翻阅,就可获知原来对文学类有兴趣的读者也喜欢法律类的图书.这就给图书管理员在图书摆放和馆藏布局的调整提供了很好依据.
[1] 黄毅,郑力,向晴.基于复杂事件处理的RFID辅助实时生产监控[J].清华大学学报:自然科学版,2013,53(5):721-728.
HUANG Y,ZHENG L,XIANG Q.Complex event processing based on RFID assisted real-time production monitoring[J].J Tsinghua Univ:Nat Sci Edi,2013,53(5):721-728.
[2] 杨惠霄,张李浩.基于RFID技术的供应链投资决策及协调[J].计算机集成制造系统,2014,20(1):55-61.
YANG H X,ZHANG L H.RFID technology investment decision and coordination based on supply chain[J].Comput Integr Manuf Syst,2014,20(1):55-61.
[3] JIA X Y,FENG P,ZHANG S G,et al.An ultra-low-power area-efficient non-volatile memory in a 0.18 μm single-poly CMOS process for passive RFID tags[J].J Semic,2013,34(8):085004.
[4] 陈竹西.面向RFID海量数据的若干数据挖掘技术研究[D].扬州:扬州大学,2009.
CHEN Z X.Research on several data mining algorithms for massive RFID data[D].Yangzhou:Yangzhou University,2009.
[5] LIM J,KIM S,OH H,et al.A designated query protocol for serverless mobile RFID systems with reader and tag privacy [J].Tsinghua Sci Tech,2012,14(5):521-536.
[6] WU J,WANG D,SHENG H Y.Object tracking and tracing:Hidden semi-markov model based probabilistic location determination[J].J Shanghai Jiaotong Univ:Nat Sci Edi,2011,16(2):466-473.
[7] SHUNG H C,KYUNG H K,SANGJIN H,et al.Effective object identification and association by varying coverage through RFID power control[J].J Comput Sci Tech,2014,29(1):4-20.
[8] WU L,HUANG L Y.Improvement of location methods based on RFID[J].J China Univ Posts Telecom,2013,20(1):36-41.
[9] LIU X,ZHANG W Y,LIU X Z,et al.Eight-sided fortress:A lightweight block cipher[J].J China Univ Posts Telecom,2014,21(1):104-108.
[10]GU0C,ZHANG Z J,ZHU L H,et al.A novel secure group RFID authentication protocol[J].J China Univ Posts Telecom,2014,21(1):94-103.
The expansion of the study and application of RFID technology in library field
WANG Yu-yi
(Jiangsu Vocational College of Information Technology,Wuxi 214153,China)
With the widespread application of RFID technology in the library,at present a lot of IOT library has been built,it will not only liberate library staff from the heavy book inventory and other daily work,to speed up the library work efficiency,but also realize the self-help service to readers,greatly improving the reader satisfaction of the library.Based on the universal application of the library in RFID,the paper proposes an extended application in the library,the extension of RFID technology for library in book editing,providing evidences collection arrangement etc.
RFID;frequent path;library
TP 258
A
【责任编辑:陈 钢】
1671-4229(2015)05-0071-05
2015-03-24;
2015-04-07
王宇一(1983-),女,工程师.E-mail:550431810@qq.com