丁一琦,张 杰,周维彬,李 丰,朱梦月
(台州学院,浙江 台州 318000)
随着社会进步以及人们对知识认知的不断提升,图书馆藏书量越来越多,涉及领域越来越广泛,规模也越来越大,老旧条码管理技术不能满足当前图书馆管理人员的工作需求。无线射频识别(Radio Frequency Identification,RFID)技术通过电子标签的识别能够全面、高效管理图书馆借阅、管理以及检索领域不同领域图书信息,RFID 技术已成为图书馆管理过程采用的关键措施[1]。随着RFID 技术普及范围的扩张,发现电子标签管理面临着一个新问题——电子标签中包含大量敏感信息[2]。图书馆不同领域的电子标签敏感信息包括两种:一种是RFID 数据内的病毒和检测出恶意代码;另一种是图书中包含的正面和负面敏感词汇。电子标签的敏感信息不仅耗费有限网络资源,增强图书馆管理人员的工作负荷,还大大降低图书馆信息管理效率和精确度,对书籍保存的环境质量造成严重威胁。因此智能分析和过滤图书馆不同领域的电子标签敏感信息,具有重要应用意义[3]。本文设计图书馆不同领域的电子标签敏感信息智能过滤系统,准确、高效过滤图书馆不同领域的电子标签敏感信息,保障图书馆安全性,提升书籍保存的环境质量[4]。
图书馆借阅、管理以及检索等不同领域的电子标签敏感信息智能过滤系统,通过特制量化方法汇总来源于图书馆不同领域的电子标签信息特征,以此为依据过滤电子标签敏感信息。系统整体结构分为表现层、业务逻辑层和数据处理层,如图1所示。
图1 系统整体结构设计Fig.1 Design of system integral structure
表现层中的电子标签信息采集模块,采用RFID 技术获取图书馆借阅、管理和检索等领域的电子标签;业务逻辑层中的电子标签信息存储模块,依照图书馆不同领域划分网关,不同的领域通过LHBase 数据库存储表现层采集的电子标签信息;数据处理层是总体系统的核心[5],对业务逻辑层存储的电子标签信息进行处理,提取电子标签信息的特征生成特征向量,将特制向量存储在HDFS 文件中。HDFS 中信息分为原始样本信息、样本他特征向量与分类器参数。基于MapReduce 并行框架实现电子标签采样数据预处理后[6],采用贝叶斯分类器智能过滤图书馆不同领域电子标签敏感信息,过滤结果以文件形式存储在HDFS 内,方便管理者查看。
系统采用电子标签信息采集模块通过RFID 技术采集图书馆借阅、管理以及检索等不同领域中的电子标签信息,模块内的读写器对信息实施加密,利用发射天线将加密后的信息传输至电子标签,电子标签吸取磁场能量激活内部微芯片电路完成电磁波转换,射频识别后形成反射回波信号。读写器获取回波信号后对信息实施处理、采集信息,并进行数据转换后,将转换结果传输到后台服务器[7]。服务器处理并管理控制这些数据。电子标签信息采集模块的工作原理如图2所示。
图2 电子标签信息采集模块Fig.2 Information acquisition module of electronic label
RFID 技术能够识别目标并且对信息实施管理,通过识别图书附带的标签,获取图书信息,确定图书现状。通过电子标签信息采集模块获取的图书信息,图书馆管理者和借阅者均能够迅速定位图书[8],大幅度降低管理者整理图书和借阅者搜寻图书时间。
电子标签信息存储模块依照传感网络分布特征,设计信息存储架构如图3所示。
图3 电子标签信息存储模块设计Fig.3 Design of information storage module of electronic label
电子标签信息存储模块包含三个层次,分别为网关层、LM(Local Manager)层和 GM(Global Manager)层。作为传感器信息接入层的网关层,采用不同的网关接收和处理,电子标签信息采集模块获取的图书馆借阅、管理以及检索等不同领域的电子标签信息;LM 层获取网关层内电子标签信息,采用不同LHBase 数据库实时存储这些信息;GM 层管理并记录全局信息,记录信息存储在GHBase 数据库中,依据记录信息划分电子标签信息存储位置。
由于图书馆不同领域的电子标签分布具有领域性,若要在一个集群数据库中存储全部领域的电子标签信息将会造成网络资源消耗大、耗时长等结果,为解决这一问题,将网关层的不同网关依照借阅、还书、管理等检索领域进行划分,采集各领域中的电子标签信息后,通过LM 层中的不同LHBase 数据库实时存储电子标签信息,以提升电子标签信息存储与访问实时性。
1.4.1 敏感信息识别流程设计
在图书馆不同领域的电子标签内,敏感信息数量较大,同时存在动态变更现象,敏感词随着时间的前进持续更新,此时采用以往字典匹配法无法准确识别图书馆不同领域的电子标签信息。在这种情况下需采用机器学习法识别电子标签敏感信息。图书馆不同领域的电子标签敏感信息的语义模板具有稳定性,将弱化的半监督学习算法与高性能的计算机相结合[9],通过本体推理方法准确识别电子标签语义模板内的敏感信息,流程描述如图4所示。
图4 电子标签敏感信息的识别流程Fig.4 Identification flow chart of sensitive information of electronic label
一般情况下,计算电子标签敏感词的热度后,需将敏感词与待分析电子标签信息相匹配,确定最接近敏感词的词,这些词在电子标签信息内呈不均匀分布,且词语所表达意思可能存在不匹配现象。为了提升电子标签敏感信息识别的准确性与全面性,电子标签敏感信息过滤器需具有判断、推理功能,按照敏感词的语义关系,基于数据库信息,进行电子标签信息的分析、推理,判断电子标签敏感信息的类型[10],实现图书馆不同领域电子标签敏感信息的智能过滤。
1.4.2 贝叶斯电子标签敏感信息过滤器设计
贝叶斯电子标签敏感信息过滤器的核心为贝叶斯分类器,其可将图书馆不同领域的电子标签信息划分成负面敏感信息和正面敏感信息,分别用B1和B2表示。样本集合是不同类型电子标签敏感信息划分的依据,因此需汇总图书馆不同领域的电子标签关键字集合,用表示,该电子标签关键字集合中涵盖最大程度体现电子标签敏感信息特征的字、词和特殊符号等,同时清除“的”“了”等低信息含量的常用字。
若H=(h1,h2,…,hn)表示某电子标签E相应的特征向量,其中由此得到以H为特征向量的电子标签E为负面敏感信息概率和正面敏感信息概率的表达式为:
贝叶斯分类器包含两部分,即通过设置类别(B1和B2)的训练集样本训练分类器,获取贝叶斯网条件概率表CPT 的分类器训练部分与基于训练结束的分类器分类待划分类别电子标签敏感信息的分类工作部分。分类标准如式(3)所示,依据该分类标准实现图书馆不同领域的电子标签敏感信息的负面敏感信息和正面敏感信息的有效分类,过滤掉负面敏感信息,提高电子标签信息的价值度,为图书馆管理提供可靠的依据。
实验分别从效率、扩展性和敏感信息过滤准确性三方面验证本文设计的图书馆不同领域的电子标签敏感信息智能过滤系统的性能优势,实验对象为我国某高校图书馆,结果如下。
实验为验证本文系统对实验图书馆中的借阅、检索和管理领域中电子标签信息的采集和存储效率,将读写器节点设置为30 个,对比分析采用不同电子标签读写器个数情况下,本文系统、基于协同过滤推荐算法的电子标签敏感信息智能过滤系统和基于自适应多重过滤模型的电子标签敏感信息智能过滤系统,采集和存储实验图书馆的借阅、检索和管理领域中电子标签的写入时间与读取时间,结果如图5所示。
图5 不同系统的存储效率对比结果Fig.5 Comparison of storage efficiency in different systems
分析图5能够得到,当读写器个数较少,即电子标签信息量较小时,本文系统的写入时间、读取时间与其他两个系统的差距较小。随着读写器个数上升,本文系统的效率优势开始显著,当读写器个数增长至30 个时,本文系统的写入时间为728 ms,读取时间为1 164 ms,写入时间与读取时间的增长幅度明显低于基于协同过滤推荐算法的过滤系统和基于自适应多重过滤模型的过滤系统。本文系统在采集和存储图书馆不同领域中的电子标签信息时,写入效率和读取效率均较高,说明本文效率具有较高的电子标签信息采集和存储效率。
实验为验证本文系统的拓展性,在第2.1节实验条件下,分别对比三个系统写入查询时间情况,结果见图6。
图6 增加读写器个数与写入查询时间关系比较结果Fig.6 Increase of the number of readers versus writing query time
分析图6能够得到,三个系统读取30 个读写器信息的时间均呈现出随读写器数量提升而上升的趋势,但相较于其他两个系统,采用本文系统的上升趋势最不明显,说明本文系统具有更好的扩展性。
实验为验证本文系统对实验图书馆不同领域的电子标签敏感信息划分的性能优势,分别抽取不同类型敏感信息的20 个语法特征,17 个语义特征和10 个情感特征,采用三种系统对电子标签敏感信息正常信息和敏感信息进行分类,共进行50 次实验,以正确率、召回率、F值为指标判断三个系统对电子标签敏感信息过滤性能,得到的平均过滤结果如表1~表3所示。
表1 基于协同过滤推荐算法的过滤系统过滤结果Table 1 Filtering results of filtering system based on collaborative filtering recommendation algorithm
表2 基于自适应多重过滤模型的过滤系统过滤结果Table 2 Filtering results of filtering system based on adaptive multiple filtering model
表3 本文系统过滤结果Table 3 Filtering results of the system proposed in this paper
分析表1~表3得到,本文系统在对图书馆不同领域的电子标签敏感信息过滤时正确率与召回率的平均值为96.2%和95.2%;基于协同过滤推荐算法的过滤系统和基于自适应多重过滤模型的过滤系统的正确率与召回率分别为73.9%,80.0%和75.8%,76.0%。结果表明本文系统敏感信息过滤结果的正确率高于其他系统20.4%以上,召回率高于其他系统15.2%以上,说明本文系统过滤图书馆不同领域的电子标签敏感信息准确率较高。
本文设计图书馆不同领域的电子标签敏感信息智能过滤系统,系统主要包括表现层、业务逻辑层和数据处理层,采用基于RFID 技术的信息采集模块采集图书馆借阅、管理以及检索等不同领域的电子标签信息,并将采集的电子标签信息保存至信息存储模块;采用本体推理方法准确识别电子标签语义模板内的敏感信息,通过贝叶斯分类器实现电子标签敏感信息分类。经实验证明本文系统具有较高的采集和存储效率,过滤电子标签敏感信息准确率高。