基于特征提取的快速图书损坏鉴评方法研究

2024-05-24 08:42:31王洋
四川图书馆学报 2024年3期
关键词:特征提取类别书籍

收稿日期:2023-04-19

摘  要:

文章针对图书损坏现象,提出一种基于特征提取的快速图书损坏鉴评方法。对出借和归还时图书的正反侧三面图像进行差异度检测,评判图书损坏是否超过损坏阈值;找到差异度位置区域,并利用一种新的有监督的分析方法对该区域进行特征提取,继而分类匹配,判定损坏类型和损坏程度,提示图书馆工作人员及时进行图书修复,督促读者爱护书籍,养成良好的阅读习惯。同时,文章采集某高校图书馆内的1000本纸质藏书,将所提方法与传统的特征提取方法进行对比实验,结果表明文章所提方法的识别精度更高。

关键词:

图书定损;特征提取;线性判别分析;局部加权均值

中图分类号:G253    文献标识码:A    文章编号:1003-7136(2024)03-0048-06

Research on Fast Book Damage Evaluation Method Based on Feature Extraction

WANG Yang

Abstract:

In view of the phenomenon of book damage, this paper proposes a fast book damage evaluation method based on feature extraction. This method detects the difference degree of the front, back and side images of books during lending and returning, and evaluates whether the damage of the book exceeds the damage threshold; finds the location area of the difference degree, and uses a new supervised analysis method to extract features from this area, and then classifies and matches to determine the type and degree of damage, prompting the library staff to repair books in time, urging readers to take good care of books and cultivate good reading habits. At the same time, this paper collects 1000 books from a university library, and compares the proposed method with the traditional feature extraction methods. The results show that the proposed method has higher recognition accuracy.

Keywords:

book damage evaluation;feature extraction; linear discriminant analysis;local weighted mean

0  引言

随着纸质图书数量的剧增,以及相关职能部门阅读推广活动的开展,越来越多的读者参与阅读,民众通过阅读获取知识的同时,分享书籍带来的经验与乐趣。尤其在一些公共图书馆、高校图书馆,藏书量更是惊人[1-2]。以高校图书馆为例,

截至2022年,中山大学图书馆纸质藏书809.3万册,北京大学图书馆纸质藏书731.2万册,郑州大学图书馆纸质藏书727万册[3],苏州大学图书馆的纸质藏书量也毫不逊色,有420余万册[4],且仅2023年苏州大学图书馆就新增了5.64万册纸质图书供师生借阅[5]。

由于纸质图书数量不断增加,人工对纸质图书维护的工作量也越来越大。随着网络技术的高速发展、自助借还书技术的应用,读者不再受时间、地域等因素限制,在图书馆自助服务机上就能完成借书或办理借书证等操作,甚至享受图书馆的预借送书服务。但是,现有的智能借还书机只能完成图书的出借和归还记录的记载,并不能对图书出借过程中出现的图书损坏进行识别和评定[6-7]。这就导致后续图书馆工作人员需要进行人工鉴损,还需要人为地将鉴损数据输入系统,费时费力。并且,信息更新不够及时会导致书籍的修复工作无法及时开展,一些受损严重的书籍再次借出,容易造成二次损坏[8-10]。同时还会影响读者的阅读体验,在一定程度上缩短了图书的使用寿命,这对馆藏资源无疑是一种浪费。

通过对图书外观图像特征提取,可以自动判别图书的污损程度,对图书的修复提供科学依据,以此对馆藏资源实施管护。这对加快图书流通,提升用户满意度,优化馆藏管理流程,提高馆藏管理效能具有重要意义。

1  研究现状

我国是阅读大国,近年来图书馆新馆建设如雨后春笋,各个图书馆也会根据读者的阅读需求、自身客观条件来新增书籍。但是,由于借阅过程中图书的损坏现象严重,每年有大量的书籍被迫下架[11-12]。

如温岭市图书馆2017年有纸质藏書六十余万册,该馆共外借图书七十五万余册次,相当于每天有两千多册被借出,仅一年,报损入库的书籍有近五千册[13]。

伴随馆藏文献流通量的不断增加,图书损坏现象愈加严重。

针对不同损坏类型的图书,其修复方式、修复周期、修复工具、修复的复杂程度均不相同,现阶段国内的图书定损工作主要采用人工质检,图书馆工作人员逐册翻阅检查,不仅效率低下、人力成本高,且无法准确判断其损坏类型。国外一些知名高校图书馆及公共图书馆有序推进智能化图书借还系统,通过使用智能化摄像头,快速对图书封面进行拍摄,利用拍摄图像对图书进行识别[14]

。但该系统在现阶段仍缺乏图书鉴损功能,故亟须提出一种可以自动识别图书损坏类型和程度的方法。

图书损坏类型和损坏程度的判定主要依靠图像识别技术,图像识别技术涉及了图像采集、图像预处理、图像分割、特征提取、图像匹配、图像分类等。其中,图像特征提取作为一种数据预处理方法在智能识别领域得到了广泛的应用。特征提取的目的就是把具有明显高维特征的原始输入空间投影到低维的表示空间,而低维的表示空间则要尽可能地保持原空间上的判别信息[15]。鉴别损坏类型和损坏程度的精确度很大程度上与特征提取技术直接相关。

目前较为经典的几种特征提取方法为主成分分析[16-17]、线性判别分析[18-19]以及局部保持投影[20] ,均在智能识别领域被广泛地加以研究。但是,上述算法在处理图书图像文档时存在一些问题,如:针对小样本问题[21],传统算法缺乏良好的适应性,时间复杂度太高,鲁棒性差等。故本文在线性判别分析法的基础上,引用了一种新的有监督的分析方法,该方法可以有效避免小样本问题,算法的时间复杂度更低,图书鉴损的时间更短。

基于特征提取的快速图书鉴损方法的应用可以在延长图书使用寿命、节省购书经费的同时,保证文献资源使用率最大化,防止馆藏图书因破损严重而流失。

2  基于特征提取的图书损坏鉴评

2.1  图书鉴损技术方法

图书污损自动鉴评是通过自动化装置动态扫描图书外观以获取图书外观的图像数据,并对图像数据进行智能分析,从而判别图书的污损程度,其关键是實现图书外观图像数据的精准识别和智能分析。

本文设计的基于特征提取的快速图书损坏鉴评方法的重点是特征提取。在线性判别分析法的基础上,引用了一种新的有监督的分析方法,该方法结合最大间距准则,有效避免小样本问题;使用QR分解技术,算法的时间复杂度更低,图书鉴损的时间更短。

2.2  图书损坏鉴评流程

基于特征提取的快速图书损坏鉴评方法的具体流程见图1。

步骤1:当读者需要借阅书籍时,在人工借还书系统或图书馆自助服务机上进行书籍的借阅,而此次图书出借时的正反侧三面图书图像数据即为上一次该图书归还时正反侧三面的图书图像数据。

步骤2:当读者需要归还书籍时,在人工借还书系统或图书馆自助服务机上,获取此次图书归还时的正反侧三面图书图像数据。

步骤3:对归还时的正反侧三面图书图像数据进行预处理,且将其与借阅时的正反侧三面图书图像数据进行差异度检测,得到图书损坏初值,并进行判断。

判断该图书损坏初值是否超过损坏阈值,若超过,则显示图书已经损坏严重,提示图书馆工作人员及时进行图书修复;若没有超过损坏阈值,则进入步骤4。

步骤4:将归还时的正反侧三面图书图像数据与借阅时的正反侧三面图书图像数据分别进行差异度处理,找到差异度位置,并对该差异度位置进行定位。

步骤5:对具有差异度的位置进行图像分割提取,得到该区域的图书破损数据。

步骤6:利用一种新的有监督的分析方法对图书破损数据进行特征提取。

步骤7:特征提取后与损坏类别图像进行分类匹配,判定损坏类型和程度,而损坏类型可以为:划伤、开裂、破损、污渍、染色、涂写。

在图书归还时,对损坏类型和损坏程度进行标注,便于图书馆工作人员在后期整理的工作中可以对破损严重的书籍进行优先的修复或更新工作,保证图书馆书籍的可用性。同时,还可以根据不同的损坏类型和损坏程度,给读者以不同的处罚措施并在其借阅登记信息上进行记录,督促读者爱护书籍,养成良好的阅读习惯。

2.3  差异度检测

在数据库内保存有:出借时的图书的正面图像数据Bp,反面图像数据Bb,侧面图像数据Bs;读者归还书籍时图书的正面图像数据BBp,反面图像数据BBb,侧面图像数据BBs。

对各项数据进行归一化处理,得到:

出借时图书的归一化正面图像数据Vp,归一化反面图像数据Vb,归一化侧面图像数据Vs,如式(1)所示;

归还时图书的归一化正面图像数据BVp,归一化反面图像数据BVb,归一化侧面图像数据BVs,如式(2)所示。

其中,‖·‖2为范数2的计算。

Vk=Bk‖Bk‖2(k=p,b,s)

式(1)

BVk=BBk‖BBk‖2(k=p,b,s)

式(2)

则图书损坏初值v如式(3)所示:

v=13∑k=p,b,s‖BVk-Vk‖2

式(3)

2.4  差异度处理

图书正面的差异度矩阵Vp如式(4)所示,图书反面的差异度矩阵Vb如式(5)所示,图书侧面的差异度矩阵Vs如式(6)所示,对图书正反侧三面有差异度的位置进行定位,然后对该区域往外扩延一定范围进行图像分割提取,得到该区域的图书破损数据。

Vp=BBp-Bp

式(4)

Vb=BBb-Bb

式(5)

Vs=BBs-Bs

式(6)

2.5  新的有监督的分析方法

根据流形学习理论[22-23]可知,任意分布的大数据集均可以通过分割,划分成若干个具有高斯分布的小局部数据区域。本文采用的分析方法的基本原理如下:当将任意分布的大数据集分割成若干个小的局部数据区域后,每一个局部数据区域寻找一个与其同一类别下的最近的类内局部数据区域,并寻找与其他每一类别下与其最近的类间局部数据区域,并在每一个小的局部数据区域内引入局部加权均值[24-25]来替代标准均值,使得该分析方法具有一定的局部学习能力。

如图2所示,假设数据集类别分别为类别A、类别B以及类别C。在类别A下有一个局部数据区域a,在类别A下,找到了距离局部数据区域a最近的局部数据区域a′;在类别B下,找到了距离局部数据区域a最近的局部数据区域b;在类别C下,找到了距离局部数据区域a最近的局部数据区域c。

具体定义如下:

假设存在一个数据集X={x1,…,xn},xi∈Rd,该数据集具有以下特性:

(1)具有n个样本数据;

(2)n个样本数据属于C个不同的类;

(3)数据子集Xc属于第c类,且该数据子集Xc大小为nc。

Xci(i=1,…,nc)为数据子集Xc内的任意一个局部数据区域。

当给定分类决策平面的法向量ω,则该方法对应的类内散度αW和类间散度αB分别如式(7)和式(8)所示:

αW=∑Cc=1∑nci=1∑ncj=1rwcij||LWM(ωTXci)-  LWM(ωTXcj)||2F

式(7)

αB=∑Cc1=1∑Cc2=1∑nc1i=1∑nc2j=1rbc1c2ij||LWM(ωTXc1i)-  ωTLWM(ωTXc2j)||2F

式(8)

其中,rwcij為同一类别下任意两个局部数据区域之间的关联系数,当且仅当Xci与Xcj为同一类别下的最近局部数据区域时,rwcij=1,其他情况下,则为0。

rbc1c2ij为不同类别下任意两个局部数据区域之间的关联系数,当且仅当Xc1i与Xc2j为不同类别下的最近局部数据区域时,rbc1c2ij=1,其他情况下,则为0。

故可以得到该分析方法的目标函数,如式(9)所示:

argmaxωTω=1J(ω)=(1-γ)αB-γαW式(9)

在式(7)中,LWM(ωTXci)与LWM(ωTXcj)具体如式(10)和式(11)所示:

LWM(ωTXci)=∑kcm=1β(m)ciωTx(m)ci∑kcp=1β(p)ci

式(10)

LWM(ωTXcj)=∑kcm=1β(m)cjωTx(m)cj∑kcp=1β(p)cj

式(11)

其中,kc为近邻个数;

x(m)ci为局部数据区域Xci的第m个数据,β(m)ci为该数据的对应权值;x(m)cj为局部数据区域Xcj的第m个数据,β(m)cj为该数据的对应权值。

将定义在局部数据区域上的权值扩充到整个数据集X,则上述权值可以如式(12)和式(13)所示:

βci=(0,…,0n1,…,β(1)ci/∑ncp=1β(p)ci,…,β(nc)ci/∑ncp=1β(p)cinc,…,0,…,0nC)T

式(12)

βcj=(0,…,0n1,…,β(1)cj/∑ncp=1β(p)cj,…,β(nc)cj/∑ncp=1β(p)cjnc,…,0,…,0nC)T

式(13)

根据式(12)和式(13),则LWM(ωTXci)和LWM(ωTXcj)还可以分别表示为式(14)、式(15),进一步得到式(16):

LWM(ωTXci)=βTciXTω

式(14)

LWM(ωTXcj)=βTcjXTω

式(15)

||LWM(ωTXci)-LWM(ωTXcj)||2F=||βTciXTω-βTcjXTω||2F

式(16)

根据||A||2F=tr(ATA),可以得到式(17):

||LWM(ωTXci)-LWM(ωTXcj)||2F

=||βTciXTω-βTcjXTω||2F

=tr((XTω-XTω)T(βTciXTω-βTcjXTω))

=tr(ωTX(βciβTci+βcjβTcj-2βciβTcj)XTω)

式(17)

其中,Lijc=βciβTci+βcjβTcj-2βciβTcj,Rwcij=diag(rwcij,…,rwcij)n,则式(7)可以改为式(18):

αW=∑Cc=1∑nci=1∑ncj=1rwcij||LWM(ωTXci)-LWM(ωTXcj)||2F        =tr(ωTX(∑Cc=1∑nci=1∑ncj=1RwcijLijc)XTω)

=tr(ωTXLWXTω)

式(18)

其中,LW=∑Cc=1∑nci=1∑ncj=1RwcijLijc。

同理,式(8)可以简化为式(19):

αB=tr(ωTXLBXTω)式(19)

其中,LB=∑Cc1=1∑Cc2=1∑nc1i=1∑nc2j=1Rbc1c2ijLijc1c2,Lijc1c2=βc1iβTc1i+βc2jβTc2j-2βc1iβTc2j,Rbc1c2ij=diag(rbc1c2ij,…,rbc1c2ij)n。

在利用该有监督的分析方法进行特征提取求解时,可以采用QR分解[26]的方法,从而大大降低时间复杂度,缩短计算时间,尤其在处理高维小样本数据时,其具有显著的优势。

3  实验

3.1  数据样本采集

为了验证本文方法的有效性,本文通过数据样本采集和实验精度对比来进行验证。

本文的数据样本来源为某高校图书馆内的1000本纸质藏书。收集该1000本纸质藏书

借阅前及归还后的正反侧三面图像,共6000张。选择的这些图像均经过了筛选,模拟自助还书系统的自动拍照筛选功能,去除有反光、模糊、低对比度等问题的图像,保证图像识别的有效性。经整理,将这6000张图像作为测试数据。

同时,在系统内保存用于评定损坏类型(划伤、开裂、破损、污渍、染色、涂写)的图片各100张,每种损坏类型中,严重损坏图片、中度损坏图片和轻度损坏图片数量分别为30、40、30张。

值得注意的是,一本书可以被评定为多种损坏类型和损坏程度。在测试前,采用人工识别的方式识别出这1000本图书的损坏类型和损坏程度。

3.2  实验对比

实验一:采用传统的特征提取方法和本文提出的方法进行对比实验测试,在实验过程中都使用最近邻分类器。测试结果如表1所示。

可以发现,本文提出的方法较传统的特征提取方法而言,一方面具有较高的识别精度,能够较好地解决小样本问题;另一方面具有较短的CPU处理时间,算法的时间复杂度更低,图书鉴损的时间更短。

实验二:利用本文提出的方法对1000本图书的损坏类型和损坏程度进行判定。测试结果如下:有22本图书的正面损坏严重,14本图书的反面损坏严重,9本图书的侧面损坏严重,在步骤3超过了损坏阈值,直接提示需要进行修复工作。具体测试的损坏类型和程度结果如表2。

可以发现,本文提出的方法可以有效对图书正反侧三面的损坏类型和程度进行自动识别,且识别精度高,准确率大部分在85%以上,该方法有效地降低了人工成本。且从表2可以发现,图书正面的涂写、图书反面的污渍以及图书侧面的开裂数量较多,应该引起重视,呼吁读者爱护书籍。4  总结与展望

本文设计的基于特征提取的快速图书损坏鉴评方法是先得到图书损坏初值,判断该图书损坏初值是否超过损坏阈值,若超过,则显示图书已经损坏严重,提示图书馆工作人员及时进行图书修复;若没有超过损坏阈值,则再进行进一步的判定,判断损坏类型及程度,图书馆工作人员可以根据损坏类型和程度进行对应的修复,并对一些损坏严重的书籍进行优先修复处理。不仅如此,还可以将同一名称的多本书籍的损坏程度进行排名,优先将损坏程度低的书籍借阅给读者。本文利用一种新的有监督的分析方法进行特征提取,保证信息的有效性,且最后通过实验来证明本文所提方法具有良好的应用前景。

诚然,本文所公开的鉴评方法也存在一定的不足,比如如何识别图书内部的损坏情况,如何更有效地提高本文方法的执行效率等,这些将是以后研究的方向。

参考文献:

[1]龚自振.大数据环境下高校图书馆馆藏图书优化配置模型研究[J].图书馆研究,2018,48(3):44-49.

[2]王军武.关于电子资源与纸本资源协调发展的思考和建议[J].图书馆,2012(5):105-107.

[3]吴汉华,王波.2022年中国高校图书馆基本统计数据分析[J].大学图书馆学报,2023,41(6):63-72.

[4]苏州大学图书馆.本馆介绍[EB/OL].[2023-03-01].https://library.suda.edu.cn/4168/list.htm.

[5]你认真读书的样子最美 2023苏大校园阅读报告来啦![EB/OL].[2023-03-01].https://mp.weixin.qq.com/s/XValstLQR2UucyK3aPdvYA.

[6]谢花寸,丁秀琴.高校图书馆开架借阅中的图书污损状况及对策[J].科技情报开发与经济,2010,20(19):35-37.

[7]王政军,俞小怡,金玉玲.利用创新智能技术解决图书污损问题的探讨[J].大学图书情报学刊,2016(5):28-32.

[8]彭跃峰.高校图书馆中文藏书老化的半衰期分析:以华南农业大学图书馆为例[J].农业图书情报学刊,2018,30(7):91-99.

[9]鮑计国,栾美晨.高校图书馆剔旧工作创新实践:以辽宁对外经贸学院图书馆为例[J].图书馆杂志,2017,36(2):74-78.

[10]杨海玲.图书馆藏书剔旧方法新探[J].图书馆建设,2015(1):66-69,72.

[11]吴良凯.谈图书污损问题[J].图书馆工作与研究,2004(4):74-75.

[12]吴慰慈.试论图书保护学[J].图书馆工作与研究,1981(3):4-7.

[13]撕坏、涂鸦 温岭市图书馆每年5000册图书报损[EB/OL].(2017-05-11)[2023-03-01].http://www.576tv.com/Program/78942.html.

[14]单轸,陈雅.近七年国内外图书馆智慧服务研究比较与启示[J].图书馆学刊,2023,45(10):88-93.

[15]李郅琴,杜建强,聂斌,等.特征选择方法综述[J].计算机工程与应用,2019,55(24):10-19.

[16]JOLLIFFE I T.Principal component analysis[M].New York:Springer-Verlag,1986:15-20.

[17]袁旭,迟耀丹,吴博琦,等.基于PCA算法的人脸识别技术研究[J].信息技术与信息化,2021(3):34-37,41.

[18]WANG C P,ZHANG J S,SONG X L,et al.Face clustering via learning a sparsity preserving low-rank graph[J].multimedia tools and applications,2020,79:29179-29198.

[19]HEINSOHN D,VILLALOBOS E,PRIETO L,et al.Face recognition in low-quality images using adaptive sparse representations[J].Image and vision computing,2019,85:46-58.

[20]LONG Z G,GAO Y,MENG H,et al.Clustering based on local density peaks and graph cut[J].Information sciences,2022,600:263-286.

[21]刘颖,雷研博,范九伦,等.基于小样本学习的图像分类技术综述[J].自动化学报,2021,47(2):297-315.

[22]VAPNIK V N.Statistical learning theory[M].New York:John Wiley & Sons,1998:38-43.

[23]尹峻松,肖健,周宗潭,等.非线性流形学习方法的分析与应用[J].自然科学进展,2007(8):1015-1025.

[24]皋军,黄丽莉,孙长银.一种基于局部加权均值的领域适应学习框架[J].自动化学报,2013,39(7):1037-1052.

[25]葛月月,曾勇,胡江平,等.改进局部均值与类均值权重的近邻分类[J].计算机工程与应用,2017,53(17):137-142.

[26]燕列雅,于育民.用初等变换进行矩阵的QR分解[J].数学通报,1998(9):43-44,39.

作者简介:

王洋(1984— ),男,硕士,馆员,任职于苏州大学图书馆。研究方向:图书采访、文献资源建设。

猜你喜欢
特征提取类别书籍
鲁迅与“书籍代购”
AOS在书籍编写的应用
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
书籍
新产经(2018年6期)2018-07-04 00:39:24
Bagging RCSP脑电特征提取算法
书籍是如何改变我们的
服务类别
新校长(2016年8期)2016-01-10 06:43:59
基于MED和循环域解调的多故障特征提取
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
中医类别全科医师培养模式的探讨