吴国芳
(绍兴职业技术学院 信息工程学院,浙江 绍兴312000)
绍兴图书馆图书检索垂直引擎研究及应用
吴国芳
(绍兴职业技术学院 信息工程学院,浙江 绍兴312000)
通用的搜索引擎所采集信息的速度跟不上网络资源的增长速度,而且检索词的命中率不到75%.以绍兴市图书馆为研究对象,将具有“专、精、深”特点的垂直搜索引擎引入其检索系统,设计了图书检索垂直引擎系统,以提高图书检索的查准率、查全率.该系统利用知识组织方式重新标引图书资源,通过建立用户画像实现个性化垂直搜索.
垂直搜索引擎;知识组织系统;智能信息检索
绍兴图书馆数字化工程经过10余年的建设,目前已拥有较为完善的软、硬件设施,积累了一定规模的数字资源,在特色数据库建设以及公共图书馆数字资源整合门户建设方面已具雏形,相继开通了多项数字化服务项目.2011年绍兴图书馆数字资源访问、下载量突破了80万篇(册)次.但同时,绍兴图书馆这些数字资源本身是零散的、孤立的,不利于读者的利用,而且绍兴地区各个图书馆之间资源因缺少有效的整合统筹途径,各自独立为营,资源重复建设的情况比较突出.因此,实现具有实用性、整合性、统一认证、可扩展、可配置的数字资源门户(共享)平台,从而为读者提供统一服务入口,从各类资源与应用中获取个性化信息是很有必要的.提高数字图书馆的查准率、查全率是实现智能化知识服务的基础.在图书检索中,用户的查询请求一般用一个或几个关键词来表示,而这往往很难忠实表达用户的检索请求,导致用户真正需要的文档因关键词的选择不当而无法检索出来.通用搜索引擎采集信息的速度跟不上网络资源的增长速度,检索词的命中率不到75%[1].绍兴市图书馆数字图书馆于2012年建成,为绍兴市图书馆量身定制一个垂直搜索引擎,提供个性化知识服务,对其数字图书馆建设是有意义和必要的.
目前,国内基于垂直搜索引擎方面的研究大都集中在原理、算法等方面.邹嵩等[2]通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率.夏斌等[3]以用户对农业信息搜索需求为研究背景,采用向量空间模型对农业主题进行识别,并采用网页内容和链接分析相结合的方法,设计实现了一个中文农业信息垂直搜索引擎.汲业等[4]根据生活服务领域网页信息的特点,提出了一种面向生活服务领域的垂直搜索引擎模型,给出了该模型在信息采集、信息抽取、索引建立和信息检索等4个功能模块的具体算法及实现方式.刘博卿[5]从军事工程兵的角度出发,对垂直搜索引擎进行系统研究,研究表明垂直搜索引擎具有很强的针对性、智能性和实时性.
而基于用户行为分析方面的研究,国内主要集中在算法研究阶段.王微微等[6]针对现有的用户模型不能及时根据用户自身兴趣偏移进行更新的问题,提出了一种基于用户行为反馈的兴趣度模型更新算法,实现用户兴趣的自动更新,得到针对新用户兴趣的推荐商品列表以及推荐商品的个性化排序,从而向用户进行个性化推荐.于升峰等[7]从全面分析用户上网行为入手,构建网络行为数据库,采取区别不同用户的个性化主动RSS推送服务方式,提出了一种基于用户行为数据库的主动式知识服务模式.王存睿等[8]结合用户行为时间序列和操作频次,融合FP-GROWTH算法设计了用户特征挖掘算法,建立网络形式的用户行为特征表达方法,并设计了相应的用户行为采集系统.张宇红[9]介绍地方文献作为特色馆藏进行主题标引的案例,其目的在于资源的共建共享.
2.1 知识组织系统
知识组织系统(Knowledge Organization Systems,KOS),是随着数字信息组织技术及人们对信息组织需求的发展,由信息组织向知识组织变革而产生的各种语义工具的统称.知识组织系统的类型最早期是分类法,其后出现了叙词表、概念地图、语义网络以及本体等.利用知识组织方式对图书等资源进行重新标引,能够揭示其语义特征从而支持相关推理.利用领域知识对资源进行二次加工和整合,能够赋予资源专业化、语义化特征,因而克服了通用搜索引擎基于关键词匹配查全率不足的问题.
特色数据库正是利用知识组织系统进行再加工而形成的能够满足用户个性化需求的文献资源库,它依托图书馆馆藏文献资源,针对特定读者的信息需求,对某一学科领域或某一专题中有利用和收藏价值的文献信息进行收集、整理、分析、评价、处理、存储等,并按照某一标准数据格式和规范将其数字化.
2.2 垂直搜索引擎
垂直搜索引擎又称专业或主题搜索引擎,是专门针对普通搜索引擎查询的信息量大而且查询不准确、深度不够等特点提出的新查询服务工具[10].垂直搜索引擎具有浓郁的行业和领域特色,是专为检索某一学科或主题的信息而产生的查询工具,专门收录某一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引擎门户有效得多,其特点就是“专、精、深”.相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入.垂直搜索引擎凭借明确的检索目标定位,对网页进行选择性收集,信息采集量小,更新及时,因而能有效解决通用搜索引擎的弊端[11].垂直搜索引擎正在以其日趋精准化、人性化的信息检索服务,提升人们对搜索引擎的使用率和认同度,助推了搜索引擎的快速发展.
垂直检索引擎主要由内容抓取、建立索引以及检索系统组成.内容抓取——主要是通过蜘蛛程序从信息源抓取数据.内容抓取涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引等.建立索引——是指把抓来的信息建立类似书目的数据文件,以实现高速检索.检索系统——就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能. 垂直搜索是对行业信息进行深度的加工,有效的整合.本文重点研究利用知识组织系统,对其图书检索内容进行分析,提供网页搜索无法做到的专业性、功能性,为用户提供深一步的服务和完整的体验.
图1 系统原理图
本系统以绍兴市图书馆为应用环境,利用知识组织方式对图书资源进行标引形成特色数据库,同时通过用户画像的建立,实现用户个性化垂直搜索服务.绍兴图书馆图书检索垂直引擎系统的原理如图1所示,本系统主要由3个功能模块组成:用户建模模块、知识加工模块以及垂直搜索服务模块.
3.1 用户建模模块
用户建模模块,是指通用对用户浏览网站等行为和用户相关的日志进行分析从而形成用户模板库等.IP地址是系统用户最主要的特征,浏览器Cookie能够将相同IP地址下的用户进一步细分.绍兴图书馆图书检索垂直引擎系统正式采用两者结合进行用户识别.用户的行为可以通过如下方式表示:userInfor =
绍兴图书馆图书检索垂直引擎系统通过用户识别、页面行为跟踪,以及建立用户画像三个过程实现用户行为分析.
3.2 知识加工模块
知识加工模块用于系统对资源进行加工,资源的加工精度决定了对外服务的质量,主要包括元数据管理以及知识加工等内容.系统各类用户各负其责,知识专家和领域专家对元数据进行管理,知识编辑人员通过知识组织库对图书资源进行标引等知识加工,从而形成特色数据库.本文中的特色数据库,可以采用顺序文件、索引文件、倒排文件等形式来组织.经过知识加工后,能够揭示隐含的有价值的信息.
元数据管理包括元数据更新以及发布.元数据存储在专用的数据库中,分为索引目录和关系映射数据库.索引目录用于检索,关系数据库用于元数据与原文的关联记录.元数据仓储提供OAI-DP服务,供其它应用系统调用,并返回XML格式的结果.
在绍兴图书馆图书检索垂直引擎系统中知识组织库采用本体来描述.本体可以使用资源表(t_resource)将类和属性等信息组织起来.本体中的资源采用URI进行唯一标识,而URI是由namespace 和localname组成的.字段type记录资源的类型:类、实例、属性.绍兴图书馆图书检索垂直引擎系统存储表结构信息如表1所示.
表1 知识组织存储表结构
图书检索服务主要涉及到的类包括书籍(Book)、作者(Author)、出版社(Publisher)和读者(Reader).图书检索涉及到的图书类的主要关系有hasPublisher,hasPublishTime,hasCategory,hasKeyWords,hasPrice,hasWords,hasLanguage,hasAuthor,hasBorrowedTimes等,主要包括书籍的中文名称、语种、行业、出版时间、字数、价格、作者和借阅次数等信息.系统通过关系的连接,来达到添加信息语义的目的,例如“中文”与类“图书名”相关联形成“中文图书”,“出借次数”与“行业”相关联形成“行业热门书籍”.
实例的基本信息存储在单独的实例表t_ instance中,实例存储的主要字段有instanceID和instanceName,以及每个实例的属性及属性值.系统采用基于三元组的存储思想,将instanceID,propertyID和value视为一个三元组,直接存储在表中.
3.3 垂直搜索服务模块
垂直搜索服务模块是绍兴图书馆图书检索垂直引擎系统对外服务的模块,面对用户输入的响应,尽可能提供给用户满意的结果,提供垂直搜索和个性化资源推荐等服务.
相对传统搜索引擎,垂直搜索引擎由于覆盖整个行业,搜索相关性更高,更符合用户意图.同时,绍兴图书馆图书检索垂直引擎系统由于知识组织系统的介入,数据结构化的因素,检索结果更是少而精.垂直搜索流程如图2所示.用户输入检索词后,系统提取用户画像确定其关注的领域信息,然后对用户输入的检索词进行扩展等推理,并将推理结果交给检索模块进行检索,最后向用户返回检索结果.
个性化推荐是以用户满意为中心的主动推送服务,是根据用户的不同兴趣和特点,提供有针对性的服务.系统根据不同时间用户行为的变化不断调整、丰富用户画像,寻找用户最相近兴趣和特点的人的最近情况,直接推送用户感兴趣的图书等信息.
绍兴市图书馆在主题标引方面已经取得了一定的成果,为数字图书馆图书检索垂直引擎的应用打下了基础.本文利用知识组织方式对数字图书馆图书资源进行标引等加工,形成特色数据库;同时,通过跟踪用户行为建立用户画像,在图书检索中引入垂直搜索引擎,以其“专、精、深”的特点,将显著提高查准率、查全率.特色数据库的建设以及个性化的服务,为绍兴市图书馆等中小型图书馆在知识时代的发展提供新的契机.
[1]张敏.基于本体的垂直搜索引擎的研究[J].软件导刊,2010,9(2):13-15.
[2]邹嵩,赵诗阳,周新志.垂直搜索引擎中分词技术的算法研究[J].计算机技术与发展,2012,22(2):131-137.
[3]夏斌,丁立,乔红波,等.中文农业信息垂直搜索引擎的设计与实现[J].河南农业大学学报,2010,44(6):715-717.
[4]汲业,陈燕,杨健,等.生活服务领域垂直搜索引擎的设计与实现[J].计算机工程,2010,36(24):24-26.
[5]刘博卿.基于军事工程兵的垂直搜索引擎研究[J].科技创新导报,2011(18):6.
[6]王微微,夏秀峰,李晓明.一种基于用户行为反馈的兴趣度模型更新算法[J].辽宁大学学报(自然科学版),2011,38(1):40-45.
[7]于升峰,蓝洁.基于用户行为挖掘和RSS技术的知识服务模式研究[J].情报探索,2011(8):93-95.
[8]王存睿,王元刚,陈婧,等.基于行为采集系统的用户特征挖掘及分析[J].大连民族学院学报,2011,13(3):296-300.
[9]张宇红.地方文献的主题标引.图书馆研究与工作,2004(2):67-68.
[10]赵德平,王延臣,李鹏,等.面向高校信息的垂直搜索引擎的研究与实现[J].沈阳建筑大学学报(自然科学版),2012,28(3):555-562.
[11]张敏,杜华.垂直搜索引擎系统的设计与实现[J].情报科学,2011(3):421-424,439.
(责任编辑 邓颖)
Research and Application of Vertical Engine in Shaoxing Library
Wu Guofang
(College of Information Engineering, Shaoxing Vocational &Technical College, Shaoxing, Zhejiang 312000)
The general search engine of collecting information cannot keep in pace with the growth rate of cyber sources, and the hit rate of retrieval words is less than 75%. Taking the Shaoxing City Library as the research object, a book information retrieval system was designed to improve the precision rate and recall rate through the introduction of the vertical search engine characterized as “specialized, refined, broad and profound”. The system uses a knowledge organization system to annotate book information and a user profile to realize personalized vertical search.
vertical search engine; knowledge organization system; intelligent information retrieval
2014-02-17
浙江省教育厅高等学校访问学者专业发展资助项目(FX2013236)
吴国芳(1978-),女,浙江东阳人,硕士,讲师,研究方向:智能信息处理、数据库技术、图形图像处理.
TP391.3
A
1008-293X(2014)07-0018-04