聚类视角下图书馆OPAC资源揭示与推送服务探析*

2014-12-31 09:14邱均平武汉大学信息管理学院武汉大学科学评价研究中心湖北武汉430072

图书馆建设 2014年2期

邱均平（武汉大学信息管理学院武汉大学科学评价研究中心湖北武汉 430072）

周毅（武汉大学信息管理学院湖北武汉 430072）

联机公共目录查询系统（Online Public Access Catalogue，简称OPAC）是图书馆重要的资源访问门户。它是指通过公共终端或工作站访问、描述图书馆或图书馆系统拥有的图书或其他资料的书目记录所组成的数据库[1]。OPAC于20世纪六七十年代产生，取代了图书馆传统的卡片目录。20世纪90年代末，WebOPAC产生，用户通过因特网可直接访问OPAC资源[2]，为用户利用图书馆资源提供了极大的方便。在Web2.0环境下，随着“以用户为中心”的理念深入人心，传统的图书馆OPAC越来越不能满足用户需求，OPAC改革的需求越来越紧迫。本文将针对OPAC系统存在的不足来探讨其在资源揭示方面的改进方案及书目推送服务。

1 图书馆OPAC在资源揭示和组织中存在的问题分析

OPAC是图书馆自动化系统面向用户的窗口，用户对它的满意程度极大地影响了图书馆的整体服务，甚至影响到用户对图书馆的依赖性。OPAC相较于卡片目录，查找资源更为便捷。但近些年来信息化快速发展，各种网络数字化资源数据量大、内容丰富而繁杂，图书资源在整个信息资源中所占比例降低。而搜索引擎、网络书店、读书网站等的发展为用户提供了更加方便、快捷的服务，资源获得途径多样化。相较之下，图书馆OPAC功能僵硬而单一，用户对OPAC的依赖性越来越小[3]。

1.1 OPAC检索功能强大，但过于专业。

OPAC在一般情况下提供基本检索、多字段检索、多库检索、高级检索、通用命令语言检索等多种检索策略，如Alep500系统提供了简单检索、多字段检索、高级检索、通用命令语言、分类浏览5种检索途径，可选择的检索字段有全面检索、正题名、所有题名、题名（前方一致）、著者、主题词、分类号、出版社、索书号、ISSN（International Standard Serial Number，国际标准连续出版物编号）、ISBN（International Standard Book Number，国际标准书号）、条形码12个。用户想要检索到目标资源，首先要了解各个检索字段的含义，其次要学会构建合理的检索策略。对于图书馆广大的普通用户来说，OPAC的检索功能虽然强大，但过于专业，对用户检索技能要求较高。据统计，用户进行检索时使用的检索字段主要集中在题名（86.21%）、作者（60.92%）、关键词（54.02%）和出版社（18.39%）[4]。这一数据可以解读为很大一部分用户是在查询目标比较明确的情况下才选择使用OPAC进行查询，另一方面也说明很少有用户会通过其他字段获取书目数据，其他字段的利用率低。专业性强的OPAC会给用户快速、准确地获取信息资源造成阻碍。

1.2 OPAC检索结果实用性低

OPAC的首要任务是帮助用户快速地获取准确的书目数据并定位所需资源。目前，OPAC在检索结果展示方面还不够准确、方便。以Aleph500系统为例，在武汉大学图书馆的OPAC中以“题名”为检索字段，输入检索词“信息管理学基础”，检索结果中的第1条书目数据是“《信息管理学基础》案例与实验教程”，第2条是“管理学基础”，第3条数据题名才是“信息管理学基础”。其检索结果可以按著者、年、题名升序或降序排列，但没有按相关性大小排列。如果用户对要找的资源掌握的信息较少，就必须自己在检索结果中一一浏览，这无疑增加了用户的负担。另外，用户在查询过程中还可能遇到输出结果太多、选择困难的状况。目前，OPAC的书目数据查询功能还处在用户主动寻找、系统被动提供的的阶段。

1.3 OPAC的书目数据之间缺乏关联性

一般OPAC的书目数据体系与图书馆学专业的分类编目体系相一致，如《中国图书馆分类法》、《中国人民大学图书馆图书分类法》等。其中，Aleph500系统使用的是《中国图书馆分类法》。《中国图书馆分类法》是目前应用最广泛的分类法，它将文献分为4大部类，22个基本大类，大类下设子类，进行标记时严格采用层累制。传统的分类编目体系缺乏关联揭示和聚类呈现，也缺乏诸如在网络中越来越流行的由普通用户添加标签之类的功能，不完全符合目前普通用户的思维和查找习惯[5]。例如，在查找某一题名的资源时，用户对其中某一资源感兴趣，想进一步了解此资源作者的其他作品，只能将此作者的姓名输入检索框中启动新的检索，没有更为快捷的链接。

1.4 OPAC资源描述深度不够

OPAC每条书目数据提供题名、ISBN、作品语种、出版发行、载体形态、主题、分类号、馆藏地等基本信息，这些字段准确、全面地描述了资源客观存在的特性。但用户在查询时还需要更多的信息来帮助用户选择、判断资源的质量。目前，迅速发展的网络书店（如当当网、亚马逊等[6]）提供的信息和服务更加丰富，有目录、图书试读、顾客评论甚至作者在线访谈等，方便用户更好地选择图书[7]。例如，Aleph500系统的书目数据中已经添加了目录、网络摘要、评级等条目。另外，目前OPAC提供的书目数据基本是对资源对象的物理描述，是对每一条描述对象的客观反映，对资源揭示的深度不够，缺乏用户评论、用户推荐、用户打分等形成资源“用户口碑”的条目。用户在选择资源时，仅凭客观信息无法对资源的质量做出评判，在信息量快速增长的环境下，用户很难取舍，最终阻碍了用户信息需求的实现，影响了图书馆对用户的吸引力。

1.5 OPAC未充分利用用户借阅资源行为的数据

用户在图书馆系统中留下的借阅数据是准确了解用户信息需求的重要资源，是图书馆完善服务的依据，用户在使用图书馆各项服务的过程中留下的痕迹都是图书馆的宝贵资源，充分利用这些资源有助于图书馆完善各方面的服务。对图书馆自动化系统中用户的借阅数据进行统计分析，一方面，可以掌握用户的信息需求，为图书馆的资源采访提供依据，使图书馆的采访工作更贴近用户需求。针对数字资源的利用，国际上通用的网络电子资源在线使用统计标准（Counting Online Usage of Networked Electronic Resources，简称COUNTER）有着较为规范的统计，图书馆能在统计数据的基础上作进一步分析，从而指导采购工作。但是对纸质资源利用情况进行统计与分析，在国内图书馆界没有得到足够重视，尤其是对资源在馆内借阅的统计，由于技术和人力的原因造成其普遍缺失[8]。另一方面，可以通过对用户的借阅数据进行数据挖掘，提供书目推送服务，使馆藏资源能更全面、合理地展示给用户，提高馆藏资源利用率。

综上所述，图书馆OPAC存在资源揭示深度不够、检索结果输出不合理、忽视书目数据之间的关系等问题。要使资源得到全面、深入的揭示，便于读者准确识别并获取资源，图书馆必须补充、完善书目数据的内容，不再拘泥于传统的著录格式。书目数据的聚类将是完善OPAC书目数据的有效途径。聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异[9]。整个社会就是一个大的关系网，OPAC中的书目数据相互之间存在着各种各样的联系，目前的OPAC系统忽视了书目数据之间的关系。如何有效地选择自已需要的资源是图书馆用户在面对图书馆大量藏书时遇到的困惑之一。本文将从基于检索字段、用户分类及用户资源利用数据的统计分析方面对OPAC中的书目数据进行聚类，以便更加全面、深入地揭示馆藏资源，并进行书目推送，使OPAC系统的检索结果更清晰、易筛选，使用户的资源获取过程更加流畅。

2 基于聚类的资源揭示

2.1 简化操作：基于检索字段的资源聚类与推送

基于检索字段的聚类较容易实现。以Aleph500系统为例，用户通过OPAC查询某一资源时，得到的结果中各条书目数据是相互独立的。如果用户对某一著作的作者感兴趣，只能通过“著者”检索字段，进行新一轮的检索。在这个过程中，可能会有一部分的用户因为过于麻烦而放弃。OPAC一般设置了多个检索字段以供用户选择、查询。例如，Aleph500系统提供了简单检索、多字段检索、高级检索、通用命令语言、分类浏览5种检索途径，检索字段有全面检索、正题名、所有题名、题名（前方一致）、著者、主题词、分类号、出版社、索书号、ISSN、ISBN、条形码12个。但并不是所有的检索字段都适合聚类，上文提到用户选择检索字段主要集中在题名、著者、主题词、出版社等字段。在对书目数据进行基于检索字段的聚类，可以考虑题名、著者、主题词、出版社4个字段。题名和主题词部分反映资源的内容，主题词是经过规范的自然语言，选用主题词作相似主题资源聚类更为准确。在某一书目的详细信息页面可以设置如“相似主题资源”、“该作者所有作品”、“该出版社本领域资源”的链接，用户通过点击轻松进入相关页面。“相似主题资源”将主题相似的资源聚类，“该作者所有作品”将该作者的所有作品聚类，“该出版社本领域资源”将该出版社出版的本领域的作品聚类，不同的出版社在各个领域出版物的水平不同，这一链接能够帮助用户快速查找同一出版社本领域的其他出版物。北京大学图书馆Unicorn系统已经设置“查找该作者其他作品”、“查找本主题的其他作品”、“书架上的邻近馆藏”3个链接，其中“书架上的邻近馆藏”实际上是按索书号聚类，与“本主题的其他作品”在一定程度上是重复的。图书馆OPAC系统本身就可以通过各检索字段进行检索，基于检索字段的聚类，实质上就是在每条书目的显示页面上添加相关链接。在基于检索字段的聚类中，书目数据通过作者、主题、出版社等字段与其他书目建立相应的联系，可使用户通过快捷途径查找相同作者、主题、出版社的资源，节省了时间，改善了用户体验。

2.2 提高资源揭示深度：基于用户基本信息与借阅数据的资源聚类与推送

2.2.1 基于用户基本信息的分类与推送

图书馆的服务理念是“以用户为中心”，其一切服务都是为了满足用户的信息需求。不同类型的用户，其信息需求千差万别，根据不同的标准，可以划分成不同的类型。对于高校图书馆，可以按照学科专业、学历层次、身份等进行用户类型划分：按照学科专业的不同可以划分成若干个类型；按照学历层次的不同可以划分为专科生、本科生、硕士研究生、博士研究生等；按照身份的不同可以划分为学生、教师、职工。高校图书馆的用户成份比较清晰、单一。而公共图书馆用户成份较复杂，用户的注意力比较分散，对用户进行类型划分，进而针对不同的用户群体改进图书馆的服务显得更加复杂。在用户办理图书馆借阅证时登记了用户的工作、年龄、学历、居住地等信息，公共图书馆可以从职业、年龄、学历、居住地等方面对用户进行类型划分。

充分利用馆藏是图书馆一切工作的出发点，因此图书馆要认真研究用户的分类，从而明确用户的信息需求，据此做好馆藏文献的补充、完善工作，优化图书馆的服务。吴彩凤在《网络环境下OPAC用户需求及其发展方向》一文中将用户的阅读需求划分为社会型阅读需求、专业型阅读需求、研究型阅读需求、业余型阅读需求4类[10]。图书馆根据用户的基本信息可将其划分为不同的类型或进行阅读需求分类，分析各种类型用户的共性需求。当用户登录图书馆网站时，在其个人图书馆页面或OPAC查询页面推送此类型用户关注度较高的书目。

根据用户基本信息，对用户进行分类，可以获取用户所需资源的大致范围，从而有针对性地推荐用户所在类普遍关注的资源，通过推送发掘用户的潜在需求。统计分析用户在资源利用过程中产生的数据是图书馆掌握用户信息需求的可靠途径。大数据时代，数据挖掘技术在实践中的作用越来越明显，应用的广度和深度不断扩大，但在图书馆OPAC中尚未崭露头角。图书馆可应用数据挖掘技术来分析用户的隐性信息需求[11]、改善图书馆的信息服务[12]等。

2.2.2 热门书目排行

借阅排行是系统对馆藏资源的借阅频次进行统计，对频次最高的若干条数据进行排序展示。借阅排行反映了资源受关注度，在一定程度上从侧面反映了资源的质量。目前的OPAC借阅排行一般仅显示所有馆藏的总借阅排行或者按学科分类的借阅排行。例如，Aleph500系统显示近1年、近3个月、近1个月、近1周的借阅总排行或按《中国图书馆分类法》22个大类分类的借阅排行。但按大类的借阅情况排行范围仍然过宽，对于有些专业来说，从业人员与学生数量都比较少，具体到专业领域的高借阅资源就不能再按大类展示的借阅排行显示。对于某一个特定用户，真正对其有意义的借阅排行，应该足够详细、全面。图书馆可以从以下几个方面来完善借阅排行：①按用户类型统计借阅排行，如高校图书馆可以依据学校开设的专业进行用户分类，分别统计各个专业的借阅排行，供用户参考；②将借阅排行应用到检索结果排序中，在检索结果展示页提供按借阅次数排序的功能，甚至将具体的借阅次数显示在页面中；③用户可随意选择时段来查看借阅排行，不同时段借阅排行的变化可以反映出专业领域关注点的转移；④查阅借阅排行时，允许限制条件进行组配。

2.2.3 评分排行与评论数排行

目前，OPAC中的书目数据绝大部分仅反映资源的客观信息，描述的是资源的物理特征。借阅排行在一定程度上反映了排行中的资源质量，但排行中的资源仅是馆藏的“冰山一角”，排行之外还有众多的优质资源可供用户选择。以评论的形式体现的“用户口碑”是资源质量的一个直观体现。目前，有一部分OPAC开发了用户评论、用户添加标签等新功能，但用户的参与度极低，通过调查分析，大多数用户比较认可书评的导读功能，认为OPAC所提供的书评功能很好、很强大，但由于其不了解OPAC的这项功能等原因，此项功能没有达到系统设计者预想的效果[13]。资源要通过评论进行质量的衡量，首选要解决评论的产生问题。OPAC应该可以允许用户在某一资源的详细页面下对该资源进行评论、打分。针对用户参与度低的问题，图书馆可以从以下几个方面解决：①要加大对于OPAC这一功能的宣传力度，通过海报、评选最优评论员等方式扩大影响；②使用打分这种简单、快捷的方式使用户对书目做出判断；③通常情况下限于地域差异、用户数量不足等原因，仅依靠馆内用户对资源的评论作为资源质量好坏的参考在数量和质量上有一定的局限性，豆瓣、亚马逊等读书网站和网络书店都设有评论这一功能，OPAC可以与这些网站合作，对这些网站中较好的书评进行筛选，对于每种资源选择较好的几条评论直接导入OPAC，本馆用户在阅读这些书评后，也可以对这些书评进行文字评价或者打分评价。在解决书评的产生问题后，用户除了通过阅读书评来判断资源质量外，OPAC可以在检索结果展示页通过评论数多少和打分高低对检索结果进行排序，帮助用户选择所需的资源。

2.2.4 用户兴趣聚类与推送

统计分析用户的借阅数据可以分析用户的兴趣点，向用户推荐书目。基于用户兴趣进行书目推送包括两个方面，一是针对用户本身的兴趣、爱好的统计分析。如何针对用户的兴趣、爱好，快速、准确地检索出用户需要的书目数据是图书馆提高服务质量的关键所在。例如，杨东风提出了一种基于多兴趣度的图书借阅推荐系统模型架构和算法（如图1）[14]；何安提出了在推荐过程中使用协同过滤思想，并分析了用户借阅图书的多兴趣问题，这样推荐的结果更加符合实际借阅情况，具有鲜明的个性化色彩，同时也提高了协同推荐效率，具有较好的实用价值和推荐价值[15]。协同过滤是在信息过滤和信息系统中一项很受欢迎的技术，它可以分析用户的兴趣，在用户群中找到与某个用户兴趣相似的用户，综合相似用户对某一信息的评价，形成系统对用户信息需求的预测。二是采用共现分析或数据挖掘技术，对图书馆用户借阅数据进行统计分析，按借阅相似度进行聚类。共现分析是将各种信息载体中的共现信息定量化的分析方法，以揭示信息的内容关联和特征项所隐含的寓义。通过对用户借阅数据中主题、题名等字段的共现分析，采用社会网络分析软件或SPSS软件等，可以将兴趣相似度较高的用户进行聚类。利用数据挖掘技术，通过用户借阅数据提取用户兴趣特征，构建用户兴趣模型，结合基于显式读者反馈模式和基于隐式读者借阅和检索行为挖掘模式，从权值更新和衰减算法入手，对读者兴趣模型进行学习和更新[16]。OPAC在用户进行检索时利用协同推荐技术推荐兴趣相似度较高的其他用户所借阅的资源；同时还可以构建虚拟社区，向用户推荐兴趣相投的其他用户，便于用户之间的沟通与交流。

图1 基于多兴趣度的图书借阅推荐系统模型架构和算法

不论是热门书目排行、评分排行与评论数排行还是用户兴趣聚类与推送，都加深了OPAC中书目数据对资源的揭示深度，方便了用户识别、利用。

3 结语

OPAC书目查询功能的宗旨是要有针对性地将馆藏书目数据最大化地展现给用户。基于多方面的书目推荐是使OPAC实现由被动查询到主动推送角色转变的重要途径。本文针对OPAC检索功能过于专业、书目数据关联性差、检索结果可用性低、没有充分挖掘用户借阅数据的问题，探讨了从基于检索字段、用户分类、用户借阅数据统计分析结果等方面，通过增加链接、增加排序选择、进行书目推荐等完善OPAC书目检索功能的做法，帮助用户在检索OPAC中的资源时快速、准确地获得所需资源，在一定程度上提高了系统内资源的利用率，改善了用户体验，从而促进了图书馆的长远发展。未来，OPAC应该本着“以用户为中心”的理念，大力改革，通过采用图书馆学、信息管理学等领域的先进理念和信息技术，从各方面完善功能，以最大限度地满足用户需求，赢得用户的支持。

[1]胡小菁.论新一代OPAC的理论与实践[J].中国图书馆学报,2006(5):67-75.

[2]Chalon P X, Pretoro E D,Kohn L.OPAC2.0:Opportunities,Development and Analysis.11th European Conference of Medical and Health Libraries[C].Helsinki: University of Alberta Learning Services,2008.

[3]王海英,汪其英.国内现有主要OPAC的调查研究[J].农业图书情报学刊,2011,23(12):48-53.

[4]黄进.浅析OPAC系统功能发展趋势[J].图书馆,2010(4):95-96.

[5]江佳惠.强调读者参与和资源揭示的OPAC[J].图书馆理论与实践,2011(10):24-26.

[6]严贝妮.互联网时代馆藏目录建设新思路:岭南-亚马逊模式给我们的启示[J].图书馆杂志,2005(1):50-53.

[7]查颖,关继舜,徐建华.高校图书馆资源揭示面临的挑战和对策[J].晋图学刊,2010(1):1-5.

[8]江佳惠.强调读者参与和资源揭示的OPAC[J].图书馆理论与实践,2011(10):24-26.

[9]聚类[EB/OL].[2013-06-30].http://baike.baidu.com/view/31801.htm.

[10]彩凤.网络环境下OPAC用户需求及其发展方向[J].情报科学,2003,21(12):1296-1298.

[11]李玮平.基于数据挖掘的图书馆读者需求分析[J].图书馆论坛,2004,24(3):86-88.

[12]司徒浩臻.数据挖掘技术在图书馆信息服务中的应用[J].现代图书情报技术,2005(10):15-18.

[13]贺海峡.高校图书馆应充分发挥OPAC的书评功能[J].图书馆杂志,2013(4):72-74.

[14]杨东风.基于多兴趣度的图书借阅推荐系统研究与设计[J].信息技术,2011(7):118-120.

[15]何安.协同过滤技术在电子商务推荐系统中的应用研究[D].杭州:浙江大学计算机学院,2007:15-16.

[16]张炜,洪霞.基于OPAC读者行为挖掘的个性化服务系统关键技术分析[J].图书馆论坛,2010,30(1):62-64.