学术资源发现系统的用户体验测试研究*

2015-06-11 06:40王海花陆为国

新世纪图书馆 2015年11期

王海花陆为国

1 背景

近几年来，网络学术资源发现与获取系统（Resources Discovery and Delivery System，以下简称“发现系统”）被愈来愈多的图书馆及信息机构所采用。发现系统作为一种专业学术搜索服务，通过签署协议，收集各类学术文献信息，形成集中的元数据仓储，并为读者提供“一站式”学术搜索服务。全球较为知名发现系统有：ProQuest公司旗下Serials Solutions公司的Summon（简称Summon）、Exlibris公司的 Primo和Primo Central（简称 Primo）、EBSCO公司的 EBSCO Discovery Service（简称EDS）、OCLC的WorldCat Local（简称WCL）以及Innovative公司Encore Synergy，CALIS的“e读”、超星公司的“超星中文发现”等。

如何从众多的资源发现系统中选型和决策，业界同行对发现系统展开多方面的比较与研究。窦天芳等探讨发现系统的逻辑结构、核心功能、体系架构[1]，秦鸿等对系统的元数据、架构与功能、检索与界面、商务因素等进行了详尽的比较[2]，山东大学图书馆从用户功能性指标、网络技术、教学科研支撑等方面进行评估[3]。上述研究强调了发现系统的差异，但却忽视两个方面的因素。一方面，发现系统的整体共性越来越多，日益趋向于“同质化”；另一方面，已有的发现系统研究多从图书馆自身想法出发，忽视了发现系统的用户——读者。发现系统用户是广大读者，其年龄、学科背景、知识结构、所处环境等方面各不相同，因此用户对发现系统的感知与认知也不尽相同。在发现系统“同质化”的趋势背景下，发现系统的比较与选型应充分考虑“用户体验”这一因素，而不仅仅是专业馆员的内部分析。与此同时，读者用户体验参与，其多样性恰好弥补了专业馆员单一背景的不足。

基于此，笔者所在团队在日趋“同质化”的发现系统产品的评估与选型过程中，引进用户体验概念，并开展“发现系统的用户体验测试”，以期测试结果为选购决策提供有力支持，并在今后的引进过程中提出相应的改进意见。

2 用户体验

用户体验（User Experience）根据国际标准化组织（International Organization for Standardization）ISO9241-210的定义为“用户在使用或期望使用一个产品、系统、或者服务的感知和回应”。即用户在使用一个产品（设备、系统或服务）之前、使用中、使用后的全部感受，包括情感、情绪、认知、生理和心理反应、行为等各个方面。

一般来说，用户体验测试主要是借助定性和定量的方法，对用户使用产品时的个人生理、心理和行为等相关指标进行研究，揭示用户与产品之间交互的有效性、效率或满意度等。从被试选择角度，用户体验可分为两类：一类是用户评价（User-based Evaluation），有时也称用户测试；另一类是专家评价（Expert-based Evaluation）。用户测试即为用户提供一系列操作场景和任务让他们去完成，以发现产品（或业务）中的错误和缺失（经验数据：7个用户就可以找到80%以上的可用性问题）；专家评价由多个业内专家根据一些通用的可用性原则和自己的经验来发现系统内潜在的可用性问题（经验数据：5个专家能找到大约75%的可用性问题）[4]。

用户体验的测试与评价方法有情景调查、焦点小组、可用性度量、日志文件分析、问卷调查表等，以及基于用户行为和生理度量的方法，如眼动追踪评价、行为观察、脑电信号[5]。其中用户体验问卷调查表是一种费用少、管理人员和用户双方都能接受的方法，即问卷调查表由一系列可用于评价用户体验的具体问题组成，这些问题经过标准化和系统化处理，评估人员据此分析，找出并明白产品（系统或服务）中的优质部分、缺陷部分，以及有待提高的部分等方面。针对信息系统用户体验度量常用的问卷调查表有：John Broke编制的系统可用性量表（SUS）[6]，Jim Lewis编制的任务后评分用的情景后问卷（ASQ），计算机系统可用性问卷（CSUQ）[7]和研究后系统可用性问卷（PSSUQ）[8]。其中PSSUQ针对当面进行测试而设计，CSUQ则是针对邮件或在线测试而设计，二者非常类似，用于分析系统有效性（System Usefulness）、信息质量（Information Quality）、界面质量（Interface Quality）和总体性满意度（Overall Satisfaction）。

3 用户体验测试研究设计及数据处理

本研究采用用户体验+问卷调查方法，通过用户实际体验后填写调查问卷。笔者团队对收集到的数据利用SPSS 17.0版软件进行统计分析，并对数据进行归一化（Normalization）处理。

3.1 用户研究

根据所在机构特性，确定和描述将要使用发现系统主要用户的特征及行为特点。基于所在机构的性质与特点，发现系统的主要用户是大学本科二、三、四年级学生、一、二年级硕士（或博士）研究生，年龄约为18至28岁之间。他（她）们年轻，有一定的专业知识基础，熟练掌握计算机，了解并熟悉图书馆的功用及网络服务，且有一定的学业和科研压力，求知欲望强烈，需要通过检索和阅读扩展知识面，解决学习中遇到的问题。

发现系统的目标用户未包括所属机构的大学本科一年级新生和高年级研究生与教师。这是因为大学新生刚入校不久，未掌握基本的专业知识，有些甚至不了解图书馆的功用，不会使用OPAC或电子数据库，而高年级研究生及教师专注研究，长期只关注本领域的3~5种专业学术期刊或3~5位专家，较少关注基础性的学科知识检索。

3.2 变量测量及问卷设计

发现系统用户体验测试是对不同厂商的发现系统进行比较。按照用户体验进程一般是从感知到认知，再到情感体验[9]，测试重点是：（1）系统能力（System Capability），其可细化为响应速度、结果数量、元数据质量等；（2）信息质量（Information Quality），即检索结果排序是否符合用户的期望，用户关注的主题和内容在首页中的比例；（3）用户满意度（User Satisfaction），在使用过程中，用户感知的系统灵活性、便利性和整体性能。

调查问卷分为4个部分。第一部分针对系统能力；第二部分针对用户感知的信息质量；第三部分是用户满意度；第四部分需要用户投票选择偏好的发现系统，并简单陈述理由。问卷中有4道题采用二分式度量，其余的测试采用5点式Likert量表形式。

3.3 测试过程

本次用户体验选用三家知名厂商的发现系统进行互联网测试，分别以A系统、B系统、C系统代指；本次测试共有40名低年级研究生参加，分属19个学院，其中理工科背景的学生20人，医学专业学生4人，文科背景的学生16人。

参加被试人员各自准备6个检索词，分别输入3个不同的发现系统，每完成1次检索，即填写表格测试选项。被试人员在完成“系统能力”和“信息质量”测试后，再完成第三部分和第四部分。整个过程完成约为60分钟。

被试输入的检索词共有240个，其中中文检索词140个（重复3个），英文检索词97个（重复2个），中英文混合的检索词3个。

4 数据分析

4.1 系统能力

发现系统能力实际是用户在使用过程中度量系统的性能，其调查变量是发现系统的单次检索过程和结果。本文用“检索速度“”检索结果数量“”数据重复性”“显示的检索结果数据完整性”等四个指标来衡量发现能力。通过测试，我们发现A系统的各项调查变量较其他系统低（参见图1）；B系统的数据清洗工作方面做得比较好；C系统在“检索速度”“检索结果数量”“显示的检索结果数据完整性”等3方面占优，但数据清洗工作不如A系统和B系统。

图1 发现系统用户体验测试中系统能力

4.2 信息质量

发现系统信息质量实质是度量系统的检索结果能否符合用户（即检索者）的期望，帮助用户“发现”所需文献，而不是简单的关键词匹配结果。通过测试，我们发现A系统的各项调查变量较其他系统低（参见图2）；B系统在“检索者关注的主题在分面中呈现”方面占优，说明B系统在检索主题提取与筛选方面工作做得比较好；C系统在“检索结果页面中相关经典文献呈现”“检索者关注的内容在检索结果首页呈现的比例”等方面占优，说明C系统检索结果筛选和排序优于A系统和B系统，其“发现”效果更佳。信息质量调查变量的Cronbachα为0.65，属于中上信度。

图2 发现系统用户体验测试中信息质量

4.3 用户满意度

发现系统的用户满意度测试是度量用户的情感接受。通过测试，B系统和C系统的用户满意度较A系统高（参见图3）。其中B系统在“检索结果分面灵活性”单项变量占优，说明B系统在检索主题聚类与识别方面做得比较好；C系统在“全文获取流程方便性”“发现系统整体性能”等方面领先，说明C系统在流程设计较好，较其他系统使用起来更为便利。需要指出的是，C系统检索结果中，与用户检索词有关的经典文献在页面中呈现的比例较高，这有助于用户学习过程中阅读学科经典文献，也有助于所在机构推广核心馆藏。用户满意度调查变量的Cronbachα为0.708，信度较高。

图3 发现系统用户体验测试中用户满意度

4.4 用户偏好及理由

测试的第四部分是被试者根据自己的用户体验和偏好进行选择。其中A系统得票4.5票，占比11.25%；B系统得票16.5票，占比41.25%；C系统得票19票，占比47.5%。另外，68.75%的文科背景被试人员选择了C系统，50%理科背景被试人员选择了B系统。

通过对用户体验和偏好选择理由的分析发现，用户比较看重的体验在于以下几个方面。（1）系统界面的友好度。页面整洁、操作简单、检索结果页面上显示比较全面（如作者、出版年、期、卷、馆藏位置等信息）的系统更令用户偏爱。（2）系统的检索速度。在信息化时代，用户总是希望在最短的时间内获得自己所需的信息，系统检索速度的快慢是影响用户偏好选择的重要原因之一，这也是大部分用户摒弃A系统的原因。（3）检索结果的相关度排序。在用户喜好理由中“检索结果相对精确”“准确率高”“相关度高”等出现的频率比较高。（4）文献重复率。用户更倾向于重复率低的系统。

5 结语

本文的用户体验测试结果表明，发现系统的用户满意度受系统的信息质量影响大，个别检索结果元数据重复并没有影响整体用户满意度；不同发现系统的元数据仓储在超过一定数量后，系统间的差异减弱；不同学科背景的被试人员偏好稍有不同，尽管还没有更多的数据来解释，但是也说明不能忽视发现系统的研究者和评估者的学科背景、个性需求和体验。本次用户测试体验证明将用户体验变成可以度量的行为和态度，在一定程度上能够反映不同厂商发现系统的优势与缺陷。

随着技术发展与进步，现有不同厂商的发现系统正在趋向“同质化”，因此资源发现系统的选型成为一项挑战性的工作。由于各个系统都有优缺点，图书馆不仅要考虑馆内各系统与资源的整合需求，还要考虑系统性能、数据质量、检索能力等综合因素，更重要的是开展各种用户体验测试，调查用户对资源发现系统的感知与功能期望，并将用户普遍反馈的功能期望作为评价的重要指标[10]。

在信息服务中，好的产品在注重服务内容和质量的同时，更要注重情感的愉悦和满足，确保产品工作起来顺畅，用户心情愉悦，不会感到无助和挫折。信息用户已不再满足于被动地接受信息服务机构的诱导和操纵，而是愿意主动地参与到信息服务之中。越来越的用户希望能够和信息服务机构一起，按照自身的需求获取满意的服务，通过创造性消费来体现他们独特的个性，使他们获取自我实现的新途径，从而获得更大的成就感和满足感。因此，提供学术信息检索“一站式”服务的发现系统也应满足读者的用户体验需求，不仅要在选型的初期进行用户体验测试，而且还要在确定选型以后的日常使用中也要邀请用户积极参与进来进行系统的测试与评估，及时掌握用户的使用状况和使用反馈意见，通过与发现系统厂商积极沟通和协作，不断完善和改进系统，使系统逐渐满足用户个性化需求。

[1] 窦天芳，姜爱蓉.资源发现系统功能分析及应用前景[J].图书情报工作，2012（7）：38-43.

[2] 秦鸿，钱国富，钟远薪.三种发现服务系统的比较研究[J].大学图书馆学报，2012（5）：5-11，17.

[3]廖静.山东大学图书馆资源发现系统评估工作的摸索与实践[J].图书情报工作，2013（9）：52-57.

[4] 李仲侠，么遥，王灵芝.移动终端的用户体验研究[J].信息通信技术，2012（4）：12-17.

[5]Tullis T，Albert B.用户体验度量[M].周荣刚，等，译.北京：机械工业出版社，2009：45-55.

[6] Broke J.SUS：A quick and dirty usability Scale[EB/OL].[2015-04-15].http：//www.doc88.com/p-5748144246297.html.

[7] Lewis JR.IBM computer usability satisfaction questionnaire：Psychometric evaluation and instructions for use[J].International Journal of Human-Computer Interaction，1995，7（1）：57-78.

[8] Lewis JR.Psychometric evaluation of the post-study system usability questionnaire：The PSSUQ[C].Santa Monica：Proceedings of the Human Factors Society 36th Annual Meeting，1992：1259-1263.

[9] 李皓，姜锦虎.网站使用中用户体验过程模型及实证研究[J].信息系统学报，2011（9）：55-65.

[10] 朱前东.国外资源发现系统评价策略研究[J].图书与情报，2014（4）：6-10.