摘 要 本文选取东南大学图书馆资源发现系统(EDS)为研究对象,利用Google Analytics跟踪、收集用户使用日志数据,并对此数据进行深度挖掘、分析,构建用户画像信息,据此从整体上分析图书馆资源发现系统及其用户在使用过程中存在的问题。最后,针对用户行为分析,提出改善图书馆资源发现系统功能界面、提升资源发现系统检索适用性以及加强信息素养教育三方面建议。
关键词 图书馆资源发现系统 用户画像 语义检索
分类号 G250
DOI 10.16810/j.cnki.1672-514X.2021.03.007
Research on User Portrait of Library Resource Discovery System: Taking Southeast University Library Resource Discovery System as an Example
Li Huifang
Abstract This paper selects the resource discovery system (EDS) of Southeast University Library as the research object, uses Google Analytics to track and collect user log data, and carries out in-depth mining and analysis of this data, constructs user portrait information, and analyzes the problems existing in the resource discovery system and the process of its usersusing it as a whole. Finally, according to the analysis of user behavior, this paper puts forward three suggestions to improve the functional interface of library resource discovery system, enhance the retrieval applicability of resource discovery system and strengthen information literacy education.
Keywords Library resource discovery system. User portrait. Semantic retrieval.
图书馆资源发现服务系统自2009年面世后,在国内外高校图书馆已被普遍使用,逐渐成为了高校图书馆的主流检索工具。资源发现系统之所以能够改变用户传统的信息获取模式,就在于资源发现系统的使用数据完整地记录了用户与系统的交互过程,全面掌握发现模式下用户行为的变化。图书馆通过对用户行为数据的整合、挖掘,可以最真实地揭示用户行为特征和使用偏好,反映用户的真实意图与需求,为用户提供更加专业化、精准化的资源和服务,大大提升用户的服务体验与满意度。本文选取东南大学图书馆资源发現系统为研究对象,采用Google Analytics(Google分析,以下简称GA)跟踪、记录用户的使用行为,获取使用日志数据,分析用户画像信息,明确用户偏好和行为特征,以期为图书馆资源发现系统功能的改进和图书馆相关服务的优化提出建议。
1 资源发现系统下的用户画像技术研究与应用
一直以来,图书馆为了揭示用户信息需求、检索行为趋势,提升用户满意度以及消除潜在的使用障碍,往往通过图书馆资源发现系统的用户与系统的交互过程中完整的数据记录,来真实分析研究发现服务模式下用户使用行为的改变,如,R.A COHEN等分析印地安那大学两个校区的资源发现系统的搜索日志,明确用户与系统交互的特点,揭示用户行为趋势 [1-2]。ROEN JANYK分析奥卡诺根学院图书馆用户使用行为数据,并使用这些信息提出了加强图书馆服务的建议[3]。朱玲、聂华通过日志挖掘的方法对北京大学图书馆资源发现服务用户的搜索行为进行研究[4]。杨丽萍、王俊等分析了西交利物浦大学用户群体特征和用户面向系统的信息行为[5]。这些分析研究侧重点虽然不尽相同,但几乎或多或少地在应用用户画像技术。
用户画像又称用户角色,是大数据时代的产物,最早是由Alan Copper提出,他认为,用户画像是建立在一系列真实数据之上的目标用户模型,是真实用户的虚拟代表[6]。用户画像通过对用户数据的挖掘提炼,尽可能全面细致地描绘出一个用户的信息全貌,由此可以了解并跟踪用户需求变化并分析探求用户需求变化的根本原因,从而进行精准营销[7]。目前,用户画像的应用领域非常广泛,如电子商务、社交网络、金融等很多行业,都对用户画像形成了独特的理解和认识。
为了更加了解用户,为用户提供更加精准的信息服务,国内外图书馆也引入了用户画像技术,对图书馆用户行为进行了深度的研究、分析。大数据环境下,用户画像是图书馆数据处理与个性化服务的重要思路和方法[8],在国外图书馆领域最早出现在20世纪80年代中期,应用于英国国家书目和Blaise-line(欧洲首批在线服务之一)的服务优化[9]。国内图书馆领域对用户画像的研究起步较晚,2010年,郑宝鑫等首次使用“用户画像”一词[10]。国内外图书馆关于用户画像的研究可划分为理论研究和实践研究两部分。理论研究主要包括用户画像的定义和构成要素、构建用户画像的算法和技术等;实践研究主要包括以下两方面内容:一是用户画像用于图书馆个性化服务或精准化服务的研究,主要研究如何利用用户画像特征为用户提供更加精准的个性化服务,提升用户使用体验;二是用户画像模型的构建研究,主要研究如何采集用户数据,以及如何构建用户画像模型。在用户画像构建分析中,用户数据的采集和获取是至关重要的一环,目前主要的数据来源包括用户访谈数据、用户咨询数据、以及使用图书馆管理系统、微信服务系统、网站系统、数字资源服务系统等日志数据。
2 资源发现系统用户行为数据收集及用户行为定义
东南大学图书馆自2013年上线资源发现服务以来,使用系统服务的用户数量有了突飞猛进的增长。初期资源发现系统虽然也提供使用统计数据,但数据比较简单,基本只限于检索数量、全文下载数量等,这些数据几乎不能告诉我们用户的实际搜索行为,传统的使用度量并不能显示用户参与的全貌和发现服务提供的价值。2017年,东南大学图书馆将GA的跟踪代码插到本馆资源发现系统(EDS)的页脚,配置完成后,自用户登录资源发现系统到退出该系统,所有的操作行为都将被GA跟踪、记录,可生成使用报告并支持数据的直接导出,提供多种导出格式。
为了真实地反映用户行为,本研究在采集过程中,选用一个自然年度的数据进行分析,具体时间设置为2018年1月1日至2018年12月31日。为分析方便,本文采用了EXCEL表格的形式导出数据,并且由于GA的强大功能,其跟踪捕获的数据基本不用清洗。对于数据分析,本文主要采用了WEB数据挖掘的研究方法[11]。其中,采用聚类方法对图书馆用户行为数据进行挖掘,首先将用户的行为划分为若干组或类别,然后将具有同一类别的行为数据聚集在一起,使得同一个组内的数据对象具有较高的相似度,以此发现用户共同的爱好、兴趣、规律和趋势。
在处理数据分析过程中,定义了用户使用资源发现系统的以下一些行为识别。
会话: 会话是指用户与发现系统进行互动的一段时间。从用户登录系统至用户离开,记为一次会话。在一个会话过程中,用户可以执行多次检索、浏览网页等行为。
跳出率:跳出率是指和系统没有互动的用户的比例,即用户登录着陆页后,和系统没有任何互动即离开。高跳出率一般代表系统页面内容和用户需求不一致。
退出率:用户退出率是指使用中途离开系统的用户比例,它是衡量用户参与度和忠诚度的重要指标。
平均会话时长,从用户登录至退出系统的平均时长。平均会话时长=会话时间之和/会话数。
事件:“事件”指可以独立于网页或屏幕的加载而进行跟踪的用户与内容的互动。
3 用户使用资源发现系统基本情况分析
3.1 用户年龄及其黏度
通过GA中的受众分析,可知用户数量随着年龄呈逐渐下降趋势,其所占的比例和年龄基本呈反比趋势。18到34岁的用户占比达71.48%,其跳出率也是最低的;35岁以上用户数量逐渐下降,但跳出率却明显高于低年龄段用户,尤其是35~44岁用户,跳出率高达8.31%。跳出率反映了用户满意度,跳出率低,说明用户对系统满意度高,系统可以满足用户的需求;跳出率高,则相反。为了反映不同年龄段用户的黏度,本研究统计了会话时长(分钟)以及每次会话浏览的页面数量。以年龄划分,则18~24岁以及45~54岁的用户黏度最高,25~34岁以及35~44岁的用户黏度最低。具体见表1。
3.2 用户活跃度
以小时为考量单位,则一天的访问高峰时段出现在10、16以及20时,所有年龄段的用户基本都遵循这一规律。从图1可见,随着年龄的增长,用户的活跃时长在逐渐降低,尤其是45岁以上用户,访问时间基本限定在8时至24时。再以月为单位考量用户的整体活跃度,从图2可知,9月至12月是用户的使用高峰时间段,而寒暑假期間使用量最低;上半年使用高峰月份为3月,下半年使用高峰月份出现在11月。18~54岁的用户活跃度遵循整体规律,55岁以上用户的使用高峰时间出现在3月和9月,基本和学校的开学时间一致。
3.3 用户访问设备
(1)按设备类别区分,18~34岁用户使用量最高的设备依次为台式机、手机和平板电脑。35岁以上用户使用的设备基本只有台式机和手机两种。不论哪个年龄段,台式机的使用量都遥遥领先移动设备使用量,整体情况见表2。移动设备用户较少,手机和平板的用户占比为8.8%,用户的跳出率和设备屏幕大小成反比关系,屏幕越大,跳出率越高,屏幕越小,跳出率越低。其中,手机用户效率最高,平均会话时长最短,每次会话浏览的页数最低,跳出率却最低,这意味着手机用户使用目的明确,检索效率较高。
(2)按浏览器类别区分,18~34岁用户使用量最高的浏览器依次为Chrome、Edge和IE。35~64岁用户使用量最高的浏览器依次为Chrome、IE和Edge。表3列出了所有用户使用量最高的5个浏览器。由表3可以看出,网页平均加载时间直接影响了用户的退出率,网页加载时间短,用户的退出率则低,相反,网页加载时间长,用户的退出率则高。另外,浏览器不同,用户的跳出率也不同。IE浏览器的跳出率最高,高年龄段用户更倾向使用IE浏览器,说明浏览器是高年龄段用户跳出率较高的因素之一。结合浏览器版本进一步分析发现,相同的浏览器,版本不同,其跳出率也不同。IE使用较多的5个版本,7.0、8.0、9.0这3个版本跳出率最高,均超过了10%,而10.0和11.0版本的跳出率相对较低,分别为7.82%、8.34%。其他浏览器也存在类似的状况。这些现象基本遵循浏览器版本越高,其跳出率越低的规律。
4 用户检索行为数据分析
用户检索行为数据揭示了用户检索内容、检索策略和能力,以及资源发现系统功能设置对用户的影响。
(1)检索词。2018年度,东南大学用户使用的检索词共有18万8千余个,GA统计了每一个检索词使用的频次,按照由高到低的顺序排列,发现在检索过程中,虽然用户年龄段不同,但其选用的检索词却具有相同特征,对数据库和软件的检索高居各年龄段榜首,和总体特征一致,占比高达18%,如”知网”“Noteexpress”等。表4列出了出现频次最高的前10个检索词,排列在前7位的检索词均为数据库名称和软件名称。而使用这些检索词,搜索后退出次数所占百分比普遍较高,最高竟超过了80%,这说明搜索结果和用户需求不匹配,使用这些高频检索词,用户获取的使用体验并不理想。其中对于不能反映用户明确的检索需求和目的的“C”“OF”“论文”“综述”等无效搜索词频繁使用,系统将返回数量庞大且内容毫不相关的检索结果。
(2)检索方式。东南大学图书馆的资源发现系统(EDS)提供基本检索和高级检索两种检索方式,且提供相应的检索字段,帮助用户准确地获取资源。EDS通过检索符号来区分不同的检索方式,使用连词“AND”“OR”或“NOT”将两组或两组以上的括号进行连接的查询式为高级检索,其余则为基本检索。由于涉及的检索词数量庞大,本文随机抽取一千个检索词,作为样本数据进行分析。将每个查询都标记为基本检索或高级检索。如果高级检索中使用了字段代码,则也进行标记。
由于相同的检索词会被不同的用户多次使用,所以1000条检索词的使用量是大于1000的。统计结果显示,选取的样本数据共有1996次检索,其中基本检索量为1821次,占比91%;高级检索量为175,仅占9%。比较意外的是,高级检索的使用率并没有随着年龄的增长而增长,18~24岁年龄段用户使用高级检索功能的比例最高,其次是45~54岁的用户,再其次是25~34岁的用户,高级检索使用比例最低的用户群为55~64岁年龄段。
EDS高级检索界面提供全文、作者、题名、主题词、来源、摘要、国际刊号(ISSN)、国际标准书号(ISBN)8个字段的检索選项,以提高用户检索的精度。在175次高级检索中,仅31次检索使用了字段代码,对高级检索字段使用进一步统计,发现不同的字段代码使用量也呈现出很大的差异性。这里需要特别说明:对于同时使用了两个或两个以上检索字段的检索词,则分别计入不同的字段,如“(AU Balaraman) AND (TX telemedicine)”被分别计入AU和TX字段。用户对作者的检索需求比较明显,但对主题词、ISSN和ISBN字段需求较弱。
(3)检索语言。EDS在中英文资源的收录数量和覆盖面上都有明显的差距,其收录的外文资源相对全面,中文资源相对欠缺。这里依然采用样本数据,按照语言,将检索词划分为中文检索词、英文检索词、中英文混合检索词三类。用户倾向使用一种语言作为检索词,尤其是中文检索词使用量遥遥领先,中英文混合语言的检索词较少被使用。
(4)检索式构造。检索式的构造一直以来都是图书馆培训的重要内容之一,学生对信息需求的表达主要以检索式的形式体现出来。但根据样本数据分析发现,用户很少使用组配符来扩大或缩小检索范围,特别是使用“OR”和“NOT”以及截词符的用户更是寥寥无几。即使是高级检索用户,大部分也是使用连词“AND”组合多个关键词,在175次高级检索中,仅有7次检索使用了组配符“OR”,一次使用了“NOT”,其余使用系统默认“AND”链接多个检索词,无人使用截词符。
(5)分面检索。分面检索在资源的发现和获取中发挥着重要的功能,用户借助分面信息对检索结果进行分组、精简,可快速准确获取最相关资源。东南大学图书馆EDS的分面导航界面默认“同时在文章的全文搜索、应用对等科目”作为扩展条件。可供用户自由选择的分面类型包括:图书馆提供全文、仅显示馆藏书目、同行评审期刊、来源类型、主题、出版物、语言、出版地、内容提供商。统计结果(图3)显示,用户共触发411 940次分面事件,其中,默认分面设置285 334次,占比69.27% 。用户自主选择的分面类别共使用17万余次(由于一个事件可能同时使用了多个分面项,这里按照每个分面项单独计算)。
从图3的统计结果来看,不同的分面使用量差别巨大,“图书馆提供全文”使用量最高,而“内容提供商”的使用为零,“出版地”使用量也很低,说明全文是用户主要的资源需求类型, 但用户对出版地和内容的提供者并不关注。另外,再细分来源类型的分面选项,其中,“学术理论期刊”的使用量占据绝对优势,达到2万多次。但与其具有相似功能,且在页面更显著位置显示的“同行评审期刊”类别使用量却很低,这种现象和用户对图书馆专业术语理解能力有关。D. J. COMEAUX研究发现,图书馆专有名词是用户理解资源发现服务的障碍,学生对这些术语概念非常模糊[12]。
“图书馆提供全文”是所有年龄段用户使用量都最高的分面项。18~24岁用户是使用分面类型最丰富的群体,55岁以上用户基本只关注全文分面项,可以说,随着年龄的增长,用户使用的分面类型在逐渐减少。
5 资源发现系统的用户画像分析
首先,用户一般遵循系统默认设置的功能,并且在自主选择系统功能时,受到图书馆专业术语的制约。大部分的用户对系统的默认设置不做改变,如对检索方式的选择、高级检索界面组配符的选择以及对检索结果分面精炼的选择大都遵循了图书馆的默认设置,不会做主动更改。另外,用户对图书馆专业词汇和专业知识知之甚少,专业术语为用户的使用带来了障碍,其中,分面项“同行评审期刊”,检索字段的“主题词”“ISSN”“ISBN”等使用量较少,甚至为零,虽然这些都是有效的检索和精炼方式,但却不能被用户所用。
其次,用户缺乏有效的检索策略。检索词检索反映了用户的搜索行为倾向以及信息素养知识。高频的数据库和软件名称检索词的出现,反映用户对资源发现系统的功能、包含的内容没能很好的理解,但大量宽泛以及无效检索词的使用,表明用户在开展检索前,并没有制定详细的检索策略。另外,通过用户检索策略分析看出,用户使用运算符构建检索式的意愿并不强烈,只习惯使用一种语言的检索词,要么选择中文、要么选择英文,极少用户采用中英文混合检索词,这对系统的中英文互检能力提出了更高的要求。
第三,用户的使用体验受到使用的设备以及浏览器性能的影响。台式机是主流访问途径,手机等移动设备使用量较少,且移动设备用户会话时间短、跳出率低,这意味着移动设备用户一般都具有明确的查询目的。不同的浏览器带给用户不同的使用体验,Safari浏览器用户满意度最高,而IE浏览器具有较高的跳出率,带给用户的使用体验较差,并且相同的浏览器,版本越低,用户的使用体验越差。
最后从年龄段分析可看出,资源发现服务系统的用户主体是18~34岁的年轻人,在高校中,基本对应了本科生、硕士研究生以及青年教工。这部分用户活跃度高,能较多的运用系统的各项分面功能,高级检索使用率较高,跳出率最低。而35~44岁用户基本为中高级研究人员,这部分用户黏度低,综合运用系统功能的能力居中,跳出率最高,使用资源发现系统获取的满意度较低。45~54岁用户黏度高,使用高级检索的意愿较强,但其跳出率较高。55岁以上用户,这部分用户数量少,活跃度低,黏度一般,高级检索使用比例最低,运用分面类型单一,基本只关注“全文”分面项,跳出率较高。
6 提升资源发现系统使用的几点建议
根据应用与满足理论,用户选择媒体的动机是能够满足他们的需求并进一步带来满足感。用户在使用搜索工具查找相关资源方面的成功或失败经验将影响他们未来的使用行为[13]。将这一理论引入到资源发现系统中,若图书馆资源发现系统功能可以更加符合用户的行为特征,满足用户的需求,那么,他们在未来将继续使用该系统。根据用户画像分析,具有如下几个方面的实践启示。
6.1 优化系统功能界面,增强语义检索功能
优化系统默认功能的设置,可以使用户在检索过程中自然地寻求立即满足,不必过多地对检索结果进行检查和调整[14]。系统默认功能的设置对于用户的使用倾向具有极强的导向作用。重视资源发现系统默认功能的设置,去除用户基本不用的分面项和检索字段,而将用户使用量大的功能呈现在页面显著位置,保证检索界面的直观性,最大程度地提升用户使用的便利性。另外,对于高频的数据库检索,虽然反映了用户对资源发现系统理解的欠缺,但也反映了用户的实际需求。在发现服务结果列表中提供数据库的检索框和链接,将数据库作为检索结果呈现,不仅可以引导用户的使用行为,还可以帮助用户对资源发现系统以及相关数据库有更好的理解。
6.2 详细了解用户需求,提升系统检索适用性
图书馆员可采取访谈方式,详细了解用户的需求,并以此改进系统功能,盡快实现资源发现系统检索的智能化、精准化和全面化,提升资源发现系统识别用户需求的能力,增强高级用户的使用满意度。首先对学术术语的检索词进行分析,以用户检索需求来梳理高频检索词,热门检索词和检索主题,开发高质量的检索词,并提高中英文互检能力,以帮助用户识别搜索主题,有效提升图书馆馆藏与用户需求的一致性,弥补图书馆资源建设的漏洞。其次分析交叉学科的检索词,可参考相关学科的课程设置并与相关院系老师协作,明确用户的真实学科需求,有针对性地提升图书馆馆藏质量,同时考察检索结果较少的检索词,弥补图书馆对相关资源的缺失收藏。最后,提升资源发现系统对不同浏览器的适用性,缩短网页平均加载时间。总体上看,资源发现系统网页的响应时间过长,这主要是因为EDS的网站服务器分布在国外,网站服务器距离越远,所需的页面加载时间也就越长,因此,可在国内增设网站服务器来有效解决这一问题。但针对不同设备和浏览器之间的差异性,还需要技术人员进一步分析原因,提升其兼容性。
6.3 开展信息素养教育,提高用户检索行为能力
发现服务模式下,帮助用户掌握所需的信息技能,有针对性地开展高校图书馆的信息素养教育比以往任何时候都更重要[15]。对资源发现系统用户使用行为数据的挖掘和分析,不仅为图书馆信息素养教育指明了方向,有利于改进信息素养教学策略[2],而且在帮助用户制定搜索策略和评估信息方面的作用更加突出,使用户在检索需求分析、检索方式、检索词的选定以及检索式的构造等方面提高信息检索的查全率与查准率。
信息素养教育应强化信息搜索策略的系统性,训练用户制定全面的信息搜索计划,以及确定搜索重点,选择恰当的检索词,并且随着研究的深入,在不断对搜索策略进行调整的过程中,提升用户对资源的精炼检索和评估能力,增强用户综合运用分面功能的能力。
参考文献:
COHEN R A, PUSNIK A T. Measuring query complexity in Web-scale discovery: a comparison between two academic libraries [J]. Reference & User Services Quarterly,2018,57(4):274-284.
COHEN R A, THORPE A. Discovering user behavior: applying usage statistics to shape frontline services [J]. The serials librarian,2015,69(1):29-46.
JANYK R. Augmenting discovery data and analytics to enhance library services [J]. Insights,2014, 27(3):262-267.
朱玲, 聂华. 通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J]. 数据分析与知识发现, 2011, 27(12):74-78.
杨丽萍, 王俊, 韦晓莹. 资源发现系统的用户信息行为分析:以西交利物浦大学图书馆为例[J]. 图书馆研究, 2019(2):92-99.
ALAN C.交互设计之路 [M].北京:电子工业出版社,
2006:115-135.
王凌霄, 沈卓, 李艳. 社会化问答社区用户画像构建[J]. 情报理论与实践, 2018 (1):133-138.
李慧芳,孟祥保.近十年国内外图书馆资源发现系统研究与实践进展述评[J].图书情报工作,2020,64
(6):120-129.
JANE, BISHOP, PETER, et al. BLAISE-LINE and the British National Bibliography: profiles of users and uses[J]. Journal of Librarianship and Information Science, 1985,17(2):119-136.
郑宝鑫, 周雪松, 李斌,等. 基于用户画像、信令挖掘技术的手机游戏产品推广[C]//广东通信2010青年论坛优秀论文集. 2010:133-136.
王伟. 基于数据挖掘的图书馆用户行为分析与偏好研究[J]. 情报科学, 2012, 30(3):391-394,418.
COMEAUX D J. Usability testing of a web-scale discovery system at an academic library [J]. College & undergraduate libraries,2012,19(2-4):189-206.
WHITING A,WILLIAMS D L . Why people use social media: A uses and gratifications approach[J]. Qualitative Market Research, 2013, 16(4):362-369.
CONNAWAY L S , DICKEY T J , RADFORD M L . “If it is too inconvenient Im not going after it”: convenience as a critical factor in information-seeking behaviors[J]. Library & Information Science Research, 2011, 33(3):179-190.
RICHARDSON H A H. Revelations from the literature: how Web-scale discovery has already changed us[J]. Computers in Libraries, 2013, 33(4):12-17.