刘慧 陆康 夏莹
摘 要 用户的互联网行为可以反映出其兴趣爱好,因此本文从用户的兴趣视角来分析行为与兴趣之间的关系,以此感知用户的实际偏好。本文通过对用户使用数字图书馆文献资源的页面访问、浏览、下载及其次数、时间,以及关键词检索等行为特征的数据收集统计,通过计算相同检索内容相似度的量化方法分析检索行为与下载行为之间的关系,并根据用户检索词与下载数据创建用户“检索—下载”的兴趣模型,从获取文献资源角度来分析研究满足用户对于数字资源兴趣及其需求的服务精度,以提升智慧服务效率。
关键词 用户行为 数字资源 智慧服务 图书馆
分类号 G252
DOI 10.16810/j.cnki.1672-514X.2020.08.010
A Study on the Library Users Use Behavior of Digital Resources Under the Background of Smart Service
Liu Hui, Lu Kang, Xia Ying
Abstract A users Internet behavior can reflect his or her interests. From the perspective of users interests, the relationship between behaviors and interests can be analyzed to perceive users actual preferences. Based on the data collection and statistics of the users behavior characteristics such as page access, browsing, downloading, frequency, time, and keyword retrieval, this paper analyzes the relationship between the retrieval behavior and the download behavior by calculating the similarity of the same retrieval content, and creates the user “search-download” model according to the uses search words and download data. It analyzes the service precision to meet users interest and demand for digital resources from the perspective of acquiring literature resources, in order to improve the efficiency of intelligent service.
Keywords User behavior. Digital resources. Smart service. Library.
数字图书馆发展至今,已经形成完善的互联网服务体系,而要更进一步提高服务的精准性、服务质量和效率,那么基于用户需求的动态感知来开展针对性服务就成为提高用户满意度、忠诚度的有效方法之一。因此,在智慧服务环境中,通过对用户互联网的访问行为、浏览行为、检索行为、下载行为等深层次分析发掘出用户的兴趣,以此获取用户的显性与隐性需求,已成为目前主流的挖掘方法之一[1]。由此,本文认为创建可靠的感知用户的“互联网兴趣——需求”模型,为图书馆提供智慧服务是一种较为有效的途径。本文拟通过用户对图书馆数字资源行为的研究,以AI等算法设计创建真实的场景实验来分析探索用户行为与资源使用的关系,试图从用户行为与结果的量化数据中找出关联性,为图书馆的智慧服务提供参考依据。
1 图书馆用户兴趣研究分析方法概述
由于用户行为与图书馆业务存在一定的关联性,所以,“以用户为中心”一直是图书馆遵从的服务理念,而对于用户行为的研究分析一直以来都是图书馆界所关注的话题。随着数字图书馆技术进步和应用积累,用户行为研究也逐渐从传统的用户信息行为研究提升到更为广泛的用户需求感知,而通过对用户访问数据收集,动态监测用户行为数据,以分析用户的显性需求,挖掘用户的隐性需求,构建多维度的监测模型,实现感知用户的真实需求的目的,是图书馆实施智慧服务的基础[2]。
智慧图书馆感知用户所想、所需,从而实现精准化的文献资源服务,其中需要借助AI(Artificial Intelligence)等分析工具对用户行为数据进行统计整理、归纳,创建用户画像等系列数据模型,以此挖掘获取用戶需求偏好,其中网络数据分析如果缺乏对用户行为相似度的提取,将会导致耗时长、准确性低等问题,也无法保证在低耗时、高精度的环境下提取到全面的用户行为信息[3]。因此,应用AI等技术创新工具需要更高效和科学的分析技术来帮助图书馆提高个性化服务的水平和质量[4]。
以大数据为基础的图书馆用户分析是智慧服务实施的重要途径, 而在对用户需求感知的研究中,除了对用户显性行为的关注分析外,对于用户的关注、理解信息、态度和购买意图等四个方面的隐式行为分析已越来越成为一种较为成熟的分析方法[5]。由于情感无法通过用户行为的显式分析获取,因此图书馆等机构不断尝试优化数据分析的策略与模型,试图通过多维度显性数据来降低情感因素的复杂性造成的分析结果误差,例如改进Apriori关联规则挖掘算法,降低候选项目,引入兴趣测算因子,用以监测Web访问的用户行为[6],从而提升获取用户数据的准确性,为图书馆决策提供“可信”的参考依据。
2 图书馆智慧服务与用户行为分析模型
互联网环境下,图书馆拥有大量的数字资源供用户选择,不同的数字资源有各自的访问页面、检索方式等,用户想要获取到所需的资源,必须通过访问、浏览大量相关的信息。这也是导致用户获取所需资源效率低下的问题关键所在。由于用户行为数据不仅涉及用户的显性需求,也涉及到用户的阅读习惯、兴趣、社会关系及位置信息等隐性信息,因此,通过提升用户行为数据的采集、分析、处理效率来构建图书馆智慧感知的高效率信息服务环境,能够帮助图书馆及时、精准判断用户的兴趣偏好,感知用户的多元化需求,提高图书馆在资源配置、空间设置等方面服务的决策能力和服务效率[7]。
互联网、大数据等信息技术的迅猛发展,为图书馆树立“智慧分析洞察”核心理念[8]及实践智慧服务提供了良好的基础支撑,能够让图书馆构建起与用户需求特征匹配、关联的用户行为分析模型,准确地感知用户所想、所需,其中个性化推荐系统还能够解决用户信息过载问题。可以说,智慧服务个性化服务模型(见图1)的建立是提升用户资源获取效率的工具之一[9],是对用户兴趣偏好的直接反映[10],是图书馆满足用户实际需求开展精准服务实践尝试[11]。
在图书馆监测用户行为时所构建的用户分析模型中,用户、项目与推荐算法是个性化推荐系统组成的三个要素[12],其中对用户行为数据的规模、价值密度、数据的可用性及应用程度等因素的分析挖掘,关系到智慧服务科学性与准确性。
3 用户数字资源行为流程及其分类
用户的信息获取习惯、阅读行为随着互联网的发展而发生改变,其阅读方式也在逐渐发生改变,其中数字阅读逐渐成为主要方式。图书馆对用户的数字资源行为开展研究,不仅是图书馆评价体系中不可或缺的重要组成部分,也是图书馆在采购决策、用户需求、提升利用率、馆藏优化等方面提升智慧服务的重要研究内容[13]。由于通过对用户访问的数据(包括访客流量、访问量时段、访问内容时段等)收集来分析用户行为特征及其对数字资源评价,涉及到图书馆的用户、馆员、技术、数字资源等方面内容[14],对此,本文将用户的数字资源行为流程依次划分为资源访问、资源浏览、资源检索、资源下载等四个方面的行为(其流程见图2),以此来探索、分析用户对数字资源的兴趣。
3.1 用户的资源访问行为
图书馆的资源访问一般是指用户通过互联网访问图书馆各数字资源平台获取信息的行为。相对于图书馆的资源,访问行为受限于用户身份的认证和不认证两种,并有一定范围的IP限定;相对于用户自身访问行为,用户访问又可以分为有意识访问与无意识访问两种情况,两者都涉及到用户对数字资源的认知程度。可以说,在用户访问行为中,一方面图书馆的网络平台资源信息的内容布局的合理性、便捷性、简洁性,以及数字资源版权限制会影响到用户体验,另一方面用户对资源的认识程度也会受到学科服务文献资源宣传力度的影响。
3.2 用户的资源浏览行为
用户的浏览行为,是指用户通过网络URL检索到资源,并相应地访问互联网空间或数字资源平台进行广泛阅读页面内容的一种阅读过程。随着互联网技术进步,图书馆的资源服务、空间服务等信息内容可逐渐通过网络平台获得,其图书馆平台的内容繁多,既有图书馆的各类新闻公告,又有学术前沿、资源的动态等,还包括各种链接接口,例如OPAC(Open Public Access Catalogue)的链接点等。在图书馆的数字服务平台内容不断增多的同时,也导致了用户浏览资源的时间增多,效率降低。
3.3 用户的资源检索行为
资源检索,也称为信息检索,是用户使用图书馆过程中进行资源查询、信息获取的主要方式。随着信息技术在图书馆服务的广泛应用,对于文献资源检索已经发展到全文检索、图像检索等新的检索技术工具、方法上,其中文献内容碎片化处理挖掘技术、文献资源跨媒体检索、平台的语义功能的智慧检索成为图书馆满足用户互联网思维需求的一站式检索技术手段之一[15]。在此背景下,图书馆有关整合资源、语义分析、提取、关联、挖掘、跨平台的本体构建及其满足以上条件的检索算法、用户界面的设计,成为图书馆用来满足用户高效率、精准化检索获取文献需求的重要影响因素。
3.4 用户的资源下載行为
在资源使用量化统计中,由于下载内容可以反映出用户对资源的显性需求,因此对用户的资源下载行为及其分析已经逐渐成为图书馆开展智慧服务的评估指标之一。用户对于检索到的数字资源,即可根据自己的需求进行内容下载,以实现获取目的。这里的下载行为是指合法性的下载行为。一般而言,资源下载的内容包括数字图书馆的电子图书、数字期刊、各种数字资源商提供的平台学科资源,以及围绕用户群体提供的自建数字资源服务,包括整合开放获取的电子期刊、具有针对性的学科服务等[16]。由于图书馆的用户群体存在着差异性,因而对于用户的资源下载行为不仅要求用户下载时的合规性,而且还需尽可能地开展相应的个性化服务,以此降低图书馆运营成本,提高服务效率。
4 用户数字资源行为的兴趣模型研究
从用户互联网访问心理学角度来分析,兴趣是指个人对互联网信息或者事物的选择性态度,同时蕴含着认知、探索、接近信息或者事物的倾向,是一种个性明显的表现[17]。通常情况下,兴趣与阅读度之间存在着正向关系,但会因资源的类型不同,兴趣存在着差异性,其测算函数也不尽相同。另外,在用户访问、浏览、检索与下载行为的研究分析中,由于同一数据库、同一页面内的检索与下载行为可以精确反映用户信息需求,因此,在分析用户访问页面行为时,本文选取同一数据库为研究对象,在提取用户的检索与下载行为数据的基础上,描述和创建用户行为的兴趣模型(如图3所示),以此来判断用户的兴趣点,感知用户需求。
假定用户在特定的时间范围内对同一个数字资源库按照访问、浏览、检索、下载流程进行操作,其访问次数、浏览时间、检索与下载等行为会由于同一个数字资源库中的内容包含不同的页面呈现不同的页面操作,那么将用户在该时间范围内访问的页面分别记录为w1、w2、w3、…、wn。用户对这些页面的操作次数可以认为是用户对数据库的使用行为度,而兴趣可以认为是访问次数(visits)、浏览时间(viewing-time)、检索(retrieve)与下载(download)这四种行为的函数。
令I(Interest)表示兴趣,I(w)为对数字资源页面的兴趣,则I(w)可以表示为:
I(w)=f(I visits(w), I viewing-time(w), I retrieve(w), I download(w)) (1)
4.1 用户访问行为的兴趣
由于互联网门户内容个性化推荐结果的准确性与用户提出的访问请求相关,因此也可从用户访问行为来挖掘用户兴趣(潜在需求)。一般而言,可以对用户在单位时间内访问的数字资源次数进行统计排名,获得用户常用的数字资源等信息,以推断用户使用数字资源的兴趣习惯。该推断的关键在于对其Web日志中记录的有关行为数据进行累计分析[18],并根据用户的行为特点进行准确的元数据描述,将相同兴趣的用户群体进行归类,创建关联的用户集、资源集等[19]。
4.2 用户浏览行为的兴趣
在互联网访问过程中,用户浏览行为一般被用于映射用户对网页内容的兴趣与偏好[20],包括用户的浏览时间、资源类型,以及是否纳入收藏夹、复制与保存等操作行为[21]。其中,用户浏览时间长度在一定程度上可以量化评价用户对网页内容的兴趣。从理论及经验角度,用户阅读速度为300~500字/分钟,但在客观现实中,有可能夹杂着第三方因素或无法判别因素存在,如用户的浏览习惯、网络环境影响、用户长时间不操作、因故离开计算机等,会导致不能够准确地评价用户兴趣。针对这些难以判断的因素,可将用户的阅读时间与鼠标操作次数等数据关联,将鼠标运动次数纳入到用户操作行为评价因素中,以修正浏览计算时间内用户不在的情况,综合推断用户浏览行为的兴趣。
4.3 用户检索行为的兴趣
用户面对信息的多元化搜索渠道,其认知的表达也会越来越便捷,更加专注于认知过程的检索化,可以说检索行为是用户对关注的事物在认知上的一种提炼结果,而其录入的检索词也就在一定程度上代表了其对某一知识内容的兴趣偏好。相对于用户的网页访问、浏览行为,检索行为更能在一定程度上体现用户的信息需求与目的。考虑到检索过程中存在着的信息过载问题,一些网页、学术平台的搜索引擎应用中包含诸如“查询提示”“记录感知”等工具,以便用户提高检索结果的精确度[22]。因此在分析用户兴趣时,可通过历史查询提示、检索记录列表的方法,进行检索词的聚类分析,从中挖掘出用户的所想、所需。
4.4 用户下载行为的兴趣
从学术研究角度来看,用户想要深入某一知识的研究、探索,必然对相关的学术研究资源进行关注和搜集。由此可看出,用户对于数字资源的访问、浏览、检索、下载等获取行为存在着一定的连贯性,而其中的下载行为代表了用户获取某一知识需求的最为强烈的兴趣方向,是用户在学术研究中体现兴趣偏好的最高级别,也从侧面反映出用户的兴趣得到了一定的满足。那么对图书馆的数字资源而言,用户对所需资源的下载数量与数字资源的被引量存在着一定的关系[23],其指标存在着中等的正相关性。
5 用户“检索—下载”行为与兴趣关联度实证分析
在用户获取数字资源的访问、浏览、检索、下载等一系列行为中,也是用户兴趣逐渐得到深入满足的过程,其中用户的检索行为与下载行为是用户兴趣得到满足的较高阶段。至于检索行为、下载行为在满足用户兴趣的关联度方面的差异,本文以校园网内的一定时间内用户的检索关键词的词频统计与该时间内用户的下载文献的词频统计进行对比分析。
首先,定义公式,在T时间内,校园网内用户访问同一期刊或者电子书数据库,将同一检索词词频数Nretrieve与下载文献中词频数Ndownload比较,通过公式(2)计算,其结果与1越接近,即证明用户兴趣的满足度越好。理论状态下,用户兴趣得到满足,即是用户需求得到满足,其结果无限接近于1。
lim F(Nretrieve/Ndownload)=1 (2)
其次,通过互联网数据包分析系统收集数字图书馆系统中的CNKI数据库近一周的用户检索内容数据与下载内容数据(数据采集时间范围为2018年10月13日至2018年10月18日),一共获得检索数据7573个,下载数据2995个。应用谷尼舆情图悦(picdata.cn)热词分析工具进行分析,其中系统分析运用了TF、热词词频指标与Score、热词权重指标,所得到的词频结果分别如图4和图5所示。
最后以Excel方式導出热词词频结果,获取相应的内容、检索次数、下载次数等数据,再通过公式(2)进行相似比计算,其结果如表1所示。
如表1所示,序号3、4、5、6、8、10的相似比接近于1,理论上证明了这些用户在检索、下载数字图书馆资源过程中,其兴趣得到了较好满足。序号9的相似比低于1,反映了该领域用户检索词的选取不精确或者对所需内容认知不足。序号1、2、7相似比值偏离较大,反映了该类用户对所需的资源研究较为深入或者获取到的数字资源能够满足需求的资源较少。
公式(2)在实践上还存在着一些问题,需要注意以下几点:首先,过量下载行为无法准确判断用户的兴趣;其次,用户的知识结构、检索技巧,以及对检索词提炼不够准确,对资源的掌握程度无法通过行为做准确判断,还需要引入情景分析等其他评测指标做二次、三次等多维度分析;最后,兴趣仅为图书馆数据决策与评价提供参考,而实施与提高智慧服务效率,需要多维度的数据支持才能够实现。
6 结语
众所周知,用户兴趣在一定意义上是驱动用户进行某一科学研究、开展学术活动的原始动力,而图书馆对用户行为的分析研究可为图书馆的智慧服务提供一定程度的决策支持。图书馆对用户显性与隐性需求的感知,需要获取、分析与挖掘用户使用数字资源的日志相关数据,并在用户的动态访问、浏览、检索、下载行为过程中,动态发掘和探求用户的兴趣(潜在需求),才能更好地在满足用户需求方面提供精准支持。目前,随着基于语义数据表示和技术的发展,允许在开放和动态部署场景中灵活地匹配用户需求和服务功能,使得用户的兴趣在互联网中能够得到及时满足[24]。基于这一目的,本研究以用户检索词与下载文献数据为基础,试图从用户获取资源行为角度创建用户“检索—下载”兴趣模型,以检索行为与下载行为的相似比值来深层次感知用户资源需求(兴趣)是否得到满足。本研究由于选取的数据并不一定具有代表性,还存在着诸多不足之处,因此分析方法的科学性需要进一步通过实践得到验证,需要运用多样化的数据分析挖掘工具来感知用户所需。在这里,笔者希望广大图书馆领域专家、学者能够进一步完善相关理论以及将理论成果转化为实践成果,进而不断完善图书馆智慧服务体系。
参考文献:
[ 1 ]李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与设计,2012,33(3):968-972.
[ 2 ]王世伟.未来图书馆的新模式:智慧图书馆[J].图书馆建设,2011(12):1-5.
[ 3 ]郭嘉,郭晓峰,沈建京.关于大数据中用户资源信息提取仿真研究[J].计算机仿真,2018,35(7):414-417.
[ 4 ]KAIJUN YU, SONG LUO, XUEJUN ZHOU, et al. A novel method of applying big data for analysis model of library user behavior[P]. Proceedings of the 2019 International Conference on Organizational Innovation (ICOI 2019),2019.
[ 5 ]刘洪伟,高鸿铭,陈丽,等.基于用户浏览行为的兴趣识别管理模型[J].数据分析与知识发现,2018,2(2):74-85.
[ 6 ]李昌兵,凌永亮,汪尔晶.基于兴趣度的Web访问用户关联规则挖掘[J].计算机工程与设计,2017,38(4):852-856,975.
[ 7 ]陆康,曾炜,刘慧.基于Wi-Fi室内定位技术的空间感知信息服务系统研究[J].新世纪图书馆,2018(8):59-62.
[ 8 ]陈臣.大数据时代一种基于用户行为分析的图书馆个性化智慧服务模式[J].图书馆理论与实践,2015(2):96-99.
[ 9 ]许海玲,吴潇,李晓东,等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.
[10]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002(10):1952-1961.
[11]沈阳.基于网络阅读行为兴趣度模型的网摘推荐[J].情报杂志,2007(2):68-69,73.
[12]曾子明,金鹏.智慧图书馆个性化推荐服务体系及模式研究[J].图书馆杂志,2015,34(12):16-22.
[13]周训杰,王尊新.高校图书馆数字资源评价指标体系研究[J].现代情报,2006(1):14-15,18.
[14]刘磊,余洁,王贤.社会网络环境下用户参与的图书馆数字资源评价模式研究[J].大学图书馆学报,2014,32(2):13-17.
[15]容海萍.图书馆数字资源跨媒体语义关联检索的实现模型及保障措施[J].图书馆工作与研究,2018(7):58-62.
[16]张理华.图书馆自建开放获取整本电子期刊资源库研究:以期刊来源和获取方式为例[J].图书馆杂志,2018,37(2):47-52.
[17]BEENEN G, LING K, CHANG K. Using social psychology to motivate contributions to online communities[C]//CSCW04, New York, USA,2004.
[18]陸康.高校图书馆数字资源统计系统建设研究[J].现代情报,2015,35(9):140-145.
[19]王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151,199.
[20]叶文权,陆兴华.基于用户行为的个性化搜索建模[J].智能计算机与应用,2017,7(6):5-8.
[21]邢玲,宋章浩,马强.基于混合行为兴趣度的用户兴趣模型[J].计算机应用研究,2016,33(3):661-664,668.
[22]严中华,孟亚琪,程秀峰.社会化阅读平台的信息查询提示机制优化[J].图书馆论坛, 2019,39(4):101-109.1306.G2.20180818.1847.004.html.
[23]王雅祺.下载数与被引量关系及其影响因素分析[D].天津:天津工业大学,2016.
[24]TONINELLI A, COEEADI A, MONTANARI R. Semantic-based discovery to support mobile context-aware service access[J]. Computer Communications,2007,31(5).