用户画像在图书推荐系统中的研究

2022-08-12 04:55陈公禹
科技风 2022年19期
关键词:动态数据画像标签

陈公禹

上海大学图书情报档案系 上海 200444

近年来,大数据、云计算、人工智能等互联网信息技术不断飞速发展,人们的生活也随之发生翻天覆地的变化,读者用户的需求越发个性化、多元化。用户画像因其可以用来描述用户特征、挖掘用户需求,并以此提供用户个性化服务的特点,目前已被广泛应用于各种领域。用户画像技术应用于图书馆服务有利于创新图书馆服务模式,也为图书馆未来的良好发展提供了机遇。现如今,图书馆正面临诸多挑战,面对读者用户需求的多元化以及海量的文献资源,图书馆只有充分了解用户的需求,才能为用户提供更加个性、精准的服务。用户画像应用于图书推荐系统可以提高图书资源的利用率,通过分析挖掘用户的行为,对用户进行个性化精确化的服务,实现智能化图书精确推送。

1 用户画像概述

1.1 用户画像的概念

用户画像(User portraits)由交互设计之父Alan Cooper所提出,又称用户角色、用户模型、客户画像、受众画像。它主要通过用户调研、数据采集等方式全面地搜集用户信息,包括用户背景、用户行为习惯等,来具体地、标签化地、有针对性地描述用户特征,建立目标用户模型。简单来说,用户画像就是以海量数据为基础,分类描述用户行为,刻画出真实用户的虚拟形象。在图书推荐系统领域,用户画像主要是通过标签化处理读者用户的数字足迹,刻画用户行为,从而为用户提供个性化、精确化的图书资源推荐服务。读者用户信息主要包含借阅图书、浏览网页、下载文献、入馆时间等记录,通过从各类系统中全面抽取出用户的相关数据,分析用户行为习惯以及资源偏好,进而准确描述用户特征,最终实现图书信息资源的精准推荐[1]。

1.2 国内研究现状综述

截至2021年9月4日,以“用户画像”和“个性化推荐+图书推荐+资源推荐”为主题在相关网站上进行高级检索,将文献分类目录限定为图书情报与数字图书馆领域,去除无效文献,总计检索出中文文献46篇。

国内研究主要集中在图书馆资源推荐服务模式、图书馆知识服务、图书推荐系统等方面。王庆等[2]归纳图书馆现有资源推荐服务研究,并对图书馆用户画像数据源进行分析,以此构建了图书馆用户画像模型,提出从单用户和群体用户角度进行资源推荐的服务模式。陈慧香[3]通过分析国内外图书馆领域用户画像的研究现状,结合已有的用户画像模型和服务情况,为用户画像应用于图书馆精准服务提出建议。刘海鸥等[4]围绕图书馆用户基本信息标签、内容偏好标签、互动标签、会话标签、情境标签来构建用户画像模型,并引入情境化推荐方法来实现图书馆知识服务的个性化推荐,提升图书馆的知识服务水平。王顺箐[5]以读者需求多样化和无差别推荐的矛盾出发,探讨了实现智慧型个性化阅读推广的可能,最终构建了智慧型个性化推荐系统。何娟[6]通过构建用户的个人画像和群体画像,综合读者借阅行为特征实现图书的个性化推荐并对其可行性进行测评。

目前,国内已有部分学者基于用户画像对图书推荐系统进行了应用及优化,大多数关于图书馆资源推荐的相关研究主要方向是探讨个性化推荐模式及相关推荐算法技术,并以此来优化馆藏资源和提高利用率,而从用户视角发掘用户的图书兴趣偏好、基础属性和浏览动态,进而形成完整的推荐系统的研究较少。

2 基于用户画像构建图书推荐系统

2.1 构建用户画像

图书馆构建读者用户画像可以分为三个过程:数据的收集与处理、建立用户画像数据标签、构建用户画像模型。

首先,对读者用户的数据进行收集与处理。图书馆的读者用户数据包括读者静态数据和动态数据。其中,静态数据包括读者用户的读者证号、姓名、性别、年龄、职业、学历、专业、城市、邮箱地址等基本信息。这些静态数据一般都可以直接从系统中获取。动态数据则是指读者用户的行为数据,一般包括读者用户使用数据库的信息、使用图书借阅系统的信息以及读者用户使用各种设施的信息等。除了这些数据之外,图书馆还可以通过设计调查问卷的方式,来获取系统中无法反映的额外数据,使得读者用户数据更加真实、完整。这些数据来自不同的信息系统平台,因而需要对不统一的数据结构加以整合处理,完善读者用户的信息,有利于构建真实、可靠以及完整的读者用户画像。

其次,建立读者用户画像的数据标签。数据标签是基于用户动态与静态数据分析而来的高度精练的用户特征标识,能很方便地理解每个数据标签的含义,使模糊的用户立体化、形象化[7]。为读者用户建立数据标签是图书馆构建用户画像的关键工作。图书馆可根据读者用户的属性,构建基本属性标签、借阅行为标签、图书偏好标签。基本属性标签主要包括:姓名标签、性别标签、年龄标签、职业标签、学历标签以及专业标签等;借阅行为标签是区分读者类型的标签,通过对读者的入馆情况数据以及借阅记录数据可以将读者区分为低借阅读者、普通读者、高借阅读者以及入馆达人;图书偏好标签主要由图书类别偏好标签和图书内容偏好标签组成。

最后,在完成对用户的静态数据和动态数据收集处理的基础上,进行分析以及语义化抽象综合上述标签构建用户画像。

2.2 图书推荐系统结构设计

基于用户画像的图书推荐系统的模块包括数据采集模块、数据处理模块、图书推荐模块以及可视化模块。

数据采集模块从图书馆各类系统中主动搜集爬取用户数据,用户数据包括静态与动态两类,随后记录为用户行为日志,为数据处理提供基础。

数据处理模块处理来自不同平台的用户数据,包括清洗、规范统一、分析,从而获得与用户行为相关的权重标签,并加以处理整合,是构建用户画像的基础。可以采用统一标记的方式分析用户行为,按照标记规则为不同用户设置对应的静态标签。而动态标签的设置,可以采用数据挖掘算法进行大规模数据分析,通过聚类算法区分用户,并通过数据抽取的方式获得对应的标签[8]。

前端服务界面包含可视化模块和资源推荐模块。资源推荐模块包括两个方面,首先是相关推荐,通过基于内容的文本相似度算法,找到与某个读者浏览的图书信息资源相似的其他信息资源。其次是热门推荐,可以根据相似度匹配计算出用户偏好指数最高的资源,分享给该读者。系统根据读者的基本信息和行为数据进行读者用户画像构建,随着时间的推进,读者的兴趣偏好逐渐明显或者逐渐改变,系统应当具备可以自动采集读者最新的基础信息数据和行为数据并更新该读者画像的功能。图书推荐系统根据用户画像进行推荐,将基于用户画像与图书的相似匹配度计算方法,将符合条件的最新图书资源筛选出来,进行优化后显示在最新推荐结果页面。

3 个性化图书资源推荐

3.1 相似图书推荐

相似图书的推荐是基于用户画像中的动态数据而实现的。读者用户的动态数据中,可以从图书和读者两个维度对数据进行挖掘分析。读者用户对图书的借阅行为会生成借阅记录,这些借阅记录反映了该读者的图书借阅偏好,系统通过寻找与这些借阅记录相类似的图书实现推荐。图书维度的特征属性主要有题名、主题词、作者、学科主题、出版发行商以及中图分类号等。其中可以利用中图分类号以及关键词进行图书间的相似匹配度计算,最后将两种相似度计算结果进行整合排序,从而得到结果[9]。

中图分类号采用汉语拼音字母与阿拉伯数字相结合的混合号码,具有从整体到局部的特征[10],从左到右进行编号,具有一定的层次性。图书馆中的每一本图书都有其所属的唯一中图分类号,通过中图分类号可以清晰直观地看出图书属于什么类别与级别,因而可以依据中图分类号来进行图书之间的相似匹配度计算。表现图书特征维度的除了中图分类号之外,还有题名、作者和学科主题,系统可以将题名、作者和学科主题通过计算文本相似度的方法进行两本图书之间的相似匹配度计算。

在计算了中图分类号和题名、作者和学科主题两个维度的相似度之后,将基于中图分类号和题名、作者和学科主题的图书相似度进行整合,由于两者对于图书相似度之间的影响基本相同,可以依照两者接近的比例整合,最终实现相似图书的推荐。

3.2 相似读者图书推荐

相似读者的图书推荐是基于用户画像中的静态数据和动态数据相结合而实现的。系统通过相似度计算方法找到目标读者的相似读者,从而推荐相似读者所感兴趣的图书。用户画像基于读者用户的静态数据和动态数据对读者进行刻画,系统可以依据这两个维度的相似度计算结果进行整合,从而选出相似度较高的几位读者,再对读者的借阅图书进行排序,依照相似度高低降序排列,选择前几本相似度较高的图书推荐给目标读者。

对于读者用户的静态数据,可以利用计算文本相似度的方法计算两个读者间静态数据的相似度。包括专业、职业、年龄段、性别、学历等静态数据的相似度匹配。

对于动态数据,读者的借阅偏好通过读者在图书馆借阅系统中,借阅、续借以及收藏等操作记录表现出来。而图书维度的属性特征仍旧包括题名、主题词、作者、学科主题、出版发行商以及中图分类号等。系统选取图书的题名、作者、学科主题词作为读者图书兴趣偏好的模型构建基础数据进行相似匹配度计算。

在计算了读者的静态数据和动态数据两个维度的相似度之后,将这两个维度的相似度进行整合,由于动态数据相较于静态数据对于图书偏好的影响较大,可以依照动态数据大于静态数据的比例进行整合,最终实现相似读者的图书推荐。

4 基于用户画像的图书推荐系统存在的问题

4.1 信息安全与用户隐私保护问题

读者用户信息是重要的信息资源,也是图书推荐系统构建读者用户画像的基础。系统在构建读者用户画像时,会收集大量读者信息,在利用并挖掘这些数据的同时,要尤其注意读者信息安全和用户隐私问题。首先,在读者知晓并同意其相关的数据被获取后,系统才能采集读者信息。其次,应当收集已有的和必要的数据,减少无关数据的采集,例如,不应收集身份证号码和家庭成员等重要信息。最后,可以通过安全加密和设定访问权限来保障读者信息安全。在大数据时代,用户信息安全与隐私保护是十分重要的课题,只有在保证用户信息安全的前提下,读者用户才会愿意将隐私数据提供给图书馆,构建用户画像才会更加精准。

4.2 用户画像实时变化问题

随着时间的推移读者偏好和需求特征都会发生变化,因此用户画像模型并非一直有效。读者用户的动态数据包括用户图书资源的兴趣、偏好等变化以及用户来馆频率、停留时间、在馆行为等数据变化。如何解决好用户画像实时变化问题显得尤为重要。由于难以判断用户阅读偏好何时发生变化,对用户画像阶段性调整难以实施;另外,如果系统实时对用户画像进行调整,那么用户数据的实时交换问题以及所产生的巨大数据量问题有待解决。因此,基于用户画像的图书推荐系统还需不断改善来精确描述用户状态。

4.3 缺乏系统评估指标

目前,大部分研究主要集中在用户画像模型构建、推荐系统设计及平台搭建。然而,在构建用户画像、完成图书推荐系统搭建之后,很少提及系统评估方面的内容,缺乏系统的评估指标,对于基于用户画像构建的图书推荐系统完整的、规范的指标和评估体系没有建立。国内的相关研究大多是提出构建用户画像的模型或是系统设计的设想,还没有实际运用到图书馆中。只有不断探索有效、规范的评估指标和方法,才能客观反映出基于用户画像构建的图书推荐系统的质量,进而在此基础上不断优化改善,形成良性循环,最终实际应用到图书馆中。

5 结论与展望

基于用户画像的图书推荐系统,可以根据用户画像分析结果,既能定向准确地推送图书资源,还可以做到图书资源的准确定位,为其找到相匹配的读者。实现“为人找书,为书找人”的功能,起到激发读者用户阅读兴趣,提升用户阅读体验的效果。对于图书馆来说,这样不仅能够提高图书信息资源的利用率,还可以让图书馆的服务水平朝着更高质量方向发展。

然而在实际应用层面,基于用户画像的图书推荐系统目前面临着许多困难与挑战,包括解决技术难题并将其成熟地运用到图书馆领域、保护好用户的隐私及信息安全,强化实时用户画像的研究以及建立系统的评估指标体系。未来如何处理好这些问题,获取更多来源的读者用户数据,更加全面地把握读者信息,从而更好地提升系统推荐效果,最终将用户画像融入图书馆体系中,还需要不断地研究和探索。

猜你喜欢
动态数据画像标签
威猛的画像
“00后”画像
画像
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
云计算环境下动态数据聚集算法研究
颞下颌关节三维动态数据测量的初步研究
标签化伤害了谁
科学家的标签
基于动态数据驱动的突发水污染事故仿真方法