基于用户画像的图书馆个性推荐服务系统建设

2024-06-20 06:49梁建春
河南图书馆学刊 2024年5期
关键词:用户画像服务体系图书馆

摘 要:文章简述了用户画像概念及相关研究,分析了用户画像构建过程,包括用户画像构建步骤、标签分类、标签维度等,以及混合推荐算法,在此基础上提出了图书馆个性推荐服务系统架构,以期为图书馆开展个性化推荐服务提供助力。

关键词:用户画像;图书馆;个性推荐;服务体系

中图分类号:G250 文献标识码:A 文章编号:1003-1588(2024)05-0079-04

当前,公众阅读需求呈现明显的差异化需求,图书馆只有对其进行精准分类,深入挖掘阅读行为数据,才能为其提供精准的阅读推荐服务。图书馆可利用人工智能、大数据等技术构建图书馆个性推荐服务系统,精准勾勒用户画像,对用户阅读需求进行精准预测,以增强其阅读体验。

1 用户画像概念及相关研究

“用户画像”的概念最早由阿兰·库柏(Alan Cooper)于1998年提出,其将用户画像定义为基于用户真实数据的虚拟代表[1]。用户画像可对用户需求、用户兴趣、用户特征进行描述,并可对用户的信息全貌进行精准勾勒,以便为其提供个性化服务。为用户“打标签”是用户画像的核心内容,标签通常有三大特征:一是动态变化性,即随着应用情境的改变和时间的推移,用户的兴趣爱好会出现变化,需要随时修正画像模型。二是短文本性,即一个标签对应一种含义。三是语义化,即让用户迅速理解标签含义。

在图书馆用户画像的相关研究中,汪强兵等收集了大量的用户手势行为数据信息,并通过关键词对用户的阅读兴趣进行挖掘,以勾勒用户兴趣画像[2];韩梅花等通过对抑郁情感指数计算描述用户画像,从而有针对性地为抑郁症用户推送阅读治疗资源[3];胡媛等依托用户画像构建数字图书馆知识社区用户模型,以提供多元化、精准化、差异化的知识服务[4]。由此可见,图书馆基于用户画像开展个性推荐服务系统建设,无论是技术层面还是理论层面均具备了较强的可操作性。

2 图书馆推荐服务系统构建概述

图书馆的推荐服务系统通常包括两种经典算法,即协同过滤(CF)算法[5]和基于内容(CB)算法[6]。CF算法的优点是能够为用户推荐其感兴趣的Top-N物品或有相似兴趣的其他用户所喜爱的Top-N物品,并有效激发其潜在热情;缺点是需冷启动、可解释性不强等。CF算法可细分为基于物品的协同过滤(ItemCF)算法和基于用户的协同过滤(UserCF)算法[7,8],其中ItemCF算法适用于用户数远大于物品数的场景,如视频网站、电子商务网站等;UserCF算法则适用于用户数远小于物品数的场景,如图书推荐、新闻网站等。CB算法是对物品特征进行构造,可自动向用户推荐与其喜欢物品特征类似的物品,并利用自然语言处理技术对用户感兴趣的关键词进行深入挖掘,分别赋予不同的权重,逐渐形成用户兴趣空间向量模型,优点是可妥善解决冷启动问题,适用于向用户推荐非结构化的文本资源,如电子文献数据库、新闻报道等;缺点是工作量大、难以提取属性特征等。

笔者综合考虑各类算法的优缺点后,决定选取UserCF算法和CB算法构建基于用户画像的图书馆个性推荐服务系统。

3 用户画像构建过程

3.1 用户画像构建步骤

图书馆提供个性化服务的前提是为用户精准画像。用户画像包括用户的环境属性、社会属性、行为属性等,图书馆的用户画像构建通常分为三个阶段:第一阶段是数据处理阶段,第二阶段是标签构建阶段,第三阶段是形成画像阶段,详见图1。数据处理是图书馆对各类与用户相关的非结构化数据(评论、留言等)、结构化数据(用户纸本图书借阅、电子书下载、信息浏览等)进行系统收集与管理,并将其导入用户数据库;标签构建是指图书馆深入挖掘用户数据的技术性价值,并描述其特征,再依托关联分析构建对应的标签信息;形成画像是最后一步,图书馆进行标签分类后通过勾勒出的画像直观呈现用户需求,并可在后期进行动态优化调整,使用户画像更加精准。

3.2 标签分类

由于计算方式不同,图书馆用户画像中的标签可分为三类,即统计标签、属性标签、算法标签。其中,统计标签是度量与维度的组合,如用户的月均下载量、阅读主要时间段、阅读文献类型等;属性标签是对实体基本性质的勾画,包括用户年龄、职业、性别、学历等;算法标签则可间接获得,如通过大数据技术挖掘用户的阅读偏好等。

3.3 标签维度

梁建春:基于用户画像的图书馆个性推荐服务系统建设*

图书馆用户画像的标签维度包括图书标签维度和用户标签维度。其中,图书标签维度分为两个:一是图书属性标签,包括图书的CN号、ISBN号、出版时间、版次、著者等。二是图书类型标签,与《中图法》对应。用户标签维度细分为三个:一是用户属性标签,包括用户的姓名、年龄、性别、所在地等。二是用户行为标签,包括用户月均图书借阅频次、月均电子书下载频次、月均纸本图书借阅频次,活跃度为三者数值的求和,求和值不小于10的判定为高活跃度,求和值在5~10之间的判定为中活跃度,求和值小于5的判定为低活跃度。三是用户兴趣标签,用于详细描述用户的阅读偏好。

4 混合推荐算法

4.1 UserCF算法

4.1.1 特征构造与K近邻搜寻。中图分类号的分类形式为树状结构,有22个大类,由上而下逐层扩展,为避免因多个读者借阅而出现的数据稀疏问题,笔者以用户行为标签所对应的3个数值之和为兴趣向量特征,在分类层级方面选择二级,共计222个小类,假定用户的兴趣特征向量为U=(u1,u2,u3,u4,…,un),首先对其进行归一化处理,其次通过余弦相似公式

对不同用户间的相似度进行计算,以构建不同用户之间的相似度矩阵,从中找出与目标用户相似度最大的K个邻居用户集合,用Uk代表。

4.1.2 兴趣度提取因子。UserCF算法需要结合有相似兴趣的其他用户对某物品的评分来预测用户评分,评分高低与用户兴趣度呈正关联。用户—物品评分矩阵为R=U×I。由于绝大多数图书馆都未形成详尽的图书评分数据,因此本研究采用基于兴趣度与类型因子的高校图书推荐算法,选择续借次数、借阅持续时间为兴趣度提取因子,为使评价更准确,将豆瓣读书评分、电子书下载频次也纳入兴趣度提取因子之列,以全面获取用户对图书的兴趣度。

4.1.3 兴趣度计算。兴趣度计算若要精准需要综合考虑相关参数,首先要考虑的参数是借阅时长,借阅时长与用户兴趣度通常呈正比关系。用户u对图书i的借阅时长百分比p如公式

所示,其中Ta(u,i)是归还图书的时间点,Tb(u,i)是借阅图书的时间点,Tc是图书馆规定的超期有效期。将p值映射成5个兴趣度值,兴趣度公式如

所示。其次是电子书下载。为满足用户日益高涨的数字阅读需求,图书馆会为用户提供易于获取的电子书。用户试读电子书产生强烈的阅读兴趣后会有下载行为,可将其兴趣度分值设得相对高一些,如

所示。再次是豆瓣评分。无论是借阅时长还是电子书下载,都存在或多或少的不确定性,因此为使UserCF算法更精准,本研究引入了豆瓣评分,豆瓣读书内用户对图书的评论及星级评分相对较客观、公正,因此将图书的豆瓣评分作为pref3(u,i),最终的用户综合平均兴趣度值如公式

所示,同时基于UserCF算法对用户阅读兴趣度进行计算,如公式

所示。

4.2 冷启动问题

冷启动包括用户冷启动和物品冷启动。其中,用户冷启动要解决的问题是如何及时为新用户推荐图书,物品冷启动要解决的问题是如何在第一时间为用户推荐新书。用户冷启动可基于用户的自然属性对不同用户间的相似度进行计算,并向目标用户实时推荐相似度高的其他用户所借阅的图书。物品冷启动最直接的方式是随机展示新书,但随机展示的新书很难与读者的需求相契合,而CB算法可妥善解决这一问题,具体操作步骤为:为新书构造特征向量→提取用户的兴趣特征向量→计算新书特征向量与用户的兴趣特征向量的相似度,若相似度高,则可及时向目标用户推荐。

5 图书馆个性推荐服务系统的架构设计

为防止数据量过大而出现性能瓶颈问题,图书馆需谨慎选择个性推荐服务系统的搭建环境。Hadoop分布式集群环境可对大规模数据进行高性能、高可靠性处理,图书馆可将Hadoop分布式集群环境作为个性推荐服务系统的搭建环境,系统架构详见下页图2。

图2显示,图书馆的个性推荐服务系统由上而下分为表现层、逻辑层、处理层、数据层。数据层的数据包括用户数据、豆瓣读书评分数据、电子书下载数据、图书借阅数据等;处理层主要是构建图书画像模型和用户画像模型,所有的图书画像数据和用户画像数据都存储在HBase分布式数据库中,且为动态更新状态,可将画像模型的更新频率设定为每日1次;逻辑层是图书馆个性推荐服务系统架构的核心,兼具CB算法与UserCF算法的优点,形成多元化推荐引擎,可向不同的目标用户个性化推荐其所需的图书资源;表现层通过调用逻辑层的应用程序编程接口(API)为用户提供可视化界面,分别向新老用户展示推荐的图书。

6 结语

综上所述,用户画像是大数据时代的产物,已被广泛应用于广告投放、精准营销等领域,并取得了较好效果。本研究将用户画像应用于图书馆个性推荐服务系统建设,可精准勾画用户的阅读行为、阅读倾向等,便于图书馆精准掌握用户的基本特征和阅读需求,进而为其提供个性化图书推荐服务,值得推广和应用。

参考文献:

[1] 郭亚军,李帅,张鑫迪,等.元宇宙赋能虚拟图书馆:理念、技术、场景与发展策略[J].图书馆建设,2022(6):112-122.

[2] 汪强兵,章成志.融合内容与用户手势行为的用户画像构建系统设计与实现[J].数据分析与知识发现,2017(2):80-86.

[3] 韩梅花,赵景秀.基于“用户画像”的阅读疗法模式研究:以抑郁症为例[J].大学图书馆学报,2017(6):105-110.

[4] 胡媛,毛宁.基于用户画像的数字图书馆知识社区用户模型构建[J].图书馆理论与实践,2017(4):82-85.

[5] 董坤.基于协同过滤算法的高校图书馆图书推荐系统研究[J].现代图书情报技术,2011(11):44-47.

[6] 耿立校,晋高杰,李亚函,等.基于改进内容过滤算法的高校图书馆文献资源个性化推荐研究[J].图书情报工作,2018(21):112-117.

[7] 蒋滨泽,邓欣,杜雨露,等.基于物品关联协同过滤的下一购物篮推荐算法[J].计算机科学,2023(S2):486-491.

[8] 汪圳,李建苗.基于用户情境的高校图书馆书目协同过滤推荐研究[J].图书馆研究与工作,2021(1):63-68.

猜你喜欢
用户画像服务体系图书馆
智慧出行,智绘未来——新一代出行服务体系构建与实践探讨
“三效合一”构建现代农业服务体系
建好公共法律服务体系“最后一公里”
图书馆
把声音的魅力发挥到极致
移动用户画像构建研究
飞跃图书馆
基于微博的大数据用户画像与精准营销
移动互联网下手机用户使用行为特征的研究
初具规模的健康管理服务体系