大数据环境下图书馆用户画像研究

2023-09-28 11:27蒋玲黄圣洁赵欣
科技创业月刊 2023年6期
关键词:用户画像大数据图书馆

蒋玲 黄圣洁 赵欣

摘 要:随着大数据时代的到来,图书馆个性化服务的形式越来越多,通过对用户信息收集、筛选、分析以及整合,可得到用户画像。论述图书馆用户画像现状及大数据对画像的影响,多维分析图书馆用户信息的收集,用标签来定位图书馆用户,探究在大数据环境下图书馆用户画像构建;提出重视图书馆用户画像推广、完善图书馆用户画像系统、加强用户与图书馆之间互动、推动各馆之间的信息共享等对策建议。

关键词:大数据;图书馆;用户画像

中图分类号:TB472文献标识码:A Doi:10.3969/j.issn.1672-2272.202210076

Research on Library User Portrait in Big Data Environment

Jiang Ling1,Huang Shengjie2,Zhao Xin3

(1.Evaluation Research Center of Renmin University of China, Beijing 100872,China;

2.Quanzhou Public Security Bureau Police Auxiliary Center,Quanzhou 362000,China;

3.Renmin University of China Libraries, Beijing 100872,China)

Abstract:With the advent of the era of big data, every industry has paid more and more attention to personalized services. With the continuous development of libraries, changes have followed, and more and more forms of personalized services have become available. The user portrait is one of the special service forms. Through the collection, screening, analysis and integration of library user information, user portraits can be finally obtained. This article discusses the current situation of library user portrait and the influence of big data on library user portrait, collection of library user information, multidimensional analysis, use of labels to locate library user, construct library user portrait and other aspects to explore the library user portrait under the big data environment. Finally, four suggestions were put forward: paying attention to the promotion of related aspects of library user portraits, improving the library user portrait system, strengthening the interaction between users and libraries, and promoting the sharing of information between libraries. The effective implementation of these recommendations is based on the rational use of large data. Make the library user portrait more popular among readers.

Key Words:Big Data; Libraries; User Portraits

1 概述

物聯网、大数据、云计算等技术的兴起,数据量呈现指数形式暴增,这些数据也推动着创新服务的发展。在大数据时代,基于用户画像的研究已应用于很多领域,在浩瀚如烟的网络资源中,图书馆依托大数据可推进精准服务,深入挖掘用户数据,通过对表征用户的个性化数据进行精确分析,建立用户数据标签,洞察用户所思所想,精准定位读者阅读需求,构造精准用户画像。大数据和个性化服务的发展,驱动着图书馆知识服务随之向着个性化、精准化方向延伸,对用户进行智慧化信息推送。个性化服务需以用户需求为中心,提高用户知识服务体验,这对图书馆从传统服务进阶到有针对性的个性化服务,再到深度的知识服务具有重要意义,可很好地促进图书馆针对用户需求更好地提供精准且有价值的知识服务和智慧化信息推送。

“用户画像”也叫用户角色,最早由学者Alan Cooper首先提出,用户画像是真实用户的虚拟代表,是用户需求的个性化表现,通过对用户行为信息采集以及用户调研及结果分析,建立在一系列真实数据上的目标用户模型[1],对目标用户进行代表性画像。通过建构用户画像系统可洞察个人及群体的信息行为规律,协助图书馆聚合各类信息后进行信息过滤,消除冗余数据、清晰体现读者的信息全貌,从而为用户推荐与其需求相匹配的信息资源。

2 大数据对图书馆用户画像的影响

大数据环境下,用户画像可以通过很多途径获得。比如用户登录图书馆的门户网站、查询检索信息、借阅书籍、使用数据库、下载文献,以及用户的注册信息、内容偏好信息、互动信息等,这些行为信息及个人信息都是用户画像关注的底层数据。通过全面系统收集这些信息,可为图书馆用户画像的建立提供海量数据仓库、建立系统技术支撑。

2.1 提供海量数据仓库

用户在使用图书馆资源的过程中会产生海量数据,通过利用大数据对用户实名数据进行收集,例如:图书馆管理系统的注册、借阅等得到粗略的用户画像,以及用户在系统中的登入、阅读、下载、访问等行为数据,两者结合形成更为精准用户画像[2]。在同种数据库中多方面、多角度获取用户信息,通过不同的数据库,抓取不同的数据,比如图书馆网站、借还系统、查询系统、各类型电子资源、电子数据库等,从而生成海量的数据仓库[3]。数据仓库的建成,为图书馆用户画像的建立夯实了基础。

2.2 提供系统技术支撑

在大数据环境下,收集到海量的数据,其中不乏失效无用的数据。对于这些数据的处理,仅仅利用传统技术分析是不够的,比如:数据仓库、数据挖掘、联机分析处理工具、数理统计等技术,还需要借助云计算技术:分布式文件系统GFS、数据批处理Map Reduce、分布式数据库Big Table等技术[4]。图书馆用户画像有了这些技术的支撑,在海量数据中实现数据的交换、整合及分析就更为方便快捷,从中获取契合用户需求的信息,就可以得出更加精准的用户画像。正因为有了大数据的系统技术支持,图书馆的用户画像才能更加完整全面。

3 基于大数据的图书馆用户画像构建

大数据环境下,图书馆用户画像主要包括数据仓库、数据分析、数据标签、模型构建等4个维度。数据仓库用来对图书馆用户进行大数据收集;数据分析是对图书馆用户进行大数据呈现结果的分析研究,对不同类型的用户进行分类;数据标签用来对图书馆用户进行信息定位,以便提供更精准的服务;模型构建用于整合图书馆用户的大数据。

3.1 数据仓库:图书馆用户大数据收集

数据仓库(DataWarehouse,DW/DWH)具有集成性、稳定性、时限性、主题性、数量庞大、非规范性等特性,图书馆采购可利用数据仓库多方面、多渠道获取信息;总结分析规律,提出优化服务措施;可服务于决策分析;数字化存取、管理,给用户提供高效、可靠的特殊查询和服务。管理海量数据需要借助数据仓库来实现系统管理,以提供充足有序的数据来源。在利用图书馆网络系统管理图书的过程中,需要进行更深层次的数据挖掘和分析,会产生大量的数据痕迹,要以大型数据管理信息系统为基础建立数据仓库,使数据管理系统化。

图书馆用户使用图书馆各类资源,随之在数据仓库中会产生海量数据,其中包括静态类数据和动态类数据。静态数据主要有诸如用户的个人信息(姓名、性别、学院、专业、年级等),相对较为稳定,此类信息通过系统的注册信息获得。动态数据包括登入、查阅、退出、咨询、借阅、访问、下载等具备较强时效性的行为信息,这些数据会随着时间的推移而不断变化,通过用户的行为信息获得。例如:门禁管理系统的记录用户刷卡信息、图书馆门户网站保存用户在线信息、检索系统保存用户行为信息等。还有一些动态信息是用户使用偏好等信息,由用户的累积访问、下载、互动等信息行为产生,可用于推测用户下一步的行为需求,进行智慧化信息推送。

用户画像的精确性取决于数据的完整性,越丰富、全面的数据,形成的用户画像就越精准,因此可以通过不同的图书馆系统网站获取不同的数据,并对数据进行整理和清洗,从中筛选出符合需求的用户数据,最终生成用户画像所需要的数据仓库。整理用户静态属性数据和用户动态行为数据,生成的数据总量,就是我们所需的数据仓库[3]。也正是建立在这个数据仓库的基础上,才能对数据进行进一步的整理和分析,得出不同群体用户画像的特征信息。

3.2 数据分析:图书馆用户大数据分析

数据分析建立在数据仓库的基础上,通过分析读者用户的信息需求,聚焦读者用户的个性化偏好与行为信息,以此打破片面主观的读者行为分析,从读者信息需求与信息行为中产生的海量数据出发,以需求带动图书馆信息服务模式的精细化推送[5]。由于读者信息需求的多元化、个性化,以及读者信息获取的分散化,仅仅从用户静态数据进行特征分析存在局限,应在用户静态画像基础上,结合动态数据,对用户作交叉分析,如下载记录、网页浏览频次、订阅与收藏信息以及社交信息等。借助数据挖掘、联机分析处理工具及数理统计等技术,统一抓取和处理用户信息,更好地掌握用户信息,从中抽象出用户标签。通过总结分析用户信息来划分用户需求,进而利用个性化服务手段给出特别推荐以增强用户体验。

通过迭代分析,对行为、用户、资源等维度逐層钻取,并关联分析,从而得到更精准细化的某类群体或行为现象,以此来分析用户信息,对用户进行定位,从而得到精准的用户需求信息[6]。通过对数据的分析得到统一的用户标签体系,亦可基于用户标签对新的用户信息进行分析,匹配出对应的数据标签。

3.3 数据标签:图书馆用户大数据定位

数据标签是元数据的身份标志,主要起到数据的定位、查询、获取等作用,它在整个系统链中处于核心地位[7]。将用户信息标签化的目的是为了将模糊的用户形象立体化,通过数据分析归纳给出各种类型的用户标签。主要在拥有海量数据的数据仓库中筛选分析出关键信息,得出典型的用户信息,形成直观的用户标签,按照相近性原则进行归类、聚类,形成上位类聚合后的标签,并以可视化的方式将不同学科用户类型立体化、形象化,最后形成特定类型的标签[8]。

在具有特定的用户标签的前提下进行信息识别,是用户画像构建的重要内容。主要任务是给新用户贴“标签”,如一些人为规定的高度精炼的特征标识,包括年龄、性别、院系、学号等静态数据标签,以及用户偏好、时间、地点事件等动态数据标签。最后将所有标签综合起来,就可以勾勒出该用户的“画像”。根据用户画像系统发现用户需求信息的特点,以及数据整合、采集、预处理后的分析结果,可以从用户属性、行为属性、资源属性、阅读偏好等维度对用户画像进行标签化的识别,与时间、数据维度进行组合,就初步形成了多级标签、多级分类的用户画像标签体系[9]。数据标签的形成,让用户画像在大数据中有迹可循。在海量数据的基础上分析新的用户信息,可得出新的数据标签,数据分析与数据标签是相辅相成的,都是为用户画像服务的。

3.4 模型构建:图书馆用户大数据整合

在海量的数据仓库中对图书馆的用户信息进行分析与标签的过程中,可以发现该用户属于哪种群体标签,从而发现各群体的差异,完善构建用户画像模型。数字图书馆用户画像的构建,并不是对所有用户都进行绘制,而是以重点用户群体为绘制对象,以了解各群体的主要特征属性为基础,绘制用户“画像”。具体画像绘制阶段,并非需要绘制用户的所有标签,而是从真实数据分析总结形成虚拟形象,用来代表某一类群体,从而形成可视化的虚拟用户画像。其中图书馆用户画像的绘制,需要根据用户信息客观地分析海量数据资源,从中发现与分析用户对象之间相关性强的信息,如使用资源频率、浏览记录等,确定其群体模型。将可量化信息变为定性信息,并对用户行为进行识别分析,在分析多个变量相关性基础上,找到某一类用户的共同特征[10],形成某一类群体的用户画像,从而形成图书馆用户的画像,使其信息需求可视化。

由于用户画像的表达方式、关注方向不同,可得出不同的用户模型,如:面向用户行为的画像模型、基于本体的用户画像模型、融合用户兴趣的画像模型等。国内外的学者在这些方面的画像模型研究取得了一些成果。由此,图书馆系统运用聚类、关联规则以及分类等数据挖掘方法将其抽象化,并借鉴这些画像模型的构建在大数据环境下绘制出用户画像,从而为个性化内容推荐、读者满意度的管理及信用评价等提供借鉴[11]。

4 图书馆利用用户画像开展个性化服务建议

4.1 重视图书馆用户画像相关方面的推广

数字图书馆可以借助电视、新闻、报纸等传统媒体以及微信、微博、邮箱、网站等社交网络媒体,对图书馆的用户画像进行推广,以此为媒介让更多的读者了解用户画像。其中社交媒体承担大部分的推广工作,通过大数据对用户画像的基本信息进行推广,推广用户画像的基本使用流程、使用优势、带来的好处等,扩大推广范围,让数字图书馆用户提前试用了解该用户画像系统。根据用户画像,为读者推荐阅读书籍,推荐更加贴合用户需求的内容。通过对用户群体进行定位、识别与分类,推荐特定书籍从而满足读者阅读需求。通过用户画像推广,让图书馆用户更加了解图书馆用户画像在日常阅读服务中的优势,使之日渐普及。

在社交媒体上发表用户画像试用抽奖活动,借助互联网快速传播相关信息,从而达到对图书馆用户画像的推广,提高知名度。也可在图书馆馆内举办推广活动,如用户画像入校园活动,让大多数的图书馆使用者能了解图书馆用户画像,从而享受用户画像带来的便利。

4.2 完善图书馆用户画像系统

用户画像的普及仅有推广是不够的,必须有过硬的技术支撑,所以对于用户画像系统的完善势在必行。图书馆的海量数据需要庞大系统的支撑,并且图书馆用户的信息也需要强大系统的保护,为了让图书馆用户得到更好的个性化服务,需要对图书馆系统不断修正完善、及时更新换代。

对于图书馆用户画像系统得完善可以从以下几方面入手:①智能推荐。需要分别基于不同用户信息需求期望、信息搜索习惯和信息接受偏好3个维度融合后形成的信息相似程度进行有效推荐[12]。智能推荐的完善,让图书馆用户能体验更好的个性化推荐服务。②用户信息情景化。通过场景相似度将同种属性的场景聚合, 可以发现不同场景的本质特征。在聚合过程中可以发现不同场景之间的信息接受关联关系,从而为其他类似的用户提供相似的场景。用户信息情景化的完善,让用户信息系统化,有迹可循,更加方便用户画像的分析归类。③用戶画像可视化。将用户画像用HTML5呈现为可视化的动态知识图谱[9],直接体现在用户空间,用户可直观了解自己的行为轨迹、阅读需求、个性化偏好;又能便捷地为读者提供这些领域的知识概貌及研究进展,更好地将形象具体化、可视化,直观地呈现用户画像。

4.3 加强用户与图书馆之间的互动

有了推广和技术的支撑,及时获得这些海量数据也是非常必要的。图书馆的用户画像以网络系统为媒介,通过用户使用行为轨迹获得海量数据,以此分析用户群体,对用户群体进行归类,并及时更新数据仓库中的信息。要加强用户与图书馆之间的互动,增加各类用户信息,扩大数据仓库总量,将用户画像具体化,为图书馆用户提供更好的个性化服务。

虽然在推广的过程中可以得到一些关于图书馆用户画像的信息和建议,但这远远不够。信息都具有时效性,所以需要不间断地随时更新,加强用户与图书馆之间的互动,在用户的使用过程中得到反馈。以此为基础,对用户画像系统不断改进,才能更高质量地为用户服务。可以为用户提供一个月一次的可变信息更新机会,以及每时每刻开放对于用户画像系统的建议模块,用户的建议可以以书信、短信、电子邮件、社交媒体等形式告知,让专业性的人才专门负责对建议进行筛选采用。

4.4 推动各图书馆之间的信息共享

借鉴图书馆的馆际互借,提升图书馆用户画像的信息共享水平。正因为有了馆际互借,让用户得到了更高质量的服务体验,而各馆之间用户信息的共享,也能为用户画像带来更好的创新。

通过图书馆搭建数据共享平台,共享图书馆用户各类信息,让数据仓库更为庞大,用户画像更为形象,能为图书馆提供更为优质的个性化服务。信息共享带来好处的同时,问题与挑战也随之而生,信息过于杂乱,处理这些海量信息不仅要做到全面的信息收集,而且要有效分析、存储、传输用户数据,为此需要过硬的技术支撑以及大量的人力、财力投入。

5 结语

大数据时代背景下,用户画像在图书馆领域变得尤为重要,研究用户画像为图书馆智慧化发展提供了可靠的信息支持。首先要了解用户需求,然后才能进行精准定位,并且以群体特征为基础,利用大数据网络收集、分析、整合,最终形成精准的用户信息,以此实现个性化推荐,为读者提供精准的信息服务,从而提升图书馆个性化服务的知识获取体验。

参考文献:

[1]张哲.基于微博数据的用户画像系统的设计与实现[D]. 武汉:华中科技大学, 2015:26-28.

[2]刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例[J].图书馆理论与实践,2017(4):82-85.

[3]丁雷.大数据环境下高校图书馆用户画像与特征研究[J].中国科技信息,2018(24):59-62,64.

[4]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014(6):957-972.

[5]李雅.基于读者用户画像的高校图书馆精准化服务研究[J].农业图书情报学刊,2018(12):108-111.

[6]杨帆.画像分析为基础的图书馆大数据实践——以国家图书馆大数据项目为例[J].图书馆论坛,2019(2):58-64.

[7]谭黔林.大数据时代高校图书馆特色数据库建设研究[J].图书馆界,2014(2):18-20,28.

[8]薛欢雪.高校图书馆学科服务用户画像创建过程[J].图书馆学研究,2018(13):67-71,82.

[9]刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例[J].图书馆理论与实践,2017(6):103-106.

[10]赵岩.基于用户画像的数字图书馆智慧阅读推荐系统研究[J].图书馆学刊,2018,40(7):121-124.

[11]劉海鸥,孙晶晶,陈晶,等.用户画像模型及其在图书馆领域中的应用[J].图书馆理论与实践,2018(10):92-97.

[12]毕达天,王福,许鹏程.基于VSM的移动图书馆用户画像及场景推荐[J].数据分析与知识发现,2018(9):100-108.

(责任编辑:吴 汉)

基金项目:中国人民大学科学研究项目“世界一流人文社会科学期刊评价研究”(202230159);国家社会科学基金项目“‘质量效益视域下图书馆服务创新动力及常态化发展模式研究”(16CTQ013)

作者简介:蒋玲(1981-),女,博士,中国人民大学评价研究中心副研究馆员,研究方向:信息分析与数字图书馆;黄圣洁(1997-),女,福建省泉州市公安局警务辅助中心文职,研究方向:文献管理、信息技术;赵欣(1984-),女,中国人民大学图书馆馆员,研究方向:数字图书馆与信息服务。

猜你喜欢
用户画像大数据图书馆
图书馆
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销
基于大数据背景下的智慧城市建设研究
移动互联网下手机用户使用行为特征的研究
去图书馆