面向精准服务的图书馆用户画像研究

2021-11-10 09:46曹树金岳文玉
农业图书情报学刊 2021年10期
关键词:画像咨询书籍

曹树金,岳文玉

(中山大学信息管理学院,广州 510006)

1 引言

在大数据智能化时代,信息技术的发展和社会需求的变化,为图书馆的服务创新提供了新技术和新思路。近年来,以人为本的服务理念成为当代图书馆的重要议题[1],图书情报领域的学者和工作人员越来越关注以用户个性化需求为导向的图书馆精准化服务水平的提升。图书馆既是海量信息资源的平台,又产生各类大数据(包括业务数据、读者轨迹数据、交互数据等),如何组织、管理和利用读者数据,准确分析和预测读者需求,使之应用于图书馆的精准化服务是当前亟需解决的问题之一。

读者画像利用各类用户数据实现用户属性特征的揭示和组织,为图书馆的精准化服务研究提供了具象化结果。本文从图书馆的多维度用户数据出发,选取某市图书馆的读者作为研究对象,通过收集读者的个人基本数据、借阅数据和读者与客服在线问答过程中产生的各类交互数据为其构建读者画像,挖掘读者的现实需求及潜在需求,为精准推荐和服务提供有效的科学依据,提升图书馆服务的个性化与智慧化水平。

2 相关研究

2.1 图书馆精准服务的相关研究

当前关于精准服务比较有代表性的概念是:精准服务是以用户为导向的强调依据用户个性化需求配置资源的服务模式[2]。在大数据时代,新思维和新技术推动图书馆服务模式创新并促进图书馆服务能力提升[3]。为顺应大数据给图书馆信息服务带来的影响,学者们纷纷就图书馆服务转型提出了不同的见解。SIGUENZAGUZMAN 等[4]认为,大数据技术为针对馆藏开展个性化推荐与服务方面提供更多的可能性。利用数据挖掘和文献计量工具对图书馆服务中产生的数据进行处理和分析,辅助图书馆决策和评估服务[5]。此外,还有学者利用数据挖掘技术对图书馆收集的各种数据集进行数字图书馆服务推荐[6,7]、图书馆服务质量指标[8]、图书馆的利用模式及对用户的影响[9]、社交媒体关注者的组成及特征[10]等进行研究。有不少学者探讨了图书馆应用大数据技术将对图书馆管理和服务模式具有重要影响。如苏新宁[11]、陈传夫等[12]、王云等[13]均强调了利用大数据技术进行图书馆管理和服务转型的重要性。

2.2 用户画像及其在图书馆服务中的应用

用户画像是基于用户的直接数据和间接数据建立的目标用户模型[14]。目前用户画像在模型构建[15,16]、指标体系[17,18]、方法应用[19,20]等方面已有了大量研究。在图书情报领域,学者们也展开了大量的研究,WU 等[21]基于用户兴趣和社交关系提出了一种共同演化模型以描述用户画像;曾群等[22]在构建用户画像库的基础上,为不同类型的读者制定个性化服务;毕达天[23]基于空间向量模型,构建移动图书馆的用户画像模型;ZAUGG[24]依据不同类别用户群体的需求和行为的不同构建用户画像。程秀峰等[25]从自然、情境等维度构建了用户画像的指标体系和智慧参考服务模式。

2.3 基于短文本主题挖掘的LDA 建模研究

进行主题建模时常用的方法包括BTM[26,27](Biterm Topic Model)、狄利克雷多项式混合模型DMM[28]、word2vec[29]以及LDA[30]等。

LDA 模型多用于处理海量的长文本数据,交互式短文本由于内容简短和交互性强的特点,导致其在主题挖掘过程中的文本矩阵过于稀疏而无法分析,为了解决这一问题,学者们一般采用扩充文本长度的方法进行处理。部分学者通过引入外部数据集的方法进行文本长度的扩充,如引入外部搜索数据[31,32]、对短文本进行定义和分类[33]等,但这种文本长度的扩充方法在匹配合理性方面存在一定的障碍。因此,为了避免引入外部数据的弊端,部分学者采取了句子集群合并的方法。HONG[34]等通过拼接微博文本的方法,对微博文本进行处理;NAKATA 等[35]将同一时间段出现的文本进行合并,通过计算文本集合与主题的关联度分析句子类型。上述学者从源文本角度进行句子集群合并有效解决文本简短导致的无法分析的障碍。

目前,图书馆领域对读者画像的研究多以理论研究为主,而且属性偏单一,不能对用户进行全面多维的描述。因此本文通过收集读者的个人基本数据、借阅数据和读者与客服在线问答过程中产生的各类交互数据为其构建读者画像;在采用LDA 模型进行主题分析时,采用会话切分的方式扩充文本长度,解决文本简短导致的矩阵过于稀疏而无法分析的问题。

3 读者画像及其群像构建的研究设计

3.1 图书馆读者画像建模总体框架

图书馆读者画像主要对读者借阅数据和在线交互数据进行挖掘,深度揭示读者需求。基于TF-IDF 算法和LDA 建模方法进行读者画像总体框架的构建。构建读者画像的流程主要包括数据收集处理、单个/群体特征分析及读者画像这3 个过程,如图1 所示。

图1 读者画像构建总体框架Fig.1 The framework of reader profile construction

3.2 研究方法与步骤

在数据采集处理阶段,为提高实验结果准确性,对采集到的文本数据进行预处理。对在线咨询交互文本进行会话切分,并采用ICTCLAS 分词工具进行汉语分词处理,添加用户自定义词典,再通过去停用词和词性筛选等流程,过滤文本中对分析没有意义的部分。这一部分工作的目的在于将读者借阅数据和在线交互数据转化为能够进行主题建模的标准语料库以提取读者特征,降低模型计算的复杂度,提升模型的运行效率,提高用户特征标签的可解释性。

读者画像的构建分为单个读者画像的构建和群体读者画像的构建两个部分。主要采用TF-IDF 算法和LDA 模型对读者画像进行文本特征分析。TF-IDF 可以用来评估一个字词在一个语料库中的重要程度,词的重要性随着它在文件中出现的次数增加而增加,但与它在语料库中的出现频率成反比,TF 表示字词的频率,IDF 表示逆文本频率,TF 值和IDF 值相乘得到TF-IDF 值,具有较高词频和较低逆文本频率的词可作为该文档的代表标签[36,37]。LDA 主题生成模型是三层贝叶斯概率模型,其生成主题词的具体过程为面向语料库中的文档,从主题分布中抽取一个主题,并在该主题中抽取主题词,直至遍历所有文档中的词,形成从文本-主题-词的多项式分布。计算每个词在一篇文档中出现的概率[38]公式为:p(特征词| 文档)=∑主题p(特征词| 主题) ×p(主题| 文档)。将LDA 模型运用于交互文本主题的挖掘可以实现基于语义层面的文本建模。通过TF-IDF 算法寻找代表文本内容的关键词,实现对读者文本数据的有效挖掘,分析出读者偏好。LDA 主题模型可以排除主观因素的影响,挖掘出各主题中相关词项。

单个读者画像需要基于读者的所有数据进行标签化。采用TF-IDF 算法对单个读者画像进行借阅书籍文本特征和在线咨询文本特征分析,构建单个读者画像,并依据该画像制定精准化信息服务。群体读者画像的构建,从性别、年龄和咨询活跃度3 个不同的维度对读者进行分类,采用TF-IDF 算法对不同群体用户进行借阅书籍文本特征分析以及采用LDA 模型对不同群体在线交互文本进行主题提取,同时对比不同维度读者群体的交互数据文本特征以及借阅书籍文本特征,根据多视角聚类结果,更加精准的给不同群体读者进行推荐和服务。

需要说明的是,图书馆为了给读者提供个性化精准服务,需要对海量的读者个人信息、借阅偏好、交互记录进行充分的挖掘,这必然会涉及到用户的隐私问题。因此,在进行数据处理的过程中,需要保障读者的知情权和选择权,降低对读者个人隐私数据的关注度,禁止隐私数据的过度挖掘。同时,图书馆用户数据的相关管理人员需要形成良好的职业道德修养,保障读者隐私数据不受侵犯。

4 读者画像及其群像的构建研究

4.1 数据的收集和预处理

数据主要由某市图书馆的读者借阅和在线咨询行为产生,这里按照数据所在维度的不同,分为读者维度数据、图书借阅维度和在线咨询的数据。读者维度数据集主要是反映读者个人基本属性的数据,如读者编号、性别、年龄、办证日期等;图书借阅数据主要收集了书名、作者以及借阅时间;读者在线咨询的数据主要包括咨询时间、咨询内容。具体读者画像数据集包含的数据类型详见图2。

图2 读者画像数据集Fig.2 Reader profile data set

本研究收集某市图书馆2019 年5 月15 日到2020年6 月04 日的数据,包括300 名读者的在线咨询交互数据1 809 条以及图书借阅数据168 217 条。在数据预处理阶段,利用ICTCLAS 分词工具将会话文本转化为多个词向量,添加用户自定义词典,并依据停用词典过滤掉高频无意义的助词、介词以及标点符号,如“谢谢”“好的”“个”等,通过规范数据格式和去除冗余数据进行数据预处理和清洗以保证数据质量。经过预处理,本文最终保留了292 名有效读者的1 801 条在线咨询交互数据和图书借阅数据14 609 条。对在线咨询文本进行会话切分,即按照会话交互的时间间隔进行文本合并,形成多集合的文本数据。再对这些文本进行分词处理、添加用户自定义词典以及停用词过滤,使得文本结构符合LDA 模型的分析要求。

4.2 单个读者画像构建

单个读者画像需要基于读者的所有数据进行标签化。通过标签化实现对读者的特征揭示,并为后续的数据挖掘工作进行铺垫。表1 和表2 给出了某读者在借还书以及在线咨询过程中产生的主要数据。

表1 某读者借阅数据示例(部分)Table 1 An example of a reader's borrowing data(part)

表2 某读者在线咨询数据示例Table 2 An example of online consultation data of a reader

对该读者借阅书籍数据以及在线咨询文本数据进行特征分析,即对这些数据进行向量化表示,向量的每一维由特征项及其权重组成,权重用TF-IDF 的方法来计算,计算公式如下:

其中w(ti,d)是ti的权重,d为全部信息数据的集合,tf(ti,d)为ti在全部信息数据中的词频,N为全部信息数据的总数,ni是数据集中出现ti的文本数量。输出该读者借阅书籍文本特征以及在线咨询文本特征,为读者实现精准化的信息服务提供依据。

该读者的借阅书籍文本特征和在线咨询文本特征如图3 和图4 所示,图中字体的大小和粗细反应重要程度的高低。读者个人画像示例及读者分析报告如图5、表3 所示。

表3 单个读者分析报告Table 3 Single reader analysis report

图3 读者借阅书籍文本特征Fig.3 Text features of books borrowed by readers

图4 读者在线咨询交互文本特征Fig.4 Interactive text features of readers'online consultation

图5 个人读者画像示例Fig.5 An example of reader profile

4.3 多维度群体读者画像构建与分析

单个读者画像可以全面地揭示出某个独立读者的特征,但在图书馆具体的精准化信息服务中,还需要对不同类型群体的读者属性进行研究。用户群体画像的研究目的就是为了了解各类群体内某些共同的特征和需求,从不同的维度对读者进行分类,能够更加精准的为读者进行推荐和服务,同时对比不同维度的读者的交互数据文本特征以及借阅书籍文本特征,能够有效的借鉴数据,在用户群体内总结提炼出共性指标作为推荐的依据,有助于更好地了解读者,进而能够帮助图书馆为读者提供精准服务。为了更好地掌握不同维度的读者特征,下面将从读者咨询活跃度维度、

年龄维度、性别维度对读者画像进行分析。

4.3.1 读者咨询活跃度维度分析

读者咨询活跃度最直观的表现了读者对图书馆的需求,将读者咨询活跃度t定义为在一段时间内读者的在线咨询次数,通过统计在同一周期内读者的在线咨询次数将读者进行分层。基于同一周期内访问次数计算出平均值A之后,将访问次数大于0 次并小于0.5A的读者定义为低咨询活跃度,访问次数大于0.5A小于A的读者定义为中咨询活跃度,将访问次数大于A的读者定义为高咨询活跃度。得到咨询活跃度范围定级表,如表4 所示。

表4 咨询活跃度范围定级表Table 4 Activity range grading table

依据咨询活跃度等级将292 名读者划分为3 个读者群体,分析这3 个群体借阅书籍文本特征,并结合读者在线交互数据揭示不同群体读者属性特征,为其实现更为精准化的信息服务。

低咨询活跃度读者群、中咨询活跃度读者群以及高咨询活跃度读者群的借阅书籍文本特征如图6、图7和图8 所示,文本字体的大小和粗细反应重要程度的高低。

图6 低咨询活跃度读者借阅书籍文本特征Fig.6 Text features ofbooks borrowed byreaders with low activity

图7 中咨询活跃度读者借阅书籍文本特征Fig.7 Text features ofbooks borrowed bymoderatelyactive readers

图8 高咨询活跃度读者借阅书籍文本特征Fig.8 Text features ofbooks borrowed byhighlyactive readers

低咨询活跃度读者借阅书籍文本特征:《三国演义》 《伯罗奔尼撒战争史》 《大禹治水》 等历史类的书籍以及张嘉骅编著少年读史记系列的丛书受到欢迎。《稻草人》 《偷影子的人》 以及邢卓著的 《数学王国游乐园:数字王国的秘密》 系列丛书等适合少年儿童阅读的书籍受到欢迎;中咨询活跃度读者借阅书籍文本特征:杨红樱、敖幼祥以及 《暴走漫画》 创作部编绘的漫画深受读者喜爱,《老人与海》 《廖若晨星》《父》 以及 《落花生》 等小说散文类也是读者热衷的读物;高咨询活跃度读者借阅书籍文本:由中国青年出版社出版的 《青年文摘》 和上海文艺出版社出版的《故事会》 这类青年杂志受到欢迎,天蚕土豆、唐家三少所著的玄幻小说以及 《山本》 《浮生六记》 等小说类文学受到读者喜爱。另外,《托德先生的故事》 和(英)毕翠克丝·波特编绘的绘本类读物也深受欢迎。

为了得出低咨询活跃度读者的在线咨询交互文本的主题特征,采用LDA 模型方法进行主题挖掘工作。在试验阶段,本研究预将主题设置为2~6 类,对各类词项的隶属概率进行实验。研究发现将主题分为2~4类时,每一类中的词项概率随着分类数量的增加而上升,但各个主题间的区分度不够明显,当主题数设置为4 时,实验结果较为理想,在分为5 类时词项的分布概率下降。因此,将主题数目设置T=4,超参数设置为α=0.01,β=0.05,迭代1 000 次,抽取各主题下概率最高的前20 个术语,利用Gibbs Sampling 进行参数估计和推断。同理将中咨询活跃度读者主题数T设为4,高咨询活跃度读者主题数T设为5,择优选取概率较高的10 项特征词进行展示,如表5、表6 和表7所示。

表5 低咨询活跃度读者在线咨询文本主题分布情况表Table 5 Topic distribution of online consultation texts of low activity readers

表6 中咨询活跃度读者在线咨询文本主题分布情况表Table 6 Topic distribution of online consultation texts of active readers

表7 高咨询活跃度读者在线咨询文本主题分布情况表Table 7 Topic distribution of online consultation texts of highly active readers

可以发现低咨询活跃度读者较为关心图书的逾期归还、还书续借、预约以及密码修改问题;中咨询活跃度读者较为关心违约金的缴纳、各联合图书馆的地址以及开馆时间、办证问题、东西丢失如何找回的问题;预约进馆、馆藏书目查询、还书形式、馆内WIFI连接以及图书丢失问题是高咨询活跃度读者较为关心的问题。

对这3 个群体的读者特征进行分析,发现低咨询活跃度读者在图书馆的主要活动为书籍借阅,属于经常在图书馆借书的人群。但是这类读者的咨询活跃度不是很高,因此可以具体分析原因进行改善,从而能够吸引更多的读者。中咨询活跃度读者对图书馆的资源使用主要集中在公共资源方面,从咨询的问题来看,该类读者属于经常来馆的读者群体,属于图书馆的忠实读者。这类读者对图书馆的研究价值最高,可以对这类读者进行调研,从而了解图书馆需改进之处;高咨询活跃度读者在图书馆的主要活动为馆藏资源的阅读和公共资源的使用,属于经常在图书馆读书的人群,这类读者对图书馆的馆藏资源比较感兴趣且经常使用公共资源进行自修。依据读者特征的分析结果,为精准服务提供依据,具体服务策略详见表8。

表8 咨询活跃度维度读者服务策略分析表Table 8 Analysis of reader service strategies in the dimension of consultation activity

4.3.2 读者年龄维度分析

年龄维度也是推荐时需要参考的重要因素,不同年龄段的读者感兴趣的图书以及关心的问题不同,因此周期性参考年龄维度的书籍变化以及咨询问题的主题变化情况,可以及时有效地为读者进行更精准化的服务。本次数据来源的读者年龄在4 岁至61 岁之间,依据联合国世界卫生组织提出年龄分段[39],我们将读者年龄维度划分为4~17 岁少儿及青少年读者、18~45岁青年读者以及46~61 岁中年读者。3 个年龄段读者的借阅书籍文本特征如图9、图10 和图11 所示,3 个年龄段读者在线咨询文本主题分布情况如表9、表10和表11 所示,对3 个年龄段的读者进行特征分析,可得到3 个年龄段读者群体特征和相应服务策略,如表12 所示。

表9 少儿及青少年读者在线咨询文本主题分布情况表Table 9 Topic distribution of online consultation texts of children and young readers

表10 青年读者在线咨询文本主题分布情况表Table 10 Topic distribution of online consultation texts of young readers

表11 中年读者在线咨询文本主题分布情况表Table 11 Topic distribution of online consultation texts of middle-aged readers

图9 少儿及青少年读者借阅书籍文本特征Fig.9 Text features of books borrowed by children and young readers

图10 青年读者借阅书籍文本特征Fig.10 Text features of books borrowed by young readers

图11 中年读者借阅书籍文本特征Fig.11 Text features of books borrowed by middle aged readers

可以发现该市图书馆制作的蜂蜂书包深受少儿及青少年读者喜爱,杨红樱、张嘉骅、朱斌、孙幼军等儿童类书籍的作家和漫画家受到欢迎,中国青年出版社出版的读物受到少儿及青少年读者欢迎;《青年文摘》 和 《故事会》 等青年杂志受到青年读者欢迎,三毛、余非鱼等编著的浪漫言情小说受到读者喜爱,同时,天蚕土豆和天下霸唱所著玄幻推理类小说也较受欢迎;《父》 《落花生》 以及 《故事会》 等散文和民间故事集受到中年读者的喜爱,《一千零一夜》 《天生一对》 等儿童文学作品以及杨红樱、崔钟雷编著的儿童作品也受到关注。

从在线咨询文本主题来看,少儿及青少年读者较为关心预约、开馆闭馆时间、图书馆活动以及图书丢失等问题;青年读者读者较为关心还书续借、开馆闭馆时间、预约以及自修室的问题;中年读者较为关心还书续借、密码以及开馆闭馆时间的问题。

对这3 个群体的读者特征进行分析,发现少儿及青少年群体读者在图书馆的主要活动为进馆阅读和参加活动,而且年龄较小,对新奇的活动和设备兴趣会比较大;青年群体读者在图书馆的主要活动为借阅书籍以及公共资源的使用;中年群体读者的主要活动为在馆阅读书籍,说明这类读者对图书馆的馆藏资源比较感兴趣。依据读者特征的分析结果,为精准服务提供依据,具体服务策略详见表12。

4.3.3 读者性别维度分析

从性别维度对读者的分析可以揭示出不同性别的读者对书目以及图书馆公共资源使用的偏好,从而更精准的为读者提供信息服务。对男性读者和女性读者分别做借阅书籍文本特征分析和在线咨询交互文本分析,两个性别读者的借阅书籍文本特征如图12 和13所示,在线咨询交互文本的主题分析采用LDA 模型的方法,择优选取概率较高的10 项特征词进行展示,如表13 和表14 所示。最终可得到不同性别读者群体特征,并据此提出服务策略,如表15 所示。

表13 女性读者在线咨询文本主题分布情况表Table 13 Topic distribution of online consultation texts of female readers

表14 男性读者在线咨询文本主题分布情况表Table 14 Topic distribution of online consultation texts of male readers

图12 女性读者借阅书籍文本特征Fig.12 Text features of books borrowed by female readers

表12年龄维度读者服务策略对比表Table 12 Comparison of reader service strategies in age dimension

从借阅书籍文本特征来看,中国青年出版社出版的 《青年文摘》 受到女性读者欢迎。《廖若晨星》《曾经沧海》 等爱情小说,天蚕土豆、唐家三少所著的玄幻类小说也备受欢迎,《一千零一夜》 《天生一对》以及杨红樱编著的书籍等适合少年儿童阅读的书籍受到欢迎;《伪装者》 《薄冰》 《猛士》 和 《远大前程》等历史谍战类军事类小说是男性读者热衷的读物,《三国演义》 是借阅次数最多的书籍。

图13 男性读者借阅书籍文本特征Fig.13 Text features of books borrowed by male readers

从在线咨询文本主题来看,女性读者较为关心违约金、馆藏、预约以及办证等问题;男性读者较为关心预约、馆内资源的使用、还书以及登录密码的问题。

对这两个群体的读者特征进行分析,发现女性读者在图书馆较为关注违约金的缴纳以及馆藏书籍;男性读者对图书馆的资源使用主要集中在公共资源方面,包括WIFI 以及自修室的使用。依据读者特征的分析结果,为精准服务提供依据,具体服务策略详见表15。

表15 基于两性读者群特征分析的服务策略Table 15 Service strategy based on the analysis of the characteristics of male and female readers

5 结语

本文以某市图书馆的读者基本数据、图书借阅数据和在线咨询数据为基础,结合TF-IDF 模型和LDA模型进行分析,得到读者借阅书籍文本特征和在线咨询文本特征,组成单个读者画像和群体读者画像,并依据读者画像提出针对性服务策略的建议。

本研究具有一定的理论意义,以往学者多采用引入外部数据的方法进行交互式短文本的主题挖掘。本文加入会话切分的预处理方法进行LDA 建模,优化LDA 模型结果,可以实现针对读者在线咨询数据这类交互式短文本的主题抽取,挖掘出读者关注的问题。

本文构建的多维图书馆读者画像分析框架,实现了读者属性特征的揭示与组织,为图书馆的精准化服务研究提供了新思路。从不同维度读者群体画像的分析来看,不同群体咨询的主题内容侧重点存在差异。图书馆应在准确挖掘用户潜在需求的基础上,向特定读者提供所需的智慧型知识产品和服务[40],实现精准化服务的最终目标。

本研究的数据覆盖面有限,对数据所蕴含读者特征的揭示还不够深入,未来可以沿着这个方向开展更全面具体的研究。

猜你喜欢
画像咨询书籍
鲁迅与“书籍代购”
中国书籍享誉海外
Chinese books find an audience overseas中国书籍享誉海外
威猛的画像
“00后”画像
画像
曹文轩主编的书籍
潜行与画像
服务与咨询
健康咨询