吴澹宁,陈 敏
十九大报告提出加快建设创新型国家发展目标,“智慧社会”被写入报告[1]。基于“智慧社会”新视角,图书馆应探索融合新技术的发展新路径,为国家发展、社会进步、科技创新、个人终身学习提供智慧化的知识服务,构建支撑绿色、低碳、可持续发展的关键驱动力。
互联网极大丰富了知识的获取方式,但“知识迷航”现象日渐显著。初景利等[2]认为图书馆必将从文献服务走向智慧服务,要求图书馆服务内容从简单的文献单元向深度挖掘的知识单元转化,服务方式从粗放的多渠道投放向精准的按需推送转变。高校图书馆投入大量经费购买数字资源和建设特色资源,并推出各种个性化服务,满足在校师生更多深层次的需求。但是,因缺乏对读者需求的及时反馈和准确把握,图书馆的资源和服务很难做到精准推送,资源利用率与服务效果不甚理想。为解决此类困境,本文引入画像建模技术,结合高校图书馆资源与服务的特殊性和复杂性,设计一套多维度、细粒度的特征标签体系,探究画像建模的详细流程与实际问题,研究图书馆智慧推介的模式构建和实施策略。凭借现代科技所蕴含的“技术智慧”,提升基于知识服务的“图书馆智慧”,激活求知创新过程中的“用户智慧”,为建立面向深度学习的知识图谱和多元立体的知识资源体系积累经验、夯实基础[3]。
交互设计之父Alan Cooper最早提出用户画像(Persona/User Profile)概念,即对用户的自然属性、行为轨迹、潜在兴趣等信息的虚拟刻画。用户画像理念及其技术得到了广泛应用,如阿里巴巴围绕“人、货、场、商”营造全新的数字化生态系统,疏导目标流量,提高场货分发效能[4]17-21。在文化教育领域,用户画像也成为讨论热点。笔者以“用户画像”“读者画像”“图书馆”“文化教育”等关键词在CNKI中国知网进行检索,筛选得到311篇相关文献。
陈慧香等[5]从定义组成、算法模型、实践应用等方面讨论国外图书馆用户画像研究现状,发现技术类的集成创新较少,而国内学者所构建的用户画像模型多以局部数据为主,缺乏完整性。刘海鸥等[6]引入情境化推荐方法来重塑图书馆个性化服务模式。曾子明等[7]搭建个性化移动视觉搜索及推荐服务模型,拓展设计用户画像的思路。刘速[8]以天津图书馆大数据分析平台的顺利实施,验证多维度交叉分析、用户关系图谱等用户画像分析方法,为基于用户画像的智能化服务研究提供了案例参考。单轸等[9]总结用户画像研究中存在的问题:理论研究中的概念模糊,如混淆了“群体画像”与“个人画像”的概念;技术研究中的视野缺失,如忽视了信息安全和评价机制等问题。因此,本文以2020年浙江音乐学院图书馆的350 万条运行数据和73 万条资源数据为基础,论述特征标签、“群体画像”和“个人画像”的设计过程和集成算法,强调动态数据的收集和实时画像的构建,研究相似性、差异性、关联性和线下实时推介的实现方式,并尝试以借阅、浏览、点播等行为指标评估资源推介效果,旨在探索一条以完整性、准确度为导向的图书馆智慧推介的实践之路,推动用户画像与图书馆智慧服务的深度融合。
构建用户画像所需的数据,可分为读者数据和资源数据。读者数据既包含姓名、年级、专业等属性数据,也包括在图书馆自动化系统上采集到的行为数据,如文献系统中的借阅信息、门禁系统中的入馆信息、发现系统中的检索信息等。资源数据是指MARC数据和各类元数据,如题名、责任者、主题词、URL等,它反映了读者行为所涉及的内容,是剖析读者兴趣偏好和构建“个人画像”的重要依据。资源数据的采集有赖于资源联合编目和元数据开放共享。
准确识别用户身份是行为数据线上采集的前提和基础。现在多数应用都设置了实名认证,系统会记录特定读者的借阅、入馆、预约、荐购等操作。然而,图书馆每年花费大量资金采购和自建的数字资源是以IP授权形式开放的,读者登录校园网或VPN,便能顺利访问各种数字资源,但系统无法识别用户身份,难以记录产生的行为数据。为了实现行为数据采集范围的全覆盖,国内某些高校图书馆[10]采用了最新的WebVPN技术和Counter R5收割标准,开发数字资源门户及统计分析系统,设置身份认证环节,统一访问入口,分析、评价数字资源的使用情况。
智慧书架能实时监控贴有RFID标签的流通资料,精准感知每本图书物理位置的变化。智能视频监控系统是借助光学装置和传感器获得被检测物体的特征图像,从图像中提取、分析和处理信息,进而实现对书架停留时间、书目翻阅时间等细节的全息探知[11]。iBeacon 是一项室内定位技术,具有低成本、易部署等特点。该技术通过iBeacon 基站、节点的布设,建立与移动终端的通信,即时获取位置信息,信号最小覆盖半径15cm,适用于书架等近距离触发场景[12]。未来图书馆将以室内定位技术描绘用户的移动轨迹,以机器视觉技术判定读者身份,抓取找书、翻书等细微动作,以RFID技术关联读者翻阅的书籍信息,构筑多场景、伴随式的数据无感采集模式。
用户画像通常分为“群体画像”和“个人画像”。前者是对具有相似行为特性的用户进行语义划分,即定性分析读者的行为习惯,便于制定精准化服务的实施策略;后者是对读者兴趣的文本挖掘,可用于定量分析其显性或隐性的情感偏好,确定个性化服务的具体内容。
特征标签是一种高度精炼的符号语言,有助于快速了解用户在特定领域的行为表现。个别画像研究对特征标签的理解存在偏差,混淆了特征标签与具体数据之间的从属关系,譬如有文章提到姓名等属性归为一级标签,年龄、星座等归为二级标签,注册时间等行为信息为三级标签[13]。其实,标签和数据可类比为编程语言中的“类”和“对象”,数据是对客观事物或行为的定量表述,标签是对数据的归纳和抽象。所以,基于图书馆资源与服务的具体内容,将读者需求归纳为实体资源P、数字资源E、空间资源U、服务资源S和活动资源A等5个方面,定义为5个一级标签;按本馆实际情况设计若干二级标签,依据采集的数据字段,细分为三级及以上标签,形成多维度、细粒度的特征标签体系。例如,实体资源标签下设置纸质文献PP、音像资料PV等2个二级标签,纸质文献标签下再设置借阅PPB、续借PPR、预约PPH等3个三级标签,以此类推。然后,通过行为数据的归一化处理,协调同级标签间的比例关系,完成各级特征标签的赋值计算,建立每位读者的特征标签矩阵,本研究涉及的主要数据如表1所示。
群体画像描述的是群体的共性特征,是一个虚拟的用户代表。在完成各级标签赋值后,采用Hadoop 分布式计算平台和MapReduce 计算框架,以K-Means等聚类算法,将所有读者预先分为若干类别,不断迭代分析,使同一群体内的特征偏好尽可能相近,不同群体的读者则具有显著差异。鉴于经典K-Means算法容易出现局部最优的缺陷,且迭代次数和计算速度受孤立点数据的影响较大,本研究选用了基于马氏距离的二分K-Means 算法[14],聚类中心数K=sqrt(n/2),其中n代表待聚类目标总数。如前所述,每位读者具备了5个一级标签,每个标签按需求的强弱定为高、中、低三档,理论上有243种排列组合。那么,对浙江音乐学院5,493名读者的标签数据集(见表2)做K为11的聚类分析,收敛成11个“群体画像”,各群体人数、比例及特征标签值范围如表3所示。
表2 读者特征标签矩阵数据集
表3 各群体人数、比例及特征标签值范围
个人画像注重个性刻画,通过行为与资源数据的映射关联,提炼文本中的语义信息,绘制读者兴趣图谱,发掘兴趣的内在联系,为后续的智慧服务奠定基础。由于资源数据普遍存在非结构化特征,需应用文本挖掘技术中的向量空间模型,将文本内容处理简化为向量空间中的运算。因而,读者兴趣矩阵可表示为{(i1,w1),(i2,w2)…(in,wn)},其中i代表兴趣内容,w代表兴趣权重[15],且赋予各兴趣以时间标识,采用经过关联性、时序性两方面优化的TF-IDF 算法,确定每个兴趣点的相应权重。
3.3.1 基于关联影响的权重优化
从神经网络角度理解,某一时刻的输入可能取决于前一时刻的输出,亦会影响下一时刻的抉择,其逻辑关系使各节点间存在关联性[16]。传统TF-IDF算法仅是抽取、分析特定行为映射到的资源数据,并未考虑诸多行为间的相互影响及依赖关系,这会导致计算结果呈现离散稀疏、噪声较大的特点。
利用贝叶斯神经网络等深度学习技术,模拟读者微观行为和交互信息,捕捉行为序列对兴趣生成的影响,设置兴趣的关联系数,校正不同兴趣点的权重计算。例如,根据某读者2020年9月22日至29日的行为模拟和兴趣分析,勾勒出兴趣点的网络结构,如图1-2所示。这位读者的初始兴趣为“古典音乐”,后延续至几位著名作曲家的经典作品,关注古典音乐方向的评论分析,最终转向“历史音乐学”“音乐史”等领域。“古典音乐”贯穿于整个兴趣网络,是兴趣生成和发展的主要线索,视为核心兴趣点,分配最高关联系数;“历史音乐学”作为兴趣迁移目标,视为关键兴趣点,分配较高关联系数;以此类推,“海顿”“音乐评论”等兴趣点,只需分配较低关联系数。
图1 读者行为模拟与兴趣分析示例
图2 读者兴趣的网络结构示例
3.3.2 基于时序影响的权重优化
过往“个人画像”研究只是简单地在数据集合中分析读者兴趣所在及相应权重,忽略兴趣维持的时变性特点。相同兴趣点的权重会随着时距的增加而减小,如一个月前挖掘出的兴趣点比一年前产生的相同兴趣点有更高的影响力。故借鉴艾宾浩斯遗忘曲线,根据兴趣的发生时间,设计兴趣权重的衰减模型,其公式如下:
其中,A为tn时刻某读者的兴趣衰减系数,m为记忆常量,b为衰减常量,tc为当前时刻。记忆常量一般为1,衰减常量针对不同人群作适当调整。
不同于检索、浏览、下载等瞬时行为,借阅等行为挖掘出的兴趣将一直延续至资源的归还时刻。为了丰富此类行为的兴趣表征,可通过个人借阅时长的综合分析,得出每位读者个性化的借阅习惯,以Box-Cox 变换后的累积分布函数,预测该读者(借阅行为挖掘出的)兴趣发展曲线,如公式(2)和表4所示:
表4 2657号读者的借阅时长分析
其中,tb为资源借出时刻,tr为归还时刻,t为借阅间隔;E为tn时刻某兴趣点的分布系数,μ为该读者所有借阅时长的平均值,σ为经Box-Cox变换后新的标准差,λ为Box-Cox变换中得出的偏度指数[17]。
3.3.3 读者兴趣的综合建模
一言蔽之,关联系数反映了各兴趣点在逻辑思维链中的重要性,衰减系数表达了时间序列对同一兴趣点的影响程度,分布系数是研究连续行为所涉及的兴趣分布期望。某一兴趣的分析挖掘,应综合不同时间点的修正系数,加权得出相应的权重结果,完成读者兴趣矩阵的最终构建,如公式(3)~(5)所示:
其中,cn′为(瞬时行为挖掘出的)兴趣修正系数,cn′′为(连续行为挖掘出的)兴趣修正系数,R为关联系数,A为衰减系数,E为分布系数,wn为TF-IDF算法确定的原始兴趣权重,wn′为修正后的兴趣权重。
所谓智慧服务,是依托对用户需求的自动感知而提供优质精准的资源和服务。构筑以画像建模、资源匹配、推介输出为主线的智慧推介模式,是推进图书馆智慧服务的有益尝试,有助于缓解愈加凸显的“知识迷航”现象,使资源建设更符合读者的身心发展和内心期盼。智慧推介所体现的个性化、实时性、交互性、人性化等特征,亦是智慧图书馆建设的必然要求和重要目标。
特征标签体系和群体画像的构建初衷是充分分析和掌握每位读者的显性需求及所属群体的特征分布,为不同需求读者群体提供个性化服务,致力于改善读者情感体验,彰显人文关怀。图书馆用户画像与智慧推介项目中,画像系统以两个月为周期,采集所有读者过去一年的各项行为数据,更新群体画像的特征标签值范围,明确各群体下一周期的推介策略。例如,0001 号读者的特征标签矩阵为{0.305,0.795,0.233,0.474,0.781},判断其符合01 号“群体画像”,该群体对数字和活动资源的需求旺盛,实体和服务资源的需求处于平均水平,空间资源需求偏低。那么,对于0001号读者的推介策略应遵循01号群体的常规设置,强化匹配其兴趣的数字和活动资源的推介力度。此外,深入分析此读者的二级标签,明晰资源需求方向,若偏好期刊论文和讲座培训,则高频推送相关信息。总之,坚持以读者为中心、需求为导向、开放联动为原则,按需谋划图书馆资源建设和读者服务工作,协助学校教学科研的科学决策和精细化管理。
智慧推介大致可分为相似性推介、差异性推介、关联性推介和线下实时推介等四个模块。前三者以每月更新的“个人画像”为基础,依照既定的推介策略,周期性推送各种资源和服务。线下实时推介主要依靠读者当前行为分析,做好互动引导与实时推荐。
(1)相似性推介。相似性推介的核心思想是推荐与兴趣相契合的资源。根据“个人画像”中的读者兴趣矩阵,推介系统按权重从高到低罗列出N个兴趣词条,采用基于邻域的协同过滤算法,进行兴趣词条与资源特征向量间的余弦相似度计算;排除已利用的资源项,结合剩余资源的受欢迎程度(借阅率、下载量、点播量等)做辅助排序,排名靠前的资源列为优先推介项;综合待推介资源的馆藏现状和读者的个性化推介策略,依次推荐给该读者,如图3所示。
图3 0001号读者的相似性推介示例
(2)差异性推介。2018年5月,习近平总书记考察北京大学时指出,广大青年既拥有广阔发展空间,也承载着伟大时代使命。[18]这就要求当代大学生展现出思辨、创新、实践和审美能力,努力成长为“一专多能”的复合型人才。相似性推介侧重的是个人兴趣或专业知识的“高精尖”,而差异性推介主张的是知识结构拓展和完善,倡导吸纳各种类型的知识经验,以更宏观的视角审视和解决问题。差异性推介的思路是先从兴趣、行为、属性等方面分别筛选出与目标对象相仿的读者,后根据相仿读者的行为记录,逐条比对确定差异项,再排除涉及共同兴趣点的资源项,遵从个性化策略分批推荐,如图4所示。
图4 0001号读者的差异性推介示例
(3)关联性推介。高校图书馆的大数据分析应当切实加强与教育教学数据的联动性,例如通过学生成绩与资源利用的关联分析,不难发现:成绩中下学生的首要需求在于获取知识载体,尤其是完整的知识讲解、知识脉络以及适合自身条件的学习路径。针对此类读者,不仅要提供精准化的知识推送(如教学参考书、慕课、习题),还需不定期推介成绩优异同学的阅读曲线和学习方式,引导和激励其拓宽阅读广度、挖掘知识深度;同时,积极与一线教师开展合作,利用馆藏资源共同制作思维导图、知识网络、短视频等个性化配套资源,营造“主动参与、共建共享”的知识新生态。可见,关联性推介是结合学生学习情况的动态分析和准确把控,以知识粒度为本体重塑现有的知识组织体系,生动描摹知识元、知识体和知识群中的分类、推理、关联等逻辑关系[19],使读者可以借鉴成功的学习经验,厘清各知识点的内在联系,促进良好学习习惯养成和方法掌握。
(4)线下实时推介。人工智能描画了美好的发展愿景,即万端感知、万机融合、万数计算的“全景智能”时代[20],未来图书馆会像具有“智慧”的人类一样与读者互动并提供服务,是实体空间、虚拟资源等全方位的存在,做到“我懂你”和“我帮你”。线下实时推介,是以RFID、机器视觉、iBeacon等为代表的先进技术,完成实体空间与虚拟资源的互通互联,着力全景数据的即时计算,打通推介服务的线上闭环,从而体现智慧服务的高效能和洞察力。自读者进入图书馆,增量数据采集、画像更新与推介服务同步启动,首先根据已有的画像数据,发送实体资源至交互界面;再根据读者选择或查询的目标资源,提供导览服务,规划最优行进路线,快速导航至所在架位;否则,系统继续记录行为轨迹,计算兴趣所在。若读者在某书架的停留时间超出阈值,系统分辨其驻足寻书,会再次发起推介服务和交互请求,将附近架位中与当前兴趣匹配的资源推送给读者,循环迭代实现情境式的线下实时推介。
相比传统图表,数据可视化是更生动友好的表现形式,通过交互式可视化大屏来发现并诊断业务问题已成为越来越多大数据解决方案中的重要环节[21]。本文探讨的用户画像与智慧推介系统会将读者兴趣矩阵和推介资源以动态图谱的形式在前端展示,开放可视化沟通窗口,实时接收、计算和评估反馈信息。
为进一步掌握推介资源的用户匹配度和现实反馈,使用“金数据”表单和线下问卷相结合的方式(因单项资源的自主评价数据较少),于2021年9月集中组织了一次智慧推介服务的使用情况调研[22]。问卷由“基础信息”“群体画像”“个人画像”“推介策略”“已推介资源项”和“总体满意度”等六部分组成。“基础信息”部分,线下需受访者填写学/工号,线上则授权微信公众号中已绑定的一卡通账号,便于后续“已推介资源项”的精准导出和问题设置。“群体画像”“个人画像”和“推介策略”部分,受访者可量化评价各级特征标签、高权重兴趣点和推介侧重,列举不认同的标签项与兴趣点,提出个性化的推介频率。“已推介资源项”部分,根据身份认证信息从资源推介记录中随机挑选5项,了解受访者对资源推介项的主观评价。
2021年9月6-30日,累计回收纸质和电子问卷 1,933 份,有效问卷 1,890 份。结果显示,智慧推介总体满意度(即非常满意和较为满意选项)78.0%,服务续订意愿(即非常愿意选项)69.1%,资源好评率(即大有裨益和益于了解选项)73.9%,59.5%的受访者偏好每周一次的推介频率。可见试运行1 年的图书馆智慧推介服务基本得到读者认可,超半数受访用户愿意继续接受该项服务。但是,资源推介频率过高、资讯推送不够及时、资源导航尚需完善、移动端阅读体验不佳等问题依然存在,有待持续改进。
表6 音视频(库客音乐)推介效果抽样评估
除调研用户主观体验,还应建立健全推介采纳度的综合评价机制,加强对推介资源的浏览、点播、下载、借阅等后续操作的统计分析,及时干预和调整负评价较多的个人或群组。例如,文章随机抽取100位读者为分析对象,选取2021年6月接收的实体资源纸质文献推介155项和数字资源音视频(库客音乐)推介342项,以2021年3-5月为推介前统计区间,6-9月为推介后统计区间,逐个分析各资源项的利用指标,如纸质书借阅率、借阅时长、相应电子书的浏览/下载量、音视频点播量、点播时长等,如表5-6所示。综合推介前后的指标变化率:从单项看,四项指标(除点播时长)均有接近或超过半数的推介项呈现增长趋势(即变化率≧20%);整体而言,47.7%的纸质文献和20.2%的音视频(库客音乐)推介项有两项以上指标呈现增长趋势,各项指标均未明显变化的比例分别为15.6% 和44.6%,如表7所示。数据表明,实体资源纸质文献的推介效果可能优于数字资源音视频,但类似的统计分析需继续深入到不同资源平台(如AS世界音乐等多个音视频资源库)和资源类型(如数字资源中的期刊论文等),以更丰富的统计指标完善推介效果的评估工作。最终以评估结果反哺画像修正和推介优化,体现智慧服务的工具理性与人文内涵。
表5 纸质文献推介效果抽样评估
表7 推介前后各项指标的变化率分析
本文聚焦画像建模与推介服务的细节探究和应用实例,完整阐述了从数据采集、特征标签设计、用户画像构建、智慧推介架构和推介效果评估的全过程,探讨了以深度学习技术研究兴趣网络结构和时间序列对兴趣衰减、发展的影响,研究了基于“群体画像”“个人画像”的智慧推介模式及评估办法,对于全面推进智慧图书馆建设具有一定的借鉴意义。当然也存在一些不足,例如评估指标体系、信息安全等方面的研究尚有欠缺,后续将继续深入和细化。