徐立宁
(南京图书馆,江苏 南京 210018)
在图书馆的各项业务中,通常所说的用户画像是基于大数据环境所产生的,通过数据挖掘和人工智能方法构建,描绘用户个体的标签和属性,包括分析图书馆用户的基本属性、消费属性、阅读属性和生活属性等,通过对用户产生的海量行为数据的挖掘与分析,抽象出与该用户的需求和偏好相关的标签化过程[1]。图书馆为用户构建画像的过程就是给用户贴标签的过程,由于用户产生的是一系列数字化操作和行为,所以需要通过数据挖掘和分析的方法对用户产生的行为信息进行高度提炼,从而获取与用户相关的特征标识,最终输出为用户标签。通过用户多个方面的数据挖掘和分析产生的多维标签即可组成用户的精准画像。一般来说,由于用户画像是对用户的基本属性和行为的分析,所以通过用户的画像即可精准了解到用户的兴趣和需求,用于个性化推荐服务、营销服务和各种用户扩展服务。图书馆当前基于用户画像的研究主要包括通过数字图书馆的用户画像建模分析,构建出图书馆服务能力的综合评价指标,再通过该指标构建有效的图书馆社区用户参考。另外还可通过构建用户画像形成可视化的统计描述、多维交叉分析以及用户知识图谱等图书馆智能化服务。总体来讲,基于图书馆的用户画像还处于起步阶段,还需要更多的研究和探索。
图书馆资源推荐服务由来已久,图书馆属于知识提供者,资源推荐和阅读推广是图书馆最重要的工作之一[2]。早期的图书馆资源推荐服务一般通过人工确定知识热点和新闻,再有针对性地向不同群体进行推荐,过程较为复杂,需要消耗大量的人力,且用户的体验较差,推荐的内容难以确切符合用户的要求。随着计算机技术和智能技术的发展,图书馆资源推荐系统更具有针对性和主动性,能够在提升资源服务质量的同时,提升图书馆对用户的黏性,通过信息化手段抓住用户的需求,智能化地进行资源推荐,提升了用户对图书馆的依赖,构建和谐的资源社区。当前图书馆资源推荐的研究重点大多从技术角度出发,通过引入推荐算法和分布式平台,提升资源推荐的准确性和多样性。对用户的兴趣、偏好、情感和行为等因素的考虑不足,资源推荐过程中存在一定的细分不足、需求分析不彻底等问题。一般来说,用户的兴趣和需求是随着时间而变化的,因此通过单一的推荐算法只能为用户做静态的内容推荐,所以达不到精准推荐的程度,导致对兴趣和需求的分析不彻底。因此在推荐算法和分布式平台的基础上,图书馆还应该构建用户的动态精准画像,该画像能够随着时间动态变化,符合用户当前的兴趣和需求,让推荐更为完善。
图书馆的资源推荐系统一般都建立在互联网和智能计算机的网络传输基础上,通过围绕读者个性化推荐模式,并结合计算机的推荐方法进行完善和改进。最早进行图书馆推荐系统研究的是构建资源协同推荐系统,还有一些研究员通过构建图书馆学术资源推荐系统框架,利用图书馆中存储的借阅日志数据,通过多维属性关联规则挖掘,提取出日志数据中的关键特征,再通过这些关键特征构建出推荐规则,从而形成图书馆的资源推荐[3]。在学术资源推荐系统框架基础上,一些研究者通过文献混合关联的方式,构建出了文献推荐方案算法,该算法通过云计算平台结合Spark内存计算技术,完成了针对用户日志数据和借阅文献内容的聚类分析和相似度计算,最终通过基于本体的数字文献资源聚合和服务推荐算法,构建出更细致化的图书馆资源推荐系统[4]。在针对用户使用行为上的图书馆资源推荐中,一些学者通过引入角色概念来模拟用户的兴趣选择,通过这些模拟选择构建出用户信任网络,该网络能够用于改进情景感知推荐内容,可以获得更精细、动态的资源推荐[5]。此外,还有一些智慧图书馆的资源推荐系统,通过对用户的的信息数据进行挖掘,构建出用户在图书馆借阅图书过程中的兴趣和需求,可以有效提升图书馆推荐服务的准确性[6]。综合上述的图书馆资源推荐研究现状,我们可以看出当前的绝大多数研究还是建立在构建传统计算机资源推荐系统中,将用户作为资源推荐的主要因素还在萌芽阶段,因此构建基于用户动态精准画像的图书馆个性化推荐服务势在必行,具有较高的研究价值。
在图书馆信息智能化管理中,构建用户动态精准画像的目的是为了真实还原用户的各项信息,并通过动态精准画像来指导图书馆的资源推荐服务,因此构建用户动态精准画像的数据来源于与用户相关的所有数据[7]。一般来说,用于构建图书馆用户画像的数据通常来源于各种服务系统中,由于这些数据在获取过程中存在无关联、无结构且相互独立的特性,因此要实现各种结构的数据间整合。在构建数据整合过程中,图书馆首先根据用户的基本信息和行为数据完成对用户的初步刻画,然后通过动态的行为数据对画像进行完善和修正。用户的数据分为动态数据和静态数据,其中用户的基本属性是静态数据,而用户在使用数据过程中产生的各种网络行为数据、互动数据和与其他用户之间相关的数据,都属于动态数据。在构建用户数据源时,一般通过用户的身份统一识别号登录图书馆以及用户设备的机器码,通过二者的结合识别出用户的网络行为数据,更全面地收集用户的相关数据。一般来说,图书馆为不同身份的用户群体提供不同的资源服务,因此在构建用户动态精准画像过程中,既要考虑单一用户的资源服务,还要考虑群体用户的资源服务,通过详细的分类提升用户需求偏好的精确度。
在新型智能数字化的图书馆,用户动态精准画像是一个长期逐步完成的过程。构建用户动态精准画像模型的目标是通过分析用户的行为,为用户打上具体的标签,通过用户的标签再精确、快速地分析用户的偏好和习惯,为不同用户提供个性化服务打好基础[8]。构建图书馆用户动态精准画像模型,主要包括整合图书馆系统平台的用户数据,构建图书馆用户基础信息、交互信息和行为数据的统计和分类方法,通过分析和分类方法构建标签体系,为不同用户打上标签,最后细分出个体用户和群体用户的动态精准画像。图1给出了图书馆用户动态精准画像构建模型。
图1
在整合数据中,主要包括图书馆管理系统、门户网站、移动平台和相关信息系统中抽取所有用户存储在日志、数据库中的数据文件。在收集数据过程中,需要详细收集的数据包括用户基本信息数据和用户动态行为数据,数据收集好,就进入数据处理阶段。数据处理包括两个部分,在数据预处理过程中,主要是对用户的静态数据和动态数据完成集成、转换、归约和清洗等步骤,将非结构化数据和半结构化数据都转化为结构化数据。数据经过预处理以后,对用户数据构建常规的数据挖掘方法,包括分类、聚类、关联分析、序列化分析和预测分析等算法,通过这些算法从用户数据中分析出用户标签。在用户画像模型中,具体的用户标签包括资源搜索与利用的偏好,社会属性的兴趣,用户之间的关联关系,以及用户对资源的评价。针对群体用户还应该提供用户活跃程度和人群属性等画像标签。最后,通过标签生成单个用户画像和用户群体画像,分别对图书馆资源服务进行需求预测,最终形成图书馆对用户提供的个性化资源推荐服务。
在构建单个用户动态精准画像和用户群体动态精准画像的基础上,图书馆依托于知识挖掘技术构建图书馆个性化推荐服务模式,包括基础信息库、知识挖掘和智慧推荐三个主要方面。在基础信息库中,除了通过动态精准画像形成的用户画像以外,还需要以图书馆的数字化和多媒体资源为核心构建的资源信息库。采用云计算和云存储构建分布式平台,融合多种形式的资源共同形成资源信息库[9]。知识挖掘是个性化推荐服务模式的重点构建模块,该模块分别针对资源信息库和用户画像进行知识挖掘构建。针对资源信息库为核心的挖掘目的主要是构建每个领域中的知识库,知识库是从众多冗余资源中提炼出具有统计意义的知识,形成以知识为核心的智慧推荐。对用户画像的挖掘,主要是挖掘出用户需求和规律,对用户多种需求的共同挖掘最终形成用户的深度需求,用户的深度需求可以根据行为的不断调整最终形成动态的需求,通过动态需求构建智慧推荐。在用户心理的挖掘中,主要挖掘不同用户的基础心理属性,根据基础心理属性可以构建出更具个性化的推荐体验。
图书馆需根据用户兴趣模型、行为模型、宣传服务和可持续发展与规划,来开展动态精准画像下的资源推荐服务。除此之外,动态精准画像还能够应用于图书馆的决策参考中。
在用户动态精准画像视角下,用户的兴趣模型和行为模型是进行资源推荐服务的基础,一般采用用户画像中的标签体系进行,包括对用户的兴趣和行为数据进行分类、整理、建模和表示,通过模型计算出单一用户和群体用户的相似度。在模型基础上,对用户的标签体系进行聚类生成若干的主题层次结构,然后将层次结构归纳为若干个主题,利用主题描述出单个用户和群体用户的兴趣和行为。该方法是通过粗粒度和细粒度相结合的方式进行兴趣和行为的构建,能够多层次、全面地展示用户的兴趣和主题。另外,由于用户的兴趣是动态变化的,随着时间的推移,原始兴趣会增加或减少,还会产生新的兴趣,因此需要对兴趣进行动态更新,保证最新的用户兴趣和需求。不同于单一用户,群体用户会关注相似的资源并进行互动和分享,该群体具有共同的兴趣爱好并且具有较强的群体特征。群体用户的兴趣和行为模型构建则需要对多个用户的数据完成聚类,分析用户之间的评价和互动信息,并计算这些信息之间的相似度。依托于相似度的计算,可以寻找到相似用户并提取群体特征,最终形成用户相似群。一般来说,可以设置一个阈值来区分不同用户相似群,来将所有的用户划分为不同的群体,构建群体的兴趣模型和行为模型。这些群体用户的兴趣模型和行为模型能够进一步指导资源推荐、活动宣传和图书馆的发展与建设。
图书馆构建核心用户群体的精准推荐是图书馆个性化资源推荐服务的重要方式之一。通过动态精准画像,图书馆可以通过数据分析获取用户的基本特征,针对用户的目标行为赋予比例权重,构建出个体用户的需求—资源模型,该模型可以将与用户需求相匹配的资源推送给相应的用户。另外,还可以根据用户的某个特征分析出用户的潜在需求,为用户的后续资源构建推送服务。一般来说,图书馆的新用户的行为数据较少,构建的用户画像颗粒度较粗,而使用时间较长的核心用户的画像颗粒度细腻,画像更为精准,通过画像反应出来的用户信息也更为具体。根据二八准则,图书馆为了留住更多的用户和数据,应该从核心用户出发,构建核心用户的资源推荐。当前的图书馆推荐服务都是知识内容的推荐,根据用户的历史记录分析出用户的兴趣,在用户再次使用时,可以动态更新用户的兴趣,构建更高质量的个性化精准推荐。另外,针对核心用户,图书馆还可以通过协同过滤技术,挖掘出用户群体之间的兴趣相似性。针对多个兴趣相似的用户,可以将某个被用户大量使用的资源,推荐给还未使用该资源但是兴趣相似的其他用户,接受推荐的用户将会对该资源产生浓厚的兴趣。另外,当某些用户都频繁使用相同的资源时,说明这些用户之间存在密切的联系。对于关系密切的用户可以构建地推规则,挖掘出资源使用的前后规律,为用户提供后续需求的相应资源,形成资源推荐的闭环。
图书馆的用户动态精准画像除了对资源的精准推荐以外,还可以构建出对用户的精准宣传。与精准资源推荐面向的是单一用户对象不同的是,构建精准宣传服务是面对批量的用户构建群体性服务。一般来说,任何图书馆都会在不同时间段内开展线上或线下的宣传活动,通过这些活动来提升图书馆的知名度,然而这些活动的宣传都需要较多的人力和物力,例如在活动中发放资料、主题海报、专题展览和讲座培训等,需要较高的成本才能进行广撒网方式的宣传。这种宣传方式可能导致用户频繁地获取与自己无关的宣传内容,或者对频度较高的宣传内容感到反感,最终效果可能适得其反。因此,构建基于用户群体动态精准画像的宣传服务,能够才从最大程度上解决图书馆活动宣传问题。图书馆在动态精准画像的基础上,可以按照群体的方式给用户分组,为不同组的用户贴上相应的标签,然后将待宣传的内容与标签匹配,经过匹配后的宣传内容将会精准地推送到相应用户组中,该组用户的兴趣、爱好和行为与该宣传内容匹配度很高,从根本上避免了盲目宣传造成的成本浪费和对用户无谓的干扰。例如通过用户群体动态精准画像构建图书馆的阅读推广,针对图书馆最新购置的畅销书,由于该畅销书不可能符合所有用户群体的喜好,所以需要有针对性地进行阅读推广。这时候,采用动态精准画像,针对用户的知识背景、阅读方式、习惯和历史数据产生多个标签,再将标签与畅销书的内容、时间和类型进行匹配,最后将该畅销书推广给匹配度高的用户群体,最终使宣传具有目标导向,精准且效率高。
图书馆作为公共事业单位,其最主要的使命就是为社会公众提供良好的阅读场所和资源。传统图书馆吸引读者关注的方式较为被动,相应的活动推广宣传的效果又较差,远远达不到图书馆可持续发展与规划的需求。然而,21世纪是互联网时代,图书馆需要吸引更多的用户,留住更多的高质量用户,才能构建可持续发展与规划的道路。因此,用户的动态精准画像对图书馆的可持续发展与规划具有重要的意义。精准动态画像对用户来说可以为用户的自我认知提供良好的依据,可以协助用户进行研究、学习方案的制定,提升学习的效率。与之相似,所有用户群体的精准动态画像对于图书馆也具有建设意义,图书馆根据某个用户群体的多项特征能够提取出该群体用户的整体兴趣和需求的走向,通过满足整体兴趣和动态的满足改变的需求,即可规划图书馆的未来发展和建设思路。例如,针对用户对资源的整体兴趣分析,可以规划图书馆的资源采购、空间设计,而对需求走向的分析,则可以根据用户的需求制定更人性化的规章制度,提升用户在使用图书馆过程中的幸福感,增强图书馆对用户的黏性,留住更多的核心用户,构建可持续发展之路。例如,当图书馆的知识挖掘系统从用户群体动态精准画像中发掘用户对电子资源的使用频率呈现显著的增长,且远高于传统纸质资源,那么未来的图书馆资源配置应该进行相应的调整,提升电子资源的购置和分布,减少纸质资源的购置并重新规划资源在图书馆中的分布。另外,当用户对图书馆中的私有空间需求较高时,还应该及时调整图书馆的空间分布,满足用户的需求。
新时代的图书馆依托于互联网技术、多媒体技术和智能技术,必将会发展成为多元化的整体,而其中最重要的是图书馆的个性化推荐服务。图书馆的个性化推荐服务经过了用户动态精准画像的提升,将会为不同的用户提供适合其兴趣、需求的资源、宣传和服务,让图书馆的服务更为精准。今后图书馆可将用户的动态精准画像应用至更多、更有意义的推荐中,为用户提供更为精准、便捷、广泛的服务。