付天新FU Tian-xin
(北京农业职业学院,北京 102442)
随着信息技术的不断发展,高校图书馆也逐渐由“数字”迈向“智慧”。智慧图书馆运用智能化技术,整合图书馆内外信息资源,通过感知、捕捉、记录、挖掘、分析来提供更加智慧的服务。为了充分挖掘图书馆海量信息价值,解决图书馆现有服务模式与日益增长的用户需求之间的矛盾,图书馆将用户画像引入到智慧图书馆的建设中,并已应用到图书馆智慧化的众多领域之中,用户画像逐渐成为智慧图书馆建设不可或缺的重要内容。本文通过梳理、分析与总结已有科研文献,对用户画像在智慧图书馆建设中的内涵、分型、数据维度构建等方面进行深入剖析,系统阐述了用户画像应用于智慧图书馆的理论基础与数据体系,进而为智慧图书馆建设夯实基础,也为智慧图书馆快速应用用户画像开展理论应用、模型构建、系统研究、实践运用与服务创新等诸多方面提供数据支撑和参考依据。
大数据、云计算、物联网、人工智能、5G 通信等技术的广泛应用给图书馆的发展带来了新的机遇。2014 年李业根首次将用户画像应用到图书馆领域,打开了国内图书馆领域用户画像研究的大门,随后众多学者以用户画像为研究主体,展开了如火如荼的研究,并分别提出了对用户画像的理解。余传明等[1]认为,用户画像是根据用户人口统计学信息、社交关系和行为模式等信息而总结、抽象和挖掘出来的标签化用户模型。陈慧香等[2]认为用户画像是建立在一系列真实数据之前的描述用户需求和偏好的目标用户模型,该模型可全方位、立体化地反映用户特征。张洁等[3]认为,数字图书馆用户画像主要指面向真实读者用户,以用户的静态属性(人口统计特征、科研属性特征、空间和地理特征等)和动态属性(访问行为、资源检索及获取行为、学术社交行为、学术成果发表行为等)数据为基础,综合应用文本挖掘、机器学习等方法提炼出的具有显著特征的用户标签集合。王丽艳[4]等认为大数据时代下图书馆用户画像即用户信息标签化,是以图书馆服务系统及其相关平台一系列真实数据为基础,借助数据预处理、机器学习、数据挖掘、可视化等技术自动提取出个体或群体用户标签,从而建立起联系用户诉求与设计方向的目标用户模型。胡媛等[5]认为数字图书馆将知识社区用户信息抽象化并运用聚类、关联规则及分类等数据挖掘方法汇制所得的用户可视画像即为用户画像。
通过学者们对智慧图书馆用户画像理解可以看出:随着用户画像研究的设计思路、实现技术、主题、场域的不同,不同时期下其内涵也有不同理解与侧重。但在各自不同的表达中又体现着对用户画像的统一理解,即用户画像是实现图书馆智慧化的全新理念、技术和模型。
智慧图书馆用户画像研究随着研究主体、群落和用途的不同,在各自的视角下有着不同的分型。本文总结前人的研究成果,将智慧图书馆用户画像划分为本体、群落和功用3 类视角下共9 种分型。
①读者画像:是以图书馆读者为中心,围绕读者的基本属性、网络关系和行为特征等数据进行系统分析、归纳和总结,构建能够清晰描述读者全貌、精准刻画读者行为特征、深入挖掘与提炼读者信息标签的模型集合或可视系统。基本属性信息主要描述读者的姓名、性别、年龄、职业、教育背景和联系方式等信息。行为特征信息主要描述的是读者系统信息检索、页面浏览、内容下载等行为。网络关系信息主要描述的是读者线上阅读过程中产生的分享、评论和收藏[6]。
②机构画像:是以图书馆内、外相关机构为中心,以真实机构数据为基础构建的目标对象模型。机构画像是把机构和及其内部组织与成员看成一个有机的整体,来研究机构的固有属性、动态行为和规律,归纳总结与其他机构的差异性,从而构建标签化机构模型。机构是不同个体的组合,机构画像所包含的信息是不同用户画像信息的组合体,它包括静态特征(如机构名称、成立时间、地理位置和组织架构等)和动态特征(如核心成员和社团、社交网络、科技项目、科技论文、科技奖项、知识产权、指数排行等)。通过机构画像能够全面、精准、动态地呈现机构的不同特征,不但能够辅助图书馆了解掌握机构的科研动态,而且能够为机构的不同需求提供优质的知识服务,满足机构的创新发展需求[7]。
③资源画像:是以图书馆纸本、电子资源为中心,以图书馆资源的基础属性、媒体类型、内容属性和资源热度等方面入手,建立图书馆资源数据体系,构建能够清晰描述资源全貌、全面表达资源特征、深入挖掘与提炼资源标签的模型集合或可视系统。基本属性主要描述的是图书资源的作者、出版社、出版时间、资源分布等数据信息。媒体类型主要描述的是图书资源的媒体类型,如文本、图片、音频和视频等数据信息。内容属性表达图书资源的主要内容、知识主题和研究领域等数据。资源热度主要描述的是图书资源被用户检索、浏览、下载次数等数据[6]。
④场域画像:又可称之为“主题用户画像”或“专题用户画像”。其主要是以图书用户画像的应用场域(主题或专题)为中心,以用户画像在图书馆领域的应用场景和智能服务为切入点,融合读者、机构、资源等多个主体信息,面向特定场域/场景构建能够清晰描述场域(主题或专题)信息全貌、精准刻画应用场域特征、深入挖掘与提炼场域应用标签的模型集合或可视系统。如:基于用户画像的知识服务、基于用户画像的阅读推广、基于用户画像的个性化推荐、基于用户画像的学科服务等[8]。
①独立用户画像:是以个体为主要研究中心,对研究个体(如:读者、课程、品目、技术、工艺等独立实体)的全貌、特征进行精准的表达与刻画,深入挖掘与提炼研究个体场域应用标签的模型集合或可视系统。独立用户画像用来表达研究群落中最核心和重要的对象个体,如:读者/用户对于图书馆智能化服务的画像构建;某门核心课程在教育教学过程中的画像构建;某个品目(生猪、牛、羊、鸡、果树、花等)在科研过程中的画像构建。
②群体用户画像:是以组织为主要研究中心,对研究群组(如:机构、院系、团队、社团等)的全貌、特征进行精准的表达与刻画,深入挖掘与提炼研究个体场域应用标签的模型集合或可视系统。群体用户画像以群组为单元来表达研究群体的信息全貌和特征。
①描述型用户画像:目标在于理解、掌握研究主体的信息全貌。通过构建描述型用户画像直观、全面、准确地表达研究主体属性、特征、行为规律等,进而使人们能够在充分了解主体信息的情况下,结合实际开展各项服务,如:通过构建图书馆读者用户画像了解并掌握学生的年级、专业、行为习惯等信息,为学生提供图书资源个性化推荐或知识咨询服务;通过构建院系/机构用户画像了解、掌握其信息,向学院提供更好的学科服务。
②服务型用户画像:目标在于通过挖掘价值信息,为图书馆提供丰富的智能服务,增强图书馆决策与预测能力,发现规律与痛点问题。并通过数据、模型、系统、服务等维度的前后关联与协作,发现背后规律,进而实现趋势预测与辅助决策。如:智能图书推介、可视展板与空间预测、智能咨询机器人等。
③评价型用户画像:目标在于整合数据信息、提供智能分类、定级与评价。通过构建评价型用户画像,梳理、分析、整合目标主体的数据信息,经数据挖掘、场景匹配、信息归一化处理等过程,最终形成能够清晰、准确表述场景特征的评价信息。如:通过图书馆读者的到馆次数、借阅信息等对读者按照主动、潜力、激发、游离等类型进行分类与评价。
智慧图书馆用户画像在不同场景和功用下,不同学者对图书馆用户画像数据维度的表述视角和内容各不相同。传统图书馆由于数据分散在各自的管理系统中,导致数据汇集困难、无法有效流通和融合应用,形成数据孤岛。在构建智慧图书馆用户画像时,需要统筹考虑校园一卡通、图书管理系统、电子资源管理与评价系统、综合门户网站、移动图书馆等系统平台,整合图书馆信息化过程中海量、多源、分散的数据资源,利用先进的信息技术,对数据进行采集、清洗与逻辑重构,形成支持数据维度构建的数据集合。同时,以用户画像构建的场域、主题、用途与价值入手,在数据集合中,甄选能够精准刻画用户画像的数据元素,剔除冗余,形成能够准确支撑用户画像构建的数据体系,进而实现智慧图书馆用户画像的精准刻画。本文在智慧图书馆用户画像数据描述和实践的基础上,结合用户画像构建的实际数据需求,提出用户画像的数据维度应从自然属性维度、行为偏好维度、情境与环境维度、网络社交维度、实体联系维度5 个方面刻画,共同构成智慧图书馆用户画像的五维数据体系模型,其构建过程见图1。
图1 智慧图书馆用户画像五维数据维度模型构建过程
①自然属性维度:是智慧图书馆构建用户画像的基石。自然属性维度用来描述不同用户画像分型构建主体的基本情况,数据结构较为固定,主要为静态信息。以读者用户画像为例,其自然属性维度的数据标签主要包括用户ID、姓名、性别、籍贯、年龄、学历、职业职称、所属单位与部门、邮箱、电话等信息。在智慧图书馆用户画像不同分型构建过程中,自然属性维度的定义并不是一成不变的,可根据构建用户画像分型的实际情况(如:读者画像、资源画像、机构画像、场域画像等)进行数据归纳和重构,形成较高层级、颗粒度较为粗放的自然属性维度数据,以满足不同分型用户画像构建要求。采集自然属性维度信息的目的主要是为了更加清楚地刻画用户画像主体,以此为据构建画像骨骼印象,勾勒画像主体轮廓。自然属性维度信息的选取对精准构建用户画像起着至关重要的作用,一方面,自然属性维度数据采集的越全面,则画像主体轮廓刻画与构建就会越精准,画像基础也更加牢靠;另一方面,自然属性维度数据的采集也并不是越多也好,还要根据用户画像的构建目的,选择有价值的数据信息,避免造成数据冗余和隐私泄露。
②行为偏好维度:是智慧图书馆构建用户画像的核心。行为偏好维度用来反映不同用户画像分型构建主体的行为偏好与行为特征,数据来源广泛,数据结构灵活,一般为动态信息。以读者用户画像为例,其行为偏好维度的数据标签主要包括检索、浏览、借阅、下载、试读、评论、分享、复制、收藏、预约等行为特征信息和作者、内容、学科、主题等阅读偏好信息。用户画像的行为偏好维度根据获取方式的不同,一般被分为显性和隐性2 种类型。显性行为偏好维度数据一般是根据用户画像分型的主体特征不需要深入的数据发现便可获取的行为数据。而隐性行为偏好维度数据是隐藏在行为特征背后的数据,需要通过深入数据挖掘和模型计算,结合某一种用户画像分型构建主体特征得出的行为偏好数据。行为偏好维度数据既可来自于网站、馆藏目录检索系统(OPAC)、空间预约系统、数字资源管理平台等系统平台,也可来自于情景环境、网络社交以及实体模型。在使用行为偏好维度数据构建智慧图书馆用户画像时,应注意行为偏好维度甄选尺度和刻画数据内容,以便构建出精准、满足场景需要的用户画像。
③情境与环境维度:是智慧图书馆构建用户画像在行为偏好维度上的情景与环境补充,是将情境数据与环境数据融合到智慧图书馆用户画像构建的重要数据内容。情境与环境维度数据一般包含自然环境、时间情境、位置情境、访问情境、活动情境、心理情境等。其中,自然环境、时间情境、位置情境、访问情境、活动情境强化用户画像的时空特征;心理情境则反映情绪与思维变化。例如,满意程度、喜欢程度、情绪状态等。情境与环境维度的信息一般来自于智能终端设备、传感器、Wi-Fi、蓝牙、RFID、GPS 和环境监测系统等。在使用情境与环境维度数据构建用户画像时,应注意情境数据、环境数据与自然属性维度数据相互关联,增强用户画像的时空特征和心理情境,更精准、动态地反映特定时空下的行为偏好与需求。
④网络社交维度:是智慧图书馆构建用户画像在行为偏好维度上的网络社群关系补充,是网络社群关系数据融合到智慧图书馆用户画像构建的关键。网络社交维度数据通过点赞、分享、评论、讨论、互动、关注、引用、被引、情感态度等交互行为,将原本看似没有关联的特征数据融合在一起,构建社群关系网络图谱,挖掘行为兴趣偏好。用户不仅是信息的使用者,更是信息内容的创造者与传播者。通过网络社交维度数据可以发现相似社区群落、挖掘社区群落特征与行为规律,扩展用户画像构建数据来源与内容,使得智慧图书馆用户画像构建与应用的覆盖面更加广阔。
⑤实体联系维度:反映智慧图书馆构建用户画像相关实体对构建主体的影响,是构建精准用户画像在业务场景上的补充。不同场景下用户画像的构建,与其所处在的业务环境密不可分。因此在研究用户画像时,应该将一定场景下的相关实体和联系考虑在用户画像的构建之中,进而刻画更加精准的用户画像。如,在高校图书馆用户画像构建的数据维度中,应将处在高校场景下的教务、科研、机构和保证等数据考虑其中,建立联系,辅助用户画像的精准构建。
信息技术的快速发展给智慧图书馆用户画像研究带来了新的发展和新的机遇。用户画像已然成为高校图书馆实现智慧化发展的全新理念、先进技术和场域模型。文章总结前人的研究成果,将图书馆用户画像划分为本体、群落和功用3 类视角9 种分型,构建包含数据自然属性维度、行为偏好维度、情境与环境维度、网络社交维度、实体联系维度在内的五维数据体系模型。通过对用户画像在智慧图书馆建设中的内涵、分型、数据维度进行深入剖析,系统阐述了用户画像应用于图书馆领域的基础内涵与数据体系,进而为智慧图书馆快速应用用户画像开展理论应用、模型构建、系统研究、实践运用与服务创新等诸多方面提供数据支撑和参考依据。