尹婷婷,曾宪玉(西北工业大学图书馆)
用户画像作为大数据背景下信息资源服务的有效算法,针对用户相关数据信息及其在网络使用过程中的行为数据信息进行提取与挖掘,从而能够针对目标用户预测并获取完成满足用户需求的资源数据[1]。基于此,本文在深入分析信息资源与高校数字图书馆用户需求之间内在联系的基础上,采用目前已在人工智能、信息处理等领域取得广泛实践应用的用户画像技术,充分挖掘高校数字图书馆信息服务中具体信息资源与师生读者用户资源需求之间的关联性,建立基于用户画像技术的高校数字图书馆信息服务理论模型,并探讨与之相关的数字图书馆信息服务的具体应用模式。
“用户画像”由交互设计之父Alan Cooper提出:“用户画像是构建能够反映出目标用户真实数据信息情况的虚拟模型”[2],包括用户的基本信息及行为信息等用户特征属性数据,在用户画像模型建立过程中主要利用数据挖掘技术完成对用户及用户群组贴“标签”的处理工作,并将由此获取的各种类型的“标签”数据利用具体的组合规则归纳、汇聚完成后,形成建立用户画像模型的全过程[3]。因此,基于用户画像的建模过程主要是通过对描述用户的属性信息进行挖掘,提取出能够描绘用户特征的标签信息,从而达到能够识别不同用户的目的[4]。在图书情报领域,王顺箐在分析总结用户的个人爱好以及资源需求数据的基础上,在用户画像背景下构建了读者阅读推荐系统模型[5];单轸等基于文献分析法,对国内图书领域用户画像技术的发展现状及未来发展方向进行详细归纳与总结[6];赵岩通过分析读者用户对馆藏资源的需求信息,利用用户画像技术构建馆藏资源个性化推荐服务模型[7];胡媛等利用聚类、关联规则完成对知识社区用户画像可视化模型的构建[8];陈冬玲等基于用户兴趣的描述文件,提出用户画像背景下用户个性化搜索的建模流程[9]。因此,通过总结信息领域、图书情报领域关于用户画像技术的已有研究成果,发现其研究的侧重点主要集中在用户模型的详细构建方法以及数据资源的推荐与推送等具体方面,而用户画像在高校数字图书馆信息服务中的研究与实践仍需重点关注与深入探讨。
在“互联网+”的信息时代背景下,依据用户的个性化资源需求,数字图书馆通过对所需相关信息资源进行收集、整理、归纳和分类之后,向图书馆用户推送其所需的资源数据,为其提供信息服务。具体而言,续远凤从文献年代、文献出处、关键词等角度,在对近年来图书馆信息服务发展现状进行分析总结的基础上,提出数字图书馆信息服务是高校图书馆发展的重要方向,且需要利用先进的信息技术提高高校数字图书馆信息服务质量的论述[10];Wong以加州圣玛丽学院在校学者兴趣领域的科研产出成果为研究对象,构建了基于学者画像的科研资源管理模型[11];杨帆利用Hadoop MapReduce数据管理手段构建基于读者画像和资源画像技术的图书馆数据分析模型[12];刘素清在分析新媒体时代用户对决策信息个性化需求的基础上提出新媒体背景下高校数字图书馆信息服务的发展方向[13];尹婷婷等从优化馆藏资源推送、提供个性化学习路径导航服务等层面提出高校数字图书馆个性化信息服务的具体应用模式[14]。纵览图情领域内高校数字图书馆信息服务的研究成果,发现主要集中于用户对高校图书馆个性化信息服务的具体需求分析及相应的馆藏资源推送实现等内容,包括针对资源信息的各类数学处理分析方法、高校图书馆信息服务中数字资源利用率等问题的分析探讨。但是缺乏针对高校图书馆信息服务中关于用户个体属性特征及用户在使用高校数字图书馆网络系统、高校图书馆网站、相关移动网络数据平台等的浏览行为数据的考虑与研究,从而导致对高校数字图书馆信息服务对象的个人特征信息分析不够深入,对读者用户个人兴趣偏好研究不够全面等问题的存在,而利用高校图书馆信息服务获取的推荐信息资源内容也不够精准及时。在这一研究背景下,本文将用户画像技术引入高校数字图书馆信息服务领域,利用用户画像技术的独特优势构建针对高校数字图书馆信息服务的研究模型。
基于用户画像技术的高校数字图书馆信息服务应用的建模过程主要包括以下步骤:①通过在高校数字图书馆服务场景中抽取、完成用户信息的标签描绘体系;②将描绘体系标签抽取与映射,组合完成用户数据集;③应用用户画像技术完成用户数据挖掘与建模,并完成对用户所需信息服务的描述及可视化呈现[15]。其中,应用用户画像技术完成用户数据挖掘的过程,即利用大数据信息处理等数学计算方法,在高校数字图书馆相关网络系统中完成发现、提取并归纳收集有效数据信息的处理步骤,包括对描述目标用户个体属性特征,及目标用户在使用高校数字图书馆相关网络系统等行为痕迹数据信息的收集、处理等具体操作过程,以及完成对用户个体的标记步骤及标签信息处理等具体工作[16]。
针对用户数据信息的提取过程是建立用户画像模型的前提条件和基础步骤,主要的核心思想是针对用户贴“标签”的过程,随后将某一用户所拥有的各类标签综合归纳起来,就可以勾勒出该用户的画像框架,标签映射的具体步骤如图1所示。高校数字图书馆网络系统中累计着大量的体现用户个体属性特征及用户网络痕迹的数据信息,这些数据可以作为构建用户画像模型的数据来源与基础信息。但是因各类数据库保存方式的不同,这些不同种类的来源数据信息存储于不同的数据库系统内,因此描述用户信息的各类数据资源之间没有直接的相关性,甚至没有任何的关联特性。本文依据标签信息的具体内容,将针对用户的标签信息大致划分为固定数据、动态数据两类。其中,固定数据主要指的是用户个体属性特征,包括用户性别、年龄、所属学院、就读专业、联系方式等相对固定的信息数据;动态数据则主要包括用户在使用高校数字图书馆网络系统、高校图书馆网站、相关移动网络数据平台时的浏览行为数据等信息。当大量的与某一目标用户相似的标签数据信息被分析、归纳、集合后,即形成了包括单个目标用户在内的用户群组标签信息,那么群组之间的关联属性就能够建立起来,将获取的标签信息梳理、综合、聚类、归纳分析后,形成处理后的一系列标签族,从而建立能够用于用户画像的标签体系,进一步描绘用户以及用户群组的画像过程,为用户画像模型的构建提供指引和数据基础。
图1 标签映射管理流程
作为用户画像技术的数据来源,高校数字图书馆获取到的目标用户数据信息具有结构不一、数量庞杂、存储格式复杂等特点,根据具体存储格式的不同,获取的数据信息可以具体划分为结构化和非结构化两种类型[17]。总体而言,结构化数据信息主要包括用户个体属性特征信息,结构化数据具有相对的标准性和规范性,同时信息形式相对单一、数据信息易分析、易存储;非结构化数据的获取多来源于目标用户在使用高校数字图书馆网络系统、高校图书馆网站等的浏览行为数据。总体而言,因数据存储格式的差异性,与结构化数据相比,非结构化数据信息的处理过程更具复杂性。然而,对于这两类具有不同存储结构的数据而言,均可以通过统一的数据处理过程(包括将数据分解为元数据单元,数据分类,数据清洗等)后,获得能够用于用户画像建模过程的可用数据信息。在这一处理过程中,需要运用精确的数学分析技术剔除无用数据信息,包括重复数据、干扰数据等信息,进一步提高用户画像模型预测结果的精确性和科学性。
基于用户画像的数据挖掘与建模过程主要以用户对高校数字图书馆信息服务需求为研究基础,构建与用户资源需求相符的数据挖掘模型,从各类目标用户数据集中查找、提取并归纳某一用户对应的标签值[16],建立完整的标签信息管理体系,实现各类标签信息的挖掘、标引及无用标签信息的剔除等具体实现步骤,实现数字图书馆信息服务对各类标签信息的灵活调取。在模型构建数据处理分析过程中,利用知识检索、信息过滤等人工智能处理技术,完成目标用户对所需资源数据信息的提取与归纳操作。同时随着目标用户个体属性特征及用户在使用高校数字图书馆网络系统、高校图书馆网站、相关移动网络数据平台等浏览行为数据的不断更新,构建用户画像模型的过程也需要实时更新完善,这有益于更加科学、合理地进行数据信息的挖掘与处理工作。
基于以上思路,按照用户所需资源数据信息的具体处理步骤[14-15],构建由数据来源层、数据整合层、数据挖掘层及数据显示层构成的基于用户画像的四层数字图书馆信息服务模型(见图2)。
图2 基于用户画像的四层数字图书馆信息服务模型
(1)用户个体属性特征及其在使用高校数字图书馆网络系统、高校图书馆网站、相关移动网络数据平台的浏览行为数据构成了数据基础层的数据来源,依据数据来源层数据信息具体内容的特征,将数据来源层数据分为目标用户属性特征、目标用户兴趣爱好及目标用户网络互动三类。这三类数据依照各自的数据格式存储于不同的数据存储系统中,其中目标用户网络互动数据主要包括目标用户在使用高校数字图书馆网络系统、高校图书馆网站、相关移动网络数据平台等的留言、评论、转发等互动数据信息。
(2)数据处理层是实现目标用户个体属性特征及用户在使用高校数字图书馆网络系统、高校图书馆网站、相关移动网络数据平台等浏览行为数据信息获取、整合的关键层,其主要利用数据处理技术对获取到的数据信息进行处理、分析、归纳、总结等操作,包括利用ETL工具实现用户标签值信息提取等操作,从而得到能够用于后续用户画像技术处理流程的有效数据集合。在数据处理层处理数据信息时,需要着重考虑关于有效信息的映射、无效信息的剔除等一系列自动处理过程,获得能够用于用户画像模型的可用、有序、规范的数据集合。
(3)数据挖掘层是用户画像模型构建过程中的核心,主要通过利用前三层处理得到的数据信息集合,结合用户群体针对资源信息的搜索、利用、社会属性等偏好以及资源信息基本特征、读者用户对资源信息的已有评价等数据,基于已构建完成的标签模型库,利用数据挖掘技术对目标用户及目标用户群体进行聚类、关联分析,从而建立单个目标读者用户画像库及群体读者画像库,完成读者用户画像的构建。随后,针对建立的读者用户及群体读者用户画像模型,分别将读者用户画像库及群体读者画像库信息数据与读者用户及读者用户群体所需的资源、信息服务进行多层次、多角度、全方位数据分析匹配,获取针对特定读者用户及特定读者用户群体的用户画像模型数据信息。
(4)数据展示层的主要作用是依据用户的需求,将经过前三个步骤获取的标准化存储数据信息以可视化方式呈现在教育资源交互平台上(包括已有资源介绍、知识发现系统、知识搜索系统、资源查找路径、针对读者的个性化信息服务等具体内容),进一步增强所需信息资源显示的直观性,方便用户的查找,提高信息资源的利用率,为读者用户及读者用户群体提供科学、高效的信息服务。
西北工业大学数字图书馆于2000年开始建设数字图书馆信息资源共享网络平台,建设的内容主要以校内共享的知识检索、知识获取为主,为全校师生提供包括已有馆藏资源、各类高校联盟团体在内的知识资源发现等相关信息资源的辅助性教学服务。本文以西北工业大学图书馆信息资源共享网络平台以及西北工业大学师生用户群体为研究对象,依照构建的用户画像模型,完成关于西北工业大学全校师生用户行为数据信息的收集与分析工作。同时基于用户画像完成针对师生用户数据信息的挖掘与处理工作,实现对师生用户所需信息资源的推送服务等具体流程,完成用户画像在数字图书馆信息服务中的实践研究。
构建用户画像模型,首先需要确定用于用户画像模型构建所需的数据信息,包括用户的基本属性、用户兴趣爱好及用户互动数据等一系列数据信息。具体而言,用户基本属性为静态信息,可以从用户的校内一卡通及学籍信息中获取;用户兴趣爱好及用户互动数据等属于非静态的信息,可以使用各类数据信息标记方式实现对动态变化信息的跟踪与获取[15],其中高校数字图书馆信息服务用户数据体系的组成情况如图3所示。在满足以上各种异构数据信息具体存储格式的基础上,设立数据信息解析规则,构建完成针对读者用户的静态信息及动态信息的描述与聚类分析。
图3 高校数字图书馆信息服务用户数据体系
通过西北工业大学图书馆信息资源共享网络平台获取用户行为的静态信息和动态信息为基础数据集合,结合用户的已有搜索信息和针对资源信息的下载量、浏览时间等多层面信息,依照具体的标签提取规则,完成关于用户的固定属性、访问环境、忠诚度和研究兴趣等各类标签体系属性值的抽取及标注工作。随后将已建立的目标用户对于资源需求的标签集合与已有资源数据集合进行匹配[14],并依次完成:对已有资源数据内容的提取、归纳、分类;针对目标用户信息的梳理、提炼、聚类形成处理后的标签族,并聚合生成单个用户所在的用户群组标签信息;通过标签组的增删功能完成对标签体系的集中管理流程;将获取的用户标签信息映射到相关的资源数据集合中[15](见图4)。最后,为实现对数字图书馆用户画像的可视化管理,以Solr为代表的索引管理工具设计了索引的存储规范,以下拉列表的形式实现对历史搜索关键词语的显示与呈现,为用户及用户群体提供科学、高效的信息服务。
图4 基于用户画像技术的高校数字图书馆信息服务流程
基于用户画像的高校数字图书馆信息服务模型的实践应用能够精确描述用户的各类属性特征,将这些属性特征进行标签化处理后能够科学、深层次地挖掘目标用户对数据资源的需求信息,并可为数字图书馆电子资源的采购以及知识服务设计等个性化知识服务提供有力支持。但就目前用户画像技术在高校数字图书馆信息服务领域的发展现状而言,仍面临诸多难题与困难。如,提高有效信息资源的利用率及实现标签实时标引等存在难题,仍需高校数字图书馆进一步针对存在的诸多挑战进行深入研究,以切实提高用户及用户群组标签信息转化为有效信息的比例,并精准预测潜在用户的行为趋势,为高校数字图书馆信息服务的精准实现提供更有力的支持。