用户画像建模技术在学科服务中的应用探讨*

2019-11-08 01:27:44马管李娜马建霞
数字图书馆论坛 2019年9期
关键词:服务者画像标签

马管 李娜 马建霞

(1.中国科学院西北生态环境资源研究院,兰州 730000;2.中国科学院兰州文献情报中心,兰州 730000;3.中国科学院大学经济与管理学院,北京 100049)

20年前清华大学图书馆率先在国内引进学科馆员制度,开启了中国大学图书馆学科服务的先河。此后,学科服务凭借其独特的优势逐渐成为高校图书馆最具影响力的主流业务和服务模式之一[1]。然而近年来,学科服务在当前大数据环境下开始面临不小的挑战。一方面,呈指数级增长的网络信息资源常常让用户迷失在信息的海洋里,信息过载、资源迷向等问题难以避免;另一方面,用户的需求也愈发多样化和专业化,传统学科服务满足学科用户“千人千面”的信息需求可谓相当困难。如何为学科用户提供更加精准的信息资源必然是下一阶段学科服务领域应着重关注的一个问题。而近来受到诸多专家学者关注的用户画像技术或可开启学科服务新局面。

美国网络专家Alan[2]首次提出用户画像(persona)这一概念,他认为用户画像是建立在众多实际数据之上的目标用户模型。自这一概念提出以来,用户画像首先为电子商务、计算机等领域争相应用。近年来,用户画像在图书情报领域也逐渐得到关注和应用,但整体而言,图情领域对用户画像的研究仍处于萌芽阶段[3]。国内外现有研究多集中于从传统用户研究不断探索应用新技术及算法的进程中,且多注重阅读推广、资源推荐等,对学科服务鲜有涉及。调研文献发现,截至2019年7月,国内图情领域有关用户画像的文献已近50篇,仅有1篇文献直接关于学科服务,其提出以“人的完整概念”定义用户,并依此提出创建学科用户画像的一种设想[4]。本研究拟从学科用户画像建模的可行性和必要性入手,尝试厘清学科用户画像建模的具体流程,并探讨基于用户画像模型的精准知识服务模式与机制,以期为当前的学科服务带来一种新的思路。

1 可行性与必要性分析

1.1 可行性分析

(1)大量用户数据的积累。构建用户画像的基础在于丰富的用户数据,用户数据越全面详细,用户画像构建便会越准确。如今,我们最不缺少的恰恰是用户在网络中留下的种种“脚印”,这一点对于学科用户亦是如此。学科用户在各高校及研究院所内网、各数字资源服务系统等网络平台的行为日志一般皆存有记录,具备可回溯性,且数据量庞大,完全可用于进一步的挖掘分析。近年来,用户画像能得到如此大规模的发展应用,很大程度上是由于海量用户数据的支撑。

(2)多领域应用的可借鉴经验。前文提到,用户画像早已应用于诸多领域,如在电子商务领域,Amazon、阿里巴巴等电商巨头通过用户画像建模,为用户推送个性化内容,很大程度上提升了用户的忠诚度和购买体验;在互联网金融领域,对用户数据标签化处理,进而应用于个人信用评价、企业风险管理等方面[5];在新闻推荐领域,通过用户浏览的不同新闻提取用户特征,并采用PU Learning的方法来解决用户画像建模时难以得到负反馈数据的难题[6]。虽然各个领域应用该技术的针对性有所不同,但其核心目的在于为用户提供更加精准、个性化的服务内容。更重要的是,各领域用户画像的建模流程具有一定的相似性,从获取数据到分析数据,我们都可以借鉴参考。而且随着研究的深入,改良的、新的模型和算法等不断被提出,这些都为用户画像应用于学科服务提供了良好的范例和稳固的基础。

1.2 必要性分析

(1)用户角度:提供精准服务、深度服务。随着各学科间呈现出交叉融合及不断细化的趋势,学科用户的研究领域和方向也常会随着学科前沿热点、具体研究课题等发生改变,这就意味着用户需求并非静态的,而更趋向于动态变化。此外,学科用户群体构成宽泛,学生、教师和固定科研人员等不同身份的用户,即使处于同一学科领域,其需求也常常各有特点。而通过为不同用户进行画像建模,可有效消除多变性、差异化的用户需求与常态化、无差别服务的矛盾,使服务更具有针对性,从而实现“予人所求”“各取所需”的设想。

此外,用户的隐性需求往往难以捕捉,它是指用户客观上具有、但尚未表达出来或未充分表达出来的信息需求,大部分存在于用户的潜意识之中,其他人很难察觉,甚至有时用户本人都意识不到[7]。构建用户画像的作用之一在于弥补这一缺陷,通过描绘其特征画像,在一定程度上对用户获取知识的规律及方式关联显示,描述知识点与知识点、知识点与用户、用户与用户之间的相互关系[8],从而尽可能在深度上拓展服务。

(2)服务者角度:创新服务模式,提高学科服务认可度。基于用户画像的学科服务将利用关联规则、知识发现、分类、聚类等手段分析出用户的行为偏好、查阅习惯等,为用户提供契合其心意甚至可谓“意外惊喜”的服务。同时,随着用户在网络上留下的数据越来越多,构建的用户画像愈详细准确,服务自然也会愈加优质,而且这种服务不会打扰到用户,类似手动填写问卷调查等传统方法的使用率将大大降低,达到“润物细无声”的服务效果。这种新型服务方式对服务者而言,无疑也是高效的。

此外,由于学科用户群体庞大,以及用户与服务者空间上的阻隔,这就意味着服务者难以通过面对面交流等形式来切实地了解每一个用户。而基于用户画像,服务者可较全面地了解某一用户的习惯特点,进而充分满足用户需求,让用户感受到服务者的专业和尊重,有利于学科服务工作模式得到更多受众的认可,服务者的声望自然也会提高。

2 用户画像建模流程

在分析了用户画像应用于学科服务的可行性及必要性后,本节将从工作准备及数据来源、数据分类及标签化处理、画像建模等方面阐述模型的具体构建流程。其中,明确数据的来源是画像建模的基础,数据的分类及其标签化处理是画像建模的关键,最终画像建模的成功与否与前几个环节的完成度息息相关。

2.1 工作准备及数据来源

获取学科用户的数据之前,我们首先要明确学科服务的用户类型、范围,除了学科骨干、带头人以外,该学科的教师和学生等相关者也不应被我们遗漏。要尽可能地找出存在的各种用户类型,然后才能“量体裁衣”,为他们设计出切实可行的建模流程方案。

学科服务用户的数据来源主要可以分为:①高校及研究院所内部的各数字资源服务平台(图书馆门户、机构数据库、教务系统、选课系统等)的用户实名注册信息;②用户在各服务平台中的检索、浏览、下载、咨询、RSS订阅等行为数据;③用户订阅、关注、收藏各移动平台(微信公众号、移动图书馆、微博、知乎等APP)内容的行为数据。然而,因各平台互相独立,用户数据处于不同的系统平台,这便涉及数据的整合问题,用户数据互联互通是首先要完成的任务[9]。主要有3种思路:①如今大部分高校及研究院所用户在不同平台均绑定同一账号(校园一卡通等)作为登录账号,各个系统平台的数据可以进行相互关联;②实名注册的前提条件下,即使用户在不同平台使用不同的账号登录,也可以通过用户行为数据与用户基本属性数据完成对接;③用户在调研、反馈的过程中主动提供相关数据作为补充、参考,这一手段仅作为非必需、次要手段候选。这些数据共同构成学科用户的画像数据来源。

2.2 数据分类及标签化处理

在收集了大量的学科用户数据之后,需要对这些数据分类归纳,从而辨别出有价值的数据。用户数据既包括相对稳定的用户基本信息,也包括经常发生变化的用户行为信息,即静态数据和动态数据。学科服务的用户画像首先根据用户的静态数据对用户初步“刻画”,然后再依据用户的动态数据完善和修正画像[10]。本节将数据主要分为5类,如表1所示。

表1 用户数据分类

(1)用户基本信息。基本信息通常是用户在各系统平台注册时的一些个人基础属性,如姓名、性别、出生年月、专业及研究方向、年级、职称、家庭地址等,这些信息大致可以代表用户的基本身份,可以构建出用户画像的大体轮廓。

(2)用户偏好数据。用户偏好数据通常包括获取资源的常用平台、登录频次、访问时间、浏览路径、在线时长,以及对资源类型的咨询、浏览、阅读、检索、下载、收藏等记录。笔者认为,这部分数据对服务者而言是最关键的,因为它最能表现出用户的学科行为习惯和喜好。

(3)用户互动数据。与其他用户资源的互动,如分享、收藏、评论、点赞某篇文献就可以归为互动数据,这部分数据不仅可以表现出用户的情感倾向,还可以显示出与其他用户之间的“亲密”关系,从而形成关系链接网络。

(4)用户反馈数据。用户在使用各资源服务平台及接受学科服务过程中遇到的种种问题或者相关的建议、需求,如觉得某个领域的文献资源过少、某个方向的专利分析不够详细等都可以通过意见窗口提交、反应,这是用户自身最直接、最明了的诉求。

(5)用户安全数据。用户对有关自身隐私的安全性数据的安排,即用户有权决定是否允许服务者获取利用数据或者使用哪些数据[11]。即使用户在注册阶段勾选了某些条例,服务者也应做好对用户数据的保护,在没有得到用户的首肯时,绝对不可以共享甚至出售用户的数据,这一点恰恰是服务者多不曾提及、注意到的。

在此以举例解释说明某学科用户A的画像数据:A,男,26岁,博士二年级,从事冰冻圈领域研究,曾获国家奖学金,已有1项专利发明;常于上午登录Web of Science平台,约一周4次,且文献类型多选择SCI,并按时间排序,同时下载会议文献较多;乐于将自己喜欢的文章分享到微信平台,并在“科学网”开通了博客,与B、C用户互相评论较多;曾数次询问学科馆员近期有无冻土圈领域相关会议,希望得到及时通知;为了获得更好的服务,允许使用关于自己的数据,但是禁止其他目的的使用。

完成用户数据分类后,接着对数据标签化处理,进而建立起用户的标签体系,见图1。标签体系中每一个标签都是某一种用户特征的符号表示,一方面该标签使用符号来表示用户的一类特征,可以是中英文或者数字;另一方面要具有一定的群体性,在一定程度上抽象和归纳事物的特征。其核心目的在于,为用户打上的标签既要让人能够理解,也要方便计算机识别处理,从原始数据到最终的用户标签,从数据清洗到数据挖掘与机器学习,都能够归纳、总结,最终实现从事实标签到预测标签的成功建立[12]。

2.3 画像建模

采集所需的用户数据,并对数据进一步分类,形成用户间各自的标签体系。经过上述多重步骤后,用户画像模型的构建已经完成一部分,最后一步的工作是要建立起准确、完整的学科用户模型库。如图2所示,学科用户的画像模型可以分为3层,即原始数据层、行为识别层及挖掘分析层。

原始数据层是建模的根本所在,其整合贯通了各系统服务平台的数据,同时对数据来源进行合理组织。行为识别层的目的在于,将采集到的用户行为数据分类处理,并对不同类型的行为数据依据权重排序、确定优先级,然后有序存储到用户行为数据库中,还要注意对数据库的定期优化、更新,随时准备数据修正[13]。挖掘分析层是画像建模的关键核心层,是大幅度提升用户认可度、满意度的重要层级。经过数据清洗、集成、分类等技术处理,用户画像标签逐渐完善,用户个人画像愈加清晰,用户群体画像及关系图谱通过聚类、关联分析等技术方法也得以形成,最后可将分析结果以可视化方式推送给用户并接受其反馈。在已有数据标签的基础上,可以通过有效的推荐算法为用户匹配其所需的服务,更重要的是,要对数据深层次挖掘分析,利用机器学习、神经网络等技术学习用户数据,模拟用户行为,进而发现其潜在需求,并尝试预测出其未来可能产生的需求,真正实现“想用户之未想,为用户之欲为”。

图1 学科用户“标签化”形象示意图

图2 学科用户画像模型框架

3 应用实例分析及场景拓展

目前我国图情领域用户画像的相关研究多为理论层面,实践应用尚处于起步阶段。其中,国家图书馆、中国科学院文献情报中心、国家科技图书文献中心、中国农业科学院国家农业图书馆以及天津大学图书馆等机构都属于该领域探索实践的“第一梯队”。笔者将以中国农业科学院国家农业图书馆为例进行分析,并进一步对用户画像或可助力服务者发挥更显著作用的诸多场景予以构想、拓展。

3.1 国家农业图书馆案例分析

中国农业科学院国家农业图书馆依托中国农业科技信息资源共建共享平台与农业专业知识服务系统两大平台,成功构建了农业科研用户画像业务系统,为更精准的知识服务提供了强有力的支撑。

该馆首先明确了以用户的静态属性数据和动态属性数据为基础、以“数据收集—模型构建—标签提取及迭代调优等”为技术路线的用户画像系统总体建设思路,接着对用户的行为及数据进行监测和采集,目前收集到的用户行为数据已达上百万条,其中日志量约占85%,业务数据量约占15%[14]。同时,为确保用户行为数据的持续更新,建立全天不停运转的数据传输中台,保证了数据库的存储与同步。然后根据已有数据,初步构建了后台服务监测及用户画像可视化系统,系统可直接读取真实用户的实时访问日志数据,同时提供标签管理和维护功能。此外,可按照系统中页面访问量、独立访客访问次数、搜索量、停留时间等7个维度对单个用户的表现进行展示;还可结合多个标签、多重维度的复合筛选查看某个特定群体的用户特征。用户访问高频时间段、关键行为发生的时间趋势以及特定时间段内用户浏览的资源等信息都可以在后台观察到,更有在21个维度的标签行为体系下制定的用户活跃度量化规则,通过对每个用户的累计访问月数和生命周期月数进行计算,用户活跃度一目了然。更令人惊喜的是,该系统并未局限于传统框架,甚至面向30多家单位提供了一个机构画像的可视化门户,用户检索相关关键词后,可以十分直观地了解到各省农科院的学科重点分布情况。在实际服务应用层面,该馆亦取得初步进展:对知识发现引擎加以改进,基于用户行为大数据做了检索词的推荐,同时将用户行为偏好量化为计算因子,构建多因子混合排序模型改进检索排序效果。

整体而言,该系统框架结构清晰,功能较为全面,数据在更新、存储方面都有相应的考虑和保障。最重要的是,负责团队一直在积极推进系统的实际落地应用,为用户提供精准优质的知识服务而不断努力。虽然系统仍存在一些不足和缺憾,如用户学术成果数据缺失、标签体系待进一步优化、内容推荐系统尚未落实等,但其在用户画像实践方面的努力和经验是非常值得后来者参考借鉴的。

3.2 应用场景拓展

(1)学科信息素养教育。为帮助用户提高信息检索获取等方面的能力,诸多高校图书馆都提供学科信息素养教育服务。然而,常规的学科信息素养教育虽然并不缺乏主动性,却存在一定的盲目性,如针对某一特定学科类型数据库的培训,往往以公告形式周而告之,难以全面覆盖用户所需群体[15]。而利用用户画像模型就能够对学科用户群体划分归类,同时识别出当前对特定领域感兴趣的用户,精确定位用户群体后,可以以电子邮件、后台通知等方式通知到用户个人,继而根据用户回复参与情况决定线上或线下培训方式。

(2)馆藏资源建设及关联推荐。学科馆藏资源建设是学科馆员的一项重要职责,具体包括荐购新书、下架旧书以及试用评估各类新型数据库。一般而言,用户可以将所需图书资源直接推荐给学科馆员,但仍不免会出现用户因觉得烦琐等缘故而作罢的情况。针对这种情况,服务者可以通过分析用户行为数据,如检索记录,一旦有某本书检索记录较多但馆藏空缺的状况,便能够及时准确购买上架相应书籍,最大程度地保障学科馆藏资源建设的合理性。此外,对聚类后的用户群体进行划分,标注具有相似行为或相近研究领域的用户,若其中一位用户查阅了某本书籍、收藏了某篇文章等,可以将相关内容推送至其他用户。

(3)嵌入式科研支撑服务。主动为科研团队提供嵌入式科研全过程的支撑服务是学科馆员作用的一种重要表现。及时关注用户基本信息与偏好数据的变化,若发现用户有申请基金项目的趋势,经主动询问确认后,运用科研评价文献资源与情报分析技能,充分发挥自身优势,从项目申请阶段的文献调研、学科态势发展分析、科技查新,再到项目研究过程中的学术信息定制、同行对比与追踪,乃至结项成果产出阶段的期刊分析、科研绩效评估等,都可以发挥重要作用、提出有效建议,全程实现行为上主动跟进、时间上更为及时的效果[16-18]。

(4)合理打造、利用多元学习空间。近年来,部分高校图书馆对于如何推动空间再造、更好地开展空间服务做出了一系列探索和实践[19-22]。其中,打造学习空间是服务者为满足用户多元化的学习、休闲等需求而着重推动的一项服务。例如,中国科学院大学图书馆(雁栖湖校区)就设有若干学习研讨空间,配有投影仪、会议桌椅、网络接口等设备,全校师生可通过微信或网站进行预约[23];此外,众多高校图书馆大多也提供自习室预约系统。服务者掌握用户数据后,可以总结分析用户预约的规律特征,及时展示更新空间、座位的空闲状态,合理打造、利用多元学习空间,尽量使图书馆空间达到平衡状态,同时还为用户节约时间,促使其更便利地学习交流。

4 结语

学科服务在我国已有20余年的发展历程,有效地协助了诸多学科用户、科研用户的工作。然而,用户的服务需求在不断升级,新技术的出现以及信息数据的爆炸式增长对当前的学科服务模式既提出了挑战,也带来了机遇。用户画像作为近年来的研究和应用热点,极大地改善了用户体验,值得我们为更好地开展学科服务工作而考虑引入。通过对学科用户数据全面整合及深入挖掘,以用户画像建模方式为知识服务提供新的理念和思路,促进用户知识管理和利用,势必为学科服务层次和深度的提升乃至学科服务机制的转变提供支持,对于探索开展嵌入式知识服务和协同开展科研创新工作也有着重要的实践意义。

当然,用户画像这一方法并非万能,抛开技术上的难度不谈,不足之处在于其全部过程皆依托于网络,当面对不常利用网络获取信息的某些学科用户时,该方法很可能达不到预期效果。换言之,应用该技术的目的绝不在于彻底取代服务者的亲身实践,而是作为一种助力手段,促使学科服务进一步完善发展。

猜你喜欢
服务者画像标签
基于演化博弈的铁路代理服务主体行为策略选择研究
威猛的画像
“00后”画像
画像
复杂通信设备内部通信技术的研究与应用*
通信技术(2019年9期)2019-10-09 05:23:08
做全球冶炼企业的高端服务者
——上海善吉国际贸易有限公司董事长吴晗访谈
魅力中国(2019年5期)2019-04-26 02:28:06
无惧标签 Alfa Romeo Giulia 200HP
车迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉标签的人,都活出了真正的漂亮
海峡姐妹(2018年3期)2018-05-09 08:21:02
后工业化对“执行者”角色政府的挑战及转变
党政研究(2016年3期)2016-05-21 19:53:49
标签化伤害了谁