谈松英,杨 敏
(上海开放大学 人文学院,上海 200433)
用户画像由交互设计之父阿兰·库珀 (Alan Cooper)最早提出,是真实用户的虚拟代表,也是建立在一系列真实数据之上的目标用户模型。其意义是指通过对用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后从每种类型中抽取出典型特征,赋予名字、照片及一些人口统计学要素、场景等描述,形成一个人物原型。简而言之,用户画像是根据用户社会属性、生活习惯和消费行为等信息抽象出的标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”。这标签是通过对用户信息分析而来的,是高度精炼的特征标识[1]。
本文以2010-2017年知网全文收录的研究文献数据分析为基础,进行大数据分析视野下的国内用户画像及其在开放教育研究中的运用研究综述。
百度指数(Baidu Index)作为国内以百度海量网民行为数据为基础的数据分享平台,是近年来国内互联网及其相关数据运用的一个重要的统计分析平台。百度指数显示,近年来“用户画像”这一关键词的搜索规模整体呈上涨态势(见图1),可见其关注度在日益提升。
“用户画像”这一概念及理论一经提出,不仅在交互设计领域很快得以传播,也在实践中被大范围推广到社会许多层面,成为数据分析技术在各行业的重要落脚点。作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,很多企业尤其是互联网企业将用户画像技术应用于产品运营,如产品推广、信息推送、精准化营销等。国内一些高校也将用户画像应用于图书馆服务、挂科预警、学籍预警、思想动态分析等。
图1 “用户画像”百度指数
本文选取中国知网(CNKI)作为检索数据库,以“关键词”为检索项。先以“用户画像”为检索词,检索到文献112篇;又以“学习者画像”和“学生画像”为检索词,检索到了6篇文献。时间跨度选取2007-2017年,数据采集的时间为2018年2月1日。
在知网搜索出文献后,借助知网提供的分析工具以及NetExpress软件,从年度发文量与出版类型、文献来源与作者群体特征、研究机构分布与研究合作情况、学科分布与研究基金、高频关键词与研究主题等多角度进行文献计量分析及可视化分析,并对定量分析结果进行解释,并结合定性研究方法,分析10年来我国用户画像研究的发展情况。
图2 文献发表数量年度走势图
样本数据中的文献发文量如图2所示,用户画像在2014年前并没有受到国内研究者的关注,仅2010年有1篇文献,即郑宝鑫等人的《基于用户画像、信令挖掘技术的手机游戏产品推广》。近三、四年来,研究者对其研究热度逐渐增加,这与百度指数的走势图正好相吻合。从趋势图整体走势可见,国内对用户画像的研究正不断深入,研究成果逐年增加。但文献总量目前较少,仅100余篇,仍有很大的探索研究空间。
出版类型以期刊论文为主,共81篇,占68.64%,博硕士学位论文有30篇,占25.42%,会议论文6篇,占5.09%,辑刊1篇,占0.85%。
118篇文献来源于90多处,从整体上看分布比较分散。发表文献2篇或2篇以上的期刊或出版机构为11个,最多的是《邮电设计技术》期刊,但也仅有4篇(见表1)。与开放教育相关度较高的刊物,目前仅有《中国电化教育》《开放教育研究》各刊登了1篇文献,而《现代远程教育研究》《中国远程教育》《远程教育杂志》《现代远距离教育》等都还未收录过用户画像相关研究的文献。
发表文章2篇或2篇以上的作者有6位,来自普通高等学校或企业(见表2)。
表1 文献来源
表2 发文量2篇或2篇以上的研究学者
而开放教育系统中,目前仅有上海开放大学肖君等发表的 《在泛在学习环境下基于活动理论的移动MOOC设计及实证研究》[2],陈海建等发表的《开放式教学下的学习者画像及个性化教学探讨》[3]。前者引用学习者画像对泛在学习环境下的移动MOOC进行评估;后者基于学习者画像,探讨在开放式教学环境下如何开展个性化教学。
从共被引作者网络图谱分析可以看出,目前用户画像领域的高影响力学者主要有刘海、曾鸿、丁伟等,他们的主要研究主题见表3。
表3 高影响力作者研究主题
从研究机构来看,发文量在2篇或2篇以上的机构见表4。排名前三位的分别是北方工业大学、北京交通大学、中国科学技术大学。在21所发文量为2篇或2篇以上的研究机构中,有15所是普通高等学校,5所为公司或研究院,1所为成人高等学校。
表4 发文量在2篇或2篇以上的机构
按照研究机构统计所有文献发表数量,我们发现用户画像研究的文献主要集中在高校 (69.5%),另外如中国移动、中国联通、中国电信等公司或电视台、报社等媒体单位也有一定发文量。
由两所或两所以上机构合作发表的研究成果共计15篇,占总文献量的12.72%(见表5)。他们有的是高校间跨校开展合作研究,有的是高校与企业间开展合作研究,有的是公司与研究所之间开展合作研究。如中国科学院的声学研究所、信息工程研究所、新疆理化技术研究所与上海海事大学合作,基于阿里音乐用户的历史播放数据对艺人进行多维画像,从而预测和把控一个时段内音乐的流行趋势[4];广西中烟工业有限责任公司、广西财经学院的两位研究者合作,针对制造企业精准定位消费者以及对消费行为和特征进行统计分析存在的困难,设计了一个基于大数据的二维码防伪营销系统,通过对营销效果的量化来挖掘商业机会[5]。
表5 研究机构合作情况
由两人或两人以上合作发表的研究成果共计51篇,占总文献量的43.22%(见表6)。参与研究的合作者之间有的是师生关系,有的是基于研究任务或兴趣而合作。
表6 研究学者合作情况
用户画像研究的文献主要产生于信息技术、经济与管理科学、工程技术、社会科学、哲学与人文科学六个学科,其中以信息技术学科量最大,达91篇,占57.96%。经济与管理科学学科36篇,占22.93%(见图 3)。
有基金支撑的文献研究有39篇。在支撑研究的基金中,国家自然科学基金支撑的研究最多,有12篇论文,北京市科技计划项目及国家科技支撑计划项目各有3篇。近年来用户画像的研究成果逐渐丰富,与基金的积极支持密不可分。
图3 学科分布统计
(1)高频关键词分析
高频关键词可以反映该领域的研究热点和发展趋势。通过知网检索出共计118篇的样本文献后,导出文献题录,再将题录导入NetExpress软件,通过Net-Express统计出关键词共计291个,其中频次出现3次及以上的关键词见表7,从这些关键词中我们可以窥见近年来用户画像的研究热点。
表7 频次出现3次以上的关键词
(2)关键词共现网络分析
关键词网络关系图谱可以直观呈现关键词在文献中的共现情况及彼此之间的联系。在知网呈现的高频关键词共现网络图中,通过节点大小我们可以看出,除了“用户画像”之外,活跃度较高的关键词有“大数据”“精准营销”“数据挖掘”“推荐系统”等,这些词对其他关键词有较强的联系,是国内用户画像研究的核心关键词及热点问题。
由于用户画像需要以数据为基础,而大数据方面的研究自2012年后呈井喷式增长,仅2017年在知网上以“大数据”为关键词就搜索到8647篇文献,可见大数据研究的深入及其应用也间接带动了人们对用户画像关注度的提升。
从节点之间连线的粗细可以看出,“用户画像”与“大数据”的联系最为紧密(见图4),共现在一篇文献中的次数达16次,由此可见基于大数据的用户画像研究是热点问题。另外,“用户画像”与“精准营销”共现11次,与“推荐系统”共现7次,与“数据挖掘”共现6次,联系也较为紧密。
图4 关键词共现网络图谱
(3)研究主题
用户画像研究的文献概括起来集中在以下层面:
①介绍并引入用户画像概念及原理以及实施。如隋国政的《浅谈用户画像构建及应用》,董莉莉的《剖析大数据时代下用户画像及媒介策略》,艾永亮的《给用户画像》,孔建坤等的《如何用大数据给用户“画像”》,陈禹安的《大数据污染与用户画像》,周鲜子的《浅谈大数据下电子商务网站的用户画像》等[6-11]。
②探索基于用户画像理论的各种网络媒体运营策略。如张慷的 《手机用户画像在大数据平台的实现方案》,张治的《用户画像与客户价值》,丁伟等的《基于大数据技术的手机用户画像与征信研究》,曾鸿等的《基于微博的大数据用户画像与精准营销》,姜建武等的《基于用户画像的信息智能推送方法》,张小可等的《贝叶斯网络在用户画像构建中的研究》等[12-17]。
③研究大数据背景下用户画像在各企业或学校中的实践。如李映坤的《大数据背景下用户画像的统计方法实践研究》,郝胜宇等的《大数据时代用户画像助力企业实现精准化营销》,原娟娟等的《基于“用户画像”的农产品电商平台精准营销模式设计》,徐艳的《大数据画像技术在高校思想政治教育中的应用》等[18-21]。
④分析总结用户画像有关理论与模型。如余孟杰的《产品研发中用户画像的数据模建——从具象到抽象》,刘海等的《基于“用户画像”挖掘的精准营销细分模型研究》,王丹的《基于主题模型的用户画像提取算法研究》等[22-24]。
近年来,随着数据资源的丰富,在基金的积极支持下,国内用户画像的研究成果逐渐丰富。2014年以来,越来越多的学者、机构涉足用户画像研究领域,研究主要产生于高等院校或企业,各机构间有一定合作,研究内容集中于信息技术、经济与管理学科。因用户画像的研究对研究人员的学术研究水平、数据分析能力及可视化技术应用能力均有一定要求,所以多人合作开展研究的情况比较普遍,研究者之间相互合作、相互补充,可以提升研究成果产出的质量和数量。但总体而言,用户画像的研究成果数量不多,研究可探索的空间很大,亟需进一步深入与拓展。目前的研究主要集中在实业界的信息化领域,基于大数据开展数据挖掘,研究完善推荐系统,用于企业的精准营销。
而把用户画像引入教育领域,尤其是在线教育领域,把学习者作为用户展开研究,在深入了解学习者的基础上,探索学习者对在线学习的需求或潜在需求,精细化地定位学习者的人群特征,挖掘潜在的学习者群体,根据学习者族群的差异化特征,帮助在线学习机构找到拓展机会,寻找发展方向,全面提高学习者的学习效率,目前总体上为数很少,研究还处于初探期。因此,基于用户画像的研究视角,对开放大学在线学习者进行研究,在当下有很大的学术发展空间和参考价值,也有很强的实践指导意义。
对于已经在全世界广泛渗透的开放教育而言,目前正在发生两大深刻变化:①在日趋精密的数字技术条件下,开放教育中在线学习者的学习动机、学习模式、学习行为、学习轨迹等,都已通过互联网实现数字化,与学习者相关的学习信息都会以数据的形式呈现学习者特征。②进入21世纪的全球教育研究也已进入探究学习者深层次思维与行动的层面。作为个体获得行为经验的过程,学习者的学习心理有外显学习(Explicit Learning)与内隐学习(Implicit Learning)等。以往针对学习者展开的研究大多集中在学习者对学习内容、学习方式、学习环境需求、教学设计、学习技巧、学习兴趣激发等方面的研究,探讨学习者那些直观的、可考量的、可观察的需求,而对学习者潜在的、可预测的、内在情感化的需求研究,一直流于表象,很少从可检测的数据入手,在系统理论体系指导下进行人性化、情感化、心灵需求化的研究。
在此背景下,开放教育亟待把用户画像引入实践运用中,采用用户画像模型,把学习者作为真实具体的人依据目标行为和观点进行类型划分,并由此提炼特征形成用户画像。具体实施策略如下:
(1)展开调研
采取发放问卷、访谈、数据整理、师生研讨等方法,对注册学习课程的学习者开展调研,了解其目标、行为和想法等,将学习者的属性、行为与期待联结起来,形成有代表性的学习受众和目标群体,在学习者角色描绘中抽象出自然人的属性,通过数据建立学习者标签,获得并描绘在线学习用户的角色特征,以此实施对学习者的用户画像以及未来学习方向和学习内容的精准拓展,并在此基础上构建学习内容的智能推荐系统,进行在线学习的效果评估。
对学习者进行调研的具体维度包括:①学习者的静态属性:从学习者的基本信息进行用户的划分,建立学习者画像的基础,如性别、年龄、学历、角色、收入、地域、婚否等。依据不同的课程,针对性地提取相关信息。②学习者的动态属性:即学习者的网上学习行为、学习时间、学习手段、兴趣爱好等,以此了解学习者是否会对学习内容感兴趣。③学习者的选课属性。主要包括选课层次、学习心理、学习喜好等,反映他们对于学习的看法,是喜欢实用性的,还是理论层面的?倾向于应用价值的,还是情感价值的?④学习者的心理属性。主要指从学习者的生活、工作、感情、社交、收入等入手,分析其价值观、人生观,并针对性地改进课程。
(2)进行分类
通过上述4个维度的分析,对学习者画像进行基本分类。值得注意的是,上述所有属性分类不一定在学习者画像中都要用到,有的可能是选择性分析。
(3)构建智慧推荐系统
在学习者角色描绘中抽象出自然人的属性,通过数据建立学习者标签,实施针对学习者的用户画像,在未来在线教育精准拓展的基础上构建学习内容的智能推荐系统,进行在线学习的效果评估,为未来在线教育的发展战略提供决策作参考,具体如下:预测学习者选择课程的决策过程,用学习平台向学习者提供课程信息和建议,帮助学习者决定应该选择什么课程进行学习。
学习内容智能推荐系统的实现策略——协同过滤:①基于学习者。根据学习者之间的相似性,推荐系统依据该学习者的学习行为(浏览、点击、选课)计算跟他最像的那些学习者,以他们的浏览与选课行为向其进行课程推荐,在此过程中,学习者可能会选择这些学习内容和课程。②基于课程。在众多课程中,针对一些课程的性质、内涵、价值等总体特征描述有许多相似之处的特点,推荐系统将会计算课程与课程之间的相似或关联程度,在学习者浏览的时候推荐给他。③基于内容。在众多课程的主体内容中,针对一些学习内容有许多相近、相似之处的特点,推荐系统将会计算它们之间的相似或关联程度,在学习者浏览的时候推荐给他。④基于模型。利用数学建模的手段,评估学习者的选课意图,将模型计算出来的得分最高的学习内容和课程推荐给学习者。