李锐
(首都经济贸易大学管理工程学院,北京100070)
用户画像的核心工作是数据标签化。对采集到的各类原始数据进行清洗与整理,提炼出用户属性,最后可从用户属性挖掘出用户标签。用户画像虽是一种数据分析的新方法,但广泛应用于各个领域。不同领域的用户画像研究工作的根本差异就在于融合领域知识的用户属性的分析,理论分析出该领域用于画像的用户属性。用户属性分析过程如图1所示。
图1 用户属性分析与标签化
现有研究绝大多数将用户属性简单分为静态属性和动态属性,本文则按研究领域进行细致的划分。归纳为三大类:基本属性、领域属性和特定属性。基本属性是用户的自然属性,如年龄、性别等人口统计属性;领域属性是指运用领域知识,对研究问题进行理论剖析,得出研究该问题所需的用户属性,其中主要有行为属性和兴趣属性;特定属性是指根据特定研究需求提炼出的特定的用户属性,多数就是各个研究中的创新与特色之处。
对用户属性的总结如表1所示。
表1 用户属性总结
表1 (续)
根据现有研究,本文将用户画像的构建流程总结为三个阶段:数据采集,数据挖掘,画像生成与可视化。不同阶段采用不同的分析和处理方法。下面做详细介绍并用表2进行汇总。
表2 分析方法总结
目前在数据采集方法主要存在四类途径,分别为访问现有数据库,问卷调查、访谈等社会调查方法,数据爬取和特定软件采集。国内外学者根据各自研究问题采用了不同的方法。汪强兵等研究人员开发的手机文献阅读网站可以采集用户在浏览页面时发生的放大/缩小、滑动、拖动、点击的手势行为数据,挖掘用户兴趣[40]。LEROUGE等研究人员针对主要用户群体(糖尿病患者)进行深入讨论。焦点小组,访谈和调查阐明了老年糖尿病患者的共同特征以及认知,信念和可能性的背景差异[41]。
在数据挖掘阶段主要的工作是对所分析的问题进行用户建模与挖掘,该阶段常用数理统计、数据挖掘以及机器学习等方法,其中主要包括聚类、分类、LDA模型、集成学习、神经网络、向量空间模型和粒计算等等。张炎亮等研究人员使用K-Means算法进行用户聚类,融合聚类结果采用KNN分类算法进行产品个性化推荐[47]。RUAS等研究人员根据Facebook用户的交互记录和用户交互网络的特征,使用K-Means,SOM和DBSCAN聚类算法实验,对在社交网络中发现的用户画像进行分析,发现了三种不同的群体画像:查看者、参与者和内容生产者[54]。
通过数据挖掘构建起画像,得到的用户特征,可视化将有助于画像的展示和应用。现有主要的方法包括标签云(词云)、统计图表、个性化图形和可视化综合面板等。余明华等人提出文本型数据和画像标签可以由图标图形很好呈现,结构化数据可以由几何图形较好展示,柱状图、茎叶图、箱线图、饼图等是教育领域常用的数据展示方式[59]。
李飞提出全面的客户画像构成要素应包括“人物头像+属性特征+动机文字+态度文字+行为文字+其他诸多要素文字”等,坐标型、人体型等图形也可以丰富画像可视化方式[61]。国外研究者也同样采取标签云(词云)[56]、统计图表[19]、自定义图形(人物头像和特征文字集合)[6,15]等方式进行画像可视化。
回顾文献可清晰发现用户画像模型之间的差别,本文将用户画像的模型大体分为四类:基于社会调查的用户画像模型、基于行为的用户画像模型、基于兴趣的用户画像模型和基于本体的用户画像模型。下面做详细介绍并用表3进行汇总。
表3 用户画像模型对比
社会调查是社会学科研究的一项重要手段,常用的调查方法有问卷法、文献法、访谈法和观察法。基于社会调查的用户画像模型采用问卷法、访谈法等调查方式收集用户信息,整理、统计、分析之后,构建用户画像。
用户行为是用户为满足自身信息需求的一系列动态表现,根据信息需求的不同,用户有着各种行为。基于行为的用户画像模型通过对用户各类行为进行分析挖掘,构建起符合需求的用户画像。
用户兴趣是用户根据实际需求、习惯、心理状态等因素对各类信息的偏好表现。基于兴趣的用户画像模型根据用户兴趣显式数据进行分析或通过其他用户隐式数据挖掘出用户兴趣的方式来构建出用户画像模型。
本体是领域知识的概念模型,在特定领域中对概念及其关系进行结构化的表达。基于本体的用户画像模型利用本体中定义的结构化概念及其之间关系来刻画用户,在语义表达和逻辑推理方面具有优势,同时自然标签的不足可以得到本体的结构化和语义性的完善。
通过文献回顾可以发现用户画像的研究主要集中于概念、特征、模型和应用等方面。国外的用户画像研究起步较早,且一直保持着较为稳定的发文量。国内用户画像的研究开始较晚,但近几年发文量显著增加。虽然国内外的研究成果已为该领域研究奠定了很好的基础,但不得不说,目前用户画像仍然是一个新兴的研究领域,还没有构建起全面且成熟的理论框架和体系。下面本文将列举现有研究存在的不足之处。
国内研究虽然起步晚,但发展迅速。可以发现用户画像被广泛应用于各个领域,且取得了一定的实践成果。但是关于用户画像内涵定义、原则和框架体系等基础理论研究不足。相关概念直接套用国外的且不加以区分。现有用户画像的研究相较于传统的客户数据分析与挖掘研究并没有形成自己的理论架构和体系,更多的只是已有研究换了一种提法。用户画像的应用研究多数是就该领域的一个实践问题而研究并没有提取出用户画像应用的理论规则。另外,产业界的实践应用也远超前于学界的理论研究,并且目前对用户画像成功案例的分析研究几乎是空白。用户画像理论研究需要进一步完善。
现有研究多采用用户基础数据、行为数据、兴趣偏好数据等等构建用户画像,画像数据来源一般为某一个或某几个。但是全面的深层次的画像必然受多方面因素的影响,故需要多方面的数据支撑。目前一些旅游领域的画像研究引入了情境数据,也进行了数据融合。同样的,其他领域的画像固然会受到该领域特定因素的影响,如何引入新的数据,扩展数据宽度,同时做好数据的融合,需要后续研究人员贡献自己的思路。
需求分析为绘制画像提供重要的基础,但目前的研究对需求的分析和挖掘的关注度不够,有些研究忽视需求分析直接进行画像构建。另外,现有研究构建了各类的用户画像,但是画像的有效性没有得到充分的验证,画像存在的问题也无法反馈。可见,研究缺乏需求分析—画像构建—有效性验证—问题反馈的良性循环机制,画像存在的问题无法得到及时的优化和改正,可能造成画像应用的蝴蝶效应。
用户画像作为数据分析与挖掘的新兴工具,发展势头迅猛,但理论研究薄弱。本文通过文献综述从因素、方法与模型三方面阐述研究现状,发现新的探索方向,故后续研究可以在加强理论研究、数据多源与融合、画像优化等方面进一步展开。