徐 勇,汪 倩,武雅利,李晓宇,张心蕊
(安徽财经大学 管理科学与工程学院,安徽 蚌埠 233000)
2018年8月,中国互联网络信息中心(CNNIC)发布了第42次《中国互联网络发展状况统计报告》,据报告中显示,截至2018年6月,我国上网用户人数已超过8亿,互联网普及率达到57.7%;18年上半年新增的网民数量为2968万人,同比上一年增长了3.8%;而我国使用手机上网的用户规模已达7.88亿,上网用户通过手机连接互联网的比例高达98.3%[1]。如此大规模的用户使用网络,并不断在网络上留下他们所生成的评论、留言、点赞,以及上网过程中留下的浏览记录、搜索痕迹等,造成了大量的数据残留,从而导致用户无法迅速便捷的在网络上查找到所需信息。因此,学者开始思考如何有效从大规模的数据中挖掘它所隐藏的价值,从而缓解甚至消除这些问题。用户画像在这时逐渐被学者们所关注,相关的研究文献也在不断增多。
用户画像是一种建立在用户数据之上的数学模型,它也是一种数据分析工具。通过对收集到的用户数据进行统计分析,将用户的属性特征分为自然属性、社会属性、心理属性等,从而以标签的形式表示出用户的“全貌”。正是由于用户画像能展示出用户的特征偏好,使得目前对于用户画像的研究不断深入,且将其应用于各种环境当中,以实现精准营销[2]、个性化推荐[3-6]、行为预测[7-10]、异常检测[11-12]等。本文以中国知网的中国学术文献网络出版总库作为数据源,利用文献计量的方法,对用户画像相关的文献进行统计分析,对其文献特征进行分析,主要从时序分布、期刊来源、作者分布、科研机构分布几方面进行介绍,对关键词进行共词和聚类分析发现研究的热点问题,总结出现有研究存在的问题与挑战,并提出了相关建议。
本文是以中国知网的中国学术文献网络出版总库作为数据源,以“用户画像”为检索词,并以“主题”为检索范围,时间跨度2010年1月1日到2018年8月31日,共检索出470篇相关文献,去除报纸、学术辑刊等非学术文献后,最终得到466篇文献。利用中国知网的文献管理中心输出相关字段,主要包括“作者、题名、文献来源、摘要、引文、关键词” 等(检索时间为2018年12月20日)。
文献计量法是通过使用统计学、数学等计量方法,统计分析文献的分布情况、数量特点等,从而通过数据的形式来分析文献的变化规律的一种研究方法[13]。本文利用Excel 和citespace对所得到的相关研究文献的文献特征和研究热点进行深入分析。对于用户画像的发文时间、作者分布、期刊分布以及科研机构分布等文献特征,采用一般的统计分析的方法实现,以揭示目前我国用户画像整体的发展现状。对用户画像研究中的关键词进行共词分析以及聚类分析方法,以分析并发现我国用户画像的研究热点及发展趋势,并描述了用户画像现有研究中的主要问题以及未来的研究趋势[14]。共词分析是由Callon M于1986年提出的,其基本原理是通过统计文献中词汇对同时出现在同一篇文献的次数,以此来展示出这些关键词之间的关联度,进而反映出此领域的研究热点问题,分析学科领域的发展过程和结构演化[15]。聚类分析是根据关键词之间的关联强度,将最相关的一组词聚类成簇,从而实现相关的词聚在一起,实现研究热点主题的发现。
发文数量作为对某一研究领域中直观的显示文献数量变化的一个重要指标,可反应出其研究的热门程度[14]。对中国知网的中国学术文献网络出版总库得到的466篇文献进行统计分析,逐年变化情况见图1。由图1可以看到国内最早正式提出“用户画像”一词是在2010年,而2011年到2015年之间,相关研究文献还是很少,加起来仅有37篇,说明此阶段用户画像一词仍未引起学者的注意。直到2016年开始至今,研究文献数量持续增加,2016年一年就有72篇, 2017年已达到180篇,而2018年9月前达到177篇,数量增长迅速,说明用户画像一词逐渐开始被学者关注,越来越多的学者开始进行这一方面的研究。
图1用户画像研究文献发文数量分布
通过对所检索到的466篇文献进行统计,它们共包含724位作者。实际研究中较核心的作者通常是群体合作的,毕竟单个学者成为核心作者在发文数量较群体研究来说处于弱势。美国著名的学者普莱斯(PriceD.S.)提出的普莱斯定律是目前对于核心作者分析中应用较广的一种方法[16]。因此,本文用此方法确定核心研究学者团体。经过对用户画像中相关学者的发文数量的统计,最多的是张慧敏和李雅坤两位学者,都发表了3篇,据此得发文数量在2篇及以上的作者是用户画像研究中的核心作者。
用户画像研究领域中的49位核心作者共发表了论文100篇,占发表的论文总数的21.46%,远远低于了普莱斯定律50%的标准要求。这显示出我国目前对于用户画像的研究虽已经开展了不少时间,但仍然未形成重点的核心研究团队,此领域的大多学者都只是潜在的提及了用户画像这一名词,而并没有专门的去研究这一主题,因此,未来学者可针对此领域展开大量研究,使研究更加深入进行,促进用户画像研究的进一步开展。
通过使用citespace 软件对作者的合作情况进行分析,如图2所示。字体大小代表发表的论文数量的多少,其中,字体越大,代表发布的论文越多,反之字体越小,代表发表的论文数量越少。节点间的连线的粗细代表合作的次数,合作的次数越多,连线越粗。由图2可以看出由4人组成的团队有3个,2人组成的团队也有3个,其余均为单人。第1个是以大连理工大学林鸿飞为中心,杨亮、徐博以及古丽孜热·艾尼外围绕其周围形成的团队;第2个是燕山大学的刘海鸥为中心,张亚明、孙晶晶、苏妍嫄形成的团队;第3个是北京大学的黄文彬,吴家辉、徐山川、王军围绕其周围构成团队。此外,还包括3个2人组成的团队。
图2作者合作分布
通过对检索的466篇文献的第一作者所属的机构进行分析发现,发文量最高的是高等院系的作者,共有332篇论文,达到论文总数的71.24%;其次是企业作者,论文数量为45篇,占论文总数的9.66%;研究所作者论文数量为32篇,占比6.87%;高校图书馆作者论文数量为15篇,占比3.22%。具体统计数据见表1。
表1 文献作者机构分布情况
从表1可知高校院系是撰写论文的主要力量,绝大多数文献均是由高校院系提供的,其原因在于他们拥有大量的时间进行阅读和学习,专门研究各种算法模型,寻找用户画像这个领域的空白点,不断深入挖掘该领域。而企业、高校图书馆、研究所在这方面的文献相对较少,可以加强这方面的研究。同时,各个机构可以相互合作,这样可以弥补对方的不足,从而得到快速提升。
表2 论文期刊分布情况
通过对466篇文献的来源期刊进行统计分析,可以发现,刊载了有关用户画像的期刊较为分散,有264种。其中刊载2篇及以下的文献有231种,因此,实际上有关用户画像研究的论文主要集中于33种期刊。而北京邮电大学、华南理工大学、北京交通大学、邮电设计技术、情报理论与实践、电脑知识与技术、电子科技大学、哈尔滨工业大学、图书馆学研究、现代情报、有线电视技术、浙江大学、中国科学技术大学是发表用户画像领域论文较多的期刊,排名前十的期刊发表论文104篇,占样本的比重为22.32%,如表2所示。这反映了目前国内并没有形成集中研究用户画像领域的期刊群。
一篇文献中阐述了整篇文章核心内容以及研究主题的正是文献的关键词,一般由几个核心词组组成。因此,当所研究领域中的一些关键词不断在文献中出现时,说明该关键词所反映的研究内容是该领域的研究热点问题。因此,通过对高频关键词共现关系分析,可以进一步明晰若干热点研究领域。本文通过使用citespace软件进行关键词共词分析,对关键词对在同一篇文章中出现的频次进行统计分析,以生成共词图谱直观展示出研究的重要主题。(如图3所示)[17]。
图3 关键词共现图谱
图3中的关键词出现的频次越高,则该节点越大; 节点之间的连线越粗,则说明关键词之间的共现强度越大。从图中可以看出,在用户画像的研究领域中出现频次最多的关键词是“用户画像”,其次是“大数据”和“精准营销”,此外。还有“数据挖掘”“推荐系统”“个性化推荐”“协同过滤”“画像”“机器学习”“hadoop”“用户”等关键词提及频次也较高。这些关键词的内容显示了用户画像研究领域研究的主体内容。
共现聚类分析法是一种通过文献计量和聚类统计相结合的方法,计算关键词在同一篇文献共同出现的频率,将距离较近的关键词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。运用citespace软件,由于该软件提供了三种聚类算法,即TF-IDF、LLR以及MI三种。因此,比较聚类结果后最终选择了LLR算法对关键词进行聚类,得到8个类团(如表3所示)。
对数似然算法LLR是指当在类团Lj中,由词wi 的频度(α)、集中度(β)和分散度(γ)等指标构成了向量 Vij (α,β,γ),从而根据向量Vij 选出能够代表类团Lj 的特征词[18]。计算公式如下:
(1)
由这8个类团可以总结出用户画像主要集中在用户画像的构建和用户画像的应用两个方面。其中,集群4和5主要集中于用户画像的构建方法,它通过使用大数据分析技术,运用聚类、文本分类、随机森林、统计分析、主题模型、深度学习等方式,对采集到的与用户相关的各类数据进行处理和分析,挖掘用户的潜在特征和偏好,来实现用户画像建模。集群1、2、3、6、7和8主要集中在用户画像的应用方面,用户画像是基于用户在网络上生成的各种行为数据,运用各种数据挖掘方法,提取用户特征,并以标签的形式尽可能的勾勒出用户全貌。因此,用户画像被用于推荐系统、协同过滤,通过使用用户画像技术,基于表现出来的特征来对产品或服务进行匹配,寻找符合用户需求的产品或服务,并将最符合用户特征的推荐给用户,减少用户的查询时间,进而提高用户购买或使用率。也可以依据用户画像来对用户行为进行预测,判断用户的价值或潜在行为。用户画像的应用领域也在不断扩展,包括电子商务、移动运营商、教育、图书馆、互联网金融、社交网络等。
表3 共现关键词聚类分析
用户画像是一种数据分析工具,它相对于其他的数据分析工具更加深入与直观,主要基于用户在网络上的行为数据,运用各种数据分析与文本挖掘方法,以标签的形式将得到的用户特征表示出来,使得更加生动与直观,即使当你对一个你完全不相识的用户推荐商品,也能够快速依据用户画像,了解用户需求,并依据此需求寻找最符合的商品推荐给用户,而不需要通过询问用户来了解用户偏好,减少用户使用时间,提高用户使用满意度。然而,目前用户画像在国内的研究仍处于起步阶段,各方面的研究都相对浅显,本文通过对国内用户画像相关文献的梳理,利用文献计量的方法,对相关文献进行统计分析,主要从时序分布、期刊来源、作者分布、科研机构分布几方面进行介绍。并对关键词进行共词和聚类分析来发现研究热点。
未来对于用户画像的研究还存在一些难点以及重点。首先需要着重考虑用户的隐私问题,由于用户画像的构建完全是依赖于从网络上获取的数据以及其他一些数据,这就可能造成企业为了深入了解用户,运用一些违法行为来获取各种用户相关数据,这是一种可怕的现象。因此,对于如何合法的获取数据,保护用户的隐私安全,是一个重要问题。其次,目前用户画像的应用主要集中在电子商务、社交网络当中,未来可以将其推广到更多的应用场景中,如在线旅游领域、在线教育领域、医疗领域等等,以实现用户画像研究的普及和深入。然后,用户画像的构建目前只针对于某一具体领域构建,尚没有一个构建用户画像的统一框架,使得用户画像不易推广开来。因此,未来可将不同领域的用户数据进行数据融合,使其既能弥补用户数据稀疏的问题,也能构建一个更加全面细致的用户画像,使得用户画像能够应用于各个领域而不需制作专门的用户画像。最后,用户画像基于离线数据构建的,是一种静态画像,只能显示出用户短期内的一个用户特征与偏好,而实际生活中用户的兴趣随时间可能会发生改变。因此,变化后的兴趣无法通过过去的用户画像显示出来,造成画像使用时产生偏差,实时画像的构建显得尤为重要,未来可探讨用户兴趣的变化规律以及如何实现用户画像的实时更新。