陈志明, 胡震云
UGC网站用户画像研究①
陈志明, 胡震云
(河海大学商学院, 南京 211100)
近几年, 社交网络的高速发展使人们的工作、生活、学习方式发生了重大改变, 人们获取知识的方式呈现明显的网络化趋势. 人们通过网络获取信息的同时, 也在其上留下了个人的痕迹, 考虑到现实中获取个人信息成本高昂, 捕捉其在网络中留下的痕迹, 研究其在网络社会中的“映射”, 不失为一种可行的方法. 用户画像作为真实用户的虚拟代表, 是建立在一系列真实数据之上的用户模型. 通过对“知乎”网站的深入挖掘, 构建了基于用户基本属性、社交属性、兴趣属性和能力属性四个维度的动态用户画像模型, 并对“知乎”网站PM 2.5话题下1303位用户进行实证分析.
知乎网; 用户画像; 社交影响力; h指数
近十年, 随着Web2.0概念的成熟应用, 社交网络获得了“井喷式”发展, 影响着人们的学习、生活、工作等方式, 每一个“触网”的人都在发生着潜移默化的改变. 人们纵情遨游网络的同时, 也在网络中留下的大量的个人“痕迹”. 随着社交网络规模的不断扩大, 个人的“痕迹”也在不断增多. 在学术界与产业界, 如何获取这些“痕迹”, 如何利用这些“痕迹”的讨论不绝于耳. 社会学家需要这些“痕迹”来剖析网络结构的演变、网络传播学等; 网站的拥有者希望利用“痕迹”为用户提供更好的网络体验; 社交网络上的商家希望利用“痕迹”进行精准的广告投放; 政府部门需要对社交网络上的用户言论进行监管, 尤其是对舆情的控制和非法言论的处理. 用户画像模型为解决这些问题提供了可能的方法.
随着技术的发展和数据资源的累积, 碎片化的“痕迹”才慢慢组合为用户画像. 用户画像作为真实用户的虚拟代表, 是建立在一系列真实数据之上的用户模型. 目前有许多关于用户画像的实际应用, 比如赵曙光[1]基于对高转化率的社交媒体用户研究重要性的认识, 通过一对一的深度访谈的方式对用户的社交媒体使用动机和行为进行总结概括, 对社交用户进行分类. 刘海[2]等基于4C理论构建了“用户画像”数据库, 通过对数据库的挖掘来进行消费者群体细分. 在此基础上, 从营销的角度构建了精准营销细分模型. 此外,在个性化推荐系统[3]、产品研发[4]、广告投放[5]等领域也有用户画像的应用. 对用户画像的分析不仅可以更好的认识网络中的用户, 从而低成本、高效率的完成公众参与社会活动, 还可以对现有网络进行更好的完善, 推动社交网络的进一步发展. 因此, 用户画像的构建, 在学术界与产业界都具有重大意义.
用户画像又称用户角色, 在模型的构建过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为和偏好联结起来, 作为实际用户的虚拟代表, 用户画像所形成的角色模型并不能脱离实际场景之外被构建出来. 一个用户可以从多个方面去刻画, 即用户模型可以从多个维度去考虑. “知乎”作为社交化问答网站, 用户在平台上通过某些行为(如回答问题、点击图片、浏览信息流、关注等)生产或获取信息, 也通过其它一些行为(如转发、点赞、评论等)将信息传播出去. 由此, 我们依据社交网络的特性, 结合“知乎”网用户的特点, 将用户画像模型进行四个维度的划分, 即用户的自然属性、社交属性、兴趣属性和能力属性. 同时, 用户在网络社会中的“痕迹”越多, 用户画像模型越能准确反映现实社会中该用户的特征. 但是, 考虑到成本及隐私, 构建“完整”的用户模型几乎不可能, 要结合实际的应用场景, 构建满足条件的用户画像模型即可.
1.1 自然属性
自然属性是指人的肉体存在及其特性, 是人存在的基础. 自然属性指相对稳定和静态的人口属性, 例如: 性别、地域、受教育程度、职业经历等, 由于用户对个人隐私的有意保护, 这些信息的收集主要依靠网站自身的引导、调查、第三方提供等, 并在此基础上进行补充和交叉验证.
以“知乎”为例的自然属性指标如表1所示.
表1 自然属性指标
用户的自然属性指标在不同的应用场景下对用户画像的描述具有一定程度影响力, 但出于隐私保护的考虑, 往往获取成本较高, 多用于对样本整体进行评价. 其中, 如性别、居住地、行业和简介等指标不具备等级差别, 如果用户的以上指标与用户画像的应用场景相关, 则定义一个函数表示用户的这些属性对构建用户画像的影响:
(2)
对于用户自然属性中的教育经历, 不仅影响着用户画像的构建, 还具有等级之分. 本节选用三角模糊数两级比例法对定性指标进行量化.
虽然由于各种原因, 获取完整的用户的自然属性信息困难重重, 但用户的自然属性反映着用户的基本情况, 是连接线上社交网络和线下真实社会的纽带, 其重要性不言而喻. 通过以上几个方面的分析, 定义函数表示用户的自然属性, 则:
1.2 社交属性
本文所探讨的用户的社交属性, 主要通过用户的社交影响力进行衡量, 即用户由于和其他人或团体之间的交互而改变自身观点、情感、态度和行为的现象[6]. 本节基于社交影响力的定义, 综合考虑网络拓扑结构及社交节点的相互影响程度, 对社交影响力进行如下因素分析:
1) 用户的活跃度. 反映了用户的活跃程度, 用户越活跃, 影响其他用户的机会就越大. 包括用户关注的人数、关注的话题数、关注的专栏数、提问及回答的数量等. 这些都是UGC网站中用户活跃度的直接体现. 考虑到这五个指标有可能不在一个数量级上, 给用户活跃程度的对比带来困难, 因此, 需将它们进行归一化.
;;;;
2) 用户“邻居”的影响力. 定义“邻居”为用户的关注者, 等同于“粉丝”. 社交网络中信息的流动离不开“邻居”, 邻居节点作为传播的载体, 本身的影响力同样重要. 对于“邻居”的影响力, 我们使用“邻居”的关注者数量及“邻居”与用户的亲密度进行度量.
(6)
(8)
借鉴PageRank的核心思想, 本节关于用户“邻居”影响力的定义如下:
(10)
综合考虑用户本身的活跃度与用户“邻居”的影响力, 且这两者均与社交影响力成正比, 则可得用户在网络中的全局社交影响力, 即用户的社交属性为:
1.3 兴趣属性
网站会在用户注册时要求其选择自己感兴趣的话题, 并依此进行相关内容的推荐, 因此用户所关注的话题可以看作是其显性兴趣; 用户在浏览网站的过程中, 会对自己感兴趣的话题进行提问、回答与收藏, 因此用户的这些行为也能反映其兴趣, 称之为隐性兴趣. 下面我们对兴趣属性进行建模:
1) 显性兴趣建模
用户会对自己感兴趣的话题进行关注, 以方便获取这方面的相关内容, 所以我们可以将用户的关注话题看作显性兴趣的反映. 对于兴趣标签的权重计算, 我们使用TF-IDF方法, TF-IDF是一种经典的信息加权技术, 其值常用来度量一个词语在文件中的地位[7]. 通过用户的话题标签表示用户的兴趣模型, 标签映射的回答数即为标签被使用的次数, 利用TF-IDF方法计算用户的兴趣标签的权重:
2) 隐性兴趣建模
用户的关注话题, 直观体现了用户的显性兴趣. 然而话题标签是用户注册时人为设定的, 很多用户为了节省注册时间, 会任意勾选话题, 又或者选择很多话题, 这就造成了用户兴趣度量的准确性不高. 隐性兴趣不同于显性兴趣, 兴趣标签无法根据用户的关注话题直接获得, 而是通过用户的交互行为获取. 我们通过分析用户的提问、回答和收藏来构建用户的隐性兴趣. 关于它们的定义如表2所示.
表2 用户行为定义
则用户的隐性兴趣标签权重为:
用户的隐性兴趣权重通过提问、回答和收藏来度量, 通过对三个行为所涉及的内容进行标签提取, 用户的隐性兴趣模型表示为:
(15)
3) 用户兴趣建模
(17)
1.4 能力属性
本文中的能力属性特指用户输出优质内容的水平. 用户生产内容(user generated content, UGC)是在Web2.0环境下出现的一种新兴的网络信息资源创作与组织模式, 泛指以任何形式在网络上存在的由用户发表的文字、图片、视频等内容, 也就是说, 用户既是网络内容的浏览者, 也是网络内容的生产者与传播者[8]. “知乎”作为典型的UGC网站, 用户优质内容的产出能力极其重要, 它是网站的核心竞争力. 本节综合考虑内容的质与量, 借鉴Hirsch教授设计的科学计量评价指标h指数(highly cited index)[9]与金碧辉等人提出的R指数[10], 进行用户能力属性的度量. 其中, Hirsch将h指数定义为: 一位作者的h指数等于其发表了h篇至少被引h次的论文, 即一个作者的h指数表明其至多有h篇论文被引用了至少h次.
H指数具备简洁新颖的特点, 但也有自己的不足. 首先, h指数对高被引论文的影响力反映不足; 其次, h指数对普通研究者缺乏区分度, 对于大量普通研究者来说, 他们拥有相同的h指数, 且h指数的值都比较低; 最后, h指数受自引和合作发文的影响, 大量自引可以显著改变h指数. 针对h指数的缺陷, 金碧辉提出了R指数. R指数表示的是h核内论文的总被引频次的平方根. R指数的数学公式如下:
本节通过分析h指数与R指数各自的特点后, 将两种指数配对使用, 将会有效弥补h指数的不足, 对用户的能力属性进行度量如下所示:
赞同的h指数和R指数理论上就是:
(19)
同理: 讨论的h指数和R指数理论上就是:
同理: 关注人数的h指数与R指数为:
提问能力与回答能力在UGC网站中同等重要, 故本节关于用户的能力属性定义如下:
1.5 用户画像模型构建
以上四节分别从用户的自然属性、社交属性、兴趣属性及能力属性四个方面对用户画像模型进行构建, 该模型可以较为全面的对用户进行模型抽象, 但是众所周知, 用户画像模型的应用离不开实际的应用场景, 在面对不同的场景时, 用户画像所侧重的属性是不同的. 这就要求模型具有动态特征, 定义函数表示用户的画像模型, 则:
众所周知, 用户画像的应用离不开使用场景的设置, 没有使用场景, 空谈用户画像是没有实际意义的. 我们对用户画像模型的构建过程有了深刻的理解, 接下来我们将结合实际的场景设置, 对用户画像模型的实际应用进行研究. 本文所用数据集为“知乎”网站关注PM2.5话题的用户的数据信息. 截止到2015年12月, 共有1318人关注该子话题, 数据由Gooseeker爬虫抓取, 其中成功抓取1303位用户数据, 成功率为98.9%. 本文的实证即对这1303位用户进行分析.
场景一: 网站核心用户甄别
对于UGC网站而言, 其核心用户应具备输出优质内容的能力, 即用户的能力属性值排名靠前. 由1.4节可知, 用户的能力属性包括用户的提问能力及回答能力, 分别通过提问能力指数和回答能力指数进行度量. 令,, 可得用户能力属性的散点图如图1所示.
图1 用户能力属性散点图
分析上图可知, 数据集中绝大部分用户的能力属性值比较小, 主要原因是其提问与回答数都比较小, 或者其少量的提问与回答中, 质量并不高, 所以并没有得到网络中用户的认同; 在图中, 有一位用户的能力属性h值高达268.4, 该用户在网络中的回答数量为1417, 提问数量为106, 而其得到的总赞数为653528; 同样, 用户AreYouKiddingMe的h值为61.8, 可其回答数量为2031, 提问数量为505; 可见h值可以更好的反映用户的能力, 它不仅考虑了用户输出内容的量, 还考虑了内容的质.
场景二: 公众参与环保政策的制定
公众参与环保政策的制定, 需要考虑两个方面的问题, 一方面是公众的选择问题, 另一方面是公众的高效参与问题.
关于公众的选择, 可以应用用户画像模型得到结果. 首先, 评估用户的教育经历, 选取学历为本科及以上的用户; 其次, 分析用户能力属性, 能力属性值越大, 表示其输出的内容质量越高; 然后, 结合用户的兴趣属性, 判断其输出内容是否与环保相关; 最后即可确定该用户是否适合参与环保政策的制定. 根据以上分析, 式(24)转变为:
分析数据集可得到部分结果, 如表3所示. 需要注意的是, 表格中的能力值是结合兴趣属性后在环境保护相关话题下的能力, 是对环保相关的提问、回答的度量.
表3 场景二分析结果
由上表可以看出, 教育经历在一定程度上影响着用户的兴趣. 在确定了哪些公众适合参与政策制定的情况下, 需要考虑公众的高效参与问题. 本文以目前我国公民的主要参与方式为出发点进行论述.
1) 关键公众参与法. 即寻找与政策制定相关的公民进行咨询, 上表中选取的关键公众, 有效弥补了传统选择方法中只关注精英分子的缺陷, 真正做到让普通大众参与到环保相关政策的制定中.
2) 公民调查法. 即运用问卷调查或现场访谈的形式, 了解公众对于相关政策的态度和看法. 在新媒体时代, 利用用户画像模型将网络问卷发放给特定的公众, 既提高了调查的有效性, 又降低了相关工作人员的时间成本.
3) 民众论坛. 即将网络中适合参与环保政策制定的民众组织起来, 构建专业的民众论坛. 首先, 为公众参与提供通道; 其次, 引导舆论走向, 构建官方与民间的沟通渠道; 然后, 搭建专业型平台, 为普通公众的环保问题提供解决方案; 最后, “取之于民”的政策更利于推行.
1 赵曙光.高转化率的社交媒体用户画像:基于500用户的深访研究.现代传播:中国传媒大学学报,2014,(6):115–120.
2 刘海,卢慧,阮金花,田丙强,胡守忠.基于“用户画像”挖掘的精准营销细分模型研究.丝绸,2015,52(12):37–42.
3 邢星.社交网络个性化推荐方法研究[博士学位论文].大连:大连海事大学,2013.
4 余孟杰.产品研发中用户画像的数据模建——从具象到抽象.设计艺术研究,2014,(6):60–64.
5 Bakshy E, Eckles D, Yan R, Rosenn I. Social influence in social advertising: Evidence from field experiments. Proc. of the 13th ACM Conference on Electronic Commerce.ACM. 2012. 146–161.
6 Rashotte L. Social influence. The blackwell encyclopedia of social psychology, 2007, 9: 562–563.
7 宗成庆.统计自然语言处理.北京:清华大学出版社,2008.
8 朱庆华.新一代互联网环境下用户生成内容的研究与应用.北京:科学出版社,2014.
9 Hirsch JE. An index to quantify an individual’s scientific research output. Proc. of the National academy of Sciences of the United States of America, 2005, 102(46): 16569–16572.
10 金碧辉.R指数,AR指数:H指数功能扩展的补充指标.科学观察,2007,2(3):1–8.
User Portrait Study on UGC Website
CHEN Zhi-Ming, HU Zhen-Yun
(Business School, Hohai University, Nanjing 211100, China)
In recent years, the rapid development of social networks has significantly changed the styles of people’s work and life. The way people acquiring knowledge shows a clear trend of the network. When people acquire information through the Internet, it also leaves personal traces. Taking the high cost of obtaining personal information in reality into account, it’s a good idea to catch people’s leaving traces in the network and study its “mapping” in the network society. User portrait as a virtual representative of real users is based on a series of real data on the user model. Based on dynamic modeling of user portrait, the user is defined as the basic attributes, social attributes, interests, and abilities by digging the “ZhiHu” site. Then we make an empirical analysis of the 1303 users who follow the topic of PM 2.5.
“ZhiHu” site; user portrait; social impact; h-index
2016-04-21;收到修改稿时间:2016-05-26
[10.15888/j.cnki.csa.005543]