基于社会网络分析的社会化问答平台用户画像研究

2021-05-26 09:10陈天雨
情报学报 2021年4期
关键词:特征值画像社交

陈 烨,王 乐,陈天雨,郭 勇

(1.华中师范大学信息管理学院,武汉430079;2.吉林大学管理学院,长春130022)

1 引言

社会化问答平台是指将传统搜索式问答功能与社交媒体功能相结合的知识共享虚拟社区[1]。在社会化问答平台中,用户可以关注某些主题或用户,搜索、浏览和提出自己感兴趣的问题,或以擅长领域的知识技能参与回答和评论,达到直接或间接获取所需信息或知识的目的[2]。因此,用户互动是社会化问答平台信息或知识交流的基础,稳定的用户互动是社会化问答平台正常运转和持续发展的保障。通过了解用户互动行为特征(即用户社交行为特征),平台管理人员可掌握用户的行为特点和规律,进而制定用户分类管理和个性化推荐策略,以改善用户交流的质量和效率,最终实现提升用户体验的目的。

用户画像(user profile)是基于特定使用情境下的真实用户数据所形成的描述用户属性及其特征的标签集合[3-5]。用户画像在预测用户行为[6]、发现用户潜在需求[7]等方面均发挥了重要作用,成为管理决策的有效依据。目前,社会化问答平台用户画像研究的侧重点在于用户画像生成研究,用户画像生成过程可以归纳为三个主要环节:用户数据获取、用户特征挖掘和用户特征表示。充足有效的用户数据是生成用户画像的前提,由于各研究的目的存在差异,故研究选取的用户数据范围不尽相同。有的研究主要收集目标用户的个体用户数据(如用户基本信息、用户问答数量、用户参与行为等),分析用户行为动机、用户参与度和用户发展趋势等个体用户特征[8-9];有的研究则收集目标用户群体的相关用户数据(用户关注内容、用户浏览行为、用户评论等),分析用户信息需求、用户角色等群体用户特征[3]。获取用户数据之后,根据用户数据内容和类型的特点,采用统计分析、聚类、机器学习等方法挖掘用户特征[9-12]。随后,将用户特征抽象成标签(词汇、短语或概念等),并以词云、表格和图像等形式进行可视化展示[3,13-16]。目前,许多关于社会化问答平台用户画像的研究将用户从使用情景中抽离出来,作为独立个体进行数据收集和特征挖掘,而忽略了用户所在的社交群体及用户相互之间的联系。如何结合用户所处的社交环境,生成揭示用户社交行为特征的用户画像有待进一步研究。

在社会化问答平台用户社交行为研究中,社会网络分析方法(social network analysis)被用于探究用户网络的拓扑结构特征,以及其对知识共享和信息传播效果的影响,或是挖掘社会化问答平台专家领袖,助力在线共享社区的内容质量维护,提高平台信息的可信度[17-19]。实践表明,社会网络分析方法能够刻画社会化问答平台形成的社交网络的整体特征,也能揭示网络中个体之间的关系,但如何以管理问题为导向组织和利用社会网络分析的结论仍需进一步探究。

因此,本文借鉴其他类型用户画像的构建流程与方法,结合社会化问答平台用户社交行为的特点,开展基于社会网络分析的社会化问答平台用户画像研究。研究选取在用户数量、活跃程度和内容质量等方面具有典型性的社会化问答平台Quora为实验对象,获取高血压主题下的用户社交行为数据,运用社会网络分析方法分析用户社交网络结构特征、用户社交类型和特征,最后生成面向高血压主题的用户画像。

2 用户社交行为数据获取

用户的问答(问题和回答)是社会化问答平台中最主要、最有价值的内容。用户常常围绕特定主题展开讨论,并且社会化问答平台通常以主题页面的形式组织用户的问答。特定主题页面下的用户群体拥有相同的兴趣主题,其最主要的社交行为包括提问-回答、关注-被关注[20]。其中,提问-回答反映了用户之间的信息和知识交流;而关注-被关注反映了用户之间社交关系的建立,相较于点赞、评论,关注-被关注的社交程度更深、社交关系更稳固。因此,本文着重分析用户问答和关注行为特征,进而生成揭示社交行为特征的用户画像。

Quora中特定主题下的用户社交行为数据主要涉及问题信息、回答信息和关注信息,如表1所示。根据问题信息表和回答信息表可以建立用户之间的提问-回答关系,根据关注信息表可以建立用户之间的关注-被关注关系,而用户(用户编号)可以建立不同数据表之间的关联。

表1 用户社交行为数据类别

本研究利用网络爬虫采集Quora中高血压主题下的用户社交行为数据,并对获取的用户社交行为数据进行清洗,包括重复项合并、关键内容提取和数据规范化。重复项合并指的是合并各个字段中的重复项,如重复的问题、回答等;关键内容抽取指的是只保留各个字段中有意义的内容,如从“post‐ed at DATE”中抽取DATE;数据规范化指的是将各个字段的数据表示为统一格式,如将时间统一表示为“MM-DD-YYYY”的格式。

在采集用户社交行为数据过程中,Quora出于隐私保护的考虑,没有直接提供表1问题信息表中的提问者信息,本研究采取了两种策略获取提问者信息:一是利用邀请回答机制,二是通过反向追踪机制。邀请回答机制指的是Quora平台会根据问题所属主题,将问题推荐可能具备相关知识的用户,问题的提问者或浏览者可以通过“邀请”功能向系统推荐的用户发送“邀请回答”的邮件或通知,用户接收到邀请后可以选择接受邀请回答问题或拒绝回答问题。凡是通过邀请回答机制产生的回答的末尾都会出现“answer requested by USERNAME”的标记,可以根据提问时间进一步判断USERNAME是否为问题的提问者。反向追踪机制指的是从用户主页中获取用户提出的问题列表,将问题列表与高血压主题问题列表进行全文匹配或关键词匹配,提取与高血压相关的问题,从而确定问题的提问者信息。

因此,本研究首先获取了高血压主题下的问题列表和回答列表(含问题2288个及其回答6298个);其次,遍历已获取的问题列表和回答列表,抽取所有包含“answer requested by USERNAME”标识的问题及邀请者,得到邀请者列表;再次,遍历邀请者主页中的问题列表,通过全文匹配和关键词匹配,定位与高血压相关的问题;最后,得到问题的提问者。利用邀请回答机制共获取包含邀请标签的问题490个,通过反向追踪机制定位了高血压相关的问题265个及其回答1027条。汇总上述问题及其回答对应的所有提问者和回答者,最终定位了689位用户,可作为实证研究的目标用户。

3 用户社交网络结构特征

3.1 社交网络构建

获取用户社交行为数据后,从689位目标用户的社交行为数据中,得到问答关系850对和关注关系277对。将问答关系数据和关注关系数据分别导入Gephi,构建高血压主题下的用户问答网络和用户关注网络,如图1和图2所示。

图1 高血压主题用户问答网络

图2 高血压主题用户关注网络

在用户问答网络中(图1),节点颜色用于区分节点出度的差异,区域E中的灰色节点表示出度相对较大的用户,且颜色越深出度越大;黑色节点表示出度相对较小的用户,且颜色越深,出度越小。节点大小用于区分节点入度的差异,节点越大,入度越大;反之,则入度越小。可以发现,直径较大的节点大多为黑色,说明回答较多问题的用户大多较少提出问题;而深灰色的节点大多直径较小,说明提出较多问题的用户大多较少回答问题。这一现象与常识相符:在高血压主题下,提出问题的用户往往是缺乏相关知识的患者或患者家属,这类用户往往难以回答其他用户关于高血压的问题;而能够回答一定数量问题的用户大多具备该领域较为充足的知识,极有可能为相关行业从业人员或是“久病成医”的患者或患者家属,这类用户由于有一定的知识储备,关于高血压的疑问自然相对较少。

在用户关注网络中(图2),同样是通过节点颜色区分节点出度的差异,区域C中的深灰色节点表示出度相对较大的用户,且颜色越深,出度越大;浅灰色节点表示出度相对较小的用户,且颜色越深,出度越小。通过节点大小区分节点入度的差异,节点越大,入度越大;反之,则入度越小。有别于用户问答网络,用户关注网络中直径大的节点大多为深灰色,仅有少数为浅灰色,这就说明较多关注其他用户的用户相应地获得较多其他用户的关注,形成了用户聚集效应,即“马太效应”。

3.2 结构特征分析

两个用户社交网络的拓扑结构如表2所示。首先,用户问答网络包含689个节点和850对问答关系,而这些用户中只产生了277对关注关系,问答关系是关注关系的3倍多。其次,用户问答网络和用户关注网络的网络直径分别为3和10,平均距离分别为1.298和4.469。这说明任意两个用户如果想进行知识交流,平均需要1.3个用户,最多只需经过2个用户就可以完成知识传递;而想搭建直接的关注关系,则平均需要4.5个用户,最多需要经过9个用户才能完成关注关系构建。最后,用户问答网络中包含了54个连通片和22个孤立点,而用户关注网络中包含了547个连通片和544个孤立点,这说明用户问答网络的连通性远高于用户关注网络。由此可以看出,在高血压主题下,相较于通过关注的方式,用户更倾向于通过问答的方式建立关联,即在社会化问答平台中,知识交流是其主要功能。

表2 用户社交网络的拓扑结构

进一步对两个用户社交网络的子群结构进行分析,如表3所示。从表3中可以发现,相较于用户关注网络,用户问答网络包含的连通片数量更多、类型更丰富并且连通片规模更大,而用户关注网络中孤立点所占的比例远远大于用户问答网络。显然,用户之间问答互动的频率和方式高(多)于关注互动,且问答互动的覆盖率和延展性优于关注互动。当聚焦两个网络中唯一的大型连通片,用户问答网络最大子群的稀疏性低于用户关注网络、聚集性高于用户关注网络。再次印证,相较于通过关注的方式进行单向或双向联系,高血压主题下的用户更加倾向通过知识交流方式构建联系。

表3 用户社交网络的子群结构

4 用户社交类型及特征

构建用户问答网络和用户关注网络后,本文从连通性、稀疏性和凝聚性等方面刻画了网络的拓扑结构特征和子群结构特征。接下来,本文将从表征用户在网络结构中的连接作用的节点权力的角度分析用户的社交类型。节点权力可以由节点中心性反映,本文从节点连接程度和节点中介作用两个角度进行分析,根据点度中心性和中介中心性的数值分布特征,将用户划分为不同的社交类型,并作为凝练用户画像标签的依据。

4.1 基于点度中心性的社交类型分析

点度中心性是指节点的出度、入度,体现了节点之间连接的程度,可以根据出度、入度的相对大小将用户划分为不同社交类型。但点度中心性的相对大小的判断标准是模糊的,因而,基于点度中心性的社交类型划分的关键在于分界线的选择。

点度中心性是离散型随机变量,分布类型包括二项分布、泊松分布等。由于离散型变量和连续型变量可以在一定基础上进行转化,因此,离散型变量也可能符合连续型变量的分布特征,包括正态分布、指数分布和幂律分布等。以电影演员合作网络、万维网、电力网和科学引文网等为代表的许多大型真实网络的出度和入度均服从幂律分布[21-22]。本文仅选取高血压主题下的用户作为网络构建的对象,与这些大型网络在数量级上存在较大差距,用户网络的特征值分布符合何种分布需在实验基础上作进一步判断,然后根据分布的特点寻找分界线。

特征值与目标分布的拟合程度,可以通过观察法和定量分析法进行判定。观察法通过观察特征值分布曲线与目标分布曲线的重叠程度判断其分布类型;定量分析法通过Kolmogorov-Smirnov拟合优度检验(K-S检验),判定特征值分布与目标分布之间是否有显著差异,即假设特征值分布符合目标分布(H0),如果设定显著性水平为0.1,那么当p>0.1(单侧检验)或p>0.05(双侧检验)时,无法拒绝原假设,特征值分布符合目标分布。

在对特征值进行幂律分布检验之前,需要进行如下模型估计过程[23]。

(1)模型假设:将特征值设为离散/连续变量x,假设x的频率符合幂律分布,则有

其中,α>1;C为归一化常数。由于x→0时,p(x)发散,故存在xmin>0,使X>xmin时,x才能符合幂律分布。

因此,式(1)等价于

其中,ς(α,xmin)为赫尔维茨Zeta函数。一般情况下,当x为离散变量时,xmin=1即符合幂律分布假设。

(2)模型参数估计:使用最大似然法估计模型中的参数α。尽管特征值可能为离散变量,而离散变量分布对应的参数无法直接使用最大似然法进行估计。但对于符合幂律分布的整数序列,其频率值可以近似地等同于连续变量取整时对应的频率值。因此,离散变量分布对应的参数α的估计方式为

由于特征值的真实概率分布未知,根据统计学原理,以特征值的频率表示真实概率,即f(x=xi)=n/N。其中,n表示特征值为xi的节点数量;N表示特征值为非零的节点总数。

对特征值分布类型进行检验后,如果特征值分布呈(近似)幂律分布,获取特征值分布的累计概率函数,基于“二八法则”寻找特征值分布的分界线:当F(x≤x0)<0.8时,选取x0作为分界线。如果特征值分布呈(近似)正态分布,参考(近似)正态分布曲线的3σ原则,寻找数值分布的分界线。3σ原 则 为:横 轴 区 间(μ-σ,μ+σ)内 的 面 积 为68.26%;横 轴 区 间(μ-2σ,μ+2σ)内 的 面 积 为95.44%;横 轴 区 间(μ-3σ,μ+3σ)内 的 面 积 为99.74%。选取x1=μ±σ或x2=μ±2σ作为分界线。

对两个用户社交网络的节点点度中心性进行分布拟合和检验,结果如图3和图4所示。从图中可以看出,用户问答网络和用户关注网络的节点点度中心性分布曲线均呈现“长尾”特征,与幂律分布曲线能够较好地拟合。

通过K-S拟合优度检验方法,做进一步检验(双侧检验),提出以下假设:

H1:用户问答网络的出度分布符合幂律分布;

H2:用户问答网络的入度分布符合幂律分布;

H3:用户关注网络的出度分布符合幂律分布;

H4:用户关注网络的入度分布符合幂律分布。

设定显著性水平为0.1,K-S检验结果显示:p1=0.76>0.05,p2=0.41>0.05,p3=0.14>0.05,p4=0.07>0.05。无法拒绝原假设H1至假设H4,说明用户问答网络和用户关注网络的节点点度中心性分布均符合幂律分布。

基于上述结论,获取用户网络节点点度中心性分布的累计概率函数,基于“二八法则”寻找数值分布的分界线,分界线以左为长尾的“头部”,分界线以右为长尾的“尾部”,结果如图5和图6所示。

图3 用户问答网络节点点度中心性分布曲线

图4 用户关注网络节点点度中心性分布曲线

图5 用户问答网络节点点度中心性累积分布曲线

根据节点点度中心性分布特征,本文将用户划分为不同社交类型,每种类型对应的用户数量如表4所示。在用户问答网络中,当节点的出度和入度相对较大时,说明该用户既保持较高的提问量也保持较高的回答量,属于学习成长型用户;当节点的出度相对较大、入度相对较小时,说明该用户对该主题抱有极大的兴趣,属于善于思考型用户;当节点的出度相对较小、入度相对较大时,说明该用户对该主题的知识具有一定的储备,属于乐于助人型用户;当节点的出度和入度相对较小时,说明该用户该主题下参与的问答活动较少,属于默默学习型用户。

图6 用户关注网络节点点度中心性累积分布曲线

在用户关注网络中,当节点的出度和入度相对较大时,说明该用户既保持较高的关注量也保持较高的被关注量,属于社交达人型用户;当节点的出度相对较大、入度相对较小时,说明该用户倾向于主动寻找该主题的相关用户,属于社交主动型用户;当节点的出度相对较小、入度相对较大时,说明该用户在该主题中获得了较高的关注度但较少关注他人,属于社交被动型用户;当节点的出度和入度相对较小时,说明该用户该主题下参与的问答活动较少,属于社交懒惰型用户。

由表4可知,用户问答网络中占比最大的为偏好不定型用户(88.83%),其余由高到低依次为:默默学习型、善于思考型、乐于助人型和学习成长型;而用户关注网络中占比最大的同样为偏好不定型用户(94.48%),其余由高到低依次为:社交懒惰型、社交被动型、社交达人型和社交主动型。

4.2 基于中介中心性的社交类型分析

中介中心性表示节点处于其他节点对的最短路径上的程度,中介节点是子群中连接各级子模块的关键节点,可以根据节点中介中心性的相对大小,将用户划分为不同社交类型。同样地,中介中心性的相对大小的判断标准也是模糊的,因此,基于中介中心性的社交类型划分的关键也在于分界线的选择。

对用户社交网络的节点中介中心性数值分布与目标分布进行拟合与检验,其过程不作展开论述。结果表明,用户问答网络的节点中介中心性分布符合幂律分布(p5=0.99>0.05);而用户关注网络的节点中介中心性分布不符合幂律分布(p6=0.03<0.05),也不符合正态分布(p7=0.00<0.05)和泊松分布(p8=0.00<0.05)。于是,获取用户问答网络节点中介中心性分布的累计概率函数,基于“二八法则”寻找数值分布的分界线,计算结果如图7所示。用户关注网络节点中介中心性的分布无明显特征,针对这种情况的分界线设定方法需要作进一步的研究,本文暂且使用累积分布所得的分界线划分用户。

表4 用户网络用户类型分布(度分布)

图7 用户问答网络和用户关注网络节点中介中心性累积分布曲线

根据节点中介中心性分布特征,将用户划分为不同社交类型,每种类型对应的用户数量如表5所示。用户问答网络中的关键用户仅1位,重要用户4位,在整个用户网络中所占的比例较小,合计仅0.73%,其余用户均为普通用户;用户关注网络中的关键用户6位,重要用户16位,在整个用户网络中的占比为3.19%,其用户余均为普通用户。

5 用户画像表示与生成

在对用户社交行为特征进行分析的基础上,进一步将社会化问答平台的用户社交概况和社交联系表示为标签和短语的形式,将社交类型表示为标签和分布图的形式,如图8所示。整体而言,高血压主题下的用户更加倾向于通过问答方式建立联系,但无论是通过问答还是关注方式建立联系,形成的社交网络的聚集性都相对较小。且无论是在用户问答网络还是关注网络中,偏好不定型用户和普通用户占比均为最大。

具体来看,在用户问答网络中,按用户占比由高到低依次为:偏好不定型、默默学习型、善于思考型、乐于助人型和学习成长型;在用户关注网络中,按用户占比由高到低依次为:偏好不定型、社交懒惰型、社交被动型、社交达人型和社交主动型。但在关键用户和重要用户数量上,用户关注网络明显多于用户问答网络。

面向高血压主题的用户画像直观明了地揭示了高血压主题下用户群体的社交网络结构和社交类型的特征,有助于平台管理人员掌握该主题下的用户社交情况和用户社交类型,为用户分类管理和个性化服务提供决策依据。由于高血压主题下的用户问答网络和关注网络中普通用户占比最高,关键用户和重要用户数量有限,这使得用户关注网络、问答网络过度依赖于某几个少数用户,网络稳定性较低。

因此,平台管理人员可以采取一定措施改善用户社交联系,提升网络的连通性和聚集性。对于关键用户和重要用户,平台可以采取一定的保护措施,向其推送优质的相关问答,形成良性循环,提高用户黏性;对于普通用户,平台可以施加一定激励和引导措施,促使普通用户转化为关键用户或重要用户,提高社区中在信息交流过程中发挥重要作用的关键用户数量,丰富平台高质量的知识资源,进而形成稳定化和多样化的平台。与此同时,对于有明确问答或关注偏好的用户,平台可以提供有针对性的个性化服务。例如,邀请学习成长型和乐于助人型用户回答问题;向学习成长型和善于思考型用户推荐可能感兴趣的问答,刺激用户产出更多专业优质的问答内容;将学习成长型和乐于助人型用户推荐给社交主动型和社交达人型用户,使学习成长型和乐于助人型用户获取更高的关注度,提高用户社交广度和深度,提升用户使用体验;对于占比较大的偏好不定型用户,平台可以推荐高血压主题的优质问答,也可以推荐其他热门主题的优质问答,丰富用户浏览内容,激发用户兴趣。

表5 用户网络用户类型分布(中心性)

图8 面向高血压主题的用户画像

6 总结

本文考虑了社会化问答平台用户所处的社交群体及用户之间关联,运用网络爬虫技术和社会网络分析方法,遵循用户社交行为数据获取、用户社交行为特征分析、用户画像表示与生成的研究思路,实现了面向高血压主题的用户画像。

研究结果表明,将社会网络分析方法运用到用户画像的研究中,能够有效地挖掘、组织和表示用户社交行为特征。而基于节点特征值分布的用户分类方法,可以揭示用户之间的关联,实现用户细分。在社会网络分析基础上生成的用户画像,进一步归纳和概括了用户的社交行为特征,有助于平台管理人员对用户社交和分类管理形成更深层次的认知。本文的研究结果为社会化问答平台用户画像实现提供了借鉴和参考,也为社会化问答平台用户画像应用奠定了基础。

另外,本研究也存在一定局限。首先,研究选取了问答和关注两类典型的社交行为,未来还可以考虑将更全面和丰富的社交行为囊括在内进行分析,挖掘用户社交行为特征;其次,本研究分别构建了用户问答和关注网络挖掘用户社交行为特征,尚未考虑不同社交行为之间的关联,进而开展用户画像融合的研究;最后,本文仅通过实现社会化问答平台用户画像揭示用户社交行为特征,但是如何揭示用户其他方面的特征,并对用户画像进行综合应用仍需进一步探索。

猜你喜欢
特征值画像社交
威猛的画像
利用LMedS算法与特征值法的点云平面拟合方法
社交牛人症该怎么治
聪明人 往往很少社交
单圈图关联矩阵的特征值
“00后”画像
画像
社交距离
凯莱图的单特征值
你回避社交,真不是因为内向