群智创新社区领先用户识别方法与应用研究*

2021-08-09 06:14单晓红何强刘晓燕杨娟
科技促进发展 2021年3期
关键词:帖子领先聚类

■ 单晓红 何强 刘晓燕 杨娟

北京工业大学经济与管理学院 北京 100124

0 引言

开放式创新环境下,企业开展创新活动不仅依靠企业自身,也受外部环境影响[1],因而企业逐渐重视用户体验[2],将用户作为其重要的外部创新来源[3]。领先用户是在特定领域处于重要市场前沿地位(领先市场趋势),并期望从满足需求的解决方案中获得高收益(高期望收益)的个人、群体或组织[4]。企业与领先用户展开合作,可以了解市场的发展趋势和需求变化,有助于企业完善产品的原型设计、缩短产品的开发周期,加速实现突破式创新,提升企业的核心竞争力[5-6]。

近年来,信息技术的快速发展为用户参与企业创新提供了广阔的平台[7],国内外许多企业,如华为、小米、宝洁和戴尔等,通过构建群智创新社区[8]使用户广泛地参与企业创新。群智创新社区是基于互联网和通信技术的网络平台,旨在将原本孤立、分散的用户聚集起来,用户之间通过分享和讨论技术经验、创意设计方案,可以加速知识的传播,帮助企业解决技术或创新难题[9]。然而,不同用户知识水平和技术经验的不同使其创新能力存在较大差异,这便增加了企业开展社区用户管理、选择创新合作对象的难度[8]。相比于普通用户,领先用户拥有更强的市场预见性[10],他们的需求和偏好能够引领市场,并且更热衷于为产品创新提供帮助[11],可为开展企业创新活动提供决策支持。因此,如何准确地识别出群智创新社区中的领先用户,确定领先用户间的领先性差异,对于企业了解领先用户特征、筛选合作对象意义重大。现有识别指标体系无法完整地反映出领先用户特征,识别方法难以体现领先用户差异,极大影响了企业对领先用户的有效利用。国家基金委将有效利用领先用户等外部资源视为技术供需对接需要解决的关键问题,本文是国家自科面上项目“异构信息网络下技术供需匹配模型与对接路径研究”的部分成果,给出了基于群智创新社区用户行为数据和内容数据的识别领先用户的方法,有效促进了技术供需匹配与对接。

1 相关研究

1.1 群智创新社区中领先用户特征研究

领先市场趋势和高期望收益是领先用户的基本特征[10],近年来众多学者对领先用户的特征进行了深入研究和拓展,如表1所示,Lüthje、Belz 和Schreier 等学者认为领先用户比普通用户对产品的设计和开发更为了解,因而拥有丰富的专业知识和经验。Lüthje、Füller 和Pajo等学者认为领先用户能够积极地参与产品体验,并且与自己的期望作对比,提出相应的修改建议,因而拥有较高的创新积极性,此外,Jeppesen、Marchi 和Hau 等学者认为领先用户能够积极发表自己的创新建议并与其他用户进行探讨,表现出了较高的共享性。Franke、Morri‐son、Belz 和Kratzer 等学者认为领先用户拥有着较强的创新能力,在相关的领域中,他们的社会威望较高,其观点和建议能够得到其他人的认可,极有可能成为群体中的意见领袖。

表1 领先用户特征

1.2 群智创新社区中领先用户识别研究

传统的领先用户识别方法包括群体筛选法和金字塔法[23]等,但这些方法多以问卷调查或者访谈法形式开展,需耗费较多的时间和成本,不适用于线上社区环境中,网络志法[20]和众包法[24]虽可用于线上创新社区中领先用户识别,但仍是基于人工分析用户数据,也存在着效率低、用户识别准确性不高等问题。近几年,国内外一些学者尝试使用数据挖掘技术识别创新社区中的领先用户,Sanjin Pajo[25]等提出了FLUID (Fast Lead User Identification)法,并以Twitter 中的用户数据验证了方法的有效性。叶三龙[26]通过构造属性矩阵并利用加权平均法求出用户的创新能力值,识别出了网上品牌社区中的领先用户。王磊等[8]使用聚类算法划分创新社区中的用户,并对不同类别用户的创新能力进行分析。李楠[27]提出一种基于改进的PROMETHEE 法进行创新社区中的领先用户识别。付轼辉和焦媛媛等[28]从用户语言风格的角度出发,探索使用成就需求、积极情绪、集体主义和未来导向等语言风格识别领先用户的可行性。赵晓煜和孙福权[29]研究了朴素贝叶斯分类算法在识别创新社区中领先用户上的应用。原欣伟和杨少华等[30]分析创新社区中用户的特征,并结合网络志法和随机森林算法探索领先用户识别。

现有研究为企业识别领先用户提供了基础,但仍存在以下不足:第一,现有研究多以领先市场趋势和高收益期望两项特征作为领先用户的识别依据,没有充分结合创新社区中用户的行为数据和内容数据,使得识别指标体系构建不完整,影响了领先用户识别效果。第二,多数识别方法都是基于分类算法,但分类过程中预先标注用户类别易受人为因素干扰,进而影响识别结果的合理性。第三,识别出的领先用户无法区分其领先性的差异,难以给企业提供更加有针对性的决策。

近年来,用户排序研究在其他领域已经有了一定的基础[31-34],这为分析群智创新社区中领先用户的领先性差异提供了技术支持。因此,本文结合用户行为数据和内容数据构建领先用户识别指标体系,使用聚类算法识别出领先用户并通过灰色关联分析确定领先用户的领先性排名,不仅完善了领先用户识别指标体系,有助于提高领先用户识别的准确率,也可以通过领先用户排名更好地体现用户领先性差异,从而为企业提供更加有意义的决策支持。

2 群智创新社区领先用户识别指标体系构建及度量

2.1 群智创新社区领先用户识别指标体系的构建

领先用户识别指标是识别领先用户的关键所在。群智创新社区中的用户数据分为两类,即表现用户行为的行为数据和用户发表主题帖子的内容数据。行为数据既包括发表帖子数量、评论帖子数量、在线时长、好友数等,也包括社区对用户的奖励回馈记录,如积分、金币数、等级数和贡献值等数据,反映了用户在社区中的活跃性、共享性和影响力。内容数据包括用户发表的创新帖子、产品设计、话题讨论和技术分享等,其内容包含文字、图片和链接等,反映了用户的创新性。本文在已有研究的基础上,结合群智创新社区中用户的特征,提出了基于活跃性、创新性、共享性和影响力4个维度的领先用户识别指标体系,如表2所示。

表2 群智创新社区领先用户识别指标

2.2 群智创新社区领先用户识别指标体的度量

活跃性:总发帖量、签到天数、在线时长等指标反映了参与用户创新活动的活跃性水平。在线时间越长,发表帖子数量越多,表明用户越愿意参与创新社区的活动,积极性越高。

创新性:精华帖子数量、热门帖子数量、平均帖子质量系数、平均帖子内容得分等指标反映了用户发表帖子内容的创新水平和专业水平,能够表现出社区和用户对帖子的认可程度,从而表现出用户的创新能力、经验和技术水平。

为了更好地反映用户创新性,本文使用“平均帖子质量系数”和“平均帖子内容得分”两项指标从行为数据和文本内容两方面来综合衡量用户在一段时间内发表帖子所含创新性和专业性的整体水平,计算方法如公式(1-2)所示:

其中:Content_Scoreavg代表平均帖子内容得分,content_scorei代表用户第i篇帖子的得分,Post_Qualityavg代表平均帖子质量系数,post_qualityi代表用户第i篇帖子的质量系数,num_published代表用户发表帖子总数。

帖子质量系数用于衡量帖子质量的好坏。创新社区中也存在内容质量一般但浏览量却极高的帖子,如社区中的通知、公告等,浏览量高但回复数却很少,原因是用户的“从众心理”使得他们去阅读浏览量高的帖子,但浏览后却发现帖子内容一般便很少对帖子进行评论,这类帖子有着极高的浏览量但内容质量却很低,缺乏创新性和专业性。其计算方式如公式(3)所示:

其中,num_browsed代表帖子被浏览量,num_replied代表帖子被回复数量。

帖子内容得分反映了帖子价值的高低,得分越高表明帖子的价值越高。本文使用熵权法[30]分衡量帖子内容得分,首先将帖子文本进行分词和去除停用词处理,得到分词列表,再从中筛选出能够代表专业领域或知识的特征词,计算特征词的信息熵和权重,最终计算得到每篇帖子的得分,帖子内容得分具体计算过程如下:

从m篇处理后的用户帖子中共筛选出n个特征词,若第j个特征词在第i篇用户帖子中出现的频率为xij,特征词词频矩阵可表示为X=[xij]对词频矩阵进行无量纲化处理,处理过程如公式(4)所示:

其中:max(xj)为m篇用户帖子中第j个特证词的最大词频,min(xj)为m篇用户帖子中第j个特证词的最小词频。

其次,计算标准化后的词频矩阵中的每一项在每一列中的比重,计算方法如公式(5)所示:

计算每个特征词的信息熵,计算方法如公式(6)所示:

计算每个特征词的权重,计算方法如公式(7)所示:

最后,计算每篇帖子内容信息得分,计算方法如公式(8)所示:

共享性:好友数、发起讨论次数量和总回帖量等指标能够反映出用户积极与其他用户互动和交流的程度,衡量用户是否积极与其他用户进行知识共享及推动创新的能力。

影响力:用户头衔、总贡献值和积分等指标能反映出用户在群智创新社区中的个人威望和认可度,体现了用户在社区中的影响力。

3 基于聚类算法的群智创新社区领先用户识别方法

3.1 基于变异系数法的指标权重确定

根据上述指标构建过程可知,领先用户和普通用户在创新能力、专业知识等方面存在较大差异,因此在识别领先用户前应赋予各项指标不同的权重,以进一步体现用户间的差异,本文使用变异系数法[35],确定各项指标的权重,变异系数法是一种客观赋权法,可充分利用数据的客观信息对评价指标赋权,其基本思想为在评价指标体系中取值差异越大的指标,该指标的重要性就越高,越应该被重点关注,通过计算各项指标的变异系数来衡量各项指标取值的差异程度[36],具体计算过程如公式(9-10):

其中,Vi是第i项指标的变异系数,σi是第i项指标的标准差,是第i项指标的平均值,Wi是第i项指标的权重。

3.2 领先用户识别

聚类算法属于无监督学习算法,学习过程中无需标注数据,因而可以避免有监督学习算法在人为标注数据时所带来的误差。本文使用聚类算法识别群智创新社区中的领先用户,聚类过程中根据用户的不同特征对用户类别进行判断,将特征相似的用户划分到同一个群体中,而不同群体间的用户特征差异较大,对比和分析不同用户群体的用户特征,以确定领先用户所在群体。

凝聚层次聚类算法[37]实现较为简单,并且无需预先设定聚类个数,可以发现类之间的层次关系,因此本文使用凝聚层次聚类算法识别领先用户,算法的主要思想是将每个数据点作为一个初始聚类簇,每次迭代都寻找相似度最高的2 个类别进行合并,并不断迭代合并的过程,直至分类数目达到预期设定的值,计算簇之间相似度有3 种方式,即最小相似度、最大相似度和平均相似度,计算方式如公式(11-13)所示[38-39],

其中,dmin(Ci,Cj)、dmax(Ci,Cj)、davg(Ci,Cj)分别为聚类簇Ci和Cj之间的最小相似度、最大相似度和平均相似度,ni和nj分别是聚类簇Ci和Cj中数据点的数量。

4 基于灰色关联分析的领先用户排名

灰色关联分析是一种多因素分析方法,可用以分析和确定多因素之间的影响程度以及各因子对主体行为的贡献程度[40],本文使用灰色关联分析法计算领先用户各项指标的平均灰色关联值作为其领先值,领先值越高,则该用户的领先性就越强,具体计算过程如下:

n位用户和m个指标形成的指标矩阵公式(14):

首先,确定参考数据序列,本文将各项指标数据的最大值作为参考数据序列,记作:

使用min-max 法(公式(4))对指标数据无量纲化处理,结果如下:

计算每个比较序列与参考序列对应元素的关联系数,计算过程如下:

对各项指标关联系数加权求均值后得到最终关联系数r:

其中,Wk为各项指标权重,ζi(k)为比较序列与参考序列对应的关联系数。根据各领先用户的关联度值大小进行排名,即可得到用户领先性排名。

5 华为产品定义社区领先用户识别与排名

5.1 数据采集和预处理

本文以华为产品定义社区“AI 大数据”圈中的用户数据为例进行领先用户识别与排名,使用Python 编写爬虫程序采集社区中2018年3月至2019年3月之间的用户数据,具体数据包括:用户ID、用户头衔、积分、总发帖量、帖子总浏览量、帖子总回复数、累计签到天数和帖子文本等字段,预处理时删除包含缺失值和无实际意义帖子的数据,得到包含226 名用户和1843 条帖子的用户数据,按照上述章节中的方法构建领先用户识别指标,分别为勋章数、好友数、头衔、总帖子数、帖子平均浏览量、帖子平均被回复数、用户总回复数、积分、总贡献值、累计签到天数、平均帖子质量系数和帖子平均得分等12项指标。

5.2 华为产品定义社区领先用户识别

5.2.1 确定指标权重

使用变异系数法计算得到12 项指标的权重分布如表3所示。

表3 各项指标权重

5.2.2 领先用户识别

本文使用Python 的机器学习库sickie-learn(简称sklearn)中的AgglomerativeClustering算法构建领先用户聚类模型,并使用Silhouette Coefficient(轮廓系数)作为衡量聚类效果的指标,轮廓系数在[-1,1]内,值越大代表聚类效果越好,反之则越差。

AgglomerativeClustering 算法聚类结果由图1所示,用户被划分为3 个类别,当轮廓系数得分为0.806(图2)时,聚类效果最优,聚类结果如下表4所示。

图1 AgglomerativeClustering算法聚类结果

表4 用户聚类结果

图2 聚类个数及其轮廓系数

由表4可知,聚类后社区中的3 类用户人数分别为6、2和218人,3类用户各项指标均值对比如表5所示,可以发现,第1类用户大多数指标都要优于另外两类用户,他们在社区中的发帖量和帖子回复量最高,并且帖子得分最高,对社区的贡献值最大,说明其积极参与社区中的主题讨论和话题互动有着极高的人气和社区认可度,因此,他们是华为产品定义社区中的领先用户。相比于领先用户,第2类用户大部分指标都较低,他们在创新能力和社区影响力等方面和领先用户存在一定的差距,但此类用户在创新社区中表现活跃,积极参与创新话题讨论,也愿意主动评论创新内容,提出自己的创新意见,他们在创新社区中具有一定的影响力,也为创新社区的发展做出了一定的贡献,他们在将来极有可能成为领先用户,因此,本文将其称之为积极创新型用户。相比于前两类用户,第3类各项指标值最低,他们在社区中人数占比最大,但大多数活跃性不高,很少积极参与创新社区中的活动,发表创新帖子数量很少并且内容质量不高,对社区发展的贡献度最小,因此,本文将其称之为创新社区中的普通用户。

表5 三类用户各项指标均值对比

5.2.3 领先用户排序

计算6名领先用户的加权平均灰色关联度作为其领先值,并进行排名,结果如下表6所示,6名领先用户之间的领先性也存在一定的差异,分析领先用户的详细信息(表7)可以发现,领先用户在活跃性、创新性、共享性及影响力等方面都具有明显的优势,他们发表帖子的平均帖子质量系数和平均帖子质量得分都较高,说明其发表帖子的内容具有很强的创新性和专业性,具有很高的信息价值,反映出他们极强的创新能力和专业水平。此外,排名靠前的领先用户其对于创新社区的贡献值更大,个人的社区积分值也更高,他们的总发帖量最多,并且都有着极高的回复量,表明其在社区中的活跃程度和开展创新活动的积极性非常高,排名靠前的领先用户拥有更多的好友数,表明他们有着极强的社区影响力,他们的相关意见能够得到社区和其他用户的充分认可,他们的创意可以引导创新社区主题的发展方向,从而推动创新社区中知识的传递。

表6 领先用户排名

表7 领先用户的具体信息

6 结论与建议

6.1 结论

本文提出了一种基于聚类算法和灰色关联分析的领先用户识别及排名方法,对于识别群智创新社区中的领先用户,分析领先用户的领先性差异有着较好的效果,具体研究结论如下:

(1)基于用户内容数据和行为数据构建的领先用户指标体系,更完整地反映了群智创新社区中用户活跃性、创新性、共享性和影响力四个维度的特征,提高了领先用户识别的有效性和准确性。

(2)基于凝聚层次聚类算法的领先用户识别方法无需预先设定用户聚类个数,同时也能避免分类算法在训练过程中人工标注用户类别的问题,可以有效提升领先用户识别的合理性和准确性。

(3)基于灰色关联分析的领先用户排名方法可通过计算各特征指标间的关联度以及对用户的贡献程度,反映出领先用户间领先性的差异,进而为企业掌握领先用户特征、有针对性地选择合作对象提供了参考。

6.2 建议

(1)华为产品定义社区实例研究结果表明,社区中的领先用户和创新积极型仅占少数,而数量最多的是普通用户,并且在活跃性、创新性、共享性和影响力方面存在较大差异。因此,企业应针对不同类型的用户给予不同的管理措施,进而提升社区的创新产出效率。具体而言,企业可以通过构建外部用户人才库,与领先用户建立长期创新合作关系,使他们能够持续为企业创新提供支持。其次,企业应加大对创新积极型用户的关注力度,应增加相应的激励措施,鼓励他们参与创新社区创意活动,积极发表创新方案,帮助企业解决创新过程中的瓶颈问题。再者,针对大量的普通用户,企业应适当减少在普通用户上的关注力度。

(2)通过深入分析华为产品定义社区中的用户帖子,一些关注度较高的帖子,如社区公告和通知等,其内容一般且缺乏创意,对企业创新发展作用也不大;相反,一些关注度不高的帖子内容极具创意,却容易被忽略。因此,企业不仅应重视领先用户的发帖,也应重视这些高质量的帖子,可通过自然语言处理、文本挖掘等技术识别出这些帖子,挖掘并利用其中的价值。

猜你喜欢
帖子领先聚类
数种基于SPSS统计工具的聚类算法效率对比
潍柴:从领先到引领
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
暴力老妈
基于Spark平台的K-means聚类算法改进及并行化实现
高手是这样拍马屁的
我是怎样在坛子里堕落的