哔哩哔哩用户群体特征研究

2020-12-28 03:02周熙阳
新媒体研究 2020年14期
关键词:聚类分析

周熙阳

摘  要  先对哔哩哔哩用户样本数据进行描述性统计分析,再应用K-均值聚类算法,选择粉丝数、关注数、投稿数、互粉数四个指标变量进行聚类分析。研究表明哔哩哔哩有三大用户群体:大众型、积极互动型、意见领袖型。意见领袖型用户拥有大量粉丝,影响力强劲,其视频内容具有较强的辐射力,是最具有营销价值的广告投放群体。积极互动型用户在平臺上拥有固定的活动社交圈,可以作为较有营销价值的广告投放群体。

关键词  哔哩哔哩;群体特征;聚类分析

中图分类号  G206.2      文献标识码  A      文章编号  2096-0360(2020)14-0039-03

哔哩哔哩(bilibili,简称B站)创建于2009年,作为当下最受欢迎的弹幕网站,正对互联网用户的生活产生着潜移默化的影响。截至2018年三季度,哔哩哔哩平台季度平均月活跃用户数量已经达到了9 270万人。其高互动性、及时性、娱乐性以及强烈的二次元语言风格使其不断地扩大用户基数,成为中国最大的年轻人文化社区。伴随着哔哩哔哩弹幕网站的红火,也随之而来催生了一种新的广告投放方式——B站投放。广告主们借助B站视频内容生产者之口,向每一位潜在受众普及产品和企业信息,传达企业文化。

目前国内大多数学者对于哔哩哔哩的研究大多是定性研究。本文以哔哩哔哩用户为研究对象,手动随机抽取获得400多个用户数据,通过K-均值聚类分析法,挖掘各个类别哔哩哔哩用户的不同特征,帮助广告主找到核心传播群体,减少不必要的资源浪费,提高传播效率。

1  研究设计

1.1  样本数据

以哔哩哔哩平台用户数据为研究对象,为了保证数据的质量,避免爬到一些僵尸号,本文选择爬取用户的关注列表而非粉丝列表。随机挑选了一位粉丝数过百的视频上传者作为起始,爬取她的关注列表,再对列表中的每个人爬取其关注列表,以此类推。截至2020年1月3日,共爬取400多位哔哩哔哩用户数据,包括用户昵称、性别、用户主页链接、粉丝数、获赞数、播放数、关注数、投稿数、互粉数共9个属性。

1.2  指标设计

本文考虑到各个指标对用户群体特征的意义以及数据采集情况,参考何跃,帅马恋,余伟萍[1]对于微博用户群体特征的研究,选取了以下几个指标分别来权衡用户的影响力[2]、活跃度[3]、互动性[4]:

1)粉丝数。论文中该指标是由从用户注册时间到2020年1月3日该时间段内手动采集样本用户总粉丝的数量而来。用户粉丝数的大小意味着其他用户对该用户生产内容的关注度,是反映用户影响力的重要指标。“转发”能够实现裂变式的信息传播,而这种路径主要就是通过“粉丝路径”[1]。

2)关注数。论文中该指标是由从用户注册时间到2020年1月3日该时间段内手动采集样本用户总关注数而来。当用户关注他人,主页就会显示被关注用户的动态,并通过算法向用户进行推荐,用户获取自身感兴趣的信息。用户关注数量越多,意味着用户投入该平台上的时间和精力越多,关注数是反映用户活跃程度的主要指标。

3)投稿数。论文中该指标是由从用户注册时间到2020年1月3日该时间段内手动抽取样本用户总投稿的数量得来,投稿数越多,用户自主生产创造内容的意愿越强,这也意味着用户在平台的表现越活跃,投稿数是衡量用户活跃度的重要指标。

4)互粉数。当一个用户与另一个用户互相关注,互为对方的粉丝,即为互粉。用户拥有的互粉好友越多,说明用户互动性越高,该用户越倾向于在哔哩哔哩平台上拥有固定数量的活动社交圈。通过互粉,用户既能提升用户人气、实现报酬性吸引[4]。互粉数是衡量用户互动性的主要指标。

2  实证分析

2.1  描述性统计分析

在对各项离散指标进行分段连续处理之后,哔哩哔哩用户群体特征整体情况如表1。对性别、关注数、粉丝数等特征变量进行大致的描述性统计分析,有助于事先了解大致情况。

由表1可看出,在确定的407名哔哩哔哩用户的样本中,男性调查者共218名,占样本比例53.6%,与中国互联网信息中心2019年8月30日公布的第44次《中国互联网络发展状况统计报告》比例52.4%基本相符;从关注数来看,关注数100以下的占样本比例85%,绝大多数用户关注100个以内的博主;从粉丝数量来看,1万及以下的粉丝数占39.1%,10万以上的粉丝数占26.3%,两钟粉丝群落占比均超过25%,而且相加占总体65%以上,这意味着样本用户粉丝群落出现了两级分化的情况;从区间分布频率来看,100及以下的关注数占85%,100及以下的互粉数占99.%,在对互粉数和关注数进行相关性检验(r=0.563)后发现,互粉数和关注数显示出了较强的正相关性,在一定程度上说明了可能有固定的一定数量的互动群体存在于哔哩哔哩平台用户之中。而从获赞数和播放数来看,播放数和获赞数之间的标准差分别为52 773 364.1和1 564 777.5,说明了不同用户之间的差异较为明显。这意味着不同的用户在哔哩哔哩平台的网络活动有着不同的特点。这些问题将在接下来的聚类分析中进行探讨。

2.2  哔哩哔哩用户群体特征分析

本文通过软件spss22.0,采用K-均值聚类算法对哔哩哔哩用户群体进行聚类分析。为了保证分析结果的准确性和客观性,本文先初步排除数据中的异常值,剔除空缺或者乱码的用户数据。其次选取互粉数、关注数、投稿数、粉丝数这四个指标进行K均值聚类分析,其中互粉数是衡量用户互动性的指标,关注数和投稿数是衡量用户活跃度的指标,粉丝数是权衡用户影响力的指标。如表2所示,K均值聚类分析最终将其聚为三类。

样本类型1,占样本量的95%以上,投稿数和粉丝数是三种类型里最少的,互粉数和关注数是三种类型里适中的。该样本类型粉丝数集中在10万左右,关注数集中在54左右,投稿数集中在128左右,互粉数集中在15左右。相对于其他类型用户而言,作品投稿较少,粉丝量也较少,在三种类型中表现出的特点是低影响力。这表明该类型用户对哔哩哔哩平台的依赖程度较低,但是该类型用户是哔哩哔哩平台用户的主要构成群体,故命名为“大众型”用户。

样本类型2,占样本数量的3.2%,关注数和互粉数是三种类型里最多的,投稿数和粉丝数是三种类型里适中的。该样本类型粉丝集中在281万左右,关注数集中在64左右,投稿数集中在268左右,互粉数集中在30左右,是其他类别用户的2倍以上。相对于其他类型用户而言,该类型用户关注的视频内容生产者较多,互粉数也是三种类型里最多的,在三种类型中表现出的特点是高互动性。这表明该类型用户在平台上积极关注他人动态,同时在哔哩哔哩平台上拥有一定数量的社交圈,与粉丝之间有着共同的信息需求,故命名为“积极互动型”用户。

样本类型3,不到总体样本数量1%,粉丝数和投稿数是三种类型里最多的,关注数和互粉数是三种类型用户里最少的。该样本类型粉丝集中在672万左右,是其他类别用户的2倍以上,关注数集中在17左右,投稿数集中在319左右,互粉数集中在7左右。相对于其他类型用户而言,该用户虽然互动性较低,互粉数只有平均互粉数的0.4,社交规模不大但是积极生产视频,拥有大量粉丝并且影响力强劲,在三种类型中表现出的特点是高影响力低互动性。表明这类用户在网络社区中具有意见领袖的地位,其创建和分享的内容会被众多用户关注,故命名为“意见领袖型”。

3  结论

本文通过采集哔哩哔哩平台中用户群体的相关信息,分别从影响力、活跃度、互动性三个方面选择粉丝数、关注数、投稿数、互粉数四个指标使用K均值聚类算法对哔哩哔哩用户进行聚类分析,分析结果表明,哔哩哔哩用户可以分为大众型,积极互动性,意见领袖型三大类,意见领袖型用户拥有大量粉丝,影响力强劲,其视频内容具有较强的辐射力,是最具营销价值的广告投放群体。而积极互动型用户在平台上拥有固定的活动社交圈,与粉丝之间沟通较为密切,可以作为较有营销价值的广告投放群体。

互联网大数据时代下,视频弹幕网站用户增多,内容生产水平层次不齐。聚类结果可以供广告主参考,提高广告投放的精确度,一方面能為优质用户实现高效率的广告变现,另一方面能帮助广告主定位到最有价值的用户群体,实现精准营销。

论文通过手动采集用户信息,虽然已经避免僵尸粉,但仍然存在人工误差,抓取方式精确度不足。后期将改用爬虫程序,获取更多的哔哩哔哩用户信息,扩大文本信息量。

参考文献

[1]何跃,帅马恋,余伟萍.新浪微博加V用户特征分析[J].情报杂志,2014,33(9):148-151.

[2]姚茜,卜彦芳.基于影响力研究的微博营销模式探析[J].经济问题探索,2011(12):117-121.

[3]李英乐,于洪涛,刘力雄.基于改进PageRank算法的微博用户影响力研究[J].计算机应用研究,2013,30(9):2594-2597.

[4]陈然.网络论坛活跃群体社交网络研究——从“关注”行为的视角[J].新闻界,2012(18):51-55,61.

猜你喜欢
聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究