基于聚类的网络直播群体行为建模分析①

2019-01-18 08:30兰荣亨

计算机系统应用 2019年1期

兰荣亨，朱格，杨文，田野，朱明

1(中国科学技术大学信息科学技术学院，合肥 230027)

2(中国科学技术大学计算机科学与技术学院，合肥 230027)

在过去的20年间，视频多媒体应用占据了英特网上大多数网络流量[1]，视频应用逐渐融入人们的日常生活. 随着宽带网络的普及，上网费用的降低，终端用户已经不再仅仅是内容消费者，同时也成为了内容生产者[2]. 网络视频直播逐渐兴起并壮大，越来越多的人参与其中，直播并分享自己的生活. 不同于传统的文字、图片、视频等传播形式，直播紧密的将用户与直播内容交互在一起，用户本身也成为内容生产的一份子，所以网络直播得到越来越多用户的推崇.

针对直播系统，已经有大量文献进行了相关研究.Qiu等人[3]研究发现，频道的流行度分布是偏态的并且可以用Zipf分布来刻画，作者也指出流行度的动态变化可以用Ornstein-Uhlenbeck过程来建模； Li[4]通过研究网络直播系统的访问日志，提出了一系列用于直播持续时间，用户活动，用户的到来与离开时间建模的模型. 此外还有一系列研究直播系统生态、架构设计、用户行为等的工作[5-10].

国内的直播平台在近几年大量涌现，在2016年甚至出现千播大战的局面[11]. 与国外最大的直播平台，Twitch.tv[12]的订阅收费机制不同，国内如斗鱼、虎牙、熊猫等平台，基本都引入了送礼机制，即观众可以通过购买平台提供的虚拟礼物来打赏自己喜欢的主播，而平台则以抽成的方式分享观众打赏的礼物. 观众的打赏，成为主播和平台的主要收入来源之一. 所以，在海量带宽、技术开发、运维等各种成本的巨大压力下，网络直播平台理解观众的行为，尤其是在平台上一掷千金的高消费观众，以采取相应策略来提高用户的变现能力，就显得尤为重要.

本文以斗鱼直播平台为例，聚焦于在平台送出高价值礼物的观众，通过聚类分析研究直播平台上高消费群体的行为，为挖掘用户潜在价值提供合理依据.

1 平台简介与数据采集

1.1 平台简介

斗鱼直播平台(Douyu.com)[13]是国内主流直播平台之一，从最初的游戏直播平台，至今已发展成为集游戏、娱乐、户外、体育、影视等众多热点的综合性直播平台. 平台上每个主播都有自己独立的直播间，并可以自主选择直播内容类别. 和国内的众多视频网站一样，斗鱼允许观众在观看直播的同时，在直播间内发送弹幕与主播进行互动，极大增强了观众在直播内容产生中的参与感，这种参与感是在传统的点播和电视直播中是无法得到的. 除了发送弹幕，斗鱼也提供了从0.1元到上千元价值不等的各种虚拟礼物，供观众购买用于打赏主播.

在本研究中，价值大于等于100元的礼物被称为高价值礼物. 与普通礼物不同，当观众送出高价值礼物时，斗鱼平台会将该事件通过弹幕的形式，在平台所有的直播间内广播，其他直播间的观众看到广播消息后可以通过点击广播进入该直播间. 此外，当观众在某个直播间送出高价值礼物后，斗鱼平台还会以该观众的名义，在该直播间派送一些同样可用于赠送给主播的免费虚拟礼物，所以观众在看到高价值礼物的广播消息后，往往会点击广播进入直播间，以领取免费的虚拟礼物.

1.2 数据采集

用户行为分析需要大量的数据支持，如观众发送的弹幕消息，观众产生的送礼消息等. 本研究通过维护一个每隔5分钟更新一次的开播直播间列表，结合斗鱼直播平台开放的相关API[14]，对开播房间列表中的每一个房间实时抓取弹幕消息和礼物消息并存入数据库，完成数据的采集.

本研究采集了2016/11/22至2016/12/19连续四周的数据. 数据包含近750万位观众发送的2.5亿条弹幕数据和送出的689万个礼物数据，以及24万个主播产生的近179万条开播记录. 经过简单统计，在这四周内斗鱼观众总共送出了价值近4700万元的礼物. 表1展示了所采集数据的统计概览.

表1 数据集概览

2 样本选取与特征构建

2.1 样本选取

本研究旨在分析直播平台中高消费群体的行为，所以首先需要获取高消费群体研究样本.

先给出本研究中高消费群体的定义: 在2016/11/22至2016/12/19四周内，送出过高价值礼物，且送出的总礼物价值超过500元，则称之为高消费观众，所有高消费观众构成高消费群体.

在不失一般性的前提下，为了兼顾效能，本研究根据高消费群体的定义，从四周数据集中过滤出所有高消费观众，并从中随机挑选了324名(约占高消费观众的10%)观众作为研究样本.

2.2 特征构建

对于研究样本中的每一个观众，构建如下8个特征:

TotalGiftValue: 观众在四周内送出的总礼物价值，单位为元.

TotalDanmuNum: 观众在四周内发送的总弹幕数量.

BroadcasterNum: 如果某观众在某个直播间发过弹幕或者送过礼物，称该观众与该主播产生交互. 此特征指观众与之产生交互的所有主播数量.

HGBroadcasterNum: 观众通过高价值礼物交互过的主播数量.

IfTheSame: 观众在某个直播间与主播互动有两种方式，发弹幕和送礼物. 此特征标记观众发送弹幕最多的直播间与打赏礼物最多的直播间是否相同，若相同则取值1，否则取值0.

剩下三个特征的构建，引入了信息论中熵(Entropy).在信息论中，熵用于度量信息的不确定性，熵越大，则信息的不确定性越大，即信息越发散. 记离散事件X的概率分布为p1，p2， …，pn，则该事件X的熵H(X)定义如下:

本研究采用熵的标准化形式:

当n=1 时，令NH(X)=0，则易得 0＜=NH(X)＜=1，当pi=1/n，i=1， 2，…，n，时，NH(X)取最大值 1.

GiftEntropy: 观众的礼物熵. 若某观众x在n个直播间送过礼物，送出的礼物价值分别为g1，g2， …，gn，则可计算观众x的标准化礼物熵:

观众的礼物熵越大，意味着该观众对特定主播的送礼偏好程度越低，换言之，该观众越倾向于将礼物平均的送给若干主播.

DanmuEntropy: 观众的弹幕熵. 计算方式与EntropyOfGift类似，用来反映观众在不同直播间的发弹幕行为偏好程度.

CategoryEntropy: 此特征反映观众对某一类直播间的偏好程度. 斗鱼直播平台中的直播内容分为热门游戏、手机游戏、娱乐天地等若干大类，每一大类下又分为若干小类. 每一个主播都可以自主选择自己的直播间类别，如直播游戏的英雄联盟类，直播唱歌的音乐类等. 若观众x与若干类别直播间的主播产生过交互，每一类分别有c1，c2，…，cn个主播，则类似可得该观众的交互主播类别熵:

表2简单总结了各个特征的含义. 特征构建完毕后，研究样本中的每个观众被映射为一个8维的特征向量，最终得到324×8维的高消费群体特征数据. 下一章节将对特征数据做聚类分析.

表2 特征含义

3 模型设计与结果分析

3.1 模型设计

本研究采用无监督学习方法—聚类，来分析高消费群体的行为. 聚类的本质是识别并区分数据中的一些代表性群体，这些由相似个体构成的群体被称为簇(cluster).

聚类涉及相似性度量，由于观众的特征数据包含属性变量(IfTheSame)，所以传统的欧式距离无法直接用来计算相似性，而需要寻求其它适用混合数据的相似性度量方法. Gower[15]通过对数值特征和属性特征分别采用不同的距离度量，最后对所有特征的距离求加权和的方式，提供了一种用于混合数据的相似性度量方法. 记Xi，Xj为两个具有N维特征的变量，则Gower距离可形式化定义如下:

其中，若特征k为属性特征:

若特征k为数值特征:

wijk为赋给各个特征的权值.

可以看到，当特征为数值型时，Sijk为曼哈顿距离(Manhattan Distance)，且通过除以尺度因子rk使其规约化到了0～1之间.

本研究采用Gower距离作为个体间的相似性度量，采用的 PAM (Partition Around Medoids)[16]作为聚类方法.

除了相似性度量与聚类方法，聚类的另一核心问题为聚类个数的选取. 本研究通过自定义目标函数Object，结合手肘法 (Elbow method)[17]来确定最佳聚类个数. 记ml为聚类Cl的中心个体，则目标函数Object(k)定义如下:

算法1描述了整个建模过程.

算法1. 直播平台中高消费群体行为分析算法1) 从四周数据中过滤出所有高消费群体，并随机选择324名(10%)观众作为研究样本U；

2) 对于U中每个研究样本，构建特征，得到324×8维的高消费群体特征数据F；3) 根据特征数据F计算Gower距离，得到个体间相似性度量矩阵S.4) 根据相似性度量矩阵S，使用PAM方法对高消费群体聚类，采用手肘法确定最佳聚类个数k.

3.2 结果分析

根据目标函数Object(k)，作出Object～k曲线，如图1所示，可见曲线在k=3时出现明显拐点，结合手肘法，可以得到最佳聚类个数为3.

图1 目标函数曲线

为了进一步检验聚类效果，本研究使用Maaten[18]等人提出的t-SNE高维数据可视化算法，来直观的展示聚类结果. 如图2所示，可见高消费观众可明显被聚成3类，且算法也成功的区分出了这3类观众.

图2 聚类结果可视化

根据聚类结果， Cluster1、Cluster2、Cluster3分别包含170名、114名、40名观众. 计算每一类观众各个特征的统计描述，如均值 (Mean)，分位数 (Quantile)等，结果如表3所示. 下面分析这三类观众的行为.

从四周内送出的总礼物价值来看， Cluster1和Cluster2的消费能力最高，送出总礼物价值的均值都超过了2万元， Cluster2中有观众甚至在四周内送出了超过 100万元的礼物 (1192 234元). 相比之下，Cluster3的消费能力则低一些，送出总礼物价值的均值不到1万元. 四周发送的总弹幕量特征与送出的总礼物价值特征类似， Cluster1和Cluster2发送的弹幕量远多于Cluster3，表明Cluster1和Cluser2中的观众总体上要比Cluster3活跃. 另一方面，从表中可以看到，Cluster3交互主播数远小于Cluster2和Cluster1，其均值为2，最大交互主播数也仅为7个. 而Cluser1和Cluster2的平均交互主播数都是数十倍于Cluster3. 其中Cluster2的交互主播数最多，除了最大最小值，各项指标都在Cluster1的两倍之上. 所以如果从平均意义上看， Cluster3给每个房间送的礼物价值和发送的平均弹幕量都远高于Cluster1和Cluster2. 这说明Cluster3具有很强的主播偏好性，他们通常只在1～2个房间内送出大量礼物，以及发送大量弹幕. 如果只关注观众送过高价值礼物的房间， Cluster3的主播偏好性表现得更加明显，他们几乎都只给一个主播送高价值礼物. 还可以看到，虽然Cluser1和Cluser2的交互主播数量较大，但送过高价值礼物的主播数量并不多，他们只对约20%的交互主播送高价值礼物.

表3 三类观众各个特征的统计描述

进一步观察礼物熵、弹幕熵和类别熵三个特征，可以得到Cluster1的礼物熵和弹幕熵均小于Cluster2，这表明与Cluster2相比， Cluster1中观众对某一小部分主播的偏好性会较强一些. 横向对比礼物熵和弹幕熵两个特征，可以看到，礼物熵要明显小于弹幕熵，这说明和发弹幕这种几乎不耗费成本的行为相比，观众对金钱的分配则更为慎重，他们会将金钱打赏给那些真正喜欢的主播. 而对于类别熵， Cluster1与Cluster2相近，并且数值都较大，可见他们对直播间类别并无明显偏好，即他们的偏好性是面向主播，而非类别. 由于Cluster3中观众的交互主播几乎都只有1～2个，所以Cluster3的礼物熵、弹幕熵及类别熵都很小，几乎都为0，这与前面得出Cluster3中观众具有强偏好性的结论是一致的.

最后一个特征一定程度上反映观众送礼行为和发弹幕行为的一致性. 可以看到Cluster1和Cluster3中观众的这个特征几乎都取值为1(只有Cluster3中的一个观众取值为0)，即观众送礼最多的主播与发弹幕最多的主播相同. 有趣的是， Cluster2中观众的这个特征取值基本为0，这反映了Cluster2中观众两种行为的不一致性. 对这类观众而言，他们可能在某个直播间很活跃，发送大量弹幕与主播交互，但他们不一定想用金钱支持与推广这个主播.

总结分析结果，得到Cluster1、Cluster2、Cluster3的特征如下:

Cluster1: 消费能力较高，活跃较多房间，对其中一些主播有一定偏好性，金钱基本用于打赏这些偏好的主播，送礼行为与发弹幕行为表现一致性；

Cluster2: 消费能力最高，活跃在大量房间，对很多的主播感兴趣，金钱用于打赏较多主播，送礼行为与发弹幕行为表现不一致；

Cluster3: 消费能力较低，只在1～2个房间内活跃，金钱基本只用于打赏1个主播，对某特定主播具有强偏好性，送礼行为与发弹幕行为表现一致性.

聚类结果的一个很重要的用途，在于辅助用户分析，挖掘用户的潜在价值，从而提升平台的用户变现能力. 如对于Cluster1和Cluster3中观众，利用他们对某一些甚至一个主播的偏好性，平台可以和这些观众偏好的主播合作，让主播为其他产品做营销推广、广告植入，以实现精准挖掘用户消费能力. Cluser2中的观众具有最高消费能力且主播偏好性较低，利用这点，平台可以通过他们的历史观看信息，挖掘这些观众的兴趣，向他们推荐类似的主播，从而进一步刺激用户消费能力.

4 结论与展望

本文以斗鱼平台为例，研究了直播平台高消费群体的行为. 利用从斗鱼平台抓取的直播数据，构建观众特征，使用Gower距离度量混合特征的相似性，并采用PAM聚类方法对高消费群体做聚类分析. 结果表明，高消费群体可以明显被聚成三类. 对聚类结果中的三类观众做详细分析，得到了三类观众的特征刻画，并简单介绍了如何利用聚类结果来提升平台用户的变现能力. 在聚类特征的选择上，本研究人工选择了文中提到的8个特征用于模型训练. 接下来的工作是尝试挖掘更多的用户特征，并引入机器学习中的特征选择方法自动选择最佳特征组合，进一步改善聚类效果.