基于抖音平台的在线短视频流行度建模研究

2021-10-13 04:51:34钟志豪肖井华王笑尘
电子科技大学学报 2021年5期
关键词:阈值曲线情感

钟志豪,肖井华,吴 晔,王笑尘

(1.北京邮电大学理学院 北京海淀区 100876;2.北京师范大学新闻传播学院 北京海淀区 100875;3.北京邮电大学移动互联网安全技术国家工程实验室 北京海淀区 100876)

随着新媒体技术的快速发展,社会信息传播形式由文本信息为主转变为文本、视频多模态传播。当前,15 秒短视频更符合大众“碎片化”的时间管理习惯,已成为网络视频传播的主要方式之一。截至2020 年3 月,中国短视频用户规模达7.73亿,占网络视频用户的85.6%[1]。截至2020 年第一季度,短视频平台“抖音”(Tik Tok)在全球范围内的累计总下载量突破20 亿次[2]。可见,短视频用户量日益攀升,呈现出蓬勃发展的态势。

短视频传播具有诸多新特点,如传播以推荐机制为主、传播速度快、传播效果由视频的内容所决定以及弱化了用户身份和等级的影响[3]。这些特点使得短视频传播流行度的演变机制不同于传统视频,且在系统的推动下传播规模更大。因此,研究短视频的传播规律有助于揭示短视频传播过程中流行度的演变机制,从而更有效地控制信息传播。

目前针对网络信息传播的研究主要集中在文本信息的传播规律上,借助经典的传染病传播模型研究社交网络中的信息传播过程[4]。如文献[5]基于SIR(susceptible infected recovered)模型构建了在线社交网络谣言传播的动力学模型;文献[6-8]利用经典SIR 或SIS(susceptible infacted susceptible)模型研究社交网络中的信息传播过程。在信息传播时变模式的分析方面,文献[9]提出一种Spike-M 模型来研究一条新闻信息在传播过程中受欢迎程度的上升和下降模式,为实际数据中出现的多种时变模式提供了一个统一的模型框架。文献[10]研究了在线内容的多种时间模式,以及内容的受欢迎程度如何随着时间的推移而增长或消退。

针对视频传播的研究主要集中在探索口口相传及首页推荐对视频传播的综合影响,并通过构建相应的视频传播模型来揭示视频流行度的演化模式。文献[11]根据腾讯视频的数据,综合考虑了口口相传以及首页推荐这两个传播途径,建立了视频传播的动力学模型。文献[12]根据人人网数据,专注于研究视频受欢迎度的分布和演变,并建立了一个简单模型来模拟在线社交网络中视频的用户请求过程。文献[13]基于一个由用户浏览行为形成的视图传播模型来探究如何通过YOUTUBE 的推荐系统来提升人气,探索视频之间是如何相互影响的。文献[14]通过视图计数跟踪的方法对视频的推荐系统进行研究,提出了一个基于扩展流行模型的框架,通过拟合所采集的腾讯视频的视频浏览计数追踪数据,量化和解释了直接推荐和口碑推荐这两种推荐机制。

此外,研究表明用户情感会影响信息传播的过程[15-18],但此类研究主要还集中于文本信息传播及长视频传播中。

可见,目前针对短视频传播的研究还很缺乏,尤其是用户行为如何影响短视频传播仍然未知,而该问题对揭示短视频传播规律至关重要。因此,本文分析了在线短视频的传播模式,并探索用户点赞行为和评论与短视频播放量的相关性。此外,本文基于短视频的传播特征和已有的视频传播模型,构建了在线短视频的点赞−传播动力学模型,并借助模型探索不同参数对短视频播放量演变趋势的影响。

1 数据收集与分析

1.1 数据的收集

本文选择抖音短视频平台作为研究对象。为了探索在线短视频的大规模传播机制,本文选择了9 个粉丝量在一千万以上的活跃用户(包括新华社、人民日报、河南广播电视台民生频道、中国日报、浙有正能量、央视新闻、解放军新闻传播中心融媒体、中国长安网、中国青年报)所发布的短视频进行研究。视频内容主要涉及新闻领域。对这9 个活跃用户的账号进行监测,每隔5min 采集其所发布短视频的评论量、点赞量及播放量,最终得到这9 个活跃用户在2019 年11 月11 日−12 月8 日期间发布的短视频数据。其中,针对每个短视频,采集的数据示例如表1 所示。

表1 每隔5min 所采集的某个短视频相关数据的示例

此外,为了研究用户的评论情感倾向对短视频播放量的影响,本文也采集了所监控短视频的评论数据,每一条评论数据由评论用户ID、用户性别、评论时间和评论内容所组成。

1.2 短视频传播模式分析

本文所研究的抖音平台中,短视频的传播基于“流量池”的叠加推荐算法,即在流量池中表现较好的短视频会进入叠加推荐的行列,从而能够获得更多的播放量和点赞量[19],图1 展示了抖音平台对短视频进行推荐的全过程。由于每个短视频在流量池推荐算法中被推荐的次数不同,导致短视频之间的流行度演化模式存在一定差异。接下来将基于抖音平台的实际数据对短视频传播过程中的流行度演化模式进行研究。

图1 抖音平台推荐过程示例图

通过对实际数据的研究,本文发现抖音平台中短视频的播放量累计曲线存在多种时变模式。根据曲线斜率的变化情况,将时变模式粗略分为两类:1)仅存在单次长时间缓慢增长——先是快速增长,之后伴随一个长时间的缓慢增长阶段,称作单梯度曲线(图2a);2)存在多个长时间缓慢增长的阶段,称为多梯度曲线(图2b)。经过统计分析,两类曲线在整个数据集中的占比分别为88%和10.5%。

图2 短视频累计播放量的两个典型传播模式

不同的播放量累计时变模式的产生主要由抖音平台的推荐机制所致。由于不同短视频被推荐的次数以及在流量池中达到再推荐的过程的差异性使得存在多种时变模式,本文将分别说明不同时变模式的特点及其产生的原因。

1)单梯度播放量累计曲线

对于单梯度播放量累计曲线,本文对其局部增长模式进行了研究。图2a 为用户“人民日报”于2019 年11 月28 日发布的某条视频,播放量达到3 千万以上,方框内为时间取值范围[8500,11 500]的累计播放量的局部曲线。发现其局部增长曲线也存在多次快速增长的情况,这说明系统也对单梯度曲线进行了多次推荐,但由于其在较短时间内就达到了系统再次推荐的标准,因此整体曲线仅呈现出一个较长时间的缓慢增长阶段。

2)多梯度播放量累计曲线

图2b 为用户“新华社”于2019 年11 月12 日发布的某条视频,播放量达到160 万以上。发现多梯度播放量累计曲线在传播过程中存在需要一定时间的积累才可达到进入下一推荐流量池要求的过程,所以存在多次长时间缓慢增长的阶段,因此整体曲线呈现出多个梯度叠加的增长趋势。

2 评论情感强度、点赞量与播放量的相关性分析

2.1 评论情感倾向分析

本文采用百度AI 开放平台[20]中基于情感词典的情感分析方法对评论数据进行情感分析。针对短视频的每一条评论,该方法可给出评论情感所属正负倾向的概率以及分类结果。模型根据得到的正负倾向概率的相对大小,对评论情感进行分类。基于百度AI 平台判定的某个短视频评论的情感倾向示例如表2 所示。其中,分类结果中0 表示负向情感,1 表示中性,2 表示正向情感。

表2 某短视频评论的情感分析结果示例

2.2 评论情感与播放量的相关性

为了直观表示解释变量与被解释变量的依存关系及方向,本文利用SPSS 中的斯皮尔曼双变量双边简单相关系数对变量间的相关关系进行测量。

在本文中,正向(负向)情感强度指,单个视频中带有正向(负向)情感的评论在该视频全部评论中的占比。首先,本文以监测的所有短视频为研究对象,分析其播放量与评论情感强度的相关性,发现两者在0.01 级别上显著相关,如表3 所示;播放量与正向情感强度呈负相关(相关系数−0.140),与负向情感强度呈正相关(相关系数0.143),即负向情感评论占比高的短视频播放量也会相对较高。

表3 斯皮尔曼相关性分析

进一步,分别分析了每个活跃用户所发布的短视频的播放量和情感强度的相关性,9 个活跃用户的相关系数分布如图3 所示。发现对于不同的视频发布用户,评论情感强度与播放量的相关系数差异较大,其与用户偏向性有关。根据短视频的内容进行划分,以用户发布视频中正向视频的占比作为用户偏向性。以用户“人民日报”为例,用户偏向性为93%,负向评论情感与播放量相关系数为0.080,反之,“新华社”的用户偏向性为77%,负向评论情感与播放量相关系数为0.25。即用户偏向性高时,整体的正向评论占比高,所发布的短视频之间评论差异性低,导致评论情感与播放量的相关系数小。

图3 评论情感与播放量的相关性

因此,对短视频评论进行情感分析发现,播放量与评论情感显著相关且相关系数受用户偏向性影响。其中,对于倾向于发布正能量的用户,评论情感强度与播放量的相关性较小,反之,对于倾向于发布易引发负向情感的用户,两者相关性较大,且评论负向情感强度大的短视频播放量也会相对大。

2.3 点赞量与播放量的关系

本文分析了点赞量、评论量、转发量与播放量的相关性,发现相比于评论量、转发量(见表3),点赞量与播放量呈强正相关(相关系数0.937)。

为进一步探索两者之间的关系,本文借助传输熵[21],研究了点赞量与播放量的相互作用。对于两个时间序列X、Y,X对Y的作用可利用传输熵计算如下:

如果X对Y的净作用强度的结果为正值,则说明序列X驱动序列Y;结果为负值,则Y处于驱动位置。

基于短视频数据集,以每个短视频的点赞量时间序列X和播放量时间序列Y作为研究对象。利用式(1)计算后,发现TX,Y>0,说明点赞量和播放量之间存在相互作用关系。经过分析点赞量对播放量的净作用强度分布如图4 所示,其中X表示点赞量时间序列,Y表示播放量时间序列,表示以X作为驱动因素,即点赞量驱动播放量。发现点赞量驱动播放量的短视频占比约为70%,即大部分情况下,点赞量对于播放量是处于驱动地位的。

图4 点赞量与播放量的净作用强度分布

2.4 评论情感与点赞率的关系

此外,本文分析了评论情感与点赞率的相关性。在分析评论情感与点赞率的相关性中,情感强度越大,则表征评论情感偏向越明显。因此,选取数据集中评论情感偏向性大的数据进行分组,以情感强度0.6 作为阈值,将负向情感强度0.6 以上以及正向情感强度0.6 以上的短视频分为两组。分别对这两个数据集中短视频的点赞率和情感强度进行分析,发现对于负向情感组,点赞率和负向情感强度之间的相关系数为0.260;对于正向情感组,点赞率和正向情感之间的相关系数为0.343。可见,评论情感强度与点赞率之间存在显著相关关系(见表3)。

因此,基于点赞量对播放量的驱动特征,考虑将点赞率引入短视频传播模型的构建中;与此同时,基于点赞率与评论情感的相关性,通过引入点赞率,也可以间接反映情感倾向对播放量的影响。

3 点赞−传播动力学模型的构建

3.1 抖音短视频播放量演化模型

本文考虑了系统推荐以及粉丝观看这两个传播途径[11];同时,基于第二部分的相关性分析,本文将点赞行为引入模型构建中,假设当短视频点赞量达到一定阈值后即被推荐入下一个流量池(如图5所示),从而构建了短视频的点赞−传播动力学模型来刻画短视频播放量的演变模式。

图5 短视频进入下一推荐阶段的过程

在短视频的传播过程中,对于系统推荐部分,假设t时刻其处于系统推荐的第i阶段,其中流量池中的用户以恒定速率b对短视频进行观看,假定短视频进入第i推荐阶段的时间为Ti,可得到第i阶段流量池变化速率如下:

式中,Si(t)表示t时刻第i阶段流量池的未推荐人数。

对于粉丝观看部分,假定粉丝以速率 β对视频进行观看,得到t时刻未观看粉丝人数f(t)的变化速率如下:

初始时刻f(0)=αN,其中 α代表观看该短视频的潜在粉丝用户占总粉丝用户的比例,N为用户总粉丝量,即 αN为观看该短视频的粉丝总数。

由式(3~4)以及点赞率qi得到播放量以及点赞量变化速率如下:

式中,I(t)、x(t)分别表示t时刻的累计播放量和累计点赞量。

假设每个阶段进入下一阶段的点赞量阈值为Di,时间阈值为Ki,Ti为进入第i阶段推荐的时间,从i到i+1阶段点赞量x(t)需要满足下列条件:

由于在点赞量达到条件时,推荐进入下一阶段。假设i阶段流量池总推荐人数为Ri,得到第i阶段实际推荐人数Ai:

由Si(0)=Ri,i阶段实际推荐人数为Ai,对式(3)求导,推出动力学模型中的累计推荐人数Ct:

由f(0)=αN,对式(4)求导,推出动力学模型中的累计粉丝观看人数Ft:

由式(10~11)得到t时刻的累计观看人数为:

3.2 模型的拟合及参数影响

利用式(12)对实际数据(用户“浙有正能量”所发布的两个不同播放量时变模式的短视频数据)进行复现,得到了很好的吻合,结果如图6 所示。其中图6a 为2019 年11 月21 日发布的视频,播放量达150 万,对其第一次推荐过程进行拟合的结果:系统推荐速率b=0.0061,粉丝观看数f(0)=8.83 万人;图6b 为2019 年12 月3 日发布的视频,播放量达200 万,多梯度播放量累计曲线的拟合结果:系统推荐速率b1=0.1078,b2=0.0368,粉丝观看数f(0)=73.68 万人。图6a 对完整的播放量累计曲线中第一个梯度进行拟合,发现模型可以很好地复现一次推荐过程。图6b 对实际数据中的多梯度播放量曲线进行拟合,通过对数据的观察得到其转折点,模型拟合了每一个梯度过程。图6 的拟合结果说明模型可以很好地反映在线短视频的传播过程。

图6 模型拟合结果

短视频传播过程中受到多次的系统推荐,本文只讨论最多3 次的叠加推荐,且设定3 个流量池分别为R1、R2、R3,其中流量池R1=100,R2=150,R3=200,流量池点赞量阈值Di(i=1,2),时间阈值为Ki(i=1,2)。

为简便起见,本文假定传播过程中每一阶段的点赞率相等,即qi=ω。通过探索点赞率 ω对播放量的影响,发现不同梯度曲线的产生受点赞率的影响。设其他参数不变,粉丝吸引率α=0.08,用户粉丝数N=10000,推荐速率b=0.05,点赞量阈值D1=11,D2=16,时间阈值K1=350,K2=300。当点赞率较高时,如图7a 和7c,短视频的点赞量可快速达到进入下一流量池的阈值,因此短视频在每一流量池的时间较短,从而播放量呈现快速增长,最后再进入长期缓慢增长的模式,这也反映了实际数据中的第一类模式(如图2a)。当点赞率较低时,如图7b 和7d,短视频的点赞量需要较长时间的积累才可达到点赞量阈值,因此在每一流量池的时间较长,从而传播过程中存在多次长时间缓慢增长的阶段,播放量呈现阶段性增长,反映了实际数据中第二类模式(如图2b)。

图7 点赞率ω 对视频流行度模式的影响

粉丝吸引率 α对短视频传播的影响如图8 所示。设其他参数不变,用户粉丝数N=10000,推荐速率b=0.05,点赞率ω=0.10,点赞量阈值D1=11,D2=16,时间阈值K1=300,K2=300。图8a 中,随着 α的增大,播放量呈阶跃式的增长。这是因为当α较小时(如图8b),短视频前期播放量较小,无法进入下一推荐阶段;而随着 α的增加(如图8c 和8d),短视频可以得到多次推荐,从而播放量也相应增加。可见初始的粉丝吸引率对短视频在初期能否进行系统推荐从而传播开来具有重要的影响。

图8 粉丝吸引率α 对视频传播的影响

4 结束语

为了探索短视频的传播机制,本文基于相关性分析以及传输熵,发现点赞量与播放量呈强正相关,且点赞量对播放量有驱动作用;结合短视频传播特点和已有的视频传播模型,将点赞促进传播以及多次推荐的特征考虑在内,构建了在线短视频的点赞−传播动力学模型。本文还结合短视频评论以及短视频播放量,探索评论的用户情感与播放量之间的关系。后续的研究可将视频内容所引发的情感倾向对播放量的影响考虑在内,进一步完善模型。

猜你喜欢
阈值曲线情感
未来访谈:出版的第二增长曲线在哪里?
出版人(2022年8期)2022-08-23 03:36:50
如何在情感中自我成长,保持独立
幸福曲线
英语文摘(2020年6期)2020-09-21 09:30:40
沿平坦凸曲线Hilbert变换的L2有界性
失落的情感
北极光(2019年12期)2020-01-18 06:22:10
情感
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
如何在情感中自我成长,保持独立
比值遥感蚀变信息提取及阈值确定(插图)
河北遥感(2017年2期)2017-08-07 14:49:00