基于新媒体平台的藏语视频数据分析及可视化*

2022-11-28 13:01贾慧瑾陈洁
西藏科技 2022年8期
关键词:藏语哔哩弹幕

贾慧瑾 陈洁

(西藏民族大学信息工程学院,陕西 咸阳 712082)

0 引言

随着社会信息量的激增,使用报纸、广播、电视等传统媒介已经不能充分推动藏语文化的发展,而新媒体平台的兴起打破了这种僵局[1],极大拓宽了藏语言文化的传播途径[2]。例如,随着藏语神曲《FLY》的发布以及受丁真等网络红人带动的影响,网络上掀起了一股学习藏语的风潮,大量用户发布、观看并转发相关藏语视频。同时,由于藏语新媒体作品的高传播率,很多粉丝慕名前往“理塘”等地旅游打卡,带动了当地旅游业和经济。因此,本文意图通过收集发布在新媒体平台的藏语作品的相关数据,研究藏语视频在各个分区的发布量和播放量占比以及发布热度和播放热度的发展趋势,分析用户对于不同类型视频的喜好程度和发布倾向,为新媒体平台的推荐机制提供思路,为相关自媒体工作者提供数据参考,有助于当地旅游局确立更完善的推广计划,促进藏语文化的传播。

1 数据准备

1.1 数据说明

通过对主流新媒体平台藏语作品数据采集的数据量及采集难易程度的研究,本文确定以哔哩哔哩视频网站(下文所述B 站为该平台简称)作为研究数据来源具有以下优势:其一:用户群体较广,涉及多个年龄段、多个省市;其二:平台对视频的分类程度较高较细,涉及多个门类且视频资源较多;其三:B 站的社区文化由万千原创视频围绕组成[3];其四:外行人可能仅仅以为B 站最明显的属性是弹幕,但在网站用户眼中早已把它的社交功能放在首位[3]。

根据研究发现,哔哩哔哩的视频排列方式分为综合排序、最多点击、最新发布、最多弹幕和最多收藏共5 种,根据检索词检索后最多可以显示1000 条视频。综合排序考虑了视频的各类信息,而不单单只以某一特定的元素作为排列标准,本文研究藏语作品需要考虑视频的各种信息,以此分析用户的行为特征,故根据研究需要本文将以综合排序下的1000 条视频作为研究对象,以“藏语”一词为检索词进行分析,并对发布于2022年2月23日之前的作品数据进行具体分析。

1.2 数据获取

本文使用Python 第三方库requests 库和lxml 库爬取数据[4],再通过pandas 库保存数据[5]。具体操作流程如图1所示。

图1 数据获取流程图

第一步,进入哔哩哔哩平台官方网页,获取该网页的动态URL,利用format()函数设置关键词搜索和待爬取页码数。

第二步,通过网页源代码,分析网页数据结构。

第三步,取得视频的名称、视频分区、播放量、弹幕数量、上传日期以及相应的视频作者的XPath路径。遍历爬取平台相关视频信息,直至将平台显示所有页面的数据爬取完成。

第四步,利用pandas 对象DataFrame 实现数据表格化,并保存为CSV文件。

1.3 数据预处理

通过以上步骤获得如表1所示的数据。表中各列的标题region、title、view_num、danmu、upload_time、up_author、video_url 分别表示作品视频分区、视频名称,视频观看量、弹幕数量、作品发布时间、视频作者、视频对应URL。

表1 初步获取的部分藏语视频相关数据

通过对获取的数据探索分析发现存在部分数据单位不统一、获取的视频对应URL 与研究内容无关、视频发布时间跨度较大等问题,会影响数据分析的效率,导致分析结果存在偏差,所以进行数据预处理操作就显得至关重要[6]。

本文通过以下四个步骤实现数据预处理,具体流程如图2所示。

图2 数据预处理流程图

第一步,使用pandas的read_csv()函数从CSV文件中读取数据。

第二步,去除通过数据探索分析所发现的与目标无关的数据,例如,去除video_url列。

第三步,用drop_duplicates()方法对数据进行去重操作。

第四步,使用data.replace()函数替换danmu 和view_num中以万为单位的数据,统一数据单位。

经过数据预处理操作后获得的部分藏语视频数据如表2 所示,实现了数据单位统一,为下文数据可视化提供了数据支撑,并删除了一条相同的数据,最后共计获得了999 条数据作为本文的研究对象。

表2 数据预处理后部分藏语视频相关数据

2 数据可视化及分析

数据可视化可以更直观的展示数据,分析数据之间的内在联系[7]。本文通过pyecharts 柱状图Bar、饼图Pie、折线图Line 实现数据可视化,从四个方面对藏语主题视频作品进行可视化分析:藏语主题视频分区播放总量、藏语主题视频分区发布数量所占比重、藏语主题视频发布热度与播放热度走势、藏语主题视频播放数量TOP10。

2.1 藏语主题视频分区播放总量

图3是哔哩哔哩“藏语”检索词下的视频播放总量柱状图,从图中可以看出存在三个断层,据此本文将视频类别分为三类:高播放量类别、中播放量类别、低播放量类别。第一类具体包含:音乐综合、人文历史、影视剪辑、音乐现场、日常;第二类包含搞笑、野生技能协会、摩托车、MV、其他、翻唱、手机游戏、综艺、社科法律心理、校园学习;第三类别包含:短片、综合、明星综合、影视杂谈、原创音乐、运动文化、田园美食、手工等共计35种类别。

图3 哔哩哔哩藏语主题视频分区播放总量柱状图

可以看出日常类视频播放总量明显高于其它类别,据此推测用户在观看藏语主题作品时更倾向于日常类作品。经过对日常类视频的筛选发现在此类视频中由作者那曲拉姆发布的视频《牧民说“扎西德勒”该咋回?藏族姑娘的藏语小课堂,你听懂几句》占据62.3 万播放量,位居藏语视频播放量第一,另外由关注看热点发布的《丁真如何看待自己走红?丁真用藏语接受央视采访【央视镜头下的丁真】》也具有17.6 万播放量。这两例视频占据了日常类视频总观看量的绝大部分,提高了日常类视频的播放总量。

通过分析表3 可以看出,在排名前列的日常类作品中,以丁真为标题的作品占绝大多数且播放量均不低。另外,观看量居于前列的视频多发布于2020年,但发布量最多的却为2021 年。通过分析发现丁真受大众关注的时间为2020 年11 月,据此推测在此段时间以丁真为主题的视频播放量较高,拉高了日常类视频的播放总量。因此,本文推测日常类视频远超其它类视频的原因与发布视频的up 主、发布内容涉及受人们关注的人物和事件以及发布时间有关。

表3 观看量居于前列的日常类视频作品信息

2.2 藏语主题视频分区发布数量占比

对藏语主题视频各分区的发布情况进行详细分析,制作了图4 所示的哔哩哔哩藏语主题视频分区发布数量百分比图,图中具体显示了各类视频的占比并用不同的颜色进行区分。

图4 哔哩哔哩平台藏语主题视频分区发布数量百分比图

根据图4可以看出,日常类作品的发布数量最多,共计278 条,占据总量的27.83%,与视频播放总量的最大值基本保持一致。摩托车类视频仅发布了两条视频,与播放总量排名相差较大。通过分析发布仅一条视频的类别可以看出,所有类别均位于第三类,除综合类外播放量均低于2000。对比图3 可以得出,视频发布数量与播放总量之间存在三种情况:低发布量高播放量、高发布量低播放量、基本保持一致。

2.2.1 低发布量高播放量的藏语作品,以摩托车视频《中波夫妻摩旅·会说六国语言的丽导在青海竟然被藏语难住了》为典型,该视频播放量达到55000,而另外一条视频播放量仅为30。虽然仅有两条,但因其视频播放量较大,影响了其属类别播放总量。另外,在该视频的686 条弹幕中出现较多的为剪辑手法、风景优美、高质量视频等。个人分析,该视频能具有远远高于其他同类视频的播放量,主要因其标题足够吸引观众,以及高质量的摄像、剪辑手法,以及其视频配乐和视频内容中的藏族文化等收获了较多的关注,提高了摩托车类视频的播放总量。

2.2.2 对高发布量低播放量视频的情况分析,此处以绘画类视频为例,此类视频发布共计19 条,平均每条视频播放量在65点,播放量较低。由同一作者发布的达到18 条,该作者发布的视频均以“竹笔手写”或“藏语写城市”为主题。个人分析,虽视频播放量较低,但视频作者对该类视频喜好程度较高或视频发布类型为主题类需要定期发布更新,故该类视频发布数量较多。

2.2.3 对于播放总量和发布数量基本保持一致的这部分视频,在筛选出的999 条视频中占比最大。此处以第三类视频为例,该类视频播放总量较低,发布数量较少。个人分析,用户对这些类别关注度低,受众少,故导致多数作者不选择发布该类别视频。

2.3 藏语主题视频发布热度和播放热度走势

图5为哔哩哔哩藏语主题视频发布热度和播放热度走势图,图中用蓝线表示视频播放总量,红线表示视频发布数量。

图5 哔哩哔哩平台藏语主题视频发布热度和播放热度走势图

图5中藏语主题视频发布热度和播放热度在多个时间段均有较高的峰值,分别是2016 年9 月中旬、2020 年11 月下旬、2021 年4 月下旬、2021 年7 月初、2022 年1 月下旬、2022 年2 月中旬。其中,2020 年11月下旬和2022 年1 月下旬的发布量与播放量均出现峰值,二者基本保持一致。2021年4月下旬和2022年2 月中旬均为发布数量出现峰值,而播放量则位于低位,二者差距显著。通过对视频数据进行分析发现,2021 年4 月20 日和2021 年4 月28 日由同一作者发布了22 条校园学习类作品,平均播放量大致在400 左右且均为以藏语学习为主题,需要定期更新。2022 年2月同样由1~3名作者发布了较多视频但播放量普遍位于50以下,这也导致了此类视频观看量要远低于其发布量。2016年9月中旬和2021年7月初出现了播放总量小高峰,通过数据分析发现,高播放量视频分别属影视剪辑和音乐现场类,观看量分别达到26.9 万和22万,极大拉高了同期的视频数据且两类视频均与音乐有关。2021 年7 月29 日发布的音乐现场视频达到3.7万播放量,且同样为藏语歌曲。据此推断,哔哩哔哩用户比较喜欢歌曲类藏语视频。由此可见,在藏语推广和藏文化传承中,音乐形式的传播不失为一个好方法。

根据表4,可以发现在999 条视频作品中2022 年仅两个月发布视频就达到142 条,超过其它年限的月发布量,并且可以看出近年来藏语视频发布数量增幅明显,说明用户对藏语视频的兴趣增强。

表4 哔哩哔哩藏语作品年发布数量表

总体而言,发布热度与播放热度的走势基本一致,存在少部分时间段差异比较显著,究其原因为部分视频观看量较大或个别作者同一时间段发布大量作品,拉高或者拉低了数据。

2.4 藏语主题视频播放数量Top10

根据表5 所示的藏语主题视频排名数据,制作的视频播放量Top10 柱状图如图6 所示。其中排名第一的为《牧民说“扎西德勒”该咋回?藏族姑娘的藏语小课堂,你听懂几句》,远超排名第二的《丁真藏语播报四川新闻沉稳得体声音苏~~》、排名第三的视频《藏语《红河谷》宁静唱祝酒歌+次仁拉索(好听哭了)》和其它视频。分析发现排名前列的视频均位于第一类作品,与视频各类播放总量基本保持一致。另外,在这些视频中日常类作品具有3 条,以音乐为主题的占据5条,人文历史、手机游戏、校园学习类各占据1条。据此分析,音乐等旋律类的作品更受用户青睐,而且当视频中出现受大众欢迎的人物时用户会停留下来观看视频并发送弹幕参与到视频讨论中。

图6 哔哩哔哩平台藏语主题视频播放数量排名前10柱状图

表5 哔哩哔哩藏语视频播放量排名表

3 数据相关性分析

本文利用SPSS 对数据预处理后的藏语视频弹幕数量、播放量、更新日期进行正态性检验,得到如表6所示的结果[8]。发现三者均出现的情况,均不服从正态分布,使用Pearson 相关系数不能正确展示两个变量之间的关系,故本文利用Spearman 秩相关系数(也称等级相关系数)进行具体分析,并得到表7。

表6 藏语视频弹幕数量、视频播放量、更新日期正态分布检验结果

相关系数r的取值范围为:-1≤r≤1。

0<|r|<1表示不同程度的相关性。

由表7可知视频播放量、弹幕数量、更新日期之间具有不同程度的相关性。其中,播放量与弹幕数量(r=0.707,P<0.01)为显著正相关关系,更新日期与播放量(r=-0.522,P<0.01)呈显著负相关关系,更新日期与弹幕数量(r=-0.306,P<0.01)呈现低度负相关关系。可以分析得出播放量高的视频弹幕数量较高,更新日期较早的视频播放量和弹幕数量相对较高。

表7 藏语视频播放量、弹幕数量、更新日期之间的相关性分析

根据上文所述,哔哩哔哩平台在综合排序下所显示的早期视频数量较少,而这些视频之所以能在平台的推荐机制下留存,与其播放量高、评论量多等因素息息相关,随着平台的继续推送,这些视频的播放量、弹幕数量会在原先基础上继续增长,因此更新日期与两者均呈现为显著线性相关。播放量高的视频,因其视频特点,用户在观看过程中会参与到讨论中;同样的,弹幕数量较多的视频用户会因好奇、期待等心理继续观看视频,因而二者呈现为显著线性相关。

4 结论

新媒体平台的发展为藏语及藏文化的传播拓宽了途径。本文利用Python、SPSS 等工具对藏语作品播放数据进行收集、数据分析及可视化,通过分析播放量、发布量与类别之间关系,推测出作品的观看热度与视频作者、视频内容涉及用户关注的人或事件、作品发布的时间等有关。作品发布热度与当时发生的具体事件以及作品的主要形式等有关。

本文间接展示了视频网站在少数民族文化传播方面的作用和影响力,以期更好地继承和发扬藏语等非物质文化遗产,为少数民族文化相关研究提供参考支持。

猜你喜欢
藏语哔哩弹幕
汽车里还能看视频刷弹幕《哔哩哔哩车机版》
浅谈藏语中的礼仪语
浅析当代藏语使用弱化问题及其对策
藏语传统辞书词目编排法探析
哔哩哔哩商业模式分析——基于商业模式六要素理论
当代女性藏语长篇小说《花与梦》中女性成长主题研究
哔哩哔哩2019年全年营收67.8亿元同比增长64%
月活数据激活哔哩哔哩商业模式如何定义仍是难点
搞笑弹幕一箩筐
拜托了,弹幕君