王雨婷
随着视频App针对移动端的优化与升级,用户沉浸手机的时间大幅度提升,短视频已经成为用户短时间娱乐与多感官满足的主要选择。经过2016年短视频元年与2020年直播元年的助推,短视频的内容已不再局限于娱乐这一领域,而是根据用户多样化的内容期待与需求对自身进行拓展,知识类短视频应运而生。知识类短视频将知识或科普内容以轻松、可视、去抽象化的方式进行呈现,以期最终达到降低专业知识获取门槛、扩大学习群体、提高传播效率的效果。这类短视频凭借生动有趣、理解门槛低的特点,满足了用户的信息需求。2020年年初暴发的新冠肺炎疫情为知识类短视频的迅速发展提供了条件,疫情期间在家办公和外出受限的状况也给予了非全职视频制作者更多的自由时间,为自由时间转化为“认知盈余”提供了基础条件。
知识类短视频近几年在各视频平台发展迅速。《2021 B站创作者生态报告》显示,2021年泛知识内容占B站视频总播放量的45%,知识区UP主数量增长92%,泛知识品类活动“知识分享官”中活动视频的总播放量达182亿次。B站、抖音、快手等视频平台更是通过推出科普内容扶持计划、引入优质用户生成内容等手段,积极抢占知识和科学类传播这一长尾市场。B站近几年突破“二次元”“亚文化”的标签,立足“趣传播”这一主题,对自身进行板块拓展,打造多元内容,打入更多兴趣圈层,突破了原有的用户群体局限性问题。2020年6月5日,B站上线了一级分区“知识区”,其中包含科学科普、社科人文、野生技术协会等6个二级分区,旨在分享知识、经验、技能、观点、人文等内容。B站已经成为Z世代用户深度使用,进行内容输入与输出的重要场所。知识类短视频也成为用户观看的重要选择。
在众多B站短视频制作者中,“无穷小亮的科普日常”(以下简称“无穷小亮”)是名副其实的知识区UP主,其视频内容专注于生物学相关知识和常识的科普,其发布的177个视频中有166个投放在知识区。他还推出热门栏目“亮记生物鉴定”,凭借幽默的语言风格和活泼的互动方式博得了众多用户的关注,更是创造出“水猴子”和“藏狐”等颇具个人特色的“梗”。“无穷小亮”在B站粉丝数为589万,视频总播放量为4亿,近90天的视频平均播放量为405.1万,在B站的知识区用户中具有相当的知名度与影响力。
本文以“无穷小亮”为研究对象,对其播放量最高的五个视频的评论文本进行词频统计和LDA主题建模,旨在挖掘用户对科普短视频的关注重点,进而分析用户对科普短视频的关注倾向与讨论角度。
根据研究实际需要,本文在分析从B站获取的相关评论文本时,选用词频分析法和LDA主题模型作为主要研究方法。这两种研究方法通过对文本进行挖掘与分析,可以较为清晰直观地描述繁复、模糊的文本数据,并对文本的相关主题进行较为客观的呈现。此方法在国内外相关研究中已得到较为广泛的使用。
词频指的是一个词语在特定范围文本内的重复程度或出现频率的高低,词频分析法则是基于此概念来判断词语重要性的研究方法。1917年,文献学家科尔和伊尔斯开始使用定量的方法对比较解剖学文献进行研究,并将相关图书和期刊文章按照国别进行统计分类。20世纪六七十年代正式形成了文献计量学。在文献计量学的发展与应用过程中,词频一直是重要的统计项目和研究手段之一。学者邓珞华认为词频的波动与社会现象、情报现象之间有着内在的联系,一定的社会现象和情报现象要引起一定词频波动现象①。如今,词频已被多次运用于国内的文本数据分析中。学者梁立明等运用关键词词频分析法,对我国8年间的纳米科技的研究领域、研究动向等现状进行分析,并通过总结研究热点以及研究弱项为我国纳米科技的未来发展提供信息②。学者储节旺等基于文献分析法对近十年几种典型的知识管理研究方法进行简要描述③。
LDA主题词挖掘是自然语言处理中的重要挖掘方法,也是一种完全生产式的模型。LDA主题模型可以对潜藏在文本内容下的主题进行挖掘与提取,并对各个主题下相关语项的集合和概率进行展示。这种研究方法能够较为有效地降低研究者个人因素的影响④。LDA主题模型在国内外的各项研究中已经得到了大范围的使用。学者唐晓波等发现LDA模型可以对微博短文本进行有效的主题检索,并且能清晰地挖掘类簇中潜在主题⑤。学者吴江等认为利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率⑥。学者娄岩等认为LDA模型能够分析用户对各个主题的关注状况和重视程度,以及关注热点和情感态度随时间迁移的变化情况与发展趋势⑦。
为了解B站用户对于知识类短视频的关注点和讨论点,本研究设计了以下四个步骤。首先,选取“无穷小亮”在B站知识区发布的播放量前五的视频评论作为研究对象,运用Python对数据进行爬取与采集;其次,进一步整理和清洗已获取到的文本数据;再次,对清洗后的文本数据进行词频统计分析;最后,通过LDA模型对数据进行主题挖掘,对计算结果进行描述与分析。
本文选取B站知识类短视频评论作为文本数据来源,旨在挖掘用户对科普短视频的潜在关注点,进而分析用户对科普短视频的关注倾向与讨论角度。本文利用Python抓取“无穷小亮”播放量最高的五个视频的评论内容,五个视频按照播放量降序排列依次分别为“【亮记生物鉴定】网络热传生物鉴定29”“【亮记生物鉴定】网络热传生物鉴定30”“【亮记生物鉴定】网络热传生物鉴定28”“【亮记生物鉴定】网络热传生物鉴定23”和“【亮记生物鉴定】网络热传生物鉴定24”。除去原始数据的缺失与重复数据,最终获得的文本量分别为 106200字、95464字、57113字、73429字和58457字。
为了准确地展现文本自身所涵盖与表达的概念意义,本研究通过设置停用词表对文本数据进行清洗,将无意义或对本研究无价值的词汇从文本中剔除。最后,对经过清洗的文本数据进行词频统计分析和LDA主题模型分析。
对清理后的文本进行分词处理,得到文本数据中词汇出现的频率。随后根据词频由高到低进行排序,排序结果如表1、表2、表3、表4、表5所示。
表2 “【亮记生物鉴定】网络热传生物鉴定30”评论文本词频
表3 “【亮记生物鉴定】网络热传生物鉴定28”评论文本词频
表4 “【亮记生物鉴定】网络热传生物鉴定23”评论文本词频
表5 “【亮记生物鉴定】网络热传生物鉴定24”评论文本词频
通过对5张表格的观察发现,“藏狐”一词出现最为频繁,这一词是“无穷小亮”的代名词,与博主本人密切相关。“水猴子”“打人”等词出现较为频繁,这些词与B站用户根据其视频形成的独特“梗文化”息息相关。将表格内容与视频内容进行对比后可以发现,如“兔子”“尾巴”“宿迁”“臭虫”等词,仅出现在一张表格中,但单次词频较高。这类词与当期视频内容联系紧密,多为视频中讨论度最高片段的关键词。
本文对整个第三方评论文本数据进行LDA主题模型分析,运用Python语言和gensim库进行主题生成和主题词分布的统计。
从表6可以看出,在主题一概率最大的前12个主题词中,“知识”“增加”“叮当猫”“生产队”等反映了评论文本中鲜明的互联网语言特征。其中,“奇怪的知识增加了”“生产队的驴都不敢这么歇”等圈层化、个性化的表达,突显了用户在评论时对自我形象的展示,以及用户表达与B站社区文化的顺应与融合。在主题二概率最大的前12个词中,“藏狐”“水猴子”“打人”“双节棍”等主题词则勾勒出“无穷小亮”在B站的基本形象。“无穷小亮”本人酷似藏狐的外形,每期视频必不可少的“水猴子”环节,以及对辟谣内容感到无奈与愤怒时对着镜头甩双节棍的经典动作,成为指代其形象的独特符号。用户对这些符号的反复记忆与利用,在促进评论区共鸣情绪的产生与交流互动的同时,也间接构造出“无穷小亮”评论区差异化的景象。在主题三概率最大的前 12 个词中,“宿迁”“臭虫”“放生”“沭阳”等主题词与视频内容紧密相关,用户在观看后将科普知识与自身经历相结合,提出问题,发表感想,形成了科普知识在评论区的内容拓展与二次传播。
表6 主题词分布表
通过对文本数据词频统计结果深入分析发现,用户在使用B站观看知识类科普短视频时,评论的关注点主要在于账号运营者本人和科普内容本身,同时评论的文字表达具有很强的圈层化与年轻化语态特征,体现出B站活泼幽默、极具平台特征的社区氛围。
结合词频进行整体分析,“藏狐”等词高频出现,显示出用户在观看知识类短视频时对于运营者本人的高度关注。运营者作为该账号内容的主要生产者,对视频内容感兴趣的用户也自然会对运营者本身产生兴趣。对于运营者本人的广泛讨论,反映出运营者自身的个人吸引力与影响力,也反映出用户对其个人形象塑造的肯定和认同。然而,运营者过于突出的个人特性有时也会成为与科普内容无关的讨论对象,导致讨论议题的分散和讨论重点的偏移,对科普知识的传播效果造成了一定的影响。
同时,在部分视频的评论区中,出现了与内容相关的主题词词频超过与运营者相关词语的词频这一情况。这也侧面证明了,当视频内容足够吸引人,能调动起大部分用户的分享欲和表达欲,能唤起大部分用户的广泛、热烈讨论时,对运营者的关注就会退居其次,评论区也会在针对科普知识的讨论中形成一种良性的舆论氛围和科学讨论环境。
结合主题词分布表分析,B站用户对于知识类短视频的主要讨论与视频本身联系紧密,讨论内容的集中度较高。而评论内容中网络流行语的高频使用和语言表达的不规范体现了评论区言论环境的轻松、随意和包容。这侧面证明了高理解门槛的专业知识,通过趣味化、轻松化的内容表达和短视频形式下的娱乐化、通俗化呈现,能够较为容易地被用户获知和摄取,并成为用户交流讨论的主要内容。
B站是Z世代网络化生存与社交的新园地,其逐渐扩张的影响范围和日益增强的影响力,使其成为知识和科普工作者不容忽视的重要阵地。本文通过对词频和主题词的统计发现,用户对知识类短视频的关注点主要集中在视频与视频制作者本身。在语言表达上,用户的讨论与交流也脱离了严肃抽象的专业化表达,而是将B站内圈层化的语言习惯与自身个性化表达相融合,在评论区形成个人特色鲜明又兼具共性、交流顺畅的和谐景象。另外,评论区用户的积极正向讨论也印证了专业知识可以通过通俗化、娱乐化的方式进行有效的传播。如何进一步使用户的注意力集中在视频内容与知识科普上,则有待科普工作者进行更深入的探索。
注释:
①邓珞华.词频分析——一种新的情报分析研究方法[J].大学图书馆通讯,1988(02):18-25.
②梁立明,谢彩霞.词频分析法用于我国纳米科技研究动向分析[J].科学学研究,2003(02):138-142.
③储节旺,钱倩.基于词频分析的近10年知识管理的研究热点及研究方法[J].情报科学,2014(10):156-160.
④廖海涵,王曰芬,关鹏.微博舆情传播周期中不同传播者的主题挖掘与观点识别[J].图书情报工作,2018(19):77-85.
⑤唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究 [J].情报理论与实践,2013(08):85-90.
⑥吴江,侯绍新,靳萌萌,胡忠义.基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J].情报学报,2017(11):1183-1191.
⑦娄岩,杨嘉林,黄鲁成,苗红.基于网络问答社区的老年科技公众关注热点及情感分析——以“知乎”为例[J].情报杂志,2020(03):115-122.