文/孔 明
2020年6月,《乘风破浪的姐姐》踏浪而来,在众多综艺中脱颖而出,成为当年爆款网综。该综艺是芒果TV推出的一档女团成长类综艺节目,力邀30位具有较高知名度的女艺人参赛,通过训练和考核,最终选出7位成员组成女团。
《乘风破浪的姐姐》如何能够吸引大量受众?受众对该综艺的讨论集中于哪些方面?本研究通过数据挖掘技术获得该综艺的微博大数据,并对相关微博数据进行词频统计和主题建模,充分提取隐藏的主题信息,进而全面挖掘网络舆论对《乘风破浪的姐姐》的关注热点。
词频分析、主题模型等研究方法能够较为客观、可靠地解释抽象的文本数据,国内外学者多运用此类方法进行了大量关于文本数据的分析研究。本研究根据需要,选用词频分析法并建立主题模型对基于新浪微博平台获取的相关文本数据进行分析。
词频分析法是一种根据文本内容中出现的关键词或主题词频次的高低,进而确定文本中隐含的研究热点和发展动向的研究方法,在情报学、图书馆学、传播学等学科领域中被广泛应用。
在传播学研究中,学者们运用词频分析法对挖掘到的文本数据进行网络舆情研究。例如,骆明等人运用词频分析法完成了基于文本挖掘技术的网络特征研究;周义棋等人在基于微博网络爬虫的巴黎圣母院大火舆情分析中也使用了词频分析法。
LDA(latent dirichlet allocation)主题模型是由David M.Blei,Andrew Y.Ng,Michael I.Jordan等在2003年提出的一种可以生成文档主题的三层贝叶斯概率模型,它可以将文本中每篇文档的主题以概率分布的形式给出,通过分析文档文本提取它们的主题分布,并根据主题分布进行文本分类或聚类。
LDA主题模型能够有效地挖掘大批量文本,展现文本中若干个主题下的相关词项合集及概率。例如,廖海涵等人对微博传播周期中不同传播者关注的舆情热点和传播内容进行探索,为舆情分析与决策提供依据;安璐等人使用LDA主题模型提取恐怖事件情景下的微博主题,比较发博用户和评论用户的异同。
为获取微博文本中所隐藏的公众关注热点,本研究的思路设计为:首先,设定微博检索词,采集相对应的数据;其次,对采集到的微博数据进行清洗和整理;随后,对处理之后的文本数据进行词频统计,获取事件的高频词汇;最后,基于LDA模型进行主题挖掘与观点识别,并对结果进行分析。
本文选取新浪微博作为文本数据来源,全面挖掘网络舆论对综艺《乘风破浪的姐姐》的关注热点,本文选取“乘风破浪的姐姐”作为检索词,采集时间为2020年6月6日——9月4日,共采集82990条微博数据。除去原始数据中缺失、重复及无关的数据,最终获得62508条有效文本数据。
为了准确地了解文本数据所表达的概念意义,本研究设置停用词表从文本中剔除如“展开”“收起”等与本研究采集的目标文本数据不相关的字符;设置自定义词典,如“绮绮子”“静静子”等,防止具有特殊意义的词语在分词过程中被分割;最后,对处理好的文本数据做进一步的文本词频统计分析和LDA主题模型分析。
对清理后的文本数据进行分词统计,本研究得到文本数据中词汇出现的频率,并根据词频高低进行排序,获得频率排名前30的词汇和频率表,如表1所示。
本研究借助python语言中的wordcloud工具包制作可视化词云图,将文本数据中频率排名前90的词汇和词频分布情况通过更加直观的方式呈现出来。绘制的词云图如图1所示。
词频统计结果显示,新浪微博关于《乘风破浪的姐姐》讨论的词云图以“乘风破浪的姐姐”为核心,包括“奥利奥”“星光榜”“星光卡”“c位”等与打榜相关的词汇。同时,如“李斯丹妮”“万茜”“张雨绮”“宁静”等具有高话题度的明星姓名出现的频率也相对较高。此外,词云图还包括“努力”“女性”“生活”“人生”及“加油”“助力”“守护”“期待”等与女性成长和女性价值相关的词汇。
表1《乘风破浪的姐姐》文本词频
图1《乘风破浪的姐姐》词云图
LDA主题模型没有固定的主题数目,需要在模型训练中人为设置参数,多次调参,选取最优化的主题模型。本研究经过多次调试,得到各个检索词文本的最优主题模型,其中包含主题词及各个主题在总文本数据中所占的权重(见表2),并根据主题词总结、归纳出隐含主题。
结合主题词与原微博本文内容进行主题概况,将主题一描述为“话题人物”,该主题在总文本数据中占比0.7359375;主题二描述为“女性价值”,该主题在总文本数据中占比0.22558708;主题三描述为“投票打榜”,该主题在总文本数据中占比0.03847537。
表2 LDA主题模型——词识别结果
对词频统计结果进行深入分析发现,新浪微博关于《乘风破浪的姐姐》讨论的词云图以“乘风破浪的姐姐”为核心,包括“奥利奥”“星光榜”“星光卡”“C位”等与打榜相关的词汇,这与其节目赛制引导受众为喜爱的选手投票相关;“李斯丹妮”“万茜”“张雨绮”“宁静”等具有高话题度的明星也大量出现在文本中,这些充分体现着网民对该综艺成员的高度持续关注。
同时,词云图还包括“努力”“女性”“生活”“人生”及“加油”“助力”“守护”“期待”等与女性成长和女性价值相关的词汇,这些词汇彰显出勇敢、自信的新时代女性价值观,表达受众对“30+”的姐姐们乘风破浪、敢于挑战的赞赏之情。此外,由李宇春演唱的《无价之姐》作为该节目的主题曲在综艺播出期间风靡全网,因其旋律脍炙人口,歌词赞扬女性独立、自信的价值观,因而大量出现在文本数据中。
结合生成的主题模型进行深入分析,将主题一描述为“话题人物”。其中,主题一的核心主题词中包含大量该综艺的选手姓名,如“宁静”“金晨”“李斯丹妮”等。《乘风破浪的姐姐》区别于以往的女团养成类综艺,受邀参加该综艺的选手都具有一定的知名度,自带话题和流量。早在该综艺播出之前,微博用户就已经开始对每位参赛姐姐的性格特点进行剖析、解读,对姐姐们的舞台表现进行预测,可以说节目是未播先火。该综艺播出期间,例如#宁静 为什么我还不哭#、#李斯丹妮solo#等极具话题性和戏剧性且人物指向性较强的话题迅速登顶微博热搜。
综上所述,主题一展现出观众对于节目的关注更多地聚焦于人物选手,该主题与词频统计结果相契合,即网民热衷于在社交媒体平台对该综艺选手进行讨论。这在一定程度上证明了综艺节目选角的重要性,人员选择是综艺节目能否吸引受众的主要因素,为今后此类型综艺节目的策划和发展提供方向,找到改进和提升的主要方向。
结合主题词与原微博本文内容进行主题概况,将主题二描述为“女性价值”。主题二出现“主题曲”“李宇春”“无价之姐”等核心关键词,这与该综艺主题曲《无价之姐》的全网破圈相关。首先,《无价之姐》的演唱者李宇春本人就是洒脱、自信、独立的新时代女性的代表,由她来演唱主题曲容易获得受众的认同,更具有感染力。符合该综艺强调“女性独立”的整体立意;其次,《无价之姐》的歌词准确地把握了当下女性受众的情绪,例如,“my poems、my dreams are priceless”“狂我的狂妄,荒我的荒唐”等歌词都站在女性的角度向世界传递着渺小的个体也可以追逐梦想的态度,我们就是自己的“无价之姐”,歌曲传递的新时代女性价值观引发受众共情。
此外,主题二的核心主题词“三十”“归位”“乘风破浪”“梦想”等更是直击受众内心。在选秀年轻化趋势加强的综艺节目中,《乘风破浪的姐姐》一改故辙,选择30位“30+”的明星姐姐作为女团成长类综艺节目的核心主角,定调“三十而励、三十而立、三十而骊”,反击传统的“30+”女性年华不在的刻板印象,向受众传递女性独立的价值理念,彰显女性价值,感召女性打破年龄藩篱,勇敢追逐梦想。正如该综艺的宣传片中所说:“一切过往,皆为序章。直挂云帆,乘风破浪。”
结合主题词将主题三描述为“投票打榜”。主题三的核心关键词包括“奥利奥”“星光榜”“星光卡”“星光值”,这与节目方制定的成团赛制相关,受众进入#乘风破浪的姐姐#话题页,为自家爱豆或支持的姐姐注入星光值,助力偶像登顶奥利奥星光榜,成团闪耀。
但是主题三在总文本数据中占比0.03847537,所占比重较小的原因在于:其一,与以往需要粉丝投入大量资金,为其喜爱的选手投票打榜助其出道的选秀节目不同,该综艺将成团的决定权更多的交由节目现场的500朵“浪花”,即大众评委;其二,相较于其他选秀节目的粉丝关注其爱豆能否出道,进而具有更多的曝光资源,该综艺的粉丝对其偶像能否成团出道的关心程度相对较低,这是因为选手们本身就具有一定的粉丝基础,且在各自的领域具有一定的知名度,相较于成团,粉丝们更为关注偶像的成长。
作为一款火爆全网的综艺节目,《乘风破浪的姐姐》突破了以往的成团养成类节目同质化的桎梏,其在社交媒体上的呈现对今后原创性综艺节目的发展具有重要的参考价值。本研究通过数据挖掘技术对2020年6月6日——9月4日的微博文本提取高频词做词频分析,同时利用LDA主题模型选出最优主题数并进行主题分类,得出各主题所占据的比例,以期提炼出网民对该综艺的关注热点。
分析发现,网民对于《乘风破浪的姐姐》的关注主要集中在对话题人物、女性价值及投票打榜三个方面,且三个主题在总文本数据中的占比分别为73%、23%及4.0%,即该节目获得的高关注度主要来自于其选角的成功、节目宣扬的正能量理念及节目赛制带来的流量。从主题占比上看,网民对于与节目选手相关的讨论最为热烈,而由于该节目的选手及受众都更为关注选手自身在节目中的成长,进而导致受众对于比赛结果、投票打榜方面的关注低于其他类主题。在当下成团类综艺节目被饭圈流量挟持的环境下,《乘风破浪的姐姐》另辟蹊径,节目组没有按照女团选秀的程序进行操作,而是弱化了竞争赛制,虽然仍具有评分、投票及打榜等环节,但充分给予了各位“姐姐”彰显个人风格和魅力的机会。该节目无疑是一档较为成功的开创性节目,其传达的价值理念引发了受众的共鸣,激励受众乘风破浪,勇往直前。